Автор Гілка: utf-8, чи є сенс?  (Прочитано 6557 раз)

Відсутній SGh

  • Графоман
  • ****
  • дописів: 258
  • Карма: +0/-0
  • Heavy Metal, Rock & Punk!!!
utf-8, чи є сенс?
« : 2004-07-14 15:07:24 »
Всім привіт!

Порадьте, чи є сенс переходити на UTF-8 з koi8-u? Мене чому це питання зацікавило, так це тому що ЖТКшні бібліотеки (чи програми під ці бібліотеки) якось погано ставляться до коі8... наприклад в Мандрейку 10.0 поставив собі середу розробки Glade-2, хотів там якийсь проект спробувати створити, тисну "Зберегти", а воно каже "Нема такого файлу", я тоді дивлюсь, а воно в консоль кидає повідомлення, щось на зразок "Помилка конвертацїї ЮТФ-8 до коі8у, невірна послідовність символів", шось таке, тільки англійською, я знаю таке у мене раніше в ГНОМі було, але тільки при використанні кирилічних імен файлів, так справа в тому що в шляху до файлу і в його імені немає кирилічних сиволів... Та і в xfce 4.0.5, що я ним користуюся теж подібні проблеми бувають, але тільки з кирилицею...

Так от я і подумав, мо на Юникод перемкнутися? Раніше я пробував вмикати локаль uk_UA:UTF-8, (здається так), але mc шось це дуже не сподобалось і я вимкнувся назад до КОІ8, а тепер тута випадково надибав латки до мс, що його з юнікодом дружать, так тепер думаю варто воно перемикатися чи ні, чи є ще якісь граблі?

Наперед вдячний!

Відсутній Володимир Лісівка

  • Адміністратор ЩОДО
  • Видавець
  • *****
  • дописів: 3857
  • Карма: +13/-0
  • Програміст
Re: utf-8, чи є сенс?
« Відповідей #1 : 2004-07-14 18:32:10 »
mc-і локаль uk_UA.UTF-8 й далі не подобається - редагувати файли вбудованим редактором неможливо, можливі приколи з кириличними назвами файлів у різних діалогах.
[Fedora Linux]

Відсутній Володимир Лісівка

  • Адміністратор ЩОДО
  • Видавець
  • *****
  • дописів: 3857
  • Карма: +13/-0
  • Програміст
Re: utf-8, чи є сенс?
« Відповідей #2 : 2004-07-14 18:35:50 »
Гному частково може допомогти змінна G_BROKEN_FILENAMES=1 - гномовські проги часом роблять  if (getenv ("G_BROKEN_FILENAMES")) return g_locale_to_utf8(...);

Але, взагалі-то, треба писати про таке в Багзілу.
[Fedora Linux]

dusoft

  • Гість
Re: utf-8, чи є сенс?
« Відповідей #3 : 2004-07-15 02:49:50 »
Я думаю сенс є.. Ніхто ж не сумнівається, що саме за utf-8 мабутнє?

Відсутній Дмитро Ковальов

  • Кореспондент
  • ***
  • дописів: 236
  • Карма: +0/-0
Re: utf-8, чи є сенс?
« Відповідей #4 : 2004-07-15 04:06:34 »
Безумовно, переходити потрібно. Дебіан sarge практично без втручання вже працює українською з UTF-8 зразу після установки (ну, може й не зовсім зразу, але працює). mc і гномом я не користуюсь, тому для мене їх  зіпсованість не проблема. Але юнікод дає дуже багато переваг. Українською по суті коректно можна користуватись тільки в юнікоді - нормальні лапки, тире, дефіси, тощо. В коі цього просто немає.

Щодо майбутнього ... Хто його знає? Японці й китайці (особливо китайці) дуже незадоволені юнікодом. Вже є кілька альтернативних стандартів, які обходять проблеми, які існують в юнікоді.

Відсутній Yaroslav Fedevych

  • Літератор
  • ******
  • дописів: 1069
  • Карма: +0/-0
  • Людина — ніщо, справа — все
Re: utf-8, чи є сенс?
« Відповідей #5 : 2004-07-15 11:57:19 »
А з цього моменту попрошу подробиці. Які проблеми є в останній версії стандарту?

Відсутній SGh

  • Графоман
  • ****
  • дописів: 258
  • Карма: +0/-0
  • Heavy Metal, Rock & Punk!!!
Re: utf-8, чи є сенс?
« Відповідей #6 : 2004-07-15 13:56:56 »
Дмитре, скажи, а чим ти користуєшся замість mc?

Відсутній Євгеній Мещеряков

  • Дописувач
  • **
  • дописів: 65
  • Карма: +0/-0
Re: utf-8, чи є сенс?
« Відповідей #7 : 2004-07-15 15:08:27 »
Дебіан sarge практично без втручання вже працює українською з UTF-8 зразу після установки (ну, може й не зовсім зразу, але працює).

Ну якщо не враховувати dselect та aptitude...

Відсутній Дмитро Ковальов

  • Кореспондент
  • ***
  • дописів: 236
  • Карма: +0/-0
Re: utf-8, чи є сенс?
« Відповідей #8 : 2004-07-15 15:39:06 »
Дмитре, скажи, а чим ти користуєшся замість mc?
bash або tcsh (автодоповнення в останньому працюють як на мене краще, ніж в баші)

Відсутній Дмитро Ковальов

  • Кореспондент
  • ***
  • дописів: 236
  • Карма: +0/-0
Re: utf-8, чи є сенс?
« Відповідей #9 : 2004-07-15 15:40:40 »

Ну якщо не враховувати dselect та aptitude...
А у цих двох останніх що вже є укр. локалізація? Чесно кажучи я ними користувався англійською мовою і в мене питання про їх UTFзацію не поставало.

Відсутній Дмитро Ковальов

  • Кореспондент
  • ***
  • дописів: 236
  • Карма: +0/-0
Re: utf-8, чи є сенс?
« Відповідей #10 : 2004-07-15 15:56:27 »
Які проблеми є в останній версії стандарту?
Проблема не з версіями стандарту Юнікоду, а взагалі з юнікодом як таким. Десь колись читав, що ще при самому початку розробки стандарту Юнікод японців з китайцями просто зігнорували. Знайшлися розумніші англомовні, які вирішили, що вони краще розберуться з китайськими ієрогліфами (як вони звуться у нас --  весь світ їх зве канджі).

Проблема в тому, що під китайську і японську виведений один і той же діапазон. І всі символи уніфіковані. Є деякі канджі, які в японській пишуться не так, як в китайській. _дуже_ не так. Це означає, що по самим кодам тексту не можна однозначно графічно його відобразити. Для того, щоб його скажімо надрукувати на листку паперу, потрібно знати якою мовою це написано. Що на думку багатьох японців просто протирічить ідеї розробки Юнікоду. Офіційна порада unicode.org така: "To prevent legibility problems for Japanese readers, it is advisable to use a Japanese-style font when presenting Unihan text to Japanese readers."

На жаль, вони продовжують настоювати на своєму підході:
http://www.unicode.org/faq/han_cjk.html
Q: If the character shapes are different in different parts of East Asia, why were the characters unified?

І це може врешті-решт привести до того, що з'являться ще 3 чи 5 "юнікодо-подібних" і _єдиний_ стандарт припинить своє існування як такий.

Відсутній anarki

  • Новачок
  • *
  • дописів: 0
  • Карма: +0/-0
  • дайте спокій
Re: utf-8, чи є сенс?
« Відповідей #11 : 2004-07-15 17:17:24 »

Порадьте, чи є сенс переходити на UTF-8 з koi8-u? Мене чому це питання зацікавило, так це тому що ЖТКшні бібліотеки (чи програми під ці бібліотеки) якось погано ставляться до коі8...

По-перше, якщо програма написана нормально (тобто використовує так звану LOCALE technology), то їй взагалі має бути без різниці чи то utf, чи то koi, чи щось інше.. Вона просто працює. Тобто, по великому рахунку, саме для тебе то немає великого значення, яка в тебе локаль.

Якщо вже програма написана ненормально, то вона може погано працювати або з кої, або з ютф, або з двома одночасно :) Мені не подобається тільки один такий єкземпляр - mc. З ютф-8 він не працює :(

По-друге, змінити локаль - це не на вінду переїхати.. Справа двох хвилин. Візьми та спробуй. Не сподобається - повернешся.

Відсутній Євгеній Мещеряков

  • Дописувач
  • **
  • дописів: 65
  • Карма: +0/-0
Re: utf-8, чи є сенс?
« Відповідей #12 : 2004-07-15 17:29:01 »
А у цих двох останніх що вже є укр. локалізація? Чесно кажучи я ними користувався англійською мовою і в мене питання про їх UTFзацію не поставало.

Була в мене думка зробити українську локалізацію, але передумав, коли побачив, що з цього вийде в UTF-8.

Відсутній Володимир Лісівка

  • Адміністратор ЩОДО
  • Видавець
  • *****
  • дописів: 3857
  • Карма: +13/-0
  • Програміст
Re: utf-8, чи є сенс?
« Відповідей #13 : 2004-07-15 17:36:09 »
bash або tcsh (автодоповнення в останньому працюють як на мене краще, ніж в баші)
Для bash-а є спеціальний пакет (bash programmable completition), який додає нормальне автодоповнення для більшості популярних програм - дуже зручно. Можна також і самому подописувати.

http://www.caliban.org/bash/index.shtml#completion
[Fedora Linux]

dusoft

  • Гість
Re: utf-8, чи є сенс?
« Відповідей #14 : 2004-07-16 01:18:45 »
"Проблема в тому, що під китайську і японську виведений один і той же діапазон. І всі символи уніфіковані" - невже не вистачає місця щоб роз'єднати ці символи у різні діапазони... ? хм.. невже то так технічно важко, чи просто вони принципово не хотять(розрозбники утф стандарту)..?

Це дійсно погано, це ніби політика подвійних стандартів.. :) :|