Автор Гілка: зміни на dict.linux.org.ua  (Прочитано 125584 раз)

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3628
  • Карма: +2/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: зміни на dict.linux.org.ua
« Відповідей #75 : 2007-11-13 21:31:45 »
Виклав, вибачте за сервер... :-[http://depositfiles.com/files/2357858
Приймаються конструктивні пропозиції щодо альтернативних місць.
Denounce the demagogues
King diamonds to discard
Deploy the dialogue
Your word against the law

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: зміни на dict.linux.org.ua
« Відповідей #76 : 2007-11-15 19:48:22 »
можу запропонувати dict.linux.org.ua
особливо, якщо процес створення словника stardict можна автоматизувати, в мене там зараз щотижня текстова версія оновлюється в кроні
Fedora 35 (x86-64)

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3628
  • Карма: +2/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: зміни на dict.linux.org.ua
« Відповідей #77 : 2007-11-18 18:00:08 »
У вкладеному архіві можна знайти сценарій для збирання словника у форматі StarDict 2.4.2 (прийнятний для всіх сучасних версій). Для збирання необхідна бінарна програма, вихідні коди видрані мною з StarDict tools. Збирається командою 'make' (зібраний бінарник підходить для Mandriva 2008.0). Необхідні компонети: glib-2.0-devel.
Пакет збирається командою './createsd текстовий_файл_словника'. Необхідні dictd-utils (dictzip) та архіватори tar та bzip2.

Off-topic:
Пане Лісівко, не бийте боляче по голові за якість коду сценарія. Я більше не буду!
Denounce the demagogues
King diamonds to discard
Deploy the dialogue
Your word against the law

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: зміни на dict.linux.org.ua
« Відповідей #78 : 2007-11-19 02:30:07 »
так і не зміг звантажити результат, бо щось не так натиснув і потім сервер з мене постійно хотів грошей :)

але все ж таки там де потрібне просте маніпулювання текстом, я надаю перевагу скриптам та інтерпретованим мовам...
ось тут вкрав зі stardict-tools готовий питонівський скрипт і поміняв пару рядків

викликаю його скриптом:
#!/bin/sh
FILE=`ls dict????????_utf8.txt`
DICT="dict.linux.org.ua"

export LC_CTYPE=uk_UA.UTF-8
export LC_COLLATE=uk_UA.UTF-8
[ -d $DICT ] || mkdir $DICT
grep -vE "^#|^$" < $FILE | sed -r "s/\t*=\t*/\t/g" | python dictlin2dict.py $DICT
tar cvfz dictlin-stardict-`date +%Y%M%d`.tgz $DICT

поки що виклав на сайті тимчасову версію для stardict, але є декілька проблем:
* не шукаються слова з великих літер (треба бавитись з колатором, або, чого не хочеться, все переводити в нижній регістр)
* не шукаються окремі слова (тобто без шаблонів шукається лише перше слово)
* через перші дві не шукаються альтернативи та скорочення (типу "AC")
* чомусь не показує джерела та стан
* здається, щоб зробити гіперпосилання по див. треба інший формат словника...

я спробую, як буде час, вдосконалити скрипт і зробити автоматичне оновлення stardict, але якщо хтось допоможе буду вдячний

P.S. трішки ще почистив словник: прибрав пару дублікатів, вилучив "сітьовий" тощо...
Fedora 35 (x86-64)

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3628
  • Карма: +2/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: зміни на dict.linux.org.ua
« Відповідей #79 : 2007-11-19 07:31:56 »
Цитата
поки що виклав на сайті тимчасову версію для stardict, але є декілька проблем:
* не шукаються слова з великих літер (треба бавитись з колатором, або, чого не хочеться, все переводити в нижній регістр)
* не шукаються окремі слова (тобто без шаблонів шукається лише перше слово)
* через перші дві не шукаються альтернативи та скорочення (типу "AC")
* чомусь не показує джерела та стан
* здається, щоб зробити гіперпосилання по див. треба інший формат словника...

я спробую, як буде час, вдосконалити скрипт і зробити автоматичне оновлення stardict, але якщо хтось допоможе буду вдячний
На щастя мій варіант позбавлений згаданих Вами недоліків (спеціально перевірив). Правда гіперпосилання поки не допиляно, трохи згодом... Може спробуєте його? Питання з гіперпосиланнями легко знімається за допомогою прибирання однієї команди з cpp (dictzip) і відповідно sed (з заміною див. на теґ kref). Скажіть, якщо це потрібно, я зроблю сам. Якщо хочете все зробити самому, то теж повідомте, будь ласка, бо мене, в принципі задовольняє і те що є, я це використовую в основному як спливаючу підказку на виділеному слові (зручно, щоб не копирсатися у самому словнику).
Був би вдячний за коментарі...
« Змінено: 2007-11-19 08:20:06 від yurchor »
Denounce the demagogues
King diamonds to discard
Deploy the dialogue
Your word against the law

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: зміни на dict.linux.org.ua
« Відповідей #80 : 2007-11-19 16:15:59 »
На щастя мій варіант позбавлений згаданих Вами недоліків (спеціально перевірив).
тільки що нарешті стягнув Ваш варіант, але у Вашому словнику ті самі проблеми: в 2.4.8 не шукаються великі літери (в 3.0 з цим немає проблем в обидвох словниках), я пробував в 2.4.8 поставити колатор в unicode_utf8 але падає stardict...
але решта - це, я так розумію, так задумано, тобто типово stardict шукає лише з початку слова, тобто на "current" видасть лише сполуки, що починаються з "current", а щоб знайти "alternating current (AC)" треба набирати *current*, але скажімо *AC* навіть цього не дає (лише DAC), схоже, що зірка не любить дужки...
не знаю, чи є легкий спосіб це обійти, ще буду шукати...
якщо у Вас це працює по-інакшому, дайте, будь ласка, знати

P.S. проблема з Вашим підходом, що на сервері dict.linux.org.ua немає gcc, тобто правильно зібрати прогу буде дуже важко...
Fedora 35 (x86-64)

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3628
  • Карма: +2/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: зміни на dict.linux.org.ua
« Відповідей #81 : 2007-11-19 16:53:59 »
Цитата
тільки що нарешті стягнув Ваш варіант, але у Вашому словнику ті самі проблеми: в 2.4.8 не шукаються великі літери (в 3.0 з цим немає проблем в обидвох словниках), я пробував в 2.4.8 поставити колатор в unicode_utf8 але падає stardict...
У мене 3.0... Мабуть доведеться відмовитися від legacy?
Цитата
але решта - це, я так розумію, так задумано, тобто типово stardict шукає лише з початку слова, тобто на "current" видасть лише сполуки, що починаються з "current", а щоб знайти "alternating current (AC)" треба набирати *current*, але скажімо *AC* навіть цього не дає (лише DAC), схоже, що зірка не любить дужки...
не знаю, чи є легкий спосіб це обійти, ще буду шукати...
якщо у Вас це працює по-інакшому, дайте, будь ласка, знати
Те саме... Але це, я так зрозумів, вада всіх не sed-based словників ;)
Цитата
P.S. проблема з Вашим підходом, що на сервері dict.linux.org.ua немає gcc, тобто правильно зібрати прогу буде дуже важко...
Вибачте, я не знав, буду пробувати щось інше. В принципі код не складний, спробую переписати на bash. Чи там і bash немає?
Denounce the demagogues
King diamonds to discard
Deploy the dialogue
Your word against the law

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: зміни на dict.linux.org.ua
« Відповідей #82 : 2007-11-19 17:27:18 »
У мене 3.0... Мабуть доведеться відмовитися від legacy?
як буде час, я ще гляну, але якщо це забагато мороки, то прийдеться відмовитися

Цитата
P.S. проблема з Вашим підходом, що на сервері dict.linux.org.ua немає gcc, тобто правильно зібрати прогу буде дуже важко...
Вибачте, я не знав, буду пробувати щось інше. В принципі код не складний, спробую переписати на bash. Чи там і bash немає?
bash там є, але генерувати двійкові файли ним не дуже приємно, зрештою, є (майже) готове рішення на пітоні, і пітон там є - перевірив, мені здається, є сенс його і використати, щоб не винаходити велосипед :)
пропоную сконцентрувати зусилля на цьому (майже) готовому варіанті

P.S. до речі у Вашому рішенні кожна пара перекладу іде окремим словом, тоді як в декількох основних словниках, що я переглянув, на слово відводиться одна позиція і їй відповідає набір перекладів, не знаю, наскільки це правильнішій підхід, але індексний файл виходить добряче менший та й файл словника трішки зменшується
Fedora 35 (x86-64)

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3628
  • Карма: +2/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: зміни на dict.linux.org.ua
« Відповідей #83 : 2007-11-19 17:45:19 »
Я жахливо знаю пайтон (радше зовсім не знаю) :'(
/me пішов вчити пайтон...
Denounce the demagogues
King diamonds to discard
Deploy the dialogue
Your word against the law

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: зміни на dict.linux.org.ua
« Відповідей #84 : 2007-11-19 20:47:52 »
Я жахливо знаю пайтон (радше зовсім не знаю) :'(
/me пішов вчити пайтон...
скажу по секрету: я бачив код пітона один раз в житті років 6 тому, так що я тут не в багато кращому стані
але ж там коду з коментарями 90 рядків, а без них всього 60
та й той же пітон - такий собі спотворений С++ з (якогось біса) відступами для групування коду
власне я глянув на код існуючої тулзи, знайшов дві функції в гуглі і дописав пару рядків

P.S. якщо знаєте С++ то після цього всіляки Java, Python, Ruby не мусять вас лякати - це як українську писану транслітом читати :)
Fedora 35 (x86-64)

Відсутній Cthulhu

  • Кореспондент
  • ***
  • дописів: 183
  • Карма: +0/-0
Re: зміни на dict.linux.org.ua
« Відповідей #85 : 2007-11-19 22:54:32 »
та й той же пітон - такий собі спотворений С++ з (якогось біса) відступами для групування коду
якщо знаєте С++ то після цього всіляки Java, Python, Ruby не мусять вас лякати - це як українську писану транслітом читати :)
Явна провокація флейму=)

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: зміни на dict.linux.org.ua
« Відповідей #86 : 2007-11-19 23:41:24 »
Явна провокація флейму=)

Off-topic:
лише для тих, хто мови сприймає заблизько до серця, це як сперечатися, що краще лямпочка на 13Вт чи на 17 :)
я на них дивлюся, як на засоби праці, а не улюблені іграшки, як приклад, пишу на всіх наведених мовах, окрім пітона, але як бачите взяв тулзу на ньому і хачу... а бурчати тому хто робить (на відміну від чистих флеймерів), думаю не забороняється ;) ще й он людину примусив читати цю мову, так що це вже не провокація флейму, а чортічо :)

щоправда відступ, як спосіб гуртування коду в мене викликає мурашки асемблеру БЕСМ, тому я таку ідею не дуже сприймаю

щодо другого, то вміст був "С++ найскладніша мова з наведених", а не "найкраща", тобто не думаю, що хтось буде сперечатися, що знаючи С++ (на чому написана утиліта пана yurchor) прочитати код в 60 рядків на Python, майже половина з яких є виклики open, close та write на файлах не буде великою проблемою...

P.S. чесно кажучи не думав, що в цю гілку хтось ще крім нас з yurchor ще заглядає ;)
Fedora 35 (x86-64)

Відсутній Михайло Даниленко

  • Адміністратор ЩОДО
  • Літератор
  • *****
  • дописів: 1262
  • Карма: +0/-0
  • [Debian Stretch]
Re: зміни на dict.linux.org.ua
« Відповідей #87 : 2007-11-19 23:54:52 »
Off-topic:
P.S. чесно кажучи не думав, що в цю гілку хтось ще крім нас з yurchor ще заглядає ;)
Примітки пана yurchor'а з циклу "за абеткою" вельми піймають настрій :)
« Змінено: 2007-11-19 23:55:18 від ISBear »

Відсутній Cthulhu

  • Кореспондент
  • ***
  • дописів: 183
  • Карма: +0/-0
Re: зміни на dict.linux.org.ua
« Відповідей #88 : 2007-11-20 00:38:15 »
Off-topic:
Та зрозуміло - на кожну задачу свій інструмент, головне правильно їх вибрати. Просто мене останнім часом від цепеплюс підтошнює=( Так що не зважайте, я просто ходів гидоти понаписувати, але стримався ;)

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: зміни на dict.linux.org.ua
« Відповідей #89 : 2007-11-24 06:11:12 »
> despeckle      =      згладжування ділянок зображення з видимим шумом      (P)

< file locking      =      зайняття (захоплення) файлу      [4]
< file locking      =      замикання файлу      [4]
< file locking      =      захоплювання файлу      [4]
---
> file locking      =      блокування файлу

> multiresolution      =      змінна роздільна здатність      (P)

> access violation      =      порушення прав доступу      (P)

> alkaline      =      лужний      (P)

> bitonal      =      двотональний      (P)

> combustion air      =      повітря для горіння      (P)

< corporate database      =      база даних фірми      [4]
---
> corporate database      =      корпоративна база даних

> file transfer protocol      =      протокол FTP      (P)
> file transfer protocol      =      протокол перенесення файлів      (P)
> FTP      =      див. file transfer protocol

> hover      =      наводити мишкою      (P)

> polarize      =      поляризувати      (P)
> polarize      =      поляризуватися      (P)

< power control      =      вмикання - вимикання живлення      [4]
---
> power control      =      керування живленням      (P)

> underpressure      =      вакуумметричний тиск      (P)
> underpressure      =      знижений тиск      (P)
> underpressure      =      розрідження      (P)

> Universal Serial Bus      =      універсальна послідовна шина      (P)
> Universal Serial Bus      =      шина USB      (P)
> USB      =      див. Universal Serial Bus

...а також купа дрібних виправлень

P.S. словник для stardict тепер щотижня оновлюється автоматично (разом з текстовою версією) при наявності змін
Fedora 35 (x86-64)