Автор Гілка: Нові словники укр-рос-укр  (Прочитано 7236 раз)

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Re: Нові словники укр-рос-укр
« Відповідей #15 : 2009-05-29 03:58:27 »
Я так розумію, що ліцензія словника не дозволяє злити дані в орфографічний словник?

http://code.google.com/p/spell-uk/wiki/aspell_uk
Цитата
Словники перевірки орфографії spell-uk розповсюджуються на умовах ліцензій GPL, LGPL або MPL 1.1.
я так розумію словник від Nick має GPL2+, тобто не є принциповою проблемою
от лише «заливати» в орфографічний з сумнівних джерел я б не став...

Edit:
окрім того, я намагаюся не додавати рідкі, розмовні, діалектичні  слова та архаїзми тощо, і якщо джерело навіть з ulif, якому можна довіряти, але не має цих позначок, то зберегти «чистоту» правописного словника буде важкувато

Володимире, а вас не влаштовує розмір чи якість spell-uk ? Якщо так то хотілось би почути якісь думки з цього приводу.
« Змінено: 2009-05-29 06:58:27 від DalekiyObriy »
Fedora 35 (x86-64)

Відсутній Володимир Лісівка

  • Адміністратор ЩОДО
  • Видавець
  • *****
  • дописів: 3822
  • Карма: +11/-0
  • Програміст
Re: Нові словники укр-рос-укр
« Відповідей #16 : 2009-05-29 11:43:39 »
Цитата
Володимире, а вас не влаштовує розмір чи якість spell-uk ? Якщо так то хотілось би почути якісь думки з цього приводу.
Ми це вже обговорювали кілька років тому...
[Fedora Linux]

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Re: Нові словники укр-рос-укр
« Відповідей #17 : 2009-05-29 15:53:31 »
Цитата
Володимире, а вас не влаштовує розмір чи якість spell-uk ? Якщо так то хотілось би почути якісь думки з цього приводу.
Ми це вже обговорювали кілька років тому...
ви мене вбиваєте, я й більш важливі речі за два роки забуваю, :) а пошук по spell-uk останній допис дав січ 2008
окрім того словник по-трішки розвивається, хіба що не в потрібному напрямку? може нагадаєте в двох словах?
Fedora 35 (x86-64)

Відсутній shaforostoff

  • Новачок
  • *
  • дописів: 14
  • Карма: +0/-0
  • kde
Re: Нові словники укр-рос-укр
« Відповідей #18 : 2009-05-29 19:46:23 »
майже по темі: якщо в когось є бажання, можна написати стемер для української:
http://snowball.tartarus.org/ (для російської вже є)
це навіть можна оформити як дипломну бакалаврську або магістерську якщо ви навчаєтесь на комп'ютерному або лінгвістичному напрямку (в ідеалі - комп'ютерна лінгвістика).

в наступній версії Lokalize я буду інтегрувати snowball stemmer. та стемер від hunspell (він має працювати повільніше бо спирається не на закономірнысть, як snowball, а на базу даних).

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3640
  • Карма: +3/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: Нові словники укр-рос-укр
« Відповідей #19 : 2009-05-29 19:55:24 »
майже по темі: якщо в когось є бажання, можна написати стемер для української:
http://snowball.tartarus.org/ (для російської вже є)
це навіть можна оформити як дипломну бакалаврську або магістерську, якщо ви навчаєтесь на комп'ютерному або лінгвістичному напрямку (в ідеалі - комп'ютерна лінгвістика).

в наступній версії Lokalize я буду інтегрувати snowball stemmer. та стемер від hunspell (він має працювати повільніше бо спирається не на закономірність, як snowball, а на базу даних).
Тобто ваш словник, з якого починалася тема, ви виправляти не будете? Це так треба розуміти?  ;)
Try to reach you before winter comes
Always a place for you in my heart
You're not alone
All used up
I'd give anything to talk to you

Відсутній shaforostoff

  • Новачок
  • *
  • дописів: 14
  • Карма: +0/-0
  • kde
Re: Нові словники укр-рос-укр
« Відповідей #20 : 2009-05-29 20:10:48 »
OFFTOPIC
Юрій, Ви мені (і не тільки, судячи з floss-in-ua) задаєте питання в такому ж ключі, як я задавав питання своєму «викладачеві», яка не приймала в мене залік з англійської мови (навіть до замдекана мене водила). В такому тоні має сенс писати корпораціям тощо, бо вони інакше не зреагують. Схаменіться, будь-ласка.
/OFFTOPIC
« Змінено: 2009-05-29 20:12:29 від shaforostoff »

Відсутній Володимир Лісівка

  • Адміністратор ЩОДО
  • Видавець
  • *****
  • дописів: 3822
  • Карма: +11/-0
  • Програміст
Re: Нові словники укр-рос-укр
« Відповідей #21 : 2009-05-29 23:33:16 »
Я так розумію, стемер - це програма, яка виділяє корінь слова (морфологічний аналізатор).

http://www.victoria.lviv.ua/html/oio-l/6.html

Там якийсь Андрій Коваленко пропонує скористатися готовими наробками (7 років тому).
[Fedora Linux]

Відсутній Володимир Лісівка

  • Адміністратор ЩОДО
  • Видавець
  • *****
  • дописів: 3822
  • Карма: +11/-0
  • Програміст
Re: Нові словники укр-рос-укр
« Відповідей #22 : 2009-05-29 23:37:49 »
ви мене вбиваєте, я й більш важливі речі за два роки забуваю, :) а пошук по spell-uk останній допис дав січ 2008
окрім того словник по-трішки розвивається, хіба що не в потрібному напрямку? може нагадаєте в двох словах?

Валентин Соломко і я зробили автоматично згенерований aspell-uk, Дмитро Ковальов потім прийшов і все спаплюжив. Пам’ятаєте? Тоді була ідея злити слова з aspell-uk в spell-uk,  і т.д. , так як тодішній aspell-uk був значно повніший, хоча і значно нижчої якості (не знаю, наскільки покращився spell-uk зараз).

То вже давненько було, не хочу піднімати ту тему знову.
[Fedora Linux]

Відсутній shaforostoff

  • Новачок
  • *
  • дописів: 14
  • Карма: +0/-0
  • kde
Re: Нові словники укр-рос-укр
« Відповідей #23 : 2009-05-29 23:47:45 »
Я так розумію, стемер - це програма, яка виділяє корінь слова (морфологічний аналізатор).

http://www.victoria.lviv.ua/html/oio-l/6.html

Там якийсь Андрій Коваленко пропонує скористатися готовими наробками (7 років тому).
404

Відсутній Володимир Лісівка

  • Адміністратор ЩОДО
  • Видавець
  • *****
  • дописів: 3822
  • Карма: +11/-0
  • Програміст
Re: Нові словники укр-рос-укр
« Відповідей #24 : 2009-05-30 00:09:58 »
Тут його домашня сторінка: http://www.keva.ru/
Тут стаття: http://www.keva.ru/stemka/stemka.html
Тут архів з кодом: http://www.keva.ru/stemka/stemka.tar.gz
« Змінено: 2009-05-30 00:17:26 від lvm »
[Fedora Linux]

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Re: Нові словники укр-рос-укр
« Відповідей #25 : 2009-05-30 17:18:57 »
Валентин Соломко і я зробили автоматично згенерований aspell-uk, Дмитро Ковальов потім прийшов і все спаплюжив. Пам’ятаєте? Тоді була ідея злити слова з aspell-uk в spell-uk,  і т.д. , так як тодішній aspell-uk був значно повніший, хоча і значно нижчої якості (не знаю, наскільки покращився spell-uk зараз).
наскільки я пам’ятаю, головне питання Дмитра було ліцензійна чистота, але точно подробиць вже не згадаю, але це навіть не важливо

я не стомлююся повторювати, для мене головна мета словника — знаходити помилки, а не мати велику цифру кількості слів, тому заливати список слів низької якості не бачу сенсу, тобто якщо він буде мати на 10тис більше слів але пропустить зайвих 10 помилок в тексті, то мене, наприклад, таке б геть не влаштувало

критерії додавання в словник досить суворі, туди не попадають багато рідких, діалектичних слів, кальки, активні дієприкметники тощо; це дозволяє звернути увагу на небажані слова в тексті, було б чудово, якщо б можна було позначати слова, як просто небажані і мати можливість їх ігнорувати або ні (або підкреслювати жовтим, а не червоним), але на жаль такої можливості поки немає, наприклад я хотів звернути увагу на зловживання такими словами, як «видалити», які теоретично в українській мові є але вживання їх дуже вузьке, тому в словнику їх зараз немає, або «нападаючий», які є в інших словниках, але українською мало б бути «нападник»

якщо когось не влаштовує, що якісь слова, що присутні в інших словниках, підкреслює, можна додати їх в персональний словник і по всьому
бо ДУЖЕ просто додати в словник слово, якого там немає але часто зустрічається в текстах, і ДУЖЕ складно вилучати зі словника слова, яких не має там бути,  оскільки будь яка перевірка тексту показує слова відсутні, але без спец-обробки сирців словника майже неможливо знайти в ньому помилкові

окрім того spell-uk має високу степінь нормалізації — там практично всі слова у нормальній формі, а похідні генеруються правилами, тому заливати просто випадковий набір словоформ руйнує досить гарну структуру spell-uk і ускладнює супровід і потенційне використання словника в інших проектах, наприклад перевірки граматики

плюс і на момент конфлікту з Дмитром словник налічував десь 60тис слів, зараз це вже 100тис, але без втрати якості (і суворості), навпаки, якість поточного spell-uk набагато вища ніж тоді

тому, мені й цікаво почути, чому виникає потреба зливати щось в spell-uk, тобто якщо є тексти де spell-uk взагалі не може впоратися, підкреслює ліворуч і праворуч, а текст таки український, то можна таке розглянути окремо, скоріш за все це буде текст досить вузької спеціалізації, і можливо тут найкраще буде знайти і залити термінологічний словник з цієї галузі, але залиття загальних словників вже користі буде мати менше ніж шкоди
Fedora 35 (x86-64)