Автор Гілка: Перевірка граматики для української в LanguageTool  (Прочитано 15852 раз)

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Хочу поділитися гарною новиною: нарешті вдалося допиляти підтримку української в двигуні перевірки граматики LanguageTool (http://languagetool.org/)
Поки що це лише основа: є словник частин мови на ~1млн словоформ, хоч і ще не зовсім дороблений, є базовий код на Java для підтримки української мови, і є пару десятків простих правил граматики: трішки пунктуації, трішки милозвучності (із-з, у-в), трішки кальок: «приймати участь» тощо, трішки узгодження: не дозволено мати прийменник перед дієсловом тощо. Також на деякі кальки (напр. активні дієприкметники) даються альтернативні варіанти.

Також додано найпростіші для реалізації правила з сайтів з мовними рекомендаціями (http://mova.kreschatic.kiev.ua, книжці Курило тощо).

Зі мною раніше контактувало декілька людей, зацікавлених в роботі над цим проектом, але без словника частин мови мало що можна було зробити, тепер база є і можна залучати більше людей. Цей двигун може працювати в LibreOffice/OpenOffice (є додаток), також є додаток для Firefox, і він може працювати окремою програмою або на веб-сторінці.

Щоб зацікавити ширше коло людей я виставив поточну версію на сайті http://r2u.org.ua/check, тож кожен може перевірити свій текст і помацати двигун. Зауважте: такий прорив у підтримці української зроблено після випуску останньої версії, тож в офіційному випуску нормальна перевірка української буде в наступній версії 2.2, наразі найкращим варіантом помацати є http://r2u.org.ua/check. Але якщо буде зацікавленість можна зробити нічну збірку додатку для Firefox та LibreOffice/OpenOffice.

Я проганяв двигун на текстах ДТ і він дещо показує (особливо на ранніх статтях з 2000-х років), також виловлює деякі речі в статтях з тієї ж вікіпедії.

Прохання до всіх згодувати йому 5-10 сторінок тексту і написати мені про свої враження. Зокрема:
* неправильні спрацьовування (фальшиві помилки)
* які правила конче треба додати (деякі правила реалізувати простіше ніж інші, напр. сталі сполуки найпростіше, щось де треба вважати на рід/відмінок трішки складніше, семантичні відмінності уловлювати взагалі поки не візьмусь — може колись потім)
* мовні помилки в повідомленнях
* інші зауваги

Зазначу наперед: найслабкіше місце орфографічної перевірки — власні назви.

До речі робота на таким проектом могла б стати непоганою курсовою або навіть дипломною, тож якщо маєте вихід на потенційно зацікавлених студентів — пишіть. :)

Трішки докладніше українською про LanguageTool (і саме підтримку української в ньому) можна знайти тут: http://r2u.org.ua/languagetool/about
« Змінено: 2013-05-24 05:44:29 від DalekiyObriy »
Fedora 35 (x86-64)

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Перевірка української граматики на сторінці http://r2u.org.ua/check отримала нову функцію: відповідність відмінка іменників та прикметників з попереднім прийменником.

Приклади помилок (взято з архіву українських періодичних видань):
...завдяки їх вдалим трюкам
...без відому ХАМАСу
...так і для їхній сімей
...у 40 кілометрах від Каїру
...переважно із солдат строкової служби
...32 млн. дол. для банку «Надра»
...ключі від гаражу й машини
...навчалися за підручниками для румун
...Сусіди України по антарктичним дослідженням
...підступного удару з тилу по захисникам

Алгоритм ще має деякі хиби, наприклад (помилково) вважається помилкою:
* «починаючи з Конан Дойла» (потрібно розпізнавання власних імен/прізвищ)
* «що це в нас за наука» (потрібен кращій аналіз питальних речень)
тощо, також базу словника потрібно поповнювати новими словами і виправляти теги, але і поточна функціональність може стане комусь у пригоді.

Ця нова можливість увійде в наступну версію програмі перевірки граматики та стилю LanguageTool 2.5

Буду вдячний за відгуки.
Fedora 35 (x86-64)

keithfay

  • Гість
Мені дуже сподобався проект, так тримати!

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
дякую, будемо тримати поки є сили :)
Fedora 35 (x86-64)