Хочу поділитися гарною новиною: нарешті вдалося допиляти підтримку української в двигуні перевірки граматики LanguageTool (
http://languagetool.org/)
Поки що це лише основа: є словник частин мови на ~1млн словоформ, хоч і ще не зовсім дороблений, є базовий код на Java для підтримки української мови, і є пару десятків простих правил граматики: трішки пунктуації, трішки милозвучності (із-з, у-в), трішки кальок: «приймати участь» тощо, трішки узгодження: не дозволено мати прийменник перед дієсловом тощо. Також на деякі кальки (напр. активні дієприкметники) даються альтернативні варіанти.
Також додано найпростіші для реалізації правила з сайтів з мовними рекомендаціями (
http://mova.kreschatic.kiev.ua, книжці Курило тощо).
Зі мною раніше контактувало декілька людей, зацікавлених в роботі над цим проектом, але без словника частин мови мало що можна було зробити, тепер база є і можна залучати більше людей. Цей двигун може працювати в LibreOffice/OpenOffice (є додаток), також є додаток для Firefox, і він може працювати окремою програмою або на веб-сторінці.
Щоб зацікавити ширше коло людей я виставив поточну версію на сайті
http://r2u.org.ua/check, тож кожен може перевірити свій текст і помацати двигун. Зауважте: такий прорив у підтримці української зроблено після випуску останньої версії, тож в офіційному випуску нормальна перевірка української буде в наступній версії 2.2, наразі найкращим варіантом помацати є
http://r2u.org.ua/check. Але якщо буде зацікавленість можна зробити нічну збірку додатку для Firefox та LibreOffice/OpenOffice.
Я проганяв двигун на текстах ДТ і він дещо показує (особливо на ранніх статтях з 2000-х років), також виловлює деякі речі в статтях з тієї ж вікіпедії.
Прохання до всіх згодувати йому 5-10 сторінок тексту і написати мені про свої враження. Зокрема:
* неправильні спрацьовування (фальшиві помилки)
* які правила конче треба додати (деякі правила реалізувати простіше ніж інші, напр. сталі сполуки найпростіше, щось де треба вважати на рід/відмінок трішки складніше, семантичні відмінності уловлювати взагалі поки не візьмусь — може колись потім)
* мовні помилки в повідомленнях
* інші зауваги
Зазначу наперед: найслабкіше місце орфографічної перевірки — власні назви.
До речі робота на таким проектом могла б стати непоганою курсовою або навіть дипломною, тож якщо маєте вихід на потенційно зацікавлених студентів — пишіть.
Трішки докладніше українською про LanguageTool (і саме підтримку української в ньому) можна знайти тут:
http://r2u.org.ua/languagetool/about