Автор Гілка: LanguageTool 4.0  (Прочитано 1335 раз)

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
LanguageTool 4.0
« : 2018-01-03 23:13:45 »
Вийшла нова версія програми перевірки граматики та стилю LanguageTool 4.0 (https://languagetool.org/uk/)
Зміни в українському модулі:
* додано понад 10 тис. слів у словник, словник тепер налічує понад 327 тис. лем
* покращено розпізнавання слів через дефіс
* покращено токенізацію скорочень з крапками
* додано понад 350 правил автоматичного зняття омонімії, що покращує спрацьовування багатьох граматичних правил
* додано декілька стильових, правописних та граматичних правил

Спробувати останню версію можна на сторінці https://r2u.org.ua/check а також за допомогою численних додатків:
* для Firefox (https://addons.mozilla.org/en-US/firefox/addon/languagetool/)
* Chrome (https://chrome.google.com/webstore/detail/languagetool-grammar-and/oldceeleldhonbafppcapldpdifcinji)
* LibreOffice.org (https://extensions.libreoffice.org/extensions/languagetool)
* Google Docs (https://chrome.google.com/webstore/detail/languagetool/kjcoklfhicmkbfifghaecedbohbmofkm)
*MS Word (https://github.com/jaumeortola/languagetool-msword10-addin)
Також можна стягнути окрему програму (https://languagetool.org/download/LanguageTool-4.0.zip)

LanguageTool також можна використовувати для аналізу українських текстів (токенізація, лематизація, тегування тощо).

LanguageTool — вільний та відкритий програмний засіб, тож будь-хто може може додавати нові правила та вносити інші покращення.

Окрім на LanguageTool базуються допоміжні засоби NLP для української мови (https://github.com/brown-uk/nlp_uk), що дозволяють якісне чищення, розбиття, тегування та аналіз текстів.
Fedora 35 (x86-64)

Відсутній burunduk32

  • Новачок
  • *
  • дописів: 49
  • Карма: +0/-0
Re: LanguageTool 4.0
« Відповідей #1 : 2018-01-20 12:50:40 »
Чи не помилка:
В пакунку LT-4.0 відсутні словники: LanguageTool-4.0/org/languagetool/resource/uk
Це так і треба, чи вони вже в іншому місці?

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: LanguageTool 4.0
« Відповідей #2 : 2018-01-21 03:20:36 »
словник у окремому модулі:
https://mvnrepository.com/artifact/ua.net.nlp/morfologik-ukrainian-lt
Fedora 35 (x86-64)

Відсутній burunduk32

  • Новачок
  • *
  • дописів: 49
  • Карма: +0/-0
Re: LanguageTool 4.0
« Відповідей #3 : 2018-02-21 01:22:08 »
Чи можна створити правило, аби він міг перевіряти слово з роздільником?
Приклад: Фа&йл, Ін_струменти.
Які використовуються в файлах перекладу програм, для позначення клавіатурних скорочень.

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3628
  • Карма: +2/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: LanguageTool 4.0
« Відповідей #4 : 2018-02-21 07:18:37 »
Чи можна створити правило, аби він міг перевіряти слово з роздільником?
Приклад: Фа&йл, Ін_струменти.
Які використовуються в файлах перекладу програм, для позначення клавіатурних скорочень.
Зазвичай, таке роблять самі програми для комп'ютеризованого перекладу (наприклад, Lokalize так може, якщо визначити відповідний символ у властивостях проекту). Також можна скористатися sed для попередньої обробки тексту.


Взагалі, це не проблема LT — цим має займатися hunspell чи щось подібне низькорівневе.
Denounce the demagogues
King diamonds to discard
Deploy the dialogue
Your word against the law

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: LanguageTool 4.0
« Відповідей #5 : 2018-02-21 18:32:38 »
Найпростіше це зробити в hunspell - у файлі uk.aff в рядок IGNORE додати ці символи
Додати таку можливість в LT трішки складніше, і я погоджуюся з yurchor це досить специфічна функціональність.
Якщо вам цікаво я можу надати латку для LT, що дозволяє таке робити, але вам доведеться зібрати LanguageTool локально.
Fedora 35 (x86-64)

Відсутній burunduk32

  • Новачок
  • *
  • дописів: 49
  • Карма: +0/-0
Re: LanguageTool 4.0
« Відповідей #6 : 2018-02-21 21:31:43 »
Додаю IGNORE, але слово все одно розбивається на два. А латку, я б подивився.
Сам засіб перекладу так не вміє. Це OmegaT. Він може використовувати зовнішній сервер LT, чим я і користуюся. Ігнорувати спец символи там можна за допомогою скриптів, але ще не розібрався.

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: LanguageTool 4.0
« Відповідей #7 : 2018-02-21 22:16:18 »
можливо тоді ці символи треба додати до WORDCHARS, перепрошую, я цими прапорцями займався років 10 тому, вже всього не згадаю

латка для LT ось:
diff --git a/languagetool-language-modules/uk/src/main/java/org/languagetool/language/Ukrainian.java b/languagetool-language-modules/uk/src/main/java/org/languagetool/language/Ukraini
an.java
index 21b7051475..643f84c19f 100644
--- a/languagetool-language-modules/uk/src/main/java/org/languagetool/language/Ukrainian.java
+++ b/languagetool-language-modules/uk/src/main/java/org/languagetool/language/Ukrainian.java
@@ -74,7 +74,7 @@ public class Ukrainian extends Language {

   @Override
   public Pattern getIgnoredCharactersRegex() {
-    return Pattern.compile("[\u00AD\u0301]");
+    return Pattern.compile("[\u00AD\u0301&_]");
   }

   @Override

Fedora 35 (x86-64)