Автор Гілка: Скрипти для чищення українських текстів  (Прочитано 10057 раз)

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Працюючи над новим відкритим корпусом української мови виникла потреба аналізувати великі обсяги текстів з різних джерел.
На жаль дуже багато цих текстів страждають від одних й тих самих проблем:
* латинські літери в українських словах (і навпаки)
* купа різних символів для апострофа
* перенесення слів
* поламане кодування
тощо

Тож ми створили декілька скриптів, що допомагають з цим: https://github.com/brown-uk/nlp_uk/tree/master/src/main/groovy/org/nlp_uk/other
* ExtractText.groovy — витягає текст з 5-х різних форматів (використовує для цього відповідні програми)
* CleanText.groovy  — намагається «справити» текст: виправити кодування, позбутися мішанини алфавітів, прибрати перенесення тощо (також відкидає тексти де менш ніж 2000 українських слів)
* EvaluateText.groovy — проганяє тексти на LanguageTool і створює їх рейтинг на основі кількості знайдених помилок

Може стане комусь у пригоді.
« Змінено: 2018-01-10 14:54:35 від DalekiyObriy »
Fedora 35 (x86-64)

Відсутній recht

  • Кореспондент
  • ***
  • дописів: 125
  • Карма: +0/-0
Підпишуся. Може дійсно знадобиться.

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Скрипти оновили залежність від LanguageTool до версії 4.0, окрім того в CleanText.groovy було внесено декілька суттєвих покращень з виправлення мішанини латиниці та кирилиці, вилучення пернесень та підрахунку слів.
« Змінено: 2018-01-10 14:54:57 від DalekiyObriy »
Fedora 35 (x86-64)

Відсутній Re.

  • Загальний модератор
  • Літератор
  • *****
  • дописів: 1898
  • Карма: +1/-0

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
дякую, виправив посилання
Fedora 35 (x86-64)