Автор Гілка: Скрипти для чищення українських текстів (Прочитано 13007 раз)

DalekiyObriy · « : 2016-09-30 17:43:38 »

Працюючи над новим відкритим корпусом української мови виникла потреба аналізувати великі обсяги текстів з різних джерел.
На жаль дуже багато цих текстів страждають від одних й тих самих проблем:
* латинські літери в українських словах (і навпаки)
* купа різних символів для апострофа
* перенесення слів
* поламане кодування
тощо

Тож ми створили декілька скриптів, що допомагають з цим: https://github.com/brown-uk/nlp_uk/tree/master/src/main/groovy/org/nlp_uk/other
* ExtractText.groovy — витягає текст з 5-х різних форматів (використовує для цього відповідні програми)
* CleanText.groovy — намагається «справити» текст: виправити кодування, позбутися мішанини алфавітів, прибрати перенесення тощо (також відкидає тексти де менш ніж 2000 українських слів)
* EvaluateText.groovy — проганяє тексти на LanguageTool і створює їх рейтинг на основі кількості знайдених помилок

Може стане комусь у пригоді.

recht · « **Відповідей #1 :** 2016-09-30 18:22:08 »

Підпишуся. Може дійсно знадобиться.

DalekiyObriy · « **Відповідей #2 :** 2018-01-09 15:12:12 »

Скрипти оновили залежність від LanguageTool до версії 4.0, окрім того в CleanText.groovy було внесено декілька суттєвих покращень з виправлення мішанини латиниці та кирилиці, вилучення пернесень та підрахунку слів.

Re. · « **Відповідей #3 :** 2018-01-09 19:12:29 »

Цитата: DalekiyObriy від 2018-01-09 15:12:12

CleanText.groovy

404.

DalekiyObriy · « **Відповідей #4 :** 2018-01-09 20:14:42 »

дякую, виправив посилання

Linux.org.ua

Автор Гілка: Скрипти для чищення українських текстів (Прочитано 13007 раз)

DalekiyObriy

Скрипти для чищення українських текстів

recht

Re: Скрипти для чищення українських текстів

DalekiyObriy

Re: Скрипти для чищення українських текстів

Re.

Re: Скрипти для чищення українських текстів

DalekiyObriy

Re: Скрипти для чищення українських текстів