Працюючи над новим відкритим корпусом української мови виникла потреба аналізувати великі обсяги текстів з різних джерел.
На жаль дуже багато цих текстів страждають від одних й тих самих проблем:
* латинські літери в українських словах (і навпаки)
* купа різних символів для апострофа
* перенесення слів
* поламане кодування
тощо
Тож ми створили декілька скриптів, що допомагають з цим:
https://github.com/brown-uk/nlp_uk/tree/master/src/main/groovy/org/nlp_uk/other* ExtractText.groovy — витягає текст з 5-х різних форматів (використовує для цього відповідні програми)
* CleanText.groovy — намагається «справити» текст: виправити кодування, позбутися мішанини алфавітів, прибрати перенесення тощо (також відкидає тексти де менш ніж 2000 українських слів)
* EvaluateText.groovy — проганяє тексти на LanguageTool і створює їх рейтинг на основі кількості знайдених помилок
Може стане комусь у пригоді.