Автор Гілка: Tesseract Ukrainian (Прочитано 2579 раз)

yurchor · « : 2007-12-01 14:54:15 »

Шановні знавці зневадження під Linux!

Допоможіть, будь ласка, розібратися з проблемою в Tesseract 2.01 (можна завантажити з цієї адреси). Я зробив українські файли для розпізнавання шрифтів типу Times та Arial (можна завантажити з цієї адреси, запхнути розпаковане до /usr/share/tessdata розпізнавання виконується командою ’tesseract Ваш_Файл.tif Файл_Виведення -l ukr’). Якість розпізнавання, всупереч деяким неробам з LOR досить висока, порядку тої самої для FineReader(r). Але все це псує імовірність порядку 70% падіння програми з помилкою

Код: [Вибрати]

tesseract: unicharset.cpp:67: const UNICHAR_ID UNICHARSET::unichar_to_id(const char*, int) const: Assertion `ids.contains(unichar_repr, length)' failed.

У reject.cpp tessedit_flip_0O змінив на false, як і пропонують розробники для росіян, але зміна не призвела до бажаних наслідків. Здається тепер проблема з "і". Але перемикання відповідних тригерів у цьому ж файлі не призводить до бажаних наслідків (кількість відмов зменшилася, але вони не зникли).
Я спробував включити до набору символів латинські I, i, l, але і це не допомогло... Чи не міг би хтось із знавців підказати за допомогою gdb (мої декількагодинні спроби не призвели до вагомих наслідків) на якому порівнянні відбувається помилка?

Linux.org.ua

Автор Гілка: Tesseract Ukrainian (Прочитано 2579 раз)

yurchor

Tesseract Ukrainian