Шановні знавці зневадження під Linux!
Допоможіть, будь ласка, розібратися з проблемою в Tesseract 2.01 (можна завантажити з
цієї адреси). Я зробив українські файли для розпізнавання шрифтів типу Times та Arial (можна завантажити з
цієї адреси, запхнути розпаковане до /usr/share/tessdata розпізнавання виконується командою ’tesseract Ваш_Файл.tif Файл_Виведення -l ukr’). Якість розпізнавання, всупереч деяким неробам з LOR досить висока, порядку тої самої для FineReader(r). Але все це псує імовірність порядку 70% падіння програми з помилкою
tesseract: unicharset.cpp:67: const UNICHAR_ID UNICHARSET::unichar_to_id(const char*, int) const: Assertion `ids.contains(unichar_repr, length)' failed.
У reject.cpp tessedit_flip_0O змінив на false, як і пропонують розробники для росіян, але зміна не призвела до бажаних наслідків. Здається тепер проблема з "і". Але перемикання відповідних тригерів у цьому ж файлі не призводить до бажаних наслідків (кількість відмов зменшилася, але вони не зникли).
Я спробував включити до набору символів латинські I, i, l, але і це не допомогло... Чи не міг би хтось із знавців підказати за допомогою gdb (мої декількагодинні спроби не призвели до вагомих наслідків) на якому порівнянні відбувається помилка?