Автор Гілка: Tesseract Ukrainian  (Прочитано 2075 раз)

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3636
  • Карма: +3/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Tesseract Ukrainian
« : 2007-12-01 14:54:15 »
Шановні знавці зневадження під Linux!

Допоможіть, будь ласка, розібратися з проблемою в Tesseract 2.01 (можна завантажити з цієї адреси). Я зробив українські файли для розпізнавання шрифтів типу Times та Arial (можна завантажити з цієї адреси, запхнути розпаковане до /usr/share/tessdata розпізнавання виконується командою ’tesseract Ваш_Файл.tif Файл_Виведення -l ukr’). Якість розпізнавання, всупереч деяким неробам з LOR досить висока, порядку тої самої для FineReader(r). Але все це псує імовірність порядку 70% падіння програми з помилкою tesseract: unicharset.cpp:67: const UNICHAR_ID UNICHARSET::unichar_to_id(const char*, int) const: Assertion `ids.contains(unichar_repr, length)' failed.У reject.cpp tessedit_flip_0O змінив на false, як і пропонують розробники для росіян, але зміна не призвела до бажаних наслідків. Здається тепер проблема з "і". Але перемикання відповідних тригерів у цьому ж файлі не призводить до бажаних наслідків (кількість відмов зменшилася, але вони не зникли).
Я спробував включити до набору символів латинські I, i, l, але і це не допомогло... Чи не міг би хтось із знавців підказати за допомогою gdb (мої декількагодинні спроби не призвели до вагомих наслідків) на якому порівнянні відбувається помилка?
Try to reach you before winter comes
Always a place for you in my heart
You're not alone
All used up
I'd give anything to talk to you