Ну, щоб настав капець, НМСД, треба дві умови виконати
- допиляти хоч якийсь вільний OCR до юзабельного стану і
- написати якийсь комбайн з gui-єм для всього ланцюжка.
Скажімо, kooka в KDE3 з розпізнавалок знає OCRAD, GOCR і якийсь KADMOS. Якби увіпхнути в єдиний GUI ще і Scan Tailor, і створення djvu i pdf — абебейойо-капець міг би заглянути на вогник до розробників.
Треба розділити два окремих завдання: створення Djvu-PDF з текстовим шаром і створення придатних для редагування текстових копій.
Перше є вузькоспеціалізованим завданням. Для нього потрібні окремі програми і окремі ентузіасти (хоча він і не виключає елемента другого завдання — бібліотеки-розпізнавалки).
Друге завдання є дуже трудомістким. На створення бібліотек різних символів у різних гарнітурах з різною вагою шрифтів це декілька людино-днів на кожну писемність.
Поточна ситуація приблизно така:
1) Vuescan декларує у своїй платній програмі можливість розпізнавання за допомогою ядра Tesseract з прийнятною якістю, але бібліотеки символів є закритими.
2) Cuneiform+YAGF розвиваються якось страшенно повільно. Ubuntu-користувачам подавай все і зараз, тому особливого ентузіазму не спостерігається. Крім того, всі зусилля витрачаються на портування коду. Ніякого покращення бібліотек розпізнавання не спостерігається через те, що немає власне програм для такого покращення.
3) Tesseract+OCRopus швидко розвиваються, є програми для перекомпіляції бібліотек символів, працює алгоритм виокремлення блоків тексту (за деякими свідченнями якість розпізнавання вища ніж у FR). Але все це лише для англійської... Можливою графічною оболонкою буде нова Kooka для KDE 4 (зараз розробляється у окремій гілці branches) або щось для GNOME (не пригадаю назви, щось з OCR). Знову, може хтось візьметься допиляти бібліотеку Tesseract для української і надіслати розробникам? Крім того, потрібна бібліотека для OCRopus.
4) GOCR і вся решта давно закинуті і мабуть вже ніколи не прийдуть до тями.
Але все це немає жодного стосунку до теми цієї гілки. Програма дуже хороша і додаткові графічні оболонки їй не потрібні. Готові TIFF можна зшити до Djvu без усіляких графічних оболонок, але текстового шару у них не буде. Втім, здебільшого, це не є великою бідою.