Автор Гілка: Scan Tailor 0.9.8 (Прочитано 3103 раз)

Campana · « : 2010-04-06 21:45:34 »

Випущено нову, за номером 0.9.8, версію програми Scan Tailor, призначеної для посторінкової обробки сканованих документів. Програма працює з растровими зображеннями, виділяючи в них текст, розділяючи книжкові розвороти на окремі сторінки, коригуючи орієнтацію окремих сторінок і приводячи все відскановане до одного формату із заданим текстовим блоком і полями. Після чого виводить результат у вигляді окремих файлів у форматі TIFF зі стисненням LZW. Якщо в документі є зображення, вони розпізнаються саме як зображення.

Таким чином, Scan Tailor виконує потрібну роботу, проміжну між скануванням документа і його оптичним розпізнаванням і/або збереженням в один багатосторінковий файл.

Документація на Wiki Scan Tailor-a (ru & en)

piktor · « **Відповідей #1 :** 2010-04-06 22:35:02 »

Xsane + Scan Tailor + tesseract = Fine Reader? Еббікапець наближається?

Campana · « **Відповідей #2 :** 2010-04-07 00:36:38 »

Ну, щоб настав капець, НМСД, треба дві умови виконати

допиляти хоч якийсь вільний OCR до юзабельного стану і
написати якийсь комбайн з gui-єм для всього ланцюжка.

Скажімо, kooka в KDE3 з розпізнавалок знає OCRAD, GOCR і якийсь KADMOS. Якби увіпхнути в єдиний GUI ще і Scan Tailor, і створення djvu i pdf — абебейойо-капець міг би заглянути на вогник до розробників.

yurchor · « **Відповідей #3 :** 2010-04-07 17:42:01 »

Цитата: Campana від 2010-04-07 00:36:38

Ну, щоб настав капець, НМСД, треба дві умови виконати
допиляти хоч якийсь вільний OCR до юзабельного стану і
написати якийсь комбайн з gui-єм для всього ланцюжка.
Скажімо, kooka в KDE3 з розпізнавалок знає OCRAD, GOCR і якийсь KADMOS. Якби увіпхнути в єдиний GUI ще і Scan Tailor, і створення djvu i pdf — абебейойо-капець міг би заглянути на вогник до розробників.

Треба розділити два окремих завдання: створення Djvu-PDF з текстовим шаром і створення придатних для редагування текстових копій.

Перше є вузькоспеціалізованим завданням. Для нього потрібні окремі програми і окремі ентузіасти (хоча він і не виключає елемента другого завдання — бібліотеки-розпізнавалки).

Друге завдання є дуже трудомістким. На створення бібліотек різних символів у різних гарнітурах з різною вагою шрифтів це декілька людино-днів на кожну писемність.

Поточна ситуація приблизно така:

1) Vuescan декларує у своїй платній програмі можливість розпізнавання за допомогою ядра Tesseract з прийнятною якістю, але бібліотеки символів є закритими.

2) Cuneiform+YAGF розвиваються якось страшенно повільно. Ubuntu-користувачам подавай все і зараз, тому особливого ентузіазму не спостерігається. Крім того, всі зусилля витрачаються на портування коду. Ніякого покращення бібліотек розпізнавання не спостерігається через те, що немає власне програм для такого покращення.

3) Tesseract+OCRopus швидко розвиваються, є програми для перекомпіляції бібліотек символів, працює алгоритм виокремлення блоків тексту (за деякими свідченнями якість розпізнавання вища ніж у FR). Але все це лише для англійської... Можливою графічною оболонкою буде нова Kooka для KDE 4 (зараз розробляється у окремій гілці branches) або щось для GNOME (не пригадаю назви, щось з OCR). Знову, може хтось візьметься допиляти бібліотеку Tesseract для української і надіслати розробникам? Крім того, потрібна бібліотека для OCRopus.

4) GOCR і вся решта давно закинуті і мабуть вже ніколи не прийдуть до тями.

Але все це немає жодного стосунку до теми цієї гілки. Програма дуже хороша і додаткові графічні оболонки їй не потрібні. Готові TIFF можна зшити до Djvu без усіляких графічних оболонок, але текстового шару у них не буде. Втім, здебільшого, це не є великою бідою.

Linux.org.ua

Автор Гілка: Scan Tailor 0.9.8 (Прочитано 3103 раз)

Campana

Scan Tailor 0.9.8

piktor

Re: Scan Tailor 0.9.8

Campana

Re: Scan Tailor 0.9.8

yurchor

Re: Scan Tailor 0.9.8