Автор Гілка: Scan Tailor 0.9.8  (Прочитано 2724 раз)

Відсутній Campana

  • Письменник
  • *****
  • дописів: 795
  • Карма: +0/-0
  • Проходив мимо
Scan Tailor 0.9.8
« : 2010-04-06 21:45:34 »
Випущено нову, за номером 0.9.8, версію програми Scan Tailor, призначеної для посторінкової обробки сканованих документів. Програма працює з растровими зображеннями, виділяючи в них текст, розділяючи книжкові розвороти на окремі сторінки, коригуючи орієнтацію окремих сторінок і приводячи все відскановане до одного формату із заданим текстовим блоком і полями. Після чого виводить результат у вигляді окремих файлів у форматі TIFF зі стисненням LZW. Якщо в документі є зображення, вони розпізнаються саме як зображення.

Таким чином, Scan Tailor виконує потрібну роботу, проміжну між скануванням документа і його оптичним розпізнаванням і/або збереженням в один багатосторінковий файл.

Документація на Wiki Scan Tailor-a (ru & en)
« Змінено: 2010-04-06 22:27:13 від Re. »

Відсутній piktor

  • Видавець
  • *******
  • дописів: 3396
  • Карма: +0/-0
Re: Scan Tailor 0.9.8
« Відповідей #1 : 2010-04-06 22:35:02 »
Xsane + Scan Tailor + tesseract = Fine Reader? Еббікапець наближається?
« Змінено: 2010-04-06 22:38:14 від Piktor »
Всим, хто тоне й не знає,
За що вхопитись,
Хто вже з останніх
Вибився сил:
Попереджаю - я не колода,
Попереджаю - я крокодил.

Відсутній Campana

  • Письменник
  • *****
  • дописів: 795
  • Карма: +0/-0
  • Проходив мимо
Re: Scan Tailor 0.9.8
« Відповідей #2 : 2010-04-07 00:36:38 »
Ну, щоб настав капець, НМСД, треба дві умови виконати
  • допиляти хоч якийсь вільний OCR до юзабельного стану і
  • написати якийсь комбайн з gui-єм для всього ланцюжка.
Скажімо, kooka в KDE3 з розпізнавалок знає OCRAD, GOCR і якийсь KADMOS. Якби увіпхнути в єдиний GUI ще і Scan Tailor, і створення djvu i pdf — абебейойо-капець міг би заглянути на вогник до розробників.

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3640
  • Карма: +3/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: Scan Tailor 0.9.8
« Відповідей #3 : 2010-04-07 17:42:01 »
Ну, щоб настав капець, НМСД, треба дві умови виконати
  • допиляти хоч якийсь вільний OCR до юзабельного стану і
  • написати якийсь комбайн з gui-єм для всього ланцюжка.
Скажімо, kooka в KDE3 з розпізнавалок знає OCRAD, GOCR і якийсь KADMOS. Якби увіпхнути в єдиний GUI ще і Scan Tailor, і створення djvu i pdf — абебейойо-капець міг би заглянути на вогник до розробників.
Треба розділити два окремих завдання: створення Djvu-PDF з текстовим шаром і створення придатних для редагування текстових копій.

Перше є вузькоспеціалізованим завданням. Для нього потрібні окремі програми і окремі ентузіасти (хоча він і не виключає елемента другого завдання — бібліотеки-розпізнавалки).

Друге завдання є дуже трудомістким. На створення бібліотек різних символів у різних гарнітурах з різною вагою шрифтів це декілька людино-днів на кожну писемність.

Поточна ситуація приблизно така:

1) Vuescan декларує у своїй платній програмі можливість розпізнавання за допомогою ядра Tesseract з прийнятною якістю, але бібліотеки символів є закритими.

2) Cuneiform+YAGF розвиваються якось страшенно повільно. Ubuntu-користувачам подавай все і зараз, тому особливого ентузіазму не спостерігається. Крім того, всі зусилля витрачаються на портування коду. Ніякого покращення бібліотек розпізнавання не спостерігається через те, що немає власне програм для такого покращення.

3) Tesseract+OCRopus швидко розвиваються, є програми для перекомпіляції бібліотек символів, працює алгоритм виокремлення блоків тексту (за деякими свідченнями якість розпізнавання вища ніж у FR). Але все це лише для англійської... Можливою графічною оболонкою буде нова Kooka для KDE 4 (зараз розробляється у окремій гілці branches) або щось для GNOME (не пригадаю назви, щось з OCR). Знову, може хтось візьметься допиляти бібліотеку Tesseract для української і надіслати розробникам? Крім того, потрібна бібліотека для OCRopus.

4) GOCR і вся решта давно закинуті і мабуть вже ніколи не прийдуть до тями.

Але все це немає жодного стосунку до теми цієї гілки. Програма дуже хороша і додаткові графічні оболонки їй не потрібні. Готові TIFF можна зшити до Djvu без усіляких графічних оболонок, але текстового шару у них не буде. Втім, здебільшого, це не є великою бідою.
Try to reach you before winter comes
Always a place for you in my heart
You're not alone
All used up
I'd give anything to talk to you