Автор Гілка: Tesseract Ukrainian  (Прочитано 46097 раз)

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3628
  • Карма: +2/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: Tesseract Ukrainian
« Відповідей #15 : 2008-02-25 10:21:33 »
Ну так, хоч якось працює, можна результат докласти (сканеру не було, довелося текст у KolourPaint малювати).
До речі, при компілюванні под posix-несумiсною ОС, має місце дивне явище: програма працює лише на тій машині, на якій була скомпільована.
А взагалі, залишити б нещасну програму у спокої, вона вже давно застаріла. Жирний і курсив не розпізнає, нижній регістр не розпізнає, текст шукати на сторінці не вміє. З зображеннями працює лише з бінарними. I щоб все те реалізувати, то легше вже написати систему з нуля.
По порядку:
0) під Posix-несумісною ОС є рідний CuneiForm (до речі, як то кажуть: "Hey, what's the bug number?")
1) жирний і курсив розпізнає (якщо не розпізнає, надішліть мені, будь ласка, скан),
2) нижній регістр розпізнає (те саме),
3) шукати текст: це як?
4) ви маєте небінарні зображення  :o Поясніть інтелектуально розвиненій секретарці, що документообіг ведеться у чорно-білих тонах.
5) можна адресу, де всі могли б ознайомитися з написаною з нуля програмою ;) (www.abbyy.com не пропонувати)?

P.S. У файлах тренування присутній теґ, що відповідає за шрифт, отже прикручування шрифтів буде виконано елементарно... ;)
« Змінено: 2008-02-25 17:32:12 від yurchor »
Denounce the demagogues
King diamonds to discard
Deploy the dialogue
Your word against the law

Відсутній piktor

  • Видавець
  • *******
  • дописів: 3396
  • Карма: +0/-0
Re: Tesseract Ukrainian
« Відповідей #16 : 2008-02-25 11:36:42 »
/me почухав голову, яка так важко переварювала прочитане тут. Наче-ж і не тупий...
Yurchor, а де ви знайомитеся з усим цим добром перед тим як викладати сюди? Першоджерела в студію будь-ласка.
Зоврема, мене збило з пантелику:
Цитата
У файлах тренування присутній теґ, що відповідає за шрифт, отже прикручування шрифтів буде виконано елементарно...
Скажу відразу - в мене десь на жорсткому диску лежить файл Training Tesseract.html, проте спер я його ще давно, тому до нього руки ще не дійшли.
Іще - порадьте будь-ласка офлайновий англо-український (російський) словник для Лінукса. Бо лінивий я погано вчив англійську в школі.
Всим, хто тоне й не знає,
За що вхопитись,
Хто вже з останніх
Вибився сил:
Попереджаю - я не колода,
Попереджаю - я крокодил.

Praporshic

  • Гість
Re: Tesseract Ukrainian
« Відповідей #17 : 2008-02-25 13:12:42 »
Іще - порадьте будь-ласка офлайновий англо-український (російський) словник для Лінукса. Бо лінивий я погано вчив англійську в школі.
StarDict + Muller7 (sdcv rulez  ::) )

Відсутній Cthulhu

  • Кореспондент
  • ***
  • дописів: 183
  • Карма: +0/-0
Re: Tesseract Ukrainian
« Відповідей #18 : 2008-02-25 13:20:47 »
Іще - порадьте будь-ласка офлайновий англо-український (російський) словник для Лінукса. Бо лінивий я погано вчив англійську в школі.
StarDict + Muller7 (sdcv rulez  ::) )
На сторінці проекту stardict на sf лежать вже перегнані словники з Lingvo, з нормальними транскрипціями.

Edit:
Ooops, уже не лежать. Видно, lingvo на них таки начавили.
« Змінено: 2008-02-25 13:38:46 від Cthulhu »

Praporshic

  • Гість
Re: Tesseract Ukrainian
« Відповідей #19 : 2008-02-25 13:39:31 »
На сторінці проекту stardict на sf лежать вже перегнані словники з Lingvo, з нормальними транскрипціями.
Що, знову? Їх же прибирали...

P.S. Cthulhu: маєш зірочку за рекламу варезу  :D

Відсутній Cthulhu

  • Кореспондент
  • ***
  • дописів: 183
  • Карма: +0/-0
Re: Tesseract Ukrainian
« Відповідей #20 : 2008-02-25 13:47:36 »
На сторінці проекту stardict на sf лежать вже перегнані словники з Lingvo, з нормальними транскрипціями.
Що, знову? Їх же прибирали...

P.S. Cthulhu: маєш зірочку за рекламу варезу  :D
Їх прибрали з офіційної сторінки. На сторінці проекту вони ще довго лежали. Аж до вчора. Видно, ніяк не могли вирішити, чи то варєз, чи ні=)

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3628
  • Карма: +2/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: Tesseract Ukrainian
« Відповідей #21 : 2008-02-25 17:27:58 »
/me почухав голову, яка так важко переварювала прочитане тут. Наче-ж і не тупий...
Yurchor, а де ви знайомитеся з усим цим добром перед тим як викладати сюди? Першоджерела в студію будь-ласка.
Зоврема, мене збило з пантелику:
Цитата
У файлах тренування присутній теґ, що відповідає за шрифт, отже прикручування шрифтів буде виконано елементарно...
Скажу відразу - в мене десь на жорсткому диску лежить файл Training Tesseract.html, проте спер я його ще давно, тому до нього руки ще не дійшли.
Іще - порадьте будь-ласка офлайновий англо-український (російський) словник для Лінукса. Бо лінивий я погано вчив англійську в школі.
Найкращий підручник від виробника. Трохи гірший, але російською.
Щодо теґів: подивіться вихідний код і файли тренування (.box). Там є поле Font. Не просто так же його додали? ;)
Щодо словника: найкращі (і Мюлер, хоча він не найкращий (НМСД)) можна знайти за першим посиланням у пошуку на google за словами "xdxf sourceforge". Не баньте, будь ласка, я варєз не поширюю. ;)
« Змінено: 2008-02-25 17:29:26 від yurchor »
Denounce the demagogues
King diamonds to discard
Deploy the dialogue
Your word against the law

Відсутній mim

  • Новачок
  • *
  • дописів: 44
  • Карма: +0/-0
Re: Tesseract Ukrainian
« Відповідей #22 : 2008-02-25 19:49:59 »
По порядку:
0) під Posix-несумісною ОС є рідний CuneiForm (до речі, як то кажуть: "Hey, what's the bug number?")
1) жирний і курсив розпізнає (якщо не розпізнає, надішліть мені, будь ласка, скан),
2) нижній регістр розпізнає (те саме),
3) шукати текст: це як?
4) ви маєте небінарні зображення  :o Поясніть інтелектуально розвиненій секретарці, що документообіг ведеться у чорно-білих тонах.
5) можна адресу, де всі могли б ознайомитися з написаною з нуля програмою ;) (www.abbyy.com не пропонувати)?

P.S. У файлах тренування присутній теґ, що відповідає за шрифт, отже прикручування шрифтів буде виконано елементарно... ;)
На виході отримуємо чисто текстовий файл. Тому, коли щось написано жирно або у нижньому регістрі, в кращому випадку воно вийде як plain text, тобто буде втрачено форматування.
Також, програма не вміє виділяти блоки тексту (колонки, пару шматків тексту, розділені малюнком). Цілком імовірно, що прикручування шрифтів можна зробити елементарно, але за два десятки років цього чомусь ніхто не зробив.
Документообіг ведеться у чорно-білих тонах, але зі сканеру вилазять зображення у відтінках сірого. Перетворити сіре зображення на чорно-біле - задача непроста (має багато алгоритмів вирішення, кожний зі своїми недоліками і перевагами).
Під Posix-несумісною ОС дійсно є рідний CuneiForm, а ще є SimpleOCR, але душа бажає GNU :) Та, власне, мова була не про те. Просто цікаво, чи вдалося раптом вам його зібрати за допомогою VC, чи не виникла описана вище проблема.

У гірших традиціях лінуксу, існує мало не більше десятка OCR-проектів, але всі або недолугі, або мертві, або і те, і інше разом. На опеннеті колись була коротенька стаття-огляд.  Це дивно, тому що насправді у відкритому доступі є купа статей, які описують всі етапи процесу розпізнавання, починаючи з попередьої обробки зображень і закінчуючи верифікацією результатів. Просто взяти і реалізувати. Шкода, що зусилля ентузіастів витрачаються на штовхання давно померлих проектів.

Ага, і ще посилання, ніби в тему: http://groups.google.com/group/tesseract-ocr-russian?hl=ru

Відсутній piktor

  • Видавець
  • *******
  • дописів: 3396
  • Карма: +0/-0
Re: Tesseract Ukrainian
« Відповідей #23 : 2008-02-25 19:58:09 »
Бідний yurchor все страджає манією неповноцінності. Фрази типу "не бийте по голові", "не баньте" виникають все частіше. Але нічого -  я його зараз порадую. Порадую тим що в мене все запрацювало. Ось зараз візьмуся за stardict і а-бе-бе-ігрек-ігрек буде смоктати лапу.
Всим, хто тоне й не знає,
За що вхопитись,
Хто вже з останніх
Вибився сил:
Попереджаю - я не колода,
Попереджаю - я крокодил.

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3628
  • Карма: +2/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: Tesseract Ukrainian
« Відповідей #24 : 2008-02-25 20:01:01 »
http://groups.google.com/group/tesseract-ocr-russian?hl=ru
Flame:
Угу, точняк в тему: дохле і обісране на LOR. RIP tesseract піду посплю, може насниться, що хтось уже зосередив зусилля на написанні нової чудової розпізнавалки та не тексту, а краще вже розмовної мови.

Може відкрити у "Балачках" розділ "Сни". Можу поділитися міркуваннями про те, які сни сняться мені, чому недолугі KDE і GNOME і який я на днях написав би менеджер стільниць (ну просто ідеальний).

З радістю приєднаюся, пане mim, до Вашого проекту написання розпізнавалки з нуля. Просто скажіть адресу... А поки що працюватиму над тим, що вже існує і працює.
« Змінено: 2008-02-25 21:06:32 від Praporshic »
Denounce the demagogues
King diamonds to discard
Deploy the dialogue
Your word against the law

Відсутній Cthulhu

  • Кореспондент
  • ***
  • дописів: 183
  • Карма: +0/-0
Re: Tesseract Ukrainian
« Відповідей #25 : 2008-02-25 20:30:27 »
Може відкрити у "Балачках" розділ "Сни". Можу поділитися міркуваннями про те, які сни сняться мені, чому недолугі KDE і GNOME і який я на днях написав би менеджер стільниць (ну просто ідеальний).
І давно вам такі жахіття сняться?[smiley=36.gif]

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3628
  • Карма: +2/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: Tesseract Ukrainian
« Відповідей #26 : 2008-02-25 20:34:17 »
Може відкрити у "Балачках" розділ "Сни". Можу поділитися міркуваннями про те, які сни сняться мені, чому недолугі KDE і GNOME і який я на днях написав би менеджер стільниць (ну просто ідеальний).
І давно вам такі жахіття сняться?[smiley=36.gif]
З часу останньої Великої битви з приводу KDE4.
Denounce the demagogues
King diamonds to discard
Deploy the dialogue
Your word against the law

Відсутній mim

  • Новачок
  • *
  • дописів: 44
  • Карма: +0/-0
Re: Tesseract Ukrainian
« Відповідей #27 : 2008-02-25 22:03:30 »
А поки що працюватиму над тим, що вже існує і працює.
/me плаче, спостерігаючи, як ентузіасти реанімують давно зітлілий труп, а поряд у тіні стоять зомбі та привиди недонароджених GOCR, clara ocr, ocrad, kognition, OCRchie, WeOCR, XOCR та інших...
« Змінено: 2008-02-25 22:33:20 від Praporshic »

Відсутній piktor

  • Видавець
  • *******
  • дописів: 3396
  • Карма: +0/-0
Re: Tesseract Ukrainian
« Відповідей #28 : 2008-02-25 23:33:49 »
mim, не спорю, ще не дороблена розпізнавалка до путя. Але, тим не менше, користуватися вже можна. Хоча-б із етичних міркувань що ви нічого не крадете. А, оскільки, такі люди як yurchor не сплять, то рано чи пізно отримаємо більш-менш нормальний продукт.
А поки що працюватиму над тим, що вже існує і працює.
/me плаче, спостерігаючи, як ентузіасти реанімують давно зітлілий труп, а поряд у тіні стоять зомбі та привиди недонароджених GOCR, clara ocr, ocrad, kognition, OCRchie, WeOCR, XOCR та інших...
Панове модератори, не бийте, анекдот геть до того що сказав mim:
Пливуть рибалки в човні. Натикаються на напіврозкладений труп. Злякалися, мовляв їх у вбивстві звинуватять і викинули на стежку.
Йде мисливець. Бачить - труп. Злякався що його звинуватять у вбивстві проте доставив труп до лікарні. Лікар прийняв трупа. Пройшла година, друга, третя. Виходить спітнілий лікар - "Жити буде."
Всим, хто тоне й не знає,
За що вхопитись,
Хто вже з останніх
Вибився сил:
Попереджаю - я не колода,
Попереджаю - я крокодил.

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3628
  • Карма: +2/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: Tesseract Ukrainian
« Відповідей #29 : 2008-02-26 06:32:52 »
А поки що працюватиму над тим, що вже існує і працює.
/me плаче, спостерігаючи, як ентузіасти реанімують давно зітлілий труп, а поряд у тіні стоять зомбі та привиди недонароджених GOCR, clara ocr, ocrad, kognition, OCRchie, WeOCR, XOCR та інших...
/me ридає над мільйонами лінуксоїдів пиляють свою недосконалу систему у той час, коли існують Windows Vista та Mac OS X ­— вінець досконалості до часу нового релізу від MS та Apple ;)

Якщо серйозно, то жодна з написаних Вами розпізнавалок і близько не підійшла до розпізвання кириличних мов. А закиди серунів з LOR показують, що російське ком’юніті серйозно хворе на анонімізм (робити ніхто нічого не хоче — всі чекають на віндекапець). Це видно і з наведеної Вами гуглогрупи: далі 1 сторінки ніхто і не рушив, хоча воплів було достатньо.

Те саме можна сказати і про російських перекладачів: ми за меншого ресурсу виконавців, робимо як маленьких російську команду перекладачів KDE4.

До речі, ось що мені наснилося минулої ночі (просто згадав як працює FR):
Tesseract і не повинен виділяти блоки тексту, це робить окрема програма ( не певен, але мені здається, що за алгоритмом подібним до спам-фільтрів пошти)
GUI для OCR має за принципами UNIX-way інтегрувати можливості декількох уже готових рішень: imagemagick для потокової обробки і підготовки зображень, блок виділення тексту (стирити з GOCR), і власне розпізнавалку tesseract (треба допиляти шрифти, а можна і не допилювати: згадайте які жахи творить FR у своїх намаганнях точно відповідати оригіналові з проміжками між літерами і розміром шрифта).

Так що Ваші закиди (НМСД) не ґрунтовні і засновані на суб’єктивному розчаруванні у OSS взагалі (або Ви співробітник ABBYY ;)).
Denounce the demagogues
King diamonds to discard
Deploy the dialogue
Your word against the law