Автор Гілка: Розробка програми розпізнання тексту  (Прочитано 5948 раз)

Відсутній Fenenko

  • Новачок
  • *
  • дописів: 3
  • Карма: +0/-0
  • I Love YaBB 2!
  Мене звати Фененко Олександр Сергійович. Я хочу розпочати новий проект. Ціль якого е створення програми котра призначена для розпізнавання тексту і буде розповсюджуватися під  ліцензією GPL. Програмною мовою проекту буде JAVA. Я буду дуже вдячний якщо хтось виявить інтерес до цього проекту.
Всі пропозиції прошу надсилати за адресою Pretorianec2005@yandex.ru

Відсутній Yaroslav Fedevych

  • Літератор
  • ******
  • дописів: 1069
  • Карма: +0/-0
  • Людина — ніщо, справа — все
А є якісь наробки*? Чи все тільки "буде"?

-----
*Ну там хоча б алгоритми виписані, я не кажу підпрограми...

Відсутній politruk

  • Дописувач
  • **
  • дописів: 52
  • Карма: +0/-0
  • BSD user
Цікаво, а чому Ви хочете написати нову програму замість приєднатися до якогось аналогічного проекту (claraOCR, gOCR)?
FreeBSD 6.0

Відсутній Fenenko

  • Новачок
  • *
  • дописів: 3
  • Карма: +0/-0
  • I Love YaBB 2!
А є якісь наробки*? Чи все тільки "буде"?

-----
*Ну там хоча б алгоритми виписані, я не кажу підпрограми...

 Як такого готового алгоритму розпізнання немає. Я на даний момент, якраз працюю над алгоритмом розпізнавання. Алгоритм буде діяти так, растрове зображення букв переводити в вектори , і по співвідношенню векторів визначати символ.  

Відсутній Fenenko

  • Новачок
  • *
  • дописів: 3
  • Карма: +0/-0
  • I Love YaBB 2!
Цікаво, а чому Ви хочете написати нову програму замість приєднатися до якогось аналогічного проекту (claraOCR, gOCR)?

  Я збираюся написати данну програму на JAVA , тому що я вважаю що програми повинні підходити під будь яку  без перекомпіляції. А на скільки я розумію аналогічні проекти написані не на JAVA

Відсутній Loof

  • Дописувач
  • **
  • дописів: 77
  • Карма: +0/-0
  • Що новенького?
 Я збираюся написати данну програму на JAVA , тому що я вважаю що програми повинні підходити під будь яку  без перекомпіляції. А на скільки я розумію аналогічні проекти написані не на JAVA

От тільки Java є далеко не у всіх, та й у більшості дистрибутивів вона відсутня (через свою ліцензію)  ;)
Тому й особливих переваг (крім проблем з запуском) такий підхід не дає...

Відсутній Сергій Лисовенко

  • Літератор
  • ******
  • дописів: 1489
  • Карма: +0/-0
 Я збираюся написати данну програму на JAVA , тому що я вважаю що програми повинні підходити під будь яку  без перекомпіляції. А на скільки я розумію аналогічні проекти написані не на JAVA

От тільки Java є далеко не у всіх, та й у більшості дистрибутивів вона відсутня (через свою ліцензію)  ;)
Тому й особливих переваг (крім проблем з запуском) такий підхід не дає...

То може пан Фененко запропонує розпочати проект зі створення мови програмування і компілятора, що видає біт-коди, як Java?

В сеж ліпше спочатку розробити алгоритм, а потім на С розробити функції, які ставлять у відповіднність растровому образу вектори (дуже жирна штука), текст ...
От алгоритмом і займусь, коли нічого буде робити  :)
Якщо Лінукс написали студенти - нехай вони під ним і навчаються.

Відсутній Абрамчук Вадим

  • Кореспондент
  • ***
  • дописів: 225
  • Карма: +0/-0
  • Графоман LOU третього (четвертого?) пришестя
Цікаво, а чому Ви хочете написати нову програму замість приєднатися до якогось аналогічного проекту (claraOCR, gOCR)?

  Я збираюся написати данну програму на JAVA , тому що я вважаю що програми повинні підходити під будь яку  без перекомпіляції. А на скільки я розумію аналогічні проекти написані не на JAVA

Вам ліньки компілювати чи просто дати можливість іншим компілювати під різні системи, тому Ви хочете додати людям геморою щодо запуску Java на Linux? Цікава позиція.
Debian GNU/Linux lenny/sid
MontaVista Linux (Motorola ROKR Z6). Міняю на A1200.

Відсутній borman

  • Графоман
  • ****
  • дописів: 416
  • Карма: +0/-0
  • Debianizer
Вам ліньки компілювати чи просто дати можливість іншим компілювати під різні системи, тому Ви хочете додати людям геморою щодо запуску Java на Linux? Цікава позиція.
Досить цікавий погляд на світ. Вбачати у програмах покращений швидкий засіб досягти геморою.
dd if=/dev/zero of=/dev/null

Відсутній Володимир Лісівка

  • Адміністратор ЩОДО
  • Видавець
  • *****
  • дописів: 3820
  • Карма: +11/-0
  • Програміст
От тільки Java є далеко не у всіх, та й у більшості дистрибутивів вона відсутня (через свою ліцензію)  ;)
Тому й особливих переваг (крім проблем з запуском) такий підхід не дає...

Зате gcc є всюди, а компілятор яви вже давно включений в gcc (починаючи з gcc-3.x).

Цитата
Як такого готового алгоритму розпізнання немає. Я на даний момент, якраз працюю над алгоритмом розпізнавання. Алгоритм буде діяти так, растрове зображення букв переводити в вектори , і по співвідношенню векторів визначати символ.

Тоді цей алгоритм працюватиме з дуже обмеженою кількістю символів.

Простіше використати нейронні мережі для розпізнавання. І нові символи додавати значно легше. Ви ж не збираєтеся руками додавати пропорції для усіх символів з унікоду?

Потрібно три системи розпізнавання - розпізнавання блоків (структури сторінки - заголовки, параграфи, списки, таблиці, ілюстрації, підписи, графіки, колонтитули, ремарки, etc.), нормалізація блоку та розпізнавання слів та інших елементів у  блоці (слова, числа, пунктуаційні знаки, мітки, підкреслення/надкреслення/перекреслення, стиль тексту, розмір тексту, шрифт, межі малюнку, etc.), нормалізація та розпізнавання знаків.

Бажано писати програму саме у такому порядку. (Колись писали програму для розпізнавання наклеєних баркодів на листку A4 - найважче, як виявилося, це знайти усі баркоди на сторінці й привести їх до нормального вигляду - саме розпізнавання реалізовувалося досить легко).

PS.
Допомогти нічим не зможу. :-(
[Fedora Linux]

Відсутній gvy

  • Письменник
  • *****
  • дописів: 576
  • Карма: +0/-0
oh no
« Відповідей #10 : 2006-01-02 00:12:32 »
PS.
Допомогти нічим не зможу. :-(
Хє.  Так ти ж розумієш це, навіть коли знаєш набагато більше вірних слів з цієї опери.
Я ось теж трошки знаю, але одразу можу сказати, що це "1L" -- vaporware.  Надто багато треба теорії знати, щоб хоч друковані циферки римські розпізнавати навчитися.  А якщо людина одразу каже "java", а не "gocr" -- то вона не теорію вивчала та практику дивилася, а маркетоїдного брєда начиталася десь :-(

Олександре, якщо хочете щось корисне зробити -- перекладіть (чи виправте) програму з тих, котрими користуєтеся.  Напишіть чи покращіть документацію до неї.  Допоможіть її користувачам-новачкам.  Це буде краще.

Не треба хмарочосів з п'яти цеглин, бо вже на шосту не вистачило... краще з них он лавочку зробити чи то паркан ними полагодити.

Відсутній Володимир Лісівка

  • Адміністратор ЩОДО
  • Видавець
  • *****
  • дописів: 3820
  • Карма: +11/-0
  • Програміст
Можете почати звідси: http://www.jeffheaton.com/ai/

Тут є працюючий аплет на яві з джерельними текстами: http://www.heatonresearch.com/articles/42/page1.html

PS.
Цитата
Олександре, якщо хочете щось корисне зробити -- перекладіть (чи виправте) програму з тих, котрими користуєтеся.  Напишіть чи покращіть документацію до неї.  Допоможіть її користувачам-новачкам.  Це буде краще.
Михайле, якщо ти не будеш казати іншим що їм робити, тобі не будуть казати куди тобі іти. Людина ясно і чітко сказала, що вона хоче.
[Fedora Linux]