Автор Гілка: pdftotext + українська  (Прочитано 2800 раз)

Відсутній Re.

  • Загальний модератор
  • Літератор
  • *****
  • дописів: 1898
  • Карма: +1/-0
pdftotext + українська
« : 2012-03-17 09:44:25 »
Встановив poppler, щоб витягнути текст з pdf, однак української він не підтримує. Чи є якісь аналоги?

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3636
  • Карма: +3/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: pdftotext + українська
« Відповідей #1 : 2012-03-17 10:04:57 »
То файл такий (кодування помилкове, майже певен, що використано TeX із застарілим форматом визначення кодування). У мене все чудово працює. Може викладете десь файл або принаймні одну сторіночку (виріжте якимось pdfshuffler), щоб можна було спробувати інші методи?
Try to reach you before winter comes
Always a place for you in my heart
You're not alone
All used up
I'd give anything to talk to you

Відсутній Re.

  • Загальний модератор
  • Літератор
  • *****
  • дописів: 1898
  • Карма: +1/-0
Re: pdftotext + українська
« Відповідей #2 : 2012-03-17 11:16:42 »
Щось я грішу на шрифти, бо розпізнає наче українську, але латиницею (наприклад, IucTHTyT). Кодування було б кракозябрами. В pdf усе гарно показує.

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3636
  • Карма: +3/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: pdftotext + українська
« Відповідей #3 : 2012-03-17 11:30:47 »
Щось я грішу на шрифти, бо розпізнає наче українську, але латиницею (наприклад, IucTHTyT). Кодування було б кракозябрами. В pdf усе гарно показує.
Таки кодування, якщо я не помиляюся (старі кодування TeX — бяка). До файла вбудовано лише гліфи символів (те, що ви бачите) сам текст представлено латиницею.

Допоможе лише оптичне розпізнавання символів (Cuneiform/Tesseract або... ;) ).
« Змінено: 2012-03-17 11:33:14 від yurchor »
Try to reach you before winter comes
Always a place for you in my heart
You're not alone
All used up
I'd give anything to talk to you

Відсутній Re.

  • Загальний модератор
  • Літератор
  • *****
  • дописів: 1898
  • Карма: +1/-0
Re: pdftotext + українська
« Відповідей #4 : 2012-03-17 22:51:17 »
Abbyy pdf transformer таки опрацював нормально. Тому гадаю, тут не в кодуванні справа була.

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3636
  • Карма: +3/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: pdftotext + українська
« Відповідей #5 : 2012-03-17 23:05:06 »
Abbyy pdf transformer таки опрацював нормально. Тому гадаю, тут не в кодуванні справа була.
М-дя... OCR з пакунком у 221 МБ нормально опрацювала файл, який не розпізнається іншими програмами, що працюють напряму з текстом. Кодування, звісно, ні до чого...  :D
Try to reach you before winter comes
Always a place for you in my heart
You're not alone
All used up
I'd give anything to talk to you

Відсутній Re.

  • Загальний модератор
  • Літератор
  • *****
  • дописів: 1898
  • Карма: +1/-0
Re: pdftotext + українська
« Відповідей #6 : 2012-03-17 23:11:56 »
Пардон, щойно поглянув, що то таки OCR був клятий, хоча й без нього тепер ніяк. Дякую, буду вручну виправляти.