Автор Гілка: пошук в pdf  (Прочитано 2063 раз)

Відсутній btr

  • Письменник
  • *****
  • дописів: 654
  • Карма: +1/-0
пошук в pdf
« : 2010-08-05 10:35:39 »
Підкажіть, як знайти файли pdf по їх вмісту?

Відсутній nickat

  • Письменник
  • *****
  • дописів: 587
  • Карма: +0/-0
  • Debian user
Re: пошук в pdf
« Відповідей #1 : 2010-08-05 11:22:16 »
pdftotext | grep?
Best regards,
nickat

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3636
  • Карма: +3/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: пошук в pdf
« Відповідей #2 : 2010-08-05 12:01:42 »
Увімкнути Strigi для теки з документами. Дочекатися завершення індексування. Натиснути Alt+F2. Ввести критерій пошуку. За секунду все побачите.  :)
« Змінено: 2010-08-05 12:02:03 від yurchor »
Try to reach you before winter comes
Always a place for you in my heart
You're not alone
All used up
I'd give anything to talk to you

Відсутній btr

  • Письменник
  • *****
  • дописів: 654
  • Карма: +1/-0
Re: пошук в pdf
« Відповідей #3 : 2010-08-05 14:08:16 »
Поставив strigi, увімкнув, індексний файл вже перевалив за гіг, бомба продовжує стрибати. А чогось такого, більш традиційного (вікноподібного: бере файл, переглядає, знаходить) немає?

Щодо pdftotext: я не дуже розуміюся на конвеєрах, можете детальніше описати?

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3636
  • Карма: +3/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: пошук в pdf
« Відповідей #4 : 2010-08-05 14:21:12 »
Поставив strigi, увімкнув, індексний файл вже перевалив за гіг, бомба продовжує стрибати. А чогось такого, більш традиційного (вікноподібного: бере файл, переглядає, знаходить) немає?
Є.
1) Adobe Reader
2) Ctrl+F у Dolphin.

Правда знайти кирилицю важко... Втім, цього не можна зробити і у Windows. Тут може допомогти лише семантичний пошук, який і виконує Nepomuk (Tracker, Beagle тощо). Щоб не росла база даних, можна обмежити її у налаштуваннях певним каталогом і певним розміром.
Try to reach you before winter comes
Always a place for you in my heart
You're not alone
All used up
I'd give anything to talk to you

Відсутній btr

  • Письменник
  • *****
  • дописів: 654
  • Карма: +1/-0
Re: пошук в pdf
« Відповідей #5 : 2010-08-05 14:32:32 »
Добре, рухаємося далі. Де натискати alt+F2? Я запускав strigiclient (до речі,  в меню де його шукати?), в ньому на alt+F2 вискакує віконечко "виконати програму". Я туди попав? Що там робити?

Відсутній nickat

  • Письменник
  • *****
  • дописів: 587
  • Карма: +0/-0
  • Debian user
Re: пошук в pdf
« Відповідей #6 : 2010-08-05 14:53:59 »
Код скрипту pdfgrep:
#!/bin/sh
# Usage: pdfgrep <regexp> <path>

IFS=$'\n'
for I in `find "$2" -iname '*.pdf'`; do
    pdftotext -enc UTF-8 "$I" - \
        | grep --quiet --ignore-case --max-count=1 --regexp="$1" \
        && echo "$I"
done
Вміст тестової директорії:
$ ls -l1h *
-rwxr--r-- 1 207 сер  5 13:55 pdfgrep

My PDFs:
загалом 14M
-rw-rw-r-- 1 8,6M чер  6  2009 Український_правопис_2007.pdf
-rw-r--r-- 1 508K сер  5 13:28 Exercise_10_slides.pdf
-rw-r--r-- 1 459K сер  5 13:28 Exercise_11_slides.pdf
-rw-r--r-- 1 385K сер  5 13:28 Exercise_12_slides.pdf
-rw-r--r-- 1 371K сер  5 13:28 Exercise_1_slides.pdf
-rw-r--r-- 1 670K сер  5 13:28 Exercise_2_slides.pdf
-rw-r--r-- 1 567K сер  5 13:28 Exercise_3_slides.pdf
-rw-r--r-- 1 431K сер  5 13:28 Exercise_4_slides.pdf
-rw-r--r-- 1 472K сер  5 13:28 Exercise_5_slides.pdf
-rw-r--r-- 1 438K сер  5 13:28 Exercise_6_slides.pdf
-rw-r--r-- 1 387K сер  5 13:28 Exercise_7_slides.pdf
-rw-r--r-- 1 308K сер  5 13:28 Exercise_8_slides.pdf
-rw-r--r-- 1 357K сер  5 13:28 Exercise_9_slides.pdf
Застосування скрипту:
$ ./pdfgrep "право.*" .
./My PDFs/Український_правопис_2007.pdf
$ ./pdfgrep "mobile ip" .
./My PDFs/Exercise_7_slides.pdf
./My PDFs/Exercise_6_slides.pdf
« Змінено: 2010-08-05 14:56:12 від nickat »
Best regards,
nickat

Відсутній btr

  • Письменник
  • *****
  • дописів: 654
  • Карма: +1/-0
Re: пошук в pdf
« Відповідей #7 : 2010-08-05 15:11:47 »
працює, дякую

Відсутній yurchor

  • Видавець
  • *******
  • дописів: 3636
  • Карма: +3/-0
  • Grateful for our Iron Lung
    • Вікі користувачів KDE
Re: пошук в pdf
« Відповідей #8 : 2010-08-05 16:48:06 »
Дякую. Дійсно, просто. :)

Може, ви б виклали це до рецептів? Бо потім незручно шукати, якщо виникне потреба...
Try to reach you before winter comes
Always a place for you in my heart
You're not alone
All used up
I'd give anything to talk to you

Відсутній nickat

  • Письменник
  • *****
  • дописів: 587
  • Карма: +0/-0
  • Debian user
Re: пошук в pdf
« Відповідей #9 : 2010-08-05 23:16:26 »
Скопіював до рецептів.
Best regards,
nickat