Автор Гілка: Словник Грінченка на r2u.org.ua  (Прочитано 11945 раз)

Відсутній Re.

  • Загальний модератор
  • Літератор
  • *****
  • дописів: 1898
  • Карма: +1/-0
Re: Словник Грінченка на r2u.org.ua
« Відповідей #15 : 2010-05-24 12:37:25 »
дик: pdf2html  | html2sql :)
Ага, + чимало людино-годин. :)
але я не зовсім розумію навіщо кінцевому користувачеві sql?
Вважаєте, що базу намагається поцупити кінцевий користувач? Власне, кінцевому користувачу лише й сайт потрібен.
а от якщо Ви візьметесь зробити *повноцінний* набір словничків для (q)stardict, то можна про це серйозно поговорити, бо горбуху, яка буде в (q)stardict шукати лише половину слів я робити не хочу, а на справжню роботу часу не вистачає...
Гаразд, спробую.

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Re: Словник Грінченка на r2u.org.ua
« Відповідей #16 : 2010-05-24 15:46:20 »
підняв межу до 70, кількість запитів без використання шаблонів, що впираються в неї, тепер менше десятка на день

...це єдине, що мене дратує.
ну то завжди ж можна написати про це на http://r2u.org.ua/forum, або мені листа, або навіть тут, пощо мовчати і мучитись? :)
Fedora 35 (x86-64)

Відсутній Re.

  • Загальний модератор
  • Літератор
  • *****
  • дописів: 1898
  • Карма: +1/-0
Re: Словник Грінченка на r2u.org.ua
« Відповідей #17 : 2010-05-24 19:11:35 »
ну то завжди ж можна написати про це на http://r2u.org.ua/forum, або мені листа, або навіть тут, пощо мовчати і мучитись? :)
Пощо туди писати, якщо тут є? ;) Спасибі.

Щодо Stardict знайшов цікавий румунський проект. Там використовують базу даних як словник. Не певен, що скрипт sql4dic.py Вам підійде відразу, але його назва говорить сама за себе. ;)

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Re: Словник Грінченка на r2u.org.ua
« Відповідей #18 : 2010-05-25 22:01:42 »
Пощо туди писати, якщо тут є? ;) Спасибі.
Пофіг куди писати, аби не мовчати і не мучатись :)
Сьогодні підняв межу до 100, сподіваюсь цього буде досить.

Щодо Stardict знайшов цікавий румунський проект. Там використовують базу даних як словник. Не певен, що скрипт sql4dic.py Вам підійде відразу, але його назва говорить сама за себе. ;)
1) по-перше якщо вже робити по-справжньому, то я б використав формат xdxf
2) оскільки ці словникі мають купу суфіксів, то треба хороший формат, який би дозволяв мати ключові слова для пошуку (xdxf здається підходить)
3) оскільки ці словникі мають купу скорочень і службових слів (по яким ми шукати не хочемо) потрібне додаткове оброблювання
4) в мене вже є скрипт який робить xdxf-словничок Кримського на базі xml (який є фактично сирцем бази), але він не займається суфіксами, скороченнями, підтримкою двох мов тощо... скрипт цей на 40 рядків (python), тому брати чиєсь інше за основу напевне не має сенсу

якщо хочете погратися з ним (і взнати купу павуків, які супроводжують пошук по таким словникам ;)), пишіть
Fedora 35 (x86-64)

Відсутній Re.

  • Загальний модератор
  • Літератор
  • *****
  • дописів: 1898
  • Карма: +1/-0
Re: Словник Грінченка на r2u.org.ua
« Відповідей #19 : 2010-05-25 22:23:26 »
2) оскільки ці словникі мають купу суфіксів, то треба хороший формат, який би дозволяв мати ключові слова для пошуку (xdxf здається підходить)
Тоді виникає питання: Ваш словник якось розрізняє ці суфікси від несуфіксів?
3) оскільки ці словникі мають купу скорочень і службових слів (по яким ми шукати не хочемо) потрібне додаткове оброблювання
Якщо є список цих скорочень і службових слів, то гадаю, це не проблема.

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Re: Словник Грінченка на r2u.org.ua
« Відповідей #20 : 2010-05-26 14:23:25 »
2) оскільки ці словникі мають купу суфіксів, то треба хороший формат, який би дозволяв мати ключові слова для пошуку (xdxf здається підходить)
Тоді виникає питання: Ваш словник якось розрізняє ці суфікси від несуфіксів?
ображаєте? як би не відрізняв то можна було б сирці словників загнати в xdxf і по всьому :)
замшевый

3) оскільки ці словникі мають купу скорочень і службових слів (по яким ми шукати не хочемо) потрібне додаткове оброблювання
Якщо є список цих скорочень і службових слів, то гадаю, це не проблема.
[/quote]
частково є список, частково вони позначені стилями
Fedora 35 (x86-64)

Відсутній Re.

  • Загальний модератор
  • Літератор
  • *****
  • дописів: 1898
  • Карма: +1/-0
Re: Словник Грінченка на r2u.org.ua
« Відповідей #21 : 2010-05-26 15:46:21 »
замшевый
Даруйте, але, напевно, я сліпий: де там вказано суфікс? :-/

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Re: Словник Грінченка на r2u.org.ua
« Відповідей #22 : 2010-05-26 17:20:44 »
замшевый
Даруйте, але, напевно, я сліпий: де там вказано суфікс? :-/
Можливо я не так висловився, йдеться про пошук слів, які вказано лише суфіксом, як от «-шевый», який в пошуку розпізнається, як «плюшевий» (суфікс тут не в граматичному сенсі а в більш загальному - закінчення слова).
Fedora 35 (x86-64)

Відсутній Re.

  • Загальний модератор
  • Літератор
  • *****
  • дописів: 1898
  • Карма: +1/-0
Re: Словник Грінченка на r2u.org.ua
« Відповідей #23 : 2010-05-26 17:34:05 »
Можливо я не так висловився, йдеться про пошук слів, які вказано лише суфіксом, як от «-шевый», який в пошуку розпізнається, як «плюшевий» (суфікс тут не в граматичному сенсі а в більш загальному - закінчення слова).
Збагнув. І за яким алгоритмом воно його знаходить? Я так зрозумів, що це не для кожної статті дописана окрема «милиця», так?
« Змінено: 2010-05-26 17:34:34 від Re. »

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Re: Словник Грінченка на r2u.org.ua
« Відповідей #24 : 2010-05-26 20:15:04 »
Можливо я не так висловився, йдеться про пошук слів, які вказано лише суфіксом, як от «-шевый», який в пошуку розпізнається, як «плюшевий» (суфікс тут не в граматичному сенсі а в більш загальному - закінчення слова).
Збагнув. І за яким алгоритмом воно його знаходить? Я так зрозумів, що це не для кожної статті дописана окрема «милиця», так?
ні, я б повісився! :)
високоевристичний скрипт (на пітоні) пробігає і намагається розкривати суфікси для пошуку, результат не 100% але досить високий
Fedora 35 (x86-64)