Автор Гілка: Підтрика української в Lucene  (Прочитано 9310 раз)

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Створено проект підтримки українського стемінгу (на основі словника dict_uk) в Apache Lucene.
Намагаємося закинути результати в Lucene.
Fedora 35 (x86-64)

Відсутній Re.

  • Загальний модератор
  • Літератор
  • *****
  • дописів: 1898
  • Карма: +1/-0
Re: Підтрика української в Lucene
« Відповідей #1 : 2016-06-17 23:21:01 »
Вузькоспеціалізована якась штука. Можна трохи детальніше для «танкістів»? Де воно використовується і чому саме Apache таке розвиває?

Відсутній prapor

  • Письменник
  • *****
  • дописів: 518
  • Карма: +0/-0
Re: Підтрика української в Lucene
« Відповідей #2 : 2016-06-18 12:44:41 »
Це система повнотекстового пошуку, що самостійно не використовується, але є частиною великої кількості вільних (та не зовсім) проектів. Тобто, якщо результат буде позитивним, то велика кількість різноманітного ПЗ отримає нормальну підтримку української мови.
- I'm afraid your son has the knack.
- The knack?
- The knack. It's a rare condition characterised by an extreme intuition about all things mechanical and electrical. And utter social ineptitude.
- Can he lead a normal life?
- No, he'll be an engineer.

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: Підтрика української в Lucene
« Відповідей #3 : 2016-06-21 17:00:08 »
Підтримку української додано в Apache Lucene!
https://git-wip-us.apache.org/repos/asf?p=lucene-solr.git;h=4a71e03
https://git-wip-us.apache.org/repos/asf?p=lucene-solr.git;h=6ef174f

Наразі маємо аналізатор, що базується на словнику (dict_uk), є ідеї реалізувати «динамічний» аналізатор, що не потребує словника, або який працює, як додатковий, що активується лише для слів, відсутніх у словнику

P.S. список ПЗ і вебсторінок, що використовують Lucene
Fedora 35 (x86-64)

burunduk

  • Гість
Re: Підтрика української в Lucene
« Відповідей #4 : 2016-11-17 13:46:08 »
Дуже добре.
Воно використовується в OmegaT перекладачі. Для розбиття речення на вирази.
Дякую.

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1923
  • Карма: +4/-0
Re: Підтрика української в Lucene
« Відповідей #5 : 2016-11-17 18:32:56 »
Дуже добре.
Воно використовується в OmegaT перекладачі. Для розбиття речення на вирази.
Дякую.
Новий українській модуль в lucene наразі лише для лематизації. Для розбиття логіка не помінялася. Теоретично можна подивитися чи можна логіку з LanuageTool перенести, але найближчим часом руки до цього не дійдуть точно.
Fedora 35 (x86-64)