Автор Гілка: NLTK/Python та українська?  (Прочитано 6770 раз)

Відсутній Дмитро Редчук

  • Кореспондент
  • ***
  • дописів: 104
  • Карма: +0/-0
Усім привіт!

>>> from nltk.corpus import stopwords
>>>
>>> print stopwords.fileids()
['danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'portuguese', 'russian', 'spanish', 'swedish', 'turkish']
>>>

Хочу українську :)

Хто що підкаже?

Дякую!
«Критика має бути конструктивною. Інакше вона деструктивна» ©
Щось не так? — Зроби так.

Відсутній DalekiyObriy

  • Літератор
  • ******
  • дописів: 1929
  • Карма: +5/-0
Re: NLTK/Python та українська?
« Відповідей #1 : 2013-08-03 23:12:32 »
якщо треба саме stopwords, то спробуйте погуглити, є здається декілька списків (хоча напевне далеко не повних)
також можна спробувати витягнути їх зі spell-uk

якщо ви хочете цілий корпус, то ніби робота йде, але поки нема
Fedora 35 (x86-64)