DjangoBB LoFi version

Начало » Python для новичков » классификатор

forge

Окт. 28, 2011 09:50:48

добрый день,

какие библиотеки лучше использовать, чтобы предложения на русском классифицировать по группам (шопинг, путешествия, еда…)

nltk подойдет для этих целей? Там норм поддержка русского? Или есть другие более удобные и простые?

plastun

Окт. 28, 2011 15:52:02

Вы можете поступить проще.
Чтобы классифицировать текст, необходимо:
- представить каждый текст как множество слов. Для этого подойдет модуль re.
- удалить из этого множества стоп-лова - предлоги, союзы, частицы - т.е. то, что не несет тематической нагрузки.
- привести каждое слово к нормальной форме. Библиотека pymorphy (http://packages.python.org/pymorphy/)
- для каждого предложения выделить ключевые слова. Самый простой способ - использование статистической величины TF-IDF (http://ru.wikipedia.org/wiki/TF-IDF).
- классифицировать каждое предложение.

У nltk вроде есть проблемы с русским.
Для расчета статистических показателей текста подходит библиотека Gensim (http://pypi.python.org/pypi/gensim).
Сервисы, которые умеют определять тематику текстов:
- http://www.ashmanov.com/tech/semantic
- http://extheme.ru

lavrton

Окт. 28, 2011 17:26:20

Занимаюсь похожей темой. Всегда было интересно где взять данные для применения TF-IDF, кроме как самому генерировать?