Python-сообщество

forge · Окт. 28, 2011 09:50:48

добрый день,

какие библиотеки лучше использовать, чтобы предложения на русском классифицировать по группам (шопинг, путешествия, еда…)

nltk подойдет для этих целей? Там норм поддержка русского? Или есть другие более удобные и простые?

plastun · Окт. 28, 2011 15:52:02

Вы можете поступить проще.
Чтобы классифицировать текст, необходимо:
- представить каждый текст как множество слов. Для этого подойдет модуль re.
- удалить из этого множества стоп-лова - предлоги, союзы, частицы - т.е. то, что не несет тематической нагрузки.
- привести каждое слово к нормальной форме. Библиотека pymorphy (http://packages.python.org/pymorphy/)
- для каждого предложения выделить ключевые слова. Самый простой способ - использование статистической величины TF-IDF (http://ru.wikipedia.org/wiki/TF-IDF).
- классифицировать каждое предложение.

У nltk вроде есть проблемы с русским.
Для расчета статистических показателей текста подходит библиотека Gensim (http://pypi.python.org/pypi/gensim).
Сервисы, которые умеют определять тематику текстов:
- http://www.ashmanov.com/tech/semantic
- http://extheme.ru

lavrton · Окт. 28, 2011 17:26:20

Занимаюсь похожей темой. Всегда было интересно где взять данные для применения TF-IDF, кроме как самому генерировать?

Python-сообщество

Уведомления

#1 Окт. 28, 2011 09:50:48

классификатор

#2 Окт. 28, 2011 15:52:02

классификатор

#3 Окт. 28, 2011 17:26:20

классификатор

Board footer