Форум сайта python.su
добрый день,
какие библиотеки лучше использовать, чтобы предложения на русском классифицировать по группам (шопинг, путешествия, еда…)
nltk подойдет для этих целей? Там норм поддержка русского? Или есть другие более удобные и простые?
Офлайн
Вы можете поступить проще.
Чтобы классифицировать текст, необходимо:
- представить каждый текст как множество слов. Для этого подойдет модуль re.
- удалить из этого множества стоп-лова - предлоги, союзы, частицы - т.е. то, что не несет тематической нагрузки.
- привести каждое слово к нормальной форме. Библиотека pymorphy (http://packages.python.org/pymorphy/)
- для каждого предложения выделить ключевые слова. Самый простой способ - использование статистической величины TF-IDF (http://ru.wikipedia.org/wiki/TF-IDF).
- классифицировать каждое предложение.
У nltk вроде есть проблемы с русским.
Для расчета статистических показателей текста подходит библиотека Gensim (http://pypi.python.org/pypi/gensim).
Сервисы, которые умеют определять тематику текстов:
- http://www.ashmanov.com/tech/semantic
- http://extheme.ru
Офлайн
Занимаюсь похожей темой. Всегда было интересно где взять данные для применения TF-IDF, кроме как самому генерировать?
Офлайн