Найти - Пользователи
Полная версия: классификатор
Начало » Python для новичков » классификатор
1
forge
добрый день,

какие библиотеки лучше использовать, чтобы предложения на русском классифицировать по группам (шопинг, путешествия, еда…)

nltk подойдет для этих целей? Там норм поддержка русского? Или есть другие более удобные и простые?
plastun
Вы можете поступить проще.
Чтобы классифицировать текст, необходимо:
- представить каждый текст как множество слов. Для этого подойдет модуль re.
- удалить из этого множества стоп-лова - предлоги, союзы, частицы - т.е. то, что не несет тематической нагрузки.
- привести каждое слово к нормальной форме. Библиотека pymorphy (http://packages.python.org/pymorphy/)
- для каждого предложения выделить ключевые слова. Самый простой способ - использование статистической величины TF-IDF (http://ru.wikipedia.org/wiki/TF-IDF).
- классифицировать каждое предложение.

У nltk вроде есть проблемы с русским.
Для расчета статистических показателей текста подходит библиотека Gensim (http://pypi.python.org/pypi/gensim).
Сервисы, которые умеют определять тематику текстов:
- http://www.ashmanov.com/tech/semantic
- http://extheme.ru
lavrton
Занимаюсь похожей темой. Всегда было интересно где взять данные для применения TF-IDF, кроме как самому генерировать?
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB