Уведомления

Группа в Telegram: @pythonsu

#1 Окт. 28, 2011 09:50:48

forge
От:
Зарегистрирован: 2011-10-28
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

классификатор

добрый день,

какие библиотеки лучше использовать, чтобы предложения на русском классифицировать по группам (шопинг, путешествия, еда…)

nltk подойдет для этих целей? Там норм поддержка русского? Или есть другие более удобные и простые?



Офлайн

#2 Окт. 28, 2011 15:52:02

plastun
От:
Зарегистрирован: 2011-01-18
Сообщения: 15
Репутация: +  0  -
Профиль   Отправить e-mail  

классификатор

Вы можете поступить проще.
Чтобы классифицировать текст, необходимо:
- представить каждый текст как множество слов. Для этого подойдет модуль re.
- удалить из этого множества стоп-лова - предлоги, союзы, частицы - т.е. то, что не несет тематической нагрузки.
- привести каждое слово к нормальной форме. Библиотека pymorphy (http://packages.python.org/pymorphy/)
- для каждого предложения выделить ключевые слова. Самый простой способ - использование статистической величины TF-IDF (http://ru.wikipedia.org/wiki/TF-IDF).
- классифицировать каждое предложение.

У nltk вроде есть проблемы с русским.
Для расчета статистических показателей текста подходит библиотека Gensim (http://pypi.python.org/pypi/gensim).
Сервисы, которые умеют определять тематику текстов:
- http://www.ashmanov.com/tech/semantic
- http://extheme.ru



Офлайн

#3 Окт. 28, 2011 17:26:20

lavrton
От:
Зарегистрирован: 2010-11-13
Сообщения: 35
Репутация: +  1  -
Профиль   Адрес электронной почты  

классификатор

Занимаюсь похожей темой. Всегда было интересно где взять данные для применения TF-IDF, кроме как самому генерировать?



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version