Вы можете поступить проще.
Чтобы классифицировать текст, необходимо:
- представить каждый текст как множество слов. Для этого подойдет модуль re.
- удалить из этого множества стоп-лова - предлоги, союзы, частицы - т.е. то, что не несет тематической нагрузки.
- привести каждое слово к нормальной форме. Библиотека pymorphy (
http://packages.python.org/pymorphy/)- для каждого предложения выделить ключевые слова. Самый простой способ - использование статистической величины TF-IDF (
http://ru.wikipedia.org/wiki/TF-IDF).- классифицировать каждое предложение.
У nltk вроде есть проблемы с русским.
Для расчета статистических показателей текста подходит библиотека Gensim (
http://pypi.python.org/pypi/gensim).Сервисы, которые умеют определять тематику текстов:
-
http://www.ashmanov.com/tech/semantic-
http://extheme.ru