Форум сайта python.su
Всем доброго дня,
Мне нужно реализовать алгоритм ,который бы классифицировал считанный мною текстовый файл к какой либо тематики(политика,спорт,медицина и т.д.).
В целом представление есть,хочу реализовать алгоритм с помощью метода опорных векторов(SVM).
Не могли бы подсказать,в каком наилучшем виде должны быть текстовые файлы ,один из которых представляет собой каталог тематики(медицина,спорт и тд) и текстовый файл,у которого будет программа определять тематику.
Я плохо знаком с языком Python ,поэтому хотелось бы чтобы кто-нибудь подсказал направление,либо реализовал алгоритм за невысокую плату.
Офлайн
Вот, посмотрите, подобное уже пытались реализовать, только на примере текста из сайтов. Но чтобы написать подобное, нужно неплохо знать сам язык и знать, что такое нейронные сети.
P.S
Даже самому интересно стало…
Отредактировано Cryo (Июнь 6, 2012 18:00:25)
Офлайн
У меня дипломная работа на тему классификации текста. Акцент сделан на классификацию по УДК. Но легко можно классифицировать и по другому - достаточно изменить обучающую бд. Планирую написать об этом статьи.
http://python.su/forum/topic/14465/
Офлайн
Если проблема в реализации на питоне, посмотрите сюда. Необязательно читать текст, посмотрите на примеры, какие структуры данных используют авторы
Офлайн
Nata,
lavrton,
Спасибо Вам Огромное!
Офлайн