Ksenon2611
Июнь 6, 2012 16:50:59
Всем доброго дня,
Мне нужно реализовать алгоритм ,который бы классифицировал считанный мною текстовый файл к какой либо тематики(политика,спорт,медицина и т.д.).
В целом представление есть,хочу реализовать алгоритм с помощью метода опорных векторов(SVM).
Не могли бы подсказать,в каком наилучшем виде должны быть текстовые файлы ,один из которых представляет собой каталог тематики(медицина,спорт и тд) и текстовый файл,у которого будет программа определять тематику.
Я плохо знаком с языком Python ,поэтому хотелось бы чтобы кто-нибудь подсказал направление,либо реализовал алгоритм за невысокую плату.
Cryo
Июнь 6, 2012 17:54:01
Вот, посмотрите, подобное уже пытались реализовать, только на примере текста из сайтов. Но чтобы написать подобное, нужно неплохо знать сам язык и знать, что такое нейронные сети.
P.S
Даже самому интересно стало…
lavrton
Июнь 7, 2012 07:06:39
У меня дипломная работа на тему классификации текста. Акцент сделан на классификацию по
УДК. Но легко можно классифицировать и по другому - достаточно изменить обучающую бд. Планирую написать об этом статьи.
http://python.su/forum/topic/14465/
Nata
Июнь 7, 2012 14:42:21
Если проблема в реализации на питоне, посмотрите
сюда. Необязательно читать текст, посмотрите на примеры, какие структуры данных используют авторы
Ksenon2611
Июнь 8, 2012 01:56:15
Nata,
lavrton,
Спасибо Вам Огромное!