Форум сайта python.su
Добрый день. Написал небольшие модули для обработки текста на русском языке.
Основное:
Отредактировано lavrton (Апрель 28, 2012 17:19:37)
Офлайн
я бы почитал)
а статью конечно надо В)) а то никак времени на контент не найдём
Офлайн
Пишите. Лучше — в своем блоге. Если нет — сделайте. Потом опубликуйте ссылку. Выкладывайте исходники на github или где вам удобней.
Офлайн
Хм.. а NLTK - http://text-processing.com/ - не оно? или Вы хотите статьи по использованию NLTK написать?
Офлайн
lavrtonЭтого в nltk нет; очень пригодилось бы тем кто работает в области “information retrieval”…
Математическое представление текста (в виде точки/вектора).
Работа с полученным представлением. (сравнение текстов между собой - нахождение коэффициента подобия и т.п.)
lavrtonа это есть (FreqDist(), collocations())
Получение списка: “слово, вес слова”. (поиск ключевых слов)
Нахождение ключевых словосочетаний.
Офлайн
Открыл git репозиторий https://github.com/lavrton/textAnalyzer. Туда буду кидать оформленные наработки по обработки текста. Если кому-то интересно, жду обратной связи.
Отредактировано lavrton (Окт. 4, 2012 15:31:26)
Офлайн
Данные скрипты могут извлечь n-gram'ы произвольного порядка из подаваемой коллекции текстов?
Офлайн
Нет и не планируется.
Офлайн