Найти - Пользователи
Полная версия: Интересна ли тема анализа текста?
Начало » Флейм » Интересна ли тема анализа текста?
1
lavrton
Добрый день. Написал небольшие модули для обработки текста на русском языке.
Основное:
  • Получение списка: “слово, вес слова”. (поиск ключевых слов)
  • Нахождение ключевых словосочетаний.
  • Математическое представление текста (в виде точки/вектора).
  • Работа с полученным представлением. (сравнение текстов между собой - нахождение коэффициента подобия и т.п.)

Интересна ли данная тематика кому-нибудь еще? Стоит ли выкладывать исходники, писать статьи?
slav0nic
я бы почитал)
а статью конечно надо В)) а то никак времени на контент не найдём
Андрей Светлов

Пишите. Лучше — в своем блоге. Если нет — сделайте. Потом опубликуйте ссылку. Выкладывайте исходники на github или где вам удобней.

ziro
Хм.. а NLTK - http://text-processing.com/ - не оно? или Вы хотите статьи по использованию NLTK написать?
Nata
lavrton
Математическое представление текста (в виде точки/вектора).
Работа с полученным представлением. (сравнение текстов между собой - нахождение коэффициента подобия и т.п.)
Этого в nltk нет; очень пригодилось бы тем кто работает в области “information retrieval”…
lavrton
Получение списка: “слово, вес слова”. (поиск ключевых слов)
Нахождение ключевых словосочетаний.
а это есть (FreqDist(), collocations())
lavrton
Открыл git репозиторий https://github.com/lavrton/textAnalyzer. Туда буду кидать оформленные наработки по обработки текста. Если кому-то интересно, жду обратной связи.
TrashSR
Данные скрипты могут извлечь n-gram'ы произвольного порядка из подаваемой коллекции текстов?
lavrton
Нет и не планируется.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB