Уведомления

Группа в Telegram: @pythonsu

#1 Апрель 28, 2012 17:18:27

lavrton
От:
Зарегистрирован: 2010-11-13
Сообщения: 35
Репутация: +  1  -
Профиль   Адрес электронной почты  

Интересна ли тема анализа текста?

Добрый день. Написал небольшие модули для обработки текста на русском языке.
Основное:

  • Получение списка: “слово, вес слова”. (поиск ключевых слов)
  • Нахождение ключевых словосочетаний.
  • Математическое представление текста (в виде точки/вектора).
  • Работа с полученным представлением. (сравнение текстов между собой - нахождение коэффициента подобия и т.п.)

Интересна ли данная тематика кому-нибудь еще? Стоит ли выкладывать исходники, писать статьи?



Отредактировано lavrton (Апрель 28, 2012 17:19:37)

Офлайн

#2 Апрель 28, 2012 20:31:42

slav0nic
Команда
От: dp.ua
Зарегистрирован: 2006-05-07
Сообщения: 2260
Репутация: +  41  -
Профиль   Отправить e-mail  

Интересна ли тема анализа текста?

я бы почитал)
а статью конечно надо В)) а то никак времени на контент не найдём

Офлайн

#3 Апрель 28, 2012 23:36:19

Андрей Светлов
От:
Зарегистрирован: 2007-05-15
Сообщения: 3137
Репутация: +  14  -
Профиль   Адрес электронной почты  

Интересна ли тема анализа текста?

Пишите. Лучше — в своем блоге. Если нет — сделайте. Потом опубликуйте ссылку. Выкладывайте исходники на github или где вам удобней.



Офлайн

#4 Май 3, 2012 09:20:50

ziro
От:
Зарегистрирован: 2009-08-13
Сообщения: 225
Репутация: +  8  -
Профиль   Отправить e-mail  

Интересна ли тема анализа текста?

Хм.. а NLTK - http://text-processing.com/ - не оно? или Вы хотите статьи по использованию NLTK написать?



Офлайн

#5 Май 7, 2012 17:58:17

Nata
От:
Зарегистрирован: 2010-10-02
Сообщения: 87
Репутация: +  6  -
Профиль   Отправить e-mail  

Интересна ли тема анализа текста?

lavrton
Математическое представление текста (в виде точки/вектора).
Работа с полученным представлением. (сравнение текстов между собой - нахождение коэффициента подобия и т.п.)
Этого в nltk нет; очень пригодилось бы тем кто работает в области “information retrieval”…
lavrton
Получение списка: “слово, вес слова”. (поиск ключевых слов)
Нахождение ключевых словосочетаний.
а это есть (FreqDist(), collocations())



Офлайн

#6 Окт. 4, 2012 15:30:44

lavrton
От:
Зарегистрирован: 2010-11-13
Сообщения: 35
Репутация: +  1  -
Профиль   Адрес электронной почты  

Интересна ли тема анализа текста?

Открыл git репозиторий https://github.com/lavrton/textAnalyzer. Туда буду кидать оформленные наработки по обработки текста. Если кому-то интересно, жду обратной связи.



Отредактировано lavrton (Окт. 4, 2012 15:31:26)

Офлайн

#7 Фев. 22, 2013 10:56:06

TrashSR
Зарегистрирован: 2013-02-21
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

Интересна ли тема анализа текста?

Данные скрипты могут извлечь n-gram'ы произвольного порядка из подаваемой коллекции текстов?

Офлайн

#8 Фев. 23, 2013 17:45:37

lavrton
От:
Зарегистрирован: 2010-11-13
Сообщения: 35
Репутация: +  1  -
Профиль   Адрес электронной почты  

Интересна ли тема анализа текста?

Нет и не планируется.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version