DjangoBB LoFi version

Полная версия: кластеризация текстовой информации в python

Начало » Data Mining » кластеризация текстовой информации в python

Kontox

Авг. 5, 2014 00:30:50

Друзья, помогите справиться с такой задачей. я хочу провести кластеризацию семантически близких фраз запросов по услугам IT . для этой задачи у меня есть куча ключевых слов и для каждого 50 снипетов страниц от яндекса, хотя ряд из них будет удален. Как можно этот алгорити реализовать на python?

Alen

Авг. 12, 2014 21:20:46

Друзья, помогите справиться с такой задачей. я хочу провести кластеризацию семантически близких фраз запросов по услугам IT .

Для кластеризации наиболее часто используют K-means. https://ru.wikipedia.org/wiki/K-means .

Есть с десяток готовых библиотек уже реализовавших этот алгоритм, например scipy.cluster.vq .

для этой задачи у меня есть куча ключевых слов

Если я правильно понял вопрос, это уже не кластеризация, а классификация. А значит Байес, SVM, kNN, нейронки и т.п.