Уведомления

Группа в Telegram: @pythonsu

#1 Май 4, 2014 14:13:53

boyusha
Зарегистрирован: 2014-05-04
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Латентно-семантический анализ и поиск

Всем привет!
Нахожусь только в процессе изучения языка Python. Разбираю код алгоритма латентно-семантический анализа:

class LSI(object):
    def __init__(self, stopwords, ignorechars, docs):
        self.wdict = {}
        self.dictionary = []
        self.stopwords = stopwords
        if type(ignorechars) == unicode:
            ignorechars = ignorechars.encode('utf-8')
            self.ignorechars = ignorechars
        for doc in docs: self.add_doc(doc)
    def add_doc(self, doc):
        words = [self.dic(word, True) for word in doc.lower().split()]
        self.docs.append(words)
        for word in words:
            if word in self.stopwords:
                continue
            elif word in self.wdict:
                self.wdict[word].append(len(self.docs) - 1)
            else:
                self.wdict[word] = [len(self.docs) - 1]


и при запуске lsa = LSI(, ignorechars, docs), где docs - список новостей, “пишет” ошибку

File “C:\Documents and Settings\Администратор\Рабочий стол\curs.py”, line 8, in __init__
for doc in docs: self.add_doc(doc)

подскажите, пожалуйста, как здесь быть.

Отредактировано boyusha (Май 4, 2014 23:14:03)

Офлайн

#2 Май 4, 2014 15:58:00

alexsis
Зарегистрирован: 2013-07-26
Сообщения: 148
Репутация: +  9  -
Профиль   Отправить e-mail  

Латентно-семантический анализ и поиск

Оформите код, пожалуйста.

Офлайн

#3 Май 4, 2014 16:25:44

boyusha
Зарегистрирован: 2014-05-04
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Латентно-семантический анализ и поиск

вроде бы оформил.

Отредактировано FishHook (Май 4, 2014 17:12:34)

Офлайн

#4 Май 4, 2014 17:12:39

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

Латентно-семантический анализ и поиск

Нет, не оформил, исследуй все кнопки редактора



Офлайн

#5 Май 4, 2014 17:26:30

boyusha
Зарегистрирован: 2014-05-04
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Латентно-семантический анализ и поиск

прошу прощения за неопытность. исправил.

Офлайн

#6 Май 4, 2014 22:21:23

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 10016
Репутация: +  857  -
Профиль   Отправить e-mail  

Латентно-семантический анализ и поиск

boyusha
if type(ignorechars) == unicode: ignorechars = ignorechars.encode('utf-8')

в одну строку писать не принято (нарушается читаемость кода)

if type(ignorechars) == unicode:
    ignorechars = ignorechars.encode('utf-8')

исправь все if'ы



Отредактировано py.user.next (Май 4, 2014 22:22:30)

Офлайн

#7 Май 4, 2014 23:15:41

boyusha
Зарегистрирован: 2014-05-04
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Латентно-семантический анализ и поиск

исправил if'ы, результат все тот же - отрицательный.

Офлайн

#8 Май 4, 2014 23:17:31

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 10016
Репутация: +  857  -
Профиль   Отправить e-mail  

Латентно-семантический анализ и поиск

исправил - выложи сюда, будем читать
и заканчивай менять на ходу, все снимки должны быть отдельно

исправил неправильно, как теперь будешь восстанавливать?

self.ignorechars = ignorechars
было не в блоке, это я помню ещё, а у тебя оно в блоке стало

цикл
for doc in docs:
тоже в две строки должен быть


boyusha
words = [self.dic(word, True)
что за self.dic() ?



Отредактировано py.user.next (Май 4, 2014 23:29:38)

Офлайн

#9 Май 5, 2014 00:30:03

boyusha
Зарегистрирован: 2014-05-04
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Латентно-семантический анализ и поиск

прошу прощения, исправлюсь.
сейчас все исправлю правильно.
dic - функция, я выслал часть кода потому что ошибку пока он выдает именно на

boyusha
for doc in docs: self.add_doc(doc)
высылаю весь код:
class LSI(object):
    def __init__(self, stopwords, ignorechars, docs):
        self.wdict = {}
        self.dictionary = []
        self.stopwords = stopwords
        if type(ignorechars) == unicode:
            ignorechars = ignorechars.encode('utf-8')
        self.ignorechars = ignorechars
        for doc in docs: self.add_doc(doc)
    def prepare(self):
        self.build()
        self.calc()
    def dic(self, word, add = False):
        if type(word) == unicode:
            word = word.encode('utf-8')
        word = word.lower().translate(None, self.ignorechars)
        word = word.decode('utf-8')
        word = stemmer.stem(word)
        if word in self.dictionary:
            return self.dictionary.index(word)
        else:
            if add:
                self.dictionary.append(word)
                return len(self.dictionary) - 1
            else:
                return None
    def add_doc(self, doc):
        words = [self.dic(word, True) for word in doc.lower().split()]
        self.docs.append(words)
        for word in words:
            if word in self.stopwords:
                continue
            elif word in self.wdict:
                self.wdict[word].append(len(self.docs) - 1)
            else:
                self.wdict[word] = [len(self.docs) - 1]
    def build(self):
        self.keys = [k for k in self.wdict.keys() if len(self.wdict[k]) > 0]
        self.keys.sort()
        self.A = zeros([len(self.keys), len(self.docs)])
        for i, k in enumerate(self.keys):
            for d in self.wdict[k]:
                self.A[i,d] += 1
    def calc(self):
        self.U, self.S, self.Vt = svd(self.A)
    def TFIDF(self):
        wordsPerDoc = sum(self.A, axis=0)
        docsPerWord = sum(asarray(self.A > 0, 'i'), axis=1)
        rows, cols = self.A.shape
        for i in range(rows):
            for j in range(cols):
                self.A[i,j] = (self.A[i,j] / wordsPerDoc[j]) * log(float(cols) / docsPerWord[i])
    def dump_src(self):
        self.prepare()
        print 'Здесь представлен расчет матрицы '
        for i, row in enumerate(self.A):
            print self.dictionary[i], row
    def print_svd(self):
        self.prepare()
        print 'Здесь сингулярные значения'
        print self.S
        print 'Здесь первые 3 колонки U матрица '
        for i, row in enumerate(self.U):
            print self.dictionary[self.keys[i]], row[0:3]
        print 'Здесь первые 3 строчки Vt матрица'
        print -1*self.Vt[0:3, :]
    def find(self, word):
        self.prepare()
        idx = self.dic(word)
        if not idx:
            print 'слово невстерчается'
            return []
        if not idx in self.keys:
            print 'слово отброшено как не имеющее значения которое через stopwords'
            return []
        idx = self.keys.index(idx)
        print 'word --- ', word, '=', self.dictionary[self.keys[idx]], '.\n'
        # получаем координаты слова
        wx, wy = (-1 * self.U[:, 1:3])[idx]
        print 'word {}\t{:0.2f}\t{:0.2f}\t{}\n'.format(idx, wx, wy, word)
        arts = []
        xx, yy = -1 * self.Vt[1:3, :]
        for k, v in enumerate(self.docs):
            ax, ay = xx[k], yy[k]
            dx, dy = float(wx - ax), float(wy - ay)
            arts.append((k, v, ax, ay, sqrt(dx * dx + dy * dy)))
        return sorted(arts, key = lambda a: a[4])

Офлайн

#10 Май 5, 2014 01:21:57

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 10016
Репутация: +  857  -
Профиль   Отправить e-mail  

Латентно-семантический анализ и поиск

boyusha
и при запуске lsa = LSI(, ignorechars, docs), где docs - список новостей, “пишет” ошибку
эту ошибку нужно полностью скопировать

boyusha
self.docs.append(words)
где создаётся self.docs ?



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version