DjangoBB LoFi version

Начало » Центр помощи » Работа с текстом

Naka

Фев. 16, 2011 18:14:15

Доброго времени суток. Возникла такая проблема: есть файл с текстом, текст рассматривается как словарь. Необходимо почистить его от ненужных слов и знаков (знаки препинания, скобки).

f = open("new.txt")
stop_symbols = '".,!?:;-\n\r[]/()'
stop_words = ('это', 'в', 'на')
wdict = {}                         
for line in f.readlines():          
    line = string.strip(line, " \n")
    for word in line.split(" "): 
        try:                            
            wdict[word] += 1            
        except KeyError:                
            wdict[word] = 1

Заранее спасибо.

coni-lole

Фев. 16, 2011 22:23:42

Naka
Доброго времени суток. Возникла такая проблема: есть файл с текстом, текст рассматривается как словарь. Необходимо почистить его от ненужных слов и знаков (знаки препинания, скобки).

import string
from collections import defaultdict
data = f.read()
exclude_punctuation = set(string.punctuation)
exclude_words = set("куки","смс", "бесплатно")
freq = defaultdict(lambda:0)
for word in (''.join(ch for ch in data if ch not in exclude_punctuation)).split():
    if word not in exclude_words:
        freq[word]+=1

Naka

Фев. 18, 2011 18:47:48

Спасибо за помощь