Форум сайта python.su
Доброго времени суток. Возникла такая проблема: есть файл с текстом, текст рассматривается как словарь. Необходимо почистить его от ненужных слов и знаков (знаки препинания, скобки).
f = open("new.txt")
stop_symbols = '".,!?:;-\n\r[]/()'
stop_words = ('это', 'в', 'на')
wdict = {}
for line in f.readlines():
line = string.strip(line, " \n")
for word in line.split(" "):
try:
wdict[word] += 1
except KeyError:
wdict[word] = 1
Офлайн
Naka
Доброго времени суток. Возникла такая проблема: есть файл с текстом, текст рассматривается как словарь. Необходимо почистить его от ненужных слов и знаков (знаки препинания, скобки).
import string
from collections import defaultdict
data = f.read()
exclude_punctuation = set(string.punctuation)
exclude_words = set("куки","смс", "бесплатно")
freq = defaultdict(lambda:0)
for word in (''.join(ch for ch in data if ch not in exclude_punctuation)).split():
if word not in exclude_words:
freq[word]+=1
Отредактировано (Фев. 16, 2011 22:24:25)
Офлайн
Спасибо за помощь
Офлайн