Уведомления

Группа в Telegram: @pythonsu

#1 Фев. 16, 2011 18:14:15

Naka
От:
Зарегистрирован: 2011-02-16
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

Работа с текстом

Доброго времени суток. Возникла такая проблема: есть файл с текстом, текст рассматривается как словарь. Необходимо почистить его от ненужных слов и знаков (знаки препинания, скобки).

f = open("new.txt")
stop_symbols = '".,!?:;-\n\r[]/()'
stop_words = ('это', 'в', 'на')
wdict = {}
for line in f.readlines():
line = string.strip(line, " \n")
for word in line.split(" "):
try:
wdict[word] += 1
except KeyError:
wdict[word] = 1
Заранее спасибо.



Офлайн

#2 Фев. 16, 2011 22:23:42

coni-lole
От:
Зарегистрирован: 2010-12-10
Сообщения: 16
Репутация: +  0  -
Профиль   Отправить e-mail  

Работа с текстом

Naka
Доброго времени суток. Возникла такая проблема: есть файл с текстом, текст рассматривается как словарь. Необходимо почистить его от ненужных слов и знаков (знаки препинания, скобки).
import string
from collections import defaultdict
data = f.read()
exclude_punctuation = set(string.punctuation)
exclude_words = set("куки","смс", "бесплатно")
freq = defaultdict(lambda:0)
for word in (''.join(ch for ch in data if ch not in exclude_punctuation)).split():
if word not in exclude_words:
freq[word]+=1



Отредактировано (Фев. 16, 2011 22:24:25)

Офлайн

#3 Фев. 18, 2011 18:47:48

Naka
От:
Зарегистрирован: 2011-02-16
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

Работа с текстом

Спасибо за помощь



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version