Найти - Пользователи
Полная версия: Работа с текстом
Начало » Центр помощи » Работа с текстом
1
Naka
Доброго времени суток. Возникла такая проблема: есть файл с текстом, текст рассматривается как словарь. Необходимо почистить его от ненужных слов и знаков (знаки препинания, скобки).

f = open("new.txt")
stop_symbols = '".,!?:;-\n\r[]/()'
stop_words = ('это', 'в', 'на')
wdict = {}
for line in f.readlines():
line = string.strip(line, " \n")
for word in line.split(" "):
try:
wdict[word] += 1
except KeyError:
wdict[word] = 1
Заранее спасибо.
coni-lole
Naka
Доброго времени суток. Возникла такая проблема: есть файл с текстом, текст рассматривается как словарь. Необходимо почистить его от ненужных слов и знаков (знаки препинания, скобки).
import string
from collections import defaultdict
data = f.read()
exclude_punctuation = set(string.punctuation)
exclude_words = set("куки","смс", "бесплатно")
freq = defaultdict(lambda:0)
for word in (''.join(ch for ch in data if ch not in exclude_punctuation)).split():
if word not in exclude_words:
freq[word]+=1
Naka
Спасибо за помощь
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB