Найти - Пользователи
Полная версия: гляньте pls в код, как убрать знаки препинания
Начало » Python для новичков » гляньте pls в код, как убрать знаки препинания
1
Irina_n
привет! нужна помощь!

код взять из генсим, я удалила stopworts через NLTK.
помогите pls убрать знаки препинания.

огромное спасибо!

import logging
logging.basicConfig(format= ‘%(asctime)s : %(levelname)s : %(message)s’, level=logging.INFO)
import re
from gensim import corpora, models, similarities
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

documents = [“Human machine, interface for lab abc, computer applications”,
“A survey: of user opinion - of computer system response time”]

stoplist = set(stopwords.words(“english”))
??????b = re.sub(ur'^*||\s(?$)(?u)', “ ”, documents)
texts = [
for document in documents]

dictionary = corpora.Dictionary(texts)
dictionary.save('/tmp/deerwester.dict') # store the dictionary, for future reference

new_doc = “Human computer interaction”
new_vec = dictionary.doc2bow(new_doc.lower().split())
corpus =
corpora.MmCorpus.serialize('/tmp/deerwester.mm', corpus) # store to disk, for later use

from pprint import pprint # pretty-printer

pprint(texts)
print(dictionary)
print(new_vec)
print(corpus)
JOHN_16
Код нужно оборачивать в теги code
ZerG
Кто понял что требуется сделать? 0_о
ajib6ept
ZerG
documents

Наверно из списка documents, надо удалить определенные стоп-слова, представленные в виде списка.
Стоп-слова он удалил, но не может из списка documents удалить знаки препинания.
doza_and
ajib6ept
Стоп-слова он удалил
:) Вы невнимательно посмотрели не он а она.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB