Форум сайта python.su
дело обстоит в следующем(((
значит мне изначально нужно создать файл, который содержит 5 текстовых документов. .txt
каждый текстовый документ содержит мини-текст (допустим одно предложение) на заданную тему.
например
1. История - самый важный предмет в школе.
2. История России интересует любого учащегося в школе.
3. Эта занятная история поразила всех учащихся и их родителей.
4. Правительство России не обращает внимание на небрежное отношение к истории страны.
5. В этой занятной истории главным героем был Вова.
Эти пять текстов составляют так называемый КОРПУС.
Далее Я у пользователя, который сидит перде компом в моей программе спрашиваю “Введите свою фразу”
Он мне вводит - Мой любимый предмет в школе - История.
и моя задача - найти - сколько соответствий (слов) его предложения совпадают с набором моих слов.
если нет ни одного совпадения - результат будет ноль. если есть совпадения - то будет указано их количество.
всё что нам объяснили по этой задаче - это то, что сначала я составляю как бы табличку по своим текстам.
то есть Текст 1. История , самый, важный, предмет, школа
Текст 2
и так далее
то есть я составляю список встречающихся значимых слов и количество их употребления во всех текстах.
далее я составляю список пустых слов ( то есть это глагол связка, союзы , предлоги и так далее) так называемый Антисловарь (antidico)
которые повторяются слишком часто, однако это не значит, что тексты похожи между собой по смыслу, и удаляю их из своего списка слов
в общем итог - это узнать, насколько заданный пользователем текст близок к моему словарю.
вот попробовала чтото сделать…((
# -*- coding: utf-8 -*-
#Чтобы использовать все тексты из нашего файла , так называемого CORPUS
import os,glob
os.chdir(corpus)
glob.glob(“*.txt”)
# спрашиваем фразу у пользователя
requete = raw_input(“Введите фразу, которую вы ищите : ”)
# нужно это сделать с каждым файлом, находящимся в нашей папке “corpus”
fichier = open(“Texte2.txt”,“r”)
texte = fichier.read()
#чтобы все заглавные буквы превратить в прописные
requete.lower()
texte.lower()
# для того, чтобы создать список слов, мы используем команду split
liste = texte.split()
fichier.close
print liste
# для того чтобы убрать все пустые, незначимые слова, которые составляют наш антисловарь
antidico =
newliste = liste.del(antidico)
print newliste
# букля, которая читает все тексты
# букля, которая читает все слова и удаляет пустые слова и повторения
for i in antidico
if i in liste
liste = liste.remove(i)
i = i+1
nbtotal = liste.count()
# lemmatiseur bonus
# TF-IDF
# TF : частотность терминов соответствует числу употребляемости слова (occurrence) , разделенного на число всех терминов (слов) в тексте
#i = 0
for i in liste
occurrences = liste.count(i)
TF = occurrences/nbtotal
print TF
# i = i + 1
# calcolo
import math
r = math.sqrt(r1+r2+r3)
u = math.sqrt(u1+u2+u3)
помогите дописать плз(((
Офлайн