Уведомления

Группа в Telegram: @pythonsu

#1 Янв. 25, 2011 01:05:57

qwerthon
От:
Зарегистрирован: 2011-01-25
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

из одного файла удалисть все строки со словами вход. во 2 файл

Здравствуйте

если два файла
в первом куча словосочетаний из 1-4 слов. ( каждое с новой строки )
во втором слова ( каждое с новой строки )

фактически формат исходных файлов можно изменить ( если это каким-то образом ускорит дальнейшую обработку )

Содержимое первого файла постоянно меняется, второй же файл фактически является словарем.


нужно из первого файла удалить все фразы в которых встречается хоть 1 слово из второго файла.

как такую штуку сделать? интересует в плане производительность, т.к. размер файлов может быть достаточно большой, да и если сравнивать влоб слова то походу много проверок будет ….


в первую очередь интересуют механизмы питона на которых такое лучше всего сделать ( библиотеки, использовать списки или еще как-то … загонять в память или последовательно обрабатывать … и подобное ) + идеи возможной оптимизации.

в питоне дуб-дерево, так что если к ответу будет прилагаться код - будет просто отлично

Заранее всем большое спасибо.



Офлайн

#2 Янв. 25, 2011 01:32:16

Андрей Светлов
От:
Зарегистрирован: 2007-05-15
Сообщения: 3137
Репутация: +  14  -
Профиль   Адрес электронной почты  

из одного файла удалисть все строки со словами вход. во 2 файл

Ваш “достаточно большой” второй файл целиком поместится в set/frozenset без всяких затруднений - и лучше не сделать.
Программа будет выполнятся на компьютере, у которого много-много мегабайтов оперативной памяти?



Офлайн

#3 Янв. 25, 2011 09:39:32

qwerthon
От:
Зарегистрирован: 2011-01-25
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

из одного файла удалисть все строки со словами вход. во 2 файл

Андрей Светлов
Программа будет выполнятся на компьютере, у которого много-много мегабайтов оперативной памяти?
предполагается установка программы на какой-то хостинг
В худшем случае это будет бесплатный хостинг ( или хостинг с минимальным тарифным планом )
Точное число памяти выделяемое на них неизвестно, но оно явно не превышает 10-20 метров на все нужды ( а то и меньше). А если размер обоих файлов будет близок к 10 метров то скорее всего возникнут проблемы с работой скрипта.



Офлайн

#4 Янв. 25, 2011 09:44:21

Андрей Светлов
От:
Зарегистрирован: 2007-05-15
Сообщения: 3137
Репутация: +  14  -
Профиль   Адрес электронной почты  

из одного файла удалисть все строки со словами вход. во 2 файл

Тогда этот бесплатный хостинг даст вам еще и базу данных - поместите словарь в нее.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version