DjangoBB LoFi version

Полная версия: из одного файла удалисть все строки со словами вход. во 2 файл

Начало » Python для новичков » из одного файла удалисть все строки со словами вход. во 2 файл

qwerthon

Янв. 25, 2011 01:05:57

Здравствуйте

если два файла
в первом куча словосочетаний из 1-4 слов. ( каждое с новой строки )
во втором слова ( каждое с новой строки )

фактически формат исходных файлов можно изменить ( если это каким-то образом ускорит дальнейшую обработку )

Содержимое первого файла постоянно меняется, второй же файл фактически является словарем.

нужно из первого файла удалить все фразы в которых встречается хоть 1 слово из второго файла.

как такую штуку сделать? интересует в плане производительность, т.к. размер файлов может быть достаточно большой, да и если сравнивать влоб слова то походу много проверок будет ….

в первую очередь интересуют механизмы питона на которых такое лучше всего сделать ( библиотеки, использовать списки или еще как-то … загонять в память или последовательно обрабатывать … и подобное ) + идеи возможной оптимизации.

в питоне дуб-дерево, так что если к ответу будет прилагаться код - будет просто отлично

Заранее всем большое спасибо.

Андрей Светлов

Янв. 25, 2011 01:32:16

Ваш “достаточно большой” второй файл целиком поместится в set/frozenset без всяких затруднений - и лучше не сделать.
Программа будет выполнятся на компьютере, у которого много-много мегабайтов оперативной памяти?

qwerthon

Янв. 25, 2011 09:39:32

Андрей Светлов
Программа будет выполнятся на компьютере, у которого много-много мегабайтов оперативной памяти?

предполагается установка программы на какой-то хостинг
В худшем случае это будет бесплатный хостинг ( или хостинг с минимальным тарифным планом )
Точное число памяти выделяемое на них неизвестно, но оно явно не превышает 10-20 метров на все нужды ( а то и меньше). А если размер обоих файлов будет близок к 10 метров то скорее всего возникнут проблемы с работой скрипта.

Андрей Светлов

Янв. 25, 2011 09:44:21

Тогда этот бесплатный хостинг даст вам еще и базу данных - поместите словарь в нее.