Найти - Пользователи
Полная версия: из одного файла удалисть все строки со словами вход. во 2 файл
Начало » Python для новичков » из одного файла удалисть все строки со словами вход. во 2 файл
1
qwerthon
Здравствуйте

если два файла
в первом куча словосочетаний из 1-4 слов. ( каждое с новой строки )
во втором слова ( каждое с новой строки )

фактически формат исходных файлов можно изменить ( если это каким-то образом ускорит дальнейшую обработку )

Содержимое первого файла постоянно меняется, второй же файл фактически является словарем.


нужно из первого файла удалить все фразы в которых встречается хоть 1 слово из второго файла.

как такую штуку сделать? интересует в плане производительность, т.к. размер файлов может быть достаточно большой, да и если сравнивать влоб слова то походу много проверок будет ….


в первую очередь интересуют механизмы питона на которых такое лучше всего сделать ( библиотеки, использовать списки или еще как-то … загонять в память или последовательно обрабатывать … и подобное ) + идеи возможной оптимизации.

в питоне дуб-дерево, так что если к ответу будет прилагаться код - будет просто отлично

Заранее всем большое спасибо.
Андрей Светлов
Ваш “достаточно большой” второй файл целиком поместится в set/frozenset без всяких затруднений - и лучше не сделать.
Программа будет выполнятся на компьютере, у которого много-много мегабайтов оперативной памяти?
qwerthon
Андрей Светлов
Программа будет выполнятся на компьютере, у которого много-много мегабайтов оперативной памяти?
предполагается установка программы на какой-то хостинг
В худшем случае это будет бесплатный хостинг ( или хостинг с минимальным тарифным планом )
Точное число памяти выделяемое на них неизвестно, но оно явно не превышает 10-20 метров на все нужды ( а то и меньше). А если размер обоих файлов будет близок к 10 метров то скорее всего возникнут проблемы с работой скрипта.
Андрей Светлов
Тогда этот бесплатный хостинг даст вам еще и базу данных - поместите словарь в нее.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB