Форум сайта python.su
0
Здравствуйте
если два файла
в первом куча словосочетаний из 1-4 слов. ( каждое с новой строки )
во втором слова ( каждое с новой строки )
фактически формат исходных файлов можно изменить ( если это каким-то образом ускорит дальнейшую обработку )
Содержимое первого файла постоянно меняется, второй же файл фактически является словарем.
нужно из первого файла удалить все фразы в которых встречается хоть 1 слово из второго файла.
как такую штуку сделать? интересует в плане производительность, т.к. размер файлов может быть достаточно большой, да и если сравнивать влоб слова то походу много проверок будет ….
в первую очередь интересуют механизмы питона на которых такое лучше всего сделать ( библиотеки, использовать списки или еще как-то … загонять в память или последовательно обрабатывать … и подобное ) + идеи возможной оптимизации.
в питоне дуб-дерево, так что если к ответу будет прилагаться код - будет просто отлично
Заранее всем большое спасибо.
Офлайн
14
Ваш “достаточно большой” второй файл целиком поместится в set/frozenset без всяких затруднений - и лучше не сделать.
Программа будет выполнятся на компьютере, у которого много-много мегабайтов оперативной памяти?
Офлайн
0
Андрей Светловпредполагается установка программы на какой-то хостинг
Программа будет выполнятся на компьютере, у которого много-много мегабайтов оперативной памяти?
Офлайн
14
Тогда этот бесплатный хостинг даст вам еще и базу данных - поместите словарь в нее.
Офлайн