Я попытался “в лоб” сравнить два текстовых файла ~600 Мб каждый, чтобы выделить строки, которые есть в одном файле, но нет в другом:
hash = {} file = open("C:\\Temp\\file1.csv") for line in file: hash[line] = True file.close() file = open("C:\\Temp\\file2.csv") resfile = open("C:\\Temp\\cmp.csv", "wb") for line in file: if not line in hash: resfile.write(line) file.close() resfile.close()
Возможно, я криво написал код. Если так - поправьте, пожалуйста.
ActivePython 2.5 под WinXP. Или может, какой-нибудь awk под windows можно использовать?