Найти - Пользователи
Полная версия: Обработка большого файла силами Python
Начало » Python для новичков » Обработка большого файла силами Python
1
aydat
Всем привет, у меня есть большой файл (от 150мб-5гб)
Изначально хотелось, весь файл обработать в питоне, через pandas, но к сожалению домашний ноутбук с 8гб ОЗУ не потянул и 8млн строк (out of memory), стационарный ПК с 8гб ОЗУ обработал 18млн строк за 15 мин - удаление дубликатов, удаление NAN строк, 2 фильтра и сохр результата (по-моему долго)
Решено было на питоне написать предобработку файла, а обрабатывать файл в БД

Каким образом мне можно быстро считать файл на примере 1.txt?
Тут же его обработать и перезаписать или нужно будет результат в новый файл сохранить?


я так понимаю считать только так?

 with open(...) as f:
    for line in f:
        <do something with line>




ZerG
Ипорт файла в БД
потом уже селектами фильтры обработки и так далее.

Либо бить файл на 10 частей и фильтровать в 10 потоках каждую.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB