Уведомления

Группа в Telegram: @pythonsu

#1 Май 28, 2018 09:03:09

aydat
Зарегистрирован: 2016-09-28
Сообщения: 25
Репутация: +  0  -
Профиль   Отправить e-mail  

Обработка большого файла силами Python

Всем привет, у меня есть большой файл (от 150мб-5гб)
Изначально хотелось, весь файл обработать в питоне, через pandas, но к сожалению домашний ноутбук с 8гб ОЗУ не потянул и 8млн строк (out of memory), стационарный ПК с 8гб ОЗУ обработал 18млн строк за 15 мин - удаление дубликатов, удаление NAN строк, 2 фильтра и сохр результата (по-моему долго)
Решено было на питоне написать предобработку файла, а обрабатывать файл в БД

Каким образом мне можно быстро считать файл на примере 1.txt?
Тут же его обработать и перезаписать или нужно будет результат в новый файл сохранить?


я так понимаю считать только так?

 with open(...) as f:
    for line in f:
        <do something with line>




Отредактировано aydat (Май 28, 2018 09:26:58)

Офлайн

#2 Май 30, 2018 12:15:49

ZerG
Зарегистрирован: 2012-04-05
Сообщения: 2627
Репутация: +  61  -
Профиль   Отправить e-mail  

Обработка большого файла силами Python

Ипорт файла в БД
потом уже селектами фильтры обработки и так далее.

Либо бить файл на 10 частей и фильтровать в 10 потоках каждую.



Влодение рускай арфаграфией - это как владение кунг-фу: настаящие мастира не преминяют ево бес ниабхадимости

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version