Добрый вечер.
Возникла необходимость в загрузке и обработке .csv файла из 3.5 миллиона строк.
Строки содержат дату, текстовые поля, поля с целыми и рациональными числами.
Некоторые элементы маркируются NaN (по аналогии с матлабовским NaN).
Собственно, вопрос: чем лучше считывать такие данные с целью последующей статистической обработки (данные модифицировать не надо)?
Пробовал loadtxt (из numpy).
В результате получаю одномерный массив картежей, что исключает лёгкое итерирование (например, надо получить i-ый столбец данных и уже не напишешь data).
Основной приоритет - быстрый доступ к данным с возможностью получать часть таблицы.
В дальнейшем планируется генерировать и обрабатывать подтаблицы по запросу (например, объединять в подтаблицы записи, имеющие одинаковые id, но разные временные теги).
Ну и хотелось бы, чтобы решение, по возможности, было масштабируемо на случай обработки файлов в 20-25 миллионов строк.