Ctrl →

erl · Янв. 30, 2011 14:57:05

Здравствуйте Уважаемые!

Обрабатываю двоичный файл, специализированного формата(формат предоставить не предстваляется возможным), но суть его такова при встрече метки из двух байт завершается некая запись, которую необходимо парсить и так пока не конец файла.

    for line in open(soiurce_file,"rb").readlines():
        #print "in, val: " + str(index) + ", " + line
        new_line.extend([char for char in line])

далее ходим по new_line циклом for и ищем все что нужно через if

Файл 500 метров парсистся 11 минут - это ни в какие ворота не лезет, сосбвтенно как ускорить?
тот же алгоритм на C# парсится 45 секунд.

Ed · Янв. 30, 2011 16:26:41

readlines читает весь файл как текстовый, разбивая его на строки. Оно вам надо? Читайте блоками, используя read и все будет хорошо.

o7412369815963 · Янв. 30, 2011 18:24:38

конвертнуть его в sqlite

Запуск программ из Python
Кодировки в python
Мой блог

erl · Янв. 30, 2011 20:02:23

sqlite не работал не знаю как это будет выглядеть изучать времени нет, да да как обычно “Ни когда нет времени сделать все грамотно, зато потом уйма что бы все переделать” :-)
Нашел, собственно:

    fh = file(source_file,"rb")
    a = array.array('b')
    a.read(fh, 100000)
    while a:
        a = array.array('b')
        try:
            a.read(fh, 100000)
        except Exception, exc:
            if str(exc) == "not enough items in file":
                break

Просто проход и запись и удаление в array: Total time exec: 0:00:00.789068
Это эталон, от которого и буду песни плясать.

Всем спасибо,
благодарствую Ed, благодарствую o7412369815963

erl · Янв. 31, 2011 13:16:38

все перегрелся, теперь из массива не могу нормальные данные достать, все перековеркалось.

certanista · Янв. 31, 2011 21:35:53

Можно просто

for line in open(soiurce_file,"rb")

Без readlines(). Субъективно быстрее, точно не мерил.

erl · Фев. 2, 2011 09:25:54

пробовал ощутимого эффекта не заметил.

asv13 · Фев. 2, 2011 11:21:24

У меня разбор бинарников выглядит примерно так :

from struct import unpack
f = open(filename, 'rb')
while ok:
	head = f.read(20) ## 20 = calcsize('>L8cL4c')
	if len(head)==0: 
            ok = 0;
	else:
	    z, name, datalen, type = unpack('>L8sL4s', head) 
            if datalen == 0 and ...
....

Может у вас и не такой формат, в котором размер и тип данных определяется в заголовках, но я обычно не читаю посимвольно, а знаю сколько сразу данных забрать в буфер (хоть сотню мегабайт) и как их сразу потом сконвертировать.

erl · Фев. 2, 2011 12:13:34

Если все было так просто. За идею спасибо.
Ситуация в том, что конец конкретной записи определяется двух байтовой меткой, запись переменной длинны. т.е необходимо найти эту метку и лишь потом считать запись … и так много-много раз … до конца файла. Разбить файл на метки не получиться … вот это может проканать …

Отредактировано (Фев. 2, 2011 12:14:52)

asv13 · Фев. 2, 2011 13:00:32

Я бы попробовал тогда использовать numpy.memmap и сразу определить положение всех меток.

Memory-mapped files are used for accessing small segments of large files on disk, without reading the entire file into memory. Numpy's memmap's are array-like objects.

Python-сообщество

Уведомления

#1 Янв. 30, 2011 14:57:05

Ускорение обработки двоичного файла

#2 Янв. 30, 2011 16:26:41

Ускорение обработки двоичного файла

#3 Янв. 30, 2011 18:24:38

Ускорение обработки двоичного файла

#4 Янв. 30, 2011 20:02:23

Ускорение обработки двоичного файла

#5 Янв. 31, 2011 13:16:38

Ускорение обработки двоичного файла

#6 Янв. 31, 2011 21:35:53

Ускорение обработки двоичного файла

#7 Фев. 2, 2011 09:25:54

Ускорение обработки двоичного файла

#8 Фев. 2, 2011 11:21:24

Ускорение обработки двоичного файла

#9 Фев. 2, 2011 12:13:34

Ускорение обработки двоичного файла

#10 Фев. 2, 2011 13:00:32

Ускорение обработки двоичного файла

Board footer