Ctrl →

baragoz · Дек. 30, 2010 09:21:12

Всем здравствуйте!

Есть небольшая программка, сортирующая файл с данными (удаляет повторяющиеся элементы).
Работает исправно. Но долго. Тачка не слабая, 4 ядра. Программулька использует только одно и то на 20-25 процентов!

Вопрос в том, как уговорить прогу кушать одно (два-три) ядро целиком или хотя бы близко к целому?

Заранее благодарю!

P.S. если интересно, файл в ~500 000 строк. Дальше будет больше.

Андрей Светлов · Дек. 30, 2010 09:50:48

Практически уверен, что вы упираетесь не в процессор а в память.
Полмиллиона строк зачитываются в один список, а потом оттуда удаляются нужные строчки и лишь затем список пишется в файл, верно?

baragoz · Дек. 30, 2010 09:52:03

Да.

P.S. multiprocessing поможет?

baragoz · Дек. 30, 2010 09:53:18

Я может чего-то не понимаю, но для машины полляма строк ведь не страшны? =) Я про память, если она быстрая и ее много =)

Отредактировано (Дек. 30, 2010 09:53:57)

Андрей Светлов · Дек. 30, 2010 09:53:23

Нет, не поможет.

baragoz · Дек. 30, 2010 09:54:34

Разбивать файл?

Андрей Светлов · Дек. 30, 2010 09:59:15

Скормите файл построчно в sqlite (базу можно создавать и в памяти). Выйдет дешево и сердито.
Альтернатива - самому строить множество уже использованных строк. Главное - не удалять ни в коем случае, только добавлять.
И использовать множество, которое на хешах - а не список.

guranvir · Дек. 30, 2010 10:00:15

Сами операции ввода\вывода все равно остаются довольно дорогими и долгими: извечная проблема отставания интерфейсов обмена данными от скорости работы ЦПУ. Оно и понятно,если в ОЗУ там хоть просто надо рассчитать адрес ячеек и послать управляющие сигналы на считывание, что вобщем то то же не так чтоб супербыстро, то с жестким диском все гораздо дольше. А ведь насколько я понимаю программа работает при синхронном режиме ввода\вывода, то она ждет пока все будет считано.
Вам бы функцию-гненератор , которая считывала бы небольшими порциями. Возможно Вам помогут еще сопрограммы

guranvir · Дек. 30, 2010 10:01:16

А вот вариант Андрея более правильный))

baragoz · Дек. 30, 2010 10:09:56

guranvir Спасибо за разъяснения.
Андрей, если Вас не затруднит, можно поподробнее?

list = open(“/home/файл”, “r”).readlines() разве не читает фесь файл разом в ОЗУ?

# -*- coding: utf8 -*- #

import sys

list = open("/home/file.fl", "r").readlines()
list2 = open("/home/file2.fl", "w")

# проверка наличия повторяющихся элемнетов
for i in xrange(len(list)-1, -1, -1):
    if list.count(list[i]) != 1:
        del list[i]

#  сохранение результата в файл
for line in list:
    list2.write(line)
list.close()
list2.close()
sys.exit()

Проверку на повторы взял с форума =)

Правильно ли я понимаю алгоритм?

1. читаем файл в оперативку
2. пробегаемся по нему и ищем повторы (для каждой строки новый проход по всему файлу) и удаляем повторы.
3. построчно сохраняем получившийся список из оперативки на диск в другой файл.

Отредактировано (Дек. 30, 2010 10:17:28)

Python-сообщество

Уведомления

#1 Дек. 30, 2010 09:21:12

Рациональное использование CPU.

#2 Дек. 30, 2010 09:50:48

Рациональное использование CPU.

#3 Дек. 30, 2010 09:52:03

Рациональное использование CPU.

#4 Дек. 30, 2010 09:53:18

Рациональное использование CPU.

#5 Дек. 30, 2010 09:53:23

Рациональное использование CPU.

#6 Дек. 30, 2010 09:54:34

Рациональное использование CPU.

#7 Дек. 30, 2010 09:59:15

Рациональное использование CPU.

#8 Дек. 30, 2010 10:00:15

Рациональное использование CPU.

#9 Дек. 30, 2010 10:01:16

Рациональное использование CPU.

#10 Дек. 30, 2010 10:09:56

Рациональное использование CPU.

Board footer