Найти - Пользователи
Полная версия: Мультипоточность и мультипроцессинг при парсинге сайтов
Начало » Python для новичков » Мультипоточность и мультипроцессинг при парсинге сайтов
1 2
Rodegast
> Правильно ли я понимаю логику?

Нет. Есть 2 класса задач которые питонщики постоянно путают. Это конкурентность и параллелизм. Если кратко, то параллелизм это ускорение вычисления одной тяжёлой задали за счёт вычисления её частей одновременно на разных ядрах/процессорах, а конкурентность это предоставление доступа к одному ресурсу множеству клиентов.
В python-е в приделах одного процесса можно реализовать только конкурентность, у тебя же конкурентная задача. Просто замени процессы на потоки и всё.

> Пишу в файл следующим образом, где proc - имя процесса

И в чём проблема?

> А одни и те же прокси, то срабатывают, то нет + иногда капчу на них выдает, которая со временем проходит.

Если прокси один раз не отвечает, то заноси его в “чёрный список” сроком например на 30 мин.
Room_on
> И в чём проблема?
Ни в чём, просто хотел убедиться, что твой способ подходит к моему случаю Спасибо.

Про конкурентость. А почему не будет лучше, например разделить задачу между 4-мя ядрами по 15 тыс. ссылок из 60, а дальше уже запускать например в 1000 потоков каждый из 4-х процессов?

Rodegast
> А почему не будет лучше, например разделить задачу между 4-мя ядрами по 15 тыс. ссылок из 60, а дальше уже запускать например в 1000 потоков каждый из 4-х процессов?

В этом есть смысл только если процессор испытывает значительную нагрузку, иначе multiprocessing будет только создавать проблемы.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB