Форум сайта python.su
У меня много поточный парсер и так как urlib(2) и pycurl, ибо у каждой свои проблемы и в основном просто не выдерживают такое количество потоков и лезут всякие проблемы в таком духе:
WARNING HttpConnectionPool is full, discarding connection:
Отредактировано juche-songun (Окт. 27, 2012 04:31:14)
Офлайн
pycurl лучше выкинуть, без оберток вроде grab им пользоваться очень неудобно.
Насчет urllib не скажу, но попеарю grab и request, ими пользоваться гораздо приятнее. А для более серьезного парсинга есть другие библиотеки.
Офлайн
парсинг простой, загрузка страницы и поиск значения, но выпадают другие запросы по резолву, хотя пинги до них идут.
Офлайн
Можно попробовать ограничить количество одновременных соединений, например, с помощью пула потоков.
Офлайн
тогда пропадает смысл много поточности.
Офлайн
Не пропадет. С неограничеными потоками ты или положишь сайт, или он сам начнет резать соединения.
Офлайн