Форум сайта python.su
0
Доброго дня!
Столкнулся вот с какой задачей: необходимо открыть и прочитать много-много веб-страниц. Да, urlopen справляется с задачей, но там около 15 тысяч страниц, и время получается приличное. Есть ли какой-либо способ пакетной обработки, или, возможно, стоит распараллелить? (в таком случае, прошу ткнуть меня носом в пример, так как в питоне я ещё, в общем-то, новичок.
Заранее спасибо
Отредактировано vandrouny (Окт. 30, 2013 21:49:30)
Офлайн
221
Я бы рекомендовал Queue, высокоуровневая библиотека, проще разобраться будет. Вот моя статья на счет этого с кучкой примеров.
Офлайн
15
1) С помощью threadpoolexecutor распараллелить.
2) Использовать grab.spider
3) Использовать Scrapy
Офлайн
32
Вот пример асинхронного загрузчика на торнадо http://www.py-my.ru/post/4f278211bbddbd0322000000
Офлайн