Найти - Пользователи
Полная версия: Подробное руководство по grab - библиотеки для парсинга сайтов
Начало » Web » Подробное руководство по grab - библиотеки для парсинга сайтов
1
lorien
Написал подробное руководство использованию grab. Grab это библиотека для парсинга сайтов, испльзующая силу pycurl и lxml библиотек.
Почитать можно на хабрахабре: http://habrahabr.ru/blogs/python/127584/
o7412369815963
Многопоточно работает?
Lexander
Цитата:
Немного разные акценты у библиотек — скрапи — это реально паук такой, бегает по сети, тянет в тыщу потоков информацию. А grab — это скорее швейцарский нож, вы его берёте и начинает вдумчиво колупать сайт. Асинхронной многопоточности в grab нет, всё что вы можете — это создать несколько tread-объектов и в каждом работать с grab. Но лучше только скачивать, у меня были проблемы с использованием lxml-модуля в нескольких потоках. Т.е. скачиваем в несколько потоков, парсим HTML в одном потоке. В curl есть некий multicurl, дающий эту самую асинхронность, но за несколько лет у меня так и не возникло острой надобности разобраться с ним. Это у меня в планах.
lorien
> Многопоточно работает?

Работает, запускаете несколько тредов и в каждом работает с объектом grab.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB