Уведомления

Группа в Telegram: @pythonsu
  • Начало
  • » Web
  • » Подробное руководство по grab - библиотеки для парсинга сайтов [RSS Feed]

#1 Сен. 2, 2011 13:52:00

lorien
От:
Зарегистрирован: 2006-08-20
Сообщения: 755
Репутация: +  37  -
Профиль  

Подробное руководство по grab - библиотеки для парсинга сайтов

Написал подробное руководство использованию grab. Grab это библиотека для парсинга сайтов, испльзующая силу pycurl и lxml библиотек.
Почитать можно на хабрахабре: http://habrahabr.ru/blogs/python/127584/

Офлайн

#2 Сен. 2, 2011 20:13:40

o7412369815963
От:
Зарегистрирован: 2009-06-17
Сообщения: 1986
Репутация: +  32  -
Профиль   Отправить e-mail  

Подробное руководство по grab - библиотеки для парсинга сайтов

Офлайн

#3 Сен. 3, 2011 13:55:38

Lexander
От:
Зарегистрирован: 2008-09-19
Сообщения: 1139
Репутация: +  33  -
Профиль   Отправить e-mail  

Подробное руководство по grab - библиотеки для парсинга сайтов

Цитата:
Немного разные акценты у библиотек — скрапи — это реально паук такой, бегает по сети, тянет в тыщу потоков информацию. А grab — это скорее швейцарский нож, вы его берёте и начинает вдумчиво колупать сайт. Асинхронной многопоточности в grab нет, всё что вы можете — это создать несколько tread-объектов и в каждом работать с grab. Но лучше только скачивать, у меня были проблемы с использованием lxml-модуля в нескольких потоках. Т.е. скачиваем в несколько потоков, парсим HTML в одном потоке. В curl есть некий multicurl, дающий эту самую асинхронность, но за несколько лет у меня так и не возникло острой надобности разобраться с ним. Это у меня в планах.



Офлайн

#4 Сен. 3, 2011 20:33:02

lorien
От:
Зарегистрирован: 2006-08-20
Сообщения: 755
Репутация: +  37  -
Профиль  

Подробное руководство по grab - библиотеки для парсинга сайтов

> Многопоточно работает?

Работает, запускаете несколько тредов и в каждом работает с объектом grab.

Офлайн

  • Начало
  • » Web
  • » Подробное руководство по grab - библиотеки для парсинга сайтов[RSS Feed]

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version