Уведомления

Группа в Telegram: @pythonsu

#1 Дек. 22, 2009 04:21:44

magasoft
От:
Зарегистрирован: 2009-12-20
Сообщения: 33
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг экранированных ссылок и JS кода

Приветствую!
Пишу простенький парсер html с использованием urllib2, beautifulsoup & selectsoup.
1. Проблема с доставанием “экранированных” ссылок вида www.domain.com/out.php?linkcode которая уже ссылается на реальный адрес. Как их достать? Укажи куда рыть, вроде сетевых библиотек пайтона должно быть достаточно.
1.1. Аналогичная ситуация с “динамическими” картинками, где src='image.php?linkcode'.
2. Также трудности (а точнее пока неясности) с тем как парсить javascript код в странице. В частности надо достать локации объектов на гуглокарте, которые задаются через js код. Решение в лоб: парсить регулярными выражениями, но может есть более красивое решение?
Благодарю!

p.s. перенес из раздела для новичков.



Офлайн

#2 Дек. 22, 2009 09:15:38

regall
От: Киев
Зарегистрирован: 2008-07-17
Сообщения: 1583
Репутация: +  3  -
Профиль   Отправить e-mail  

Парсинг экранированных ссылок и JS кода

urllib.urlopen('image.php?linkcode')
urllib.urlopen('www.domain.com/out.php?linkcode')
Дальше играетесь с тем, что оно возвращает



Офлайн

#3 Дек. 22, 2009 09:42:46

magasoft
От:
Зарегистрирован: 2009-12-20
Сообщения: 33
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг экранированных ссылок и JS кода

regall, в принципе я и так с ними играюсь.
хотя вы правы, функция geturl() достает конечный адрес:

site = urllib.urlopen('image.php?linkcode')
siteurl = site.geturl()
спасибо.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version