Python-сообщество

magasoft · Дек. 22, 2009 04:21:44

Приветствую!
Пишу простенький парсер html с использованием urllib2, beautifulsoup & selectsoup.
1. Проблема с доставанием “экранированных” ссылок вида www.domain.com/out.php?linkcode которая уже ссылается на реальный адрес. Как их достать? Укажи куда рыть, вроде сетевых библиотек пайтона должно быть достаточно.
1.1. Аналогичная ситуация с “динамическими” картинками, где src='image.php?linkcode'.
2. Также трудности (а точнее пока неясности) с тем как парсить javascript код в странице. В частности надо достать локации объектов на гуглокарте, которые задаются через js код. Решение в лоб: парсить регулярными выражениями, но может есть более красивое решение?
Благодарю!

p.s. перенес из раздела для новичков.

regall · Дек. 22, 2009 09:15:38

urllib.urlopen('image.php?linkcode')
urllib.urlopen('www.domain.com/out.php?linkcode')

Дальше играетесь с тем, что оно возвращает

magasoft · Дек. 22, 2009 09:42:46

regall, в принципе я и так с ними играюсь.
хотя вы правы, функция geturl() достает конечный адрес:

site = urllib.urlopen('image.php?linkcode')
siteurl = site.geturl()

спасибо.

Python-сообщество

Уведомления

#1 Дек. 22, 2009 04:21:44

Парсинг экранированных ссылок и JS кода

#2 Дек. 22, 2009 09:15:38

Парсинг экранированных ссылок и JS кода

#3 Дек. 22, 2009 09:42:46

Парсинг экранированных ссылок и JS кода

Board footer