Форум сайта python.su
Приветствую!
Пишу простенький парсер html с использованием urllib2, beautifulsoup & selectsoup.
1. Проблема с доставанием “экранированных” ссылок вида www.domain.com/out.php?linkcode которая уже ссылается на реальный адрес. Как их достать? Укажи куда рыть, вроде сетевых библиотек пайтона должно быть достаточно.
1.1. Аналогичная ситуация с “динамическими” картинками, где src='image.php?linkcode'.
2. Также трудности (а точнее пока неясности) с тем как парсить javascript код в странице. В частности надо достать локации объектов на гуглокарте, которые задаются через js код. Решение в лоб: парсить регулярными выражениями, но может есть более красивое решение?
Благодарю!
p.s. перенес из раздела для новичков.
Офлайн
urllib.urlopen('image.php?linkcode')
urllib.urlopen('www.domain.com/out.php?linkcode')
Офлайн
regall, в принципе я и так с ними играюсь.
хотя вы правы, функция geturl() достает конечный адрес:
site = urllib.urlopen('image.php?linkcode')
siteurl = site.geturl()
Офлайн