Найти - Пользователи
Полная версия: Парсинг экранированных ссылок и JS кода
Начало » Python для экспертов » Парсинг экранированных ссылок и JS кода
1
magasoft
Приветствую!
Пишу простенький парсер html с использованием urllib2, beautifulsoup & selectsoup.
1. Проблема с доставанием “экранированных” ссылок вида www.domain.com/out.php?linkcode которая уже ссылается на реальный адрес. Как их достать? Укажи куда рыть, вроде сетевых библиотек пайтона должно быть достаточно.
1.1. Аналогичная ситуация с “динамическими” картинками, где src='image.php?linkcode'.
2. Также трудности (а точнее пока неясности) с тем как парсить javascript код в странице. В частности надо достать локации объектов на гуглокарте, которые задаются через js код. Решение в лоб: парсить регулярными выражениями, но может есть более красивое решение?
Благодарю!

p.s. перенес из раздела для новичков.
regall
urllib.urlopen('image.php?linkcode')
urllib.urlopen('www.domain.com/out.php?linkcode')
Дальше играетесь с тем, что оно возвращает
magasoft
regall, в принципе я и так с ними играюсь.
хотя вы правы, функция geturl() достает конечный адрес:
site = urllib.urlopen('image.php?linkcode')
siteurl = site.geturl()
спасибо.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB