Приветствую!
Пишу простенький парсер html с использованием urllib2, beautifulsoup & selectsoup.
1. Проблема с доставанием “экранированных” ссылок вида www.domain.com/out.php?linkcode которая уже ссылается на реальный адрес. Как их достать? Укажи куда рыть, вроде сетевых библиотек пайтона должно быть достаточно.
1.1. Аналогичная ситуация с “динамическими” картинками, где src='image.php?linkcode'.
2. Также трудности (а точнее пока неясности) с тем как парсить javascript код в странице. В частности надо достать локации объектов на гуглокарте, которые задаются через js код. Решение в лоб: парсить регулярными выражениями, но может есть более красивое решение?
Благодарю!
p.s. перенес из раздела для новичков.