Форум сайта python.su
Для написания одной программки нужно пропарсить страницу сайта с выводом нужного элемента. Порыскав в инете, нашел вполне подходящий мне пример, немного его изменил, но возникла загвоздка: не могу понять, чтобы получить xpath или css-путь к нужному элементу (тэгу) использую утилиту Firebug для Firefox, но код который выдает Firebug (при просмотре всей страницы) значительно отличается от кода, который выдается, если нажать ПКМ по странице и выбрать “Исходный код страницы”. И поэтому когда я пытаюсь получить содержимое нужного элемента, то скрипт ничего не выдает. Следовательно возникает вопрос: что это за коды такие, которые отличаются?
import lxml.html
import urllib
page = urllib.urlopen('http://www.site.com')
doc = lxml.html.document_fromstring(page.read())
search = '/html/body'
for track in doc.xpath(search):
print track.text
Отредактировано (Фев. 28, 2012 02:07:44)
Офлайн
“Исходный код страницы” показывает то, что браузер получил от сервера. Firebug показывает то дерево, что в итоге отображено. При этом исходный код мог содержать ошибки и браузер их интерпретирует по своему. Плюс часть элементов может генерироваться/преобразовываться скриптами. Давайте уже урл и путь к элементу.
Офлайн
Тада page и search будут выглядеть так.
page = urllib.urlopen('http://www.grind.fm/radio')
...
search = '/html/body/div[3]/div/div/div/div[2]/div/div/div[4]/div/table/tbody/tr[2]/th[2]'
Отредактировано (Фев. 28, 2012 04:46:45)
Офлайн
Ну дык там таблица через javascript с урла http://www.grind.fm/sites/grind.fm/counter/meta2.php подгружается, его и стоит парсить - обрезать начало и конец и будет чистый JSON
Офлайн
PooH, спасибо, дальше работа закипела и ток щас отписываюсь)) и вопросец волнует, как вы узнали этот урл?
Отредактировано (Фев. 29, 2012 15:33:06)
Офлайн
JazzisJavascript на странице почитал. Можно было еще запросы в Firebug, на вкладке Сеть посмотреть.
и вопросец волнует, как вы узнали этот урл?
Офлайн