Форум сайта python.su
Здравствуйте, помогите пожалуйста придумать каким образом вытащить жанры с сайта https://my-hit.org/film/ah/ (май-хит.ру), через xpath вытащить не могу так как там нет подходящего класа, думал как нибудь вытащить отсюда но понял что не рационально - должен же быть нормальный способ
<ul class="list-unstyled"> <li> <b>Жанр:</b> <a href="/film/ah/">Ужасы</a> , <a href="/film/ai/">Триллер</a> , <a href="/film/aj/">Детектив</a> . </li> <li>
Офлайн
>>> import requests >>> from lxml import html >>> >>> url = "https://my-hit.org/film/ah/" >>> doc = html.fromstring(requests.get(url).content) >>> for i in doc.xpath('//ul[@class="nav nav-list"]')[1].xpath('li')[2:]: ... a = i.xpath('a') ... if not a: ... break ... print i.text_content().strip(), a[0].get('href') ... Биография /film/ah-av/ Боевик /film/ab-ah/ Вестерн /film/ah-az/ Военный /film/ah-at/ Детектив /film/ah-aj/ Детский /film/a2-ah/ Документальный /film/ag-ah/ Драма /film/ad-ah/ Исторический /film/ah-aq/ Комедия /film/a6-ah/ Криминал /film/af-ah/ Мелодрама /film/ah-al/ Мистика /film/ah-ak/ Музыка /film/a8-ah/ Мультфильм /film/a9-ah/ Мюзикл /film/ac-ah/ Приключения /film/a1-ah/ Психологический /film/a1b-ah/ Разное /film/a2k-ah/ Романтический /film/a18-ah/ Семейный /film/a3-ah/ Спорт /film/ah-ap/ Триллер /film/ah-ai/ Фантастика /film/aa-ah/ Фэнтези /film/a7-ah/
Офлайн
Спасибо, но я наверное не так выразился, я хотел получить жанры конкретного фильма, типа
Тихий приют / Sіlеnt Rеtrеаt
Жанр: Ужасы, Триллер, Детектив.
Не забывай меня / Forget Me Not
Жанр: Ужасы, Триллер, Мелодрама.
Офлайн
# -*- coding: utf-8 -*- import requests from lxml import html url = "https://my-hit.org/film/ah/" doc = html.fromstring(requests.get(url).content) for i in doc.xpath( '//div[@id="film-list"]/div[@class="row"]/div[@class="col-xs-9"]'): t = i.find('b/a') print t.get('href'), t.text_content(), for i in i.xpath('ul/li[1]/a'): print i.text_content(), print
Офлайн
Спасибо, лови плюс))
Офлайн