DjangoBB LoFi version

Полная версия: lxml parse

Начало » Python для новичков » lxml parse

ashimano

Июнь 7, 2016 22:21:37

Помогите мне пожалуйста. Уже очень много тем посмотрел, но ничего не выходит.

from lxml.html import parse 
page = parse('http://ria.ru/religion/all.html').getroot() 
fc = page.find_class('b-list')  
print (fc)

Когда так пишу, выдает мне тип элемента и его размер, если я не ошибаюсь.
А как сделать так, чтобыон мне вывел все то, что содержится в нем?
Я понимаю, что надо цикл сделать

for row in fc:

но у меня проблема с выводом информации идет.

pyuser

Июнь 8, 2016 03:57:56

Оно?

from lxml.html import parse, tostring
page = parse('http://ria.ru/religion/all.html').getroot() 
fc = page.find_class('b-list') 
print(*(tostring(e) for e in fc), sep="\n")

papuas

Июнь 8, 2016 22:16:49

http://lxml.de/lxmlhtml.html
.text_content():
Returns the text content of the element, including the text content of its children, with no markup.

>>> type(fc)
<type 'list'>

Ваш fc контейнер содержит в себе список из нескольких контейнеров.

<div class="b-list">
     <div class="b-list__item">
     <a href="/religion/20160608/1444696851.html">
     <div class="b-list__item-story">
     <div class="b-list__item-announce">
     <div class="b-list__item-info">
</div>

>>> for x in fc:
...     print x.text_content()
...

но я думаю проще достать контент из них используя Xpath