DjangoBB LoFi version

Начало » Python для новичков » Вопрос по XPath

tfox

Ноя. 3, 2012 12:55:51

Привет всем.
Мне необходимо получить текст всех элементов <p> из html-документа.
Функция xpath_text('//p') возвращает только первый абзац. А как вернуть текст всех абзацев?
Спасибо.

adray

Ноя. 3, 2012 18:29:55

import lxml.html
>>> doc = lxml.html.fromstring(open('html.htm').read())
>>> p = doc.xpath("//p")
>>> map(lambda x: x.text_content(), p)

tfox

Ноя. 3, 2012 19:42:06

Спасибо. А нет ли более простого решения? Здесь уже пошло функциональное программирование. Может быть есть функция которая вернет не первый узел, а все узлы?

В документации XPath написано: “P” - вернет все элементы P
Но функция xpath_text(“p”) - возвращает ошибку, она работает только с таким аргументом xpath_text(“//p”) и возвращает при этом только первый элемент “p”.

adray

Ноя. 4, 2012 00:38:02

tfox
Спасибо. А нет ли более простого решения? Здесь уже пошло функциональное программирование. Может быть есть функция которая вернет не первый узел, а все узлы?В документации XPath написано: “P” - вернет все элементы PНо функция xpath_text(“p”) - возвращает ошибку, она работает только с таким аргументом xpath_text(“//p”) и возвращает при этом только первый элемент “p”.

В документации написано “p” вернет все элементы из текущего контекста, в нашем случае контекст не задан, поэтому он указывается перед “p” - “//” - значит все элементы p от корня документа.

из какой библиотеки функция xpath_text?
Скорее всего она делает тоже самое, что и мой код со следующей заменой:

map(lambda x: x.text(), p)

вариант с doc.xpath(“//p”) лучше, т.к. он возвращает узлы, а не текст.С узлами можно делать что угодно, в том числе выковырять текстовое содержимое методом text_context()

tfox

Ноя. 4, 2012 12:12:42

adray
из какой библиотеки функция xpath_text?

Из библиотеки Grab. Сайт библиотеки: http://grablib.org/

adray

Ноя. 4, 2012 12:59:56

xpath_list из grab делает тоже самое, что и xpath из lxml.html

tfox

Ноя. 4, 2012 13:40:37

adray
xpath_list из grab делает тоже самое, что и xpath из lxml.html

Понял.

Интересно:

xpath_text('//p') - возвращает первый элемент
xpath_text('//p[2]') -возвращает второй элемент
xpath_text('//p[last()]') - возвращает последний элемент
xpath_text('//p[all()]') - жаль, что такой функции просто не существует

Буду использовать функцию map(lambda x: x.text_content(), p) которая соберет текст узлов воедино

Выходит это единственный способ собрать текст всех узлов до кучи

Спасибо.

Ноя. 4, 2012 14:29:35

//text()[ancestor::p]

..bw

tfox

Ноя. 4, 2012 15:52:53

//text()[ancestor::p]

есть. это выражение в возвращает все элементы <p>

только функция xpath_list возвращает результат в виде списка юникод строк

[u'1) \u0412 \u0430\u043f\u0442\u0435\u043a\u0435 \u0441\u044b\u0440\u044c\u0435 \u043f\u0440\

Подскажите как преобразовать этот список юникод строк в одну читабельную строку?

Ноя. 4, 2012 16:15:50

>>> help(str.join)

..bw