DjangoBB LoFi version

Полная версия: xpath_list через тег br в найденом ноде ломаетса список

Начало » Python для новичков » xpath_list через тег br в найденом ноде ломаетса список

agryn

Июнь 27, 2012 13:14:46

g.go('http://drlz.kiev.ua/ibp/ddsite.nsf/all/shlz1?opendocument&stype=7A203E58C7891C5EC22578B900347BA7')
lzdata = g.xpath_list('//tr[@valign="top"]/td[@bgcolor="F8F8F8"]/text()')

выражение

 (//tr[@valign="top"]/td[@bgcolor="F8F8F8"])

находит необходимый мне участок, но иногда в найденном участке кода есть тег и тогда, список стает больше на количество тегов , тоесть етот тег делит необходимый мне текст надвое. Ка мне сделать что б xpath_list игнорировал этот тег

reclosedev

Июнь 27, 2012 17:47:49

вообще гадский тэг.
Есть вариант сделать запрос на узлы (без text()), а потом уже эти узлы превращать в текст:

lzdata = g.xpath_list('//tr[@valign="top"]/td[@bgcolor="F8F8F8"]')
for i, td in enumerate(lzdata):
    lzdata[i] = td.text_content()

Хотя, может и есть способ игнорировать .

lorien

Июнь 27, 2012 18:51:38

А в чём проблема?

print ‘ ’.join(elem.xpath('…./text()'))

Или так:

elem = g.xpath('…./td')
for subnode in elem.xpath('br'):
subnode.getparent().remove(subnode)
print elem.text

reclosedev

Июнь 27, 2012 20:21:36

lorien
А в чём проблема?

По-моему, у ТС в lzdata должно быть количество элементов равное количеству строк в таблице, чтобы можно было установить соответствие.

agryn

Июнь 28, 2012 13:47:54

Хорошо, тогда подскажите как с полученного узла не удалить тег , а заменить скажем на “; ”?

agryn

Июнь 28, 2012 16:46:01

lorien
print ‘ ’.join(elem.xpath('…./text()'))

До чего это? Я понятно сформулировал проблему, этот кусок кода выводит текст первого найденного элемента с пробелом между буквами.

lorien
elem = g.xpath('/…/td')
for subnode in elem.xpath('br'):
subnode.getparent().remove(subnode)
print elem.text

Я так понял эта конструкция должна была удалять тег , но этот кусок кода не работает вообще.

lorien

Июнь 28, 2012 19:50:56

> До чего это? Я понятно сформулировал проблему, этот кусок кода выводит текст первого найденного элемента с пробелом между буквами.
Опечатался, там надо xpath_list использовать, а не xpath.

> Я так понял эта конструкция должна была удалять тег , но этот кусок кода не работает вообще.
Ну так поправьте, чтоб заработала. Что значит не работает вообще? Вы предлагаете нам телепатически определить как именно она “не работает вообще”?