Python-сообщество

agryn · Июнь 27, 2012 13:14:46

g.go('http://drlz.kiev.ua/ibp/ddsite.nsf/all/shlz1?opendocument&stype=7A203E58C7891C5EC22578B900347BA7')
lzdata = g.xpath_list('//tr[@valign="top"]/td[@bgcolor="F8F8F8"]/text()')

выражение

 (//tr[@valign="top"]/td[@bgcolor="F8F8F8"])

находит необходимый мне участок, но иногда в найденном участке кода есть тег и тогда, список стает больше на количество тегов , тоесть етот тег делит необходимый мне текст надвое. Ка мне сделать что б xpath_list игнорировал этот тег

——

RUSSIAN WAR CRIMES IN UKRAINE

Отредактировано agryn (Июнь 27, 2012 13:16:46)

reclosedev · Июнь 27, 2012 17:47:49

вообще гадский тэг.
Есть вариант сделать запрос на узлы (без text()), а потом уже эти узлы превращать в текст:

lzdata = g.xpath_list('//tr[@valign="top"]/td[@bgcolor="F8F8F8"]')
for i, td in enumerate(lzdata):
    lzdata[i] = td.text_content()

Хотя, может и есть способ игнорировать .

Отредактировано reclosedev (Июнь 27, 2012 17:48:06)

lorien · Июнь 27, 2012 18:51:38

А в чём проблема?

print ‘ ’.join(elem.xpath('…./text()'))

Или так:

elem = g.xpath('…./td')
for subnode in elem.xpath('br'):
subnode.getparent().remove(subnode)
print elem.text

reclosedev · Июнь 27, 2012 20:21:36

lorien
А в чём проблема?

По-моему, у ТС в lzdata должно быть количество элементов равное количеству строк в таблице, чтобы можно было установить соответствие.

agryn · Июнь 28, 2012 13:47:54

Хорошо, тогда подскажите как с полученного узла не удалить тег , а заменить скажем на “; ”?

——

RUSSIAN WAR CRIMES IN UKRAINE

agryn · Июнь 28, 2012 16:46:01

lorien
print ‘ ’.join(elem.xpath('…./text()'))

До чего это? Я понятно сформулировал проблему, этот кусок кода выводит текст первого найденного элемента с пробелом между буквами.

lorien
elem = g.xpath('/…/td')
for subnode in elem.xpath('br'):
subnode.getparent().remove(subnode)
print elem.text

Я так понял эта конструкция должна была удалять тег , но этот кусок кода не работает вообще.

——

RUSSIAN WAR CRIMES IN UKRAINE

Отредактировано agryn (Июнь 28, 2012 16:46:55)

lorien · Июнь 28, 2012 19:50:56

> До чего это? Я понятно сформулировал проблему, этот кусок кода выводит текст первого найденного элемента с пробелом между буквами.
Опечатался, там надо xpath_list использовать, а не xpath.

> Я так понял эта конструкция должна была удалять тег , но этот кусок кода не работает вообще.
Ну так поправьте, чтоб заработала. Что значит не работает вообще? Вы предлагаете нам телепатически определить как именно она “не работает вообще”?

Python-сообщество

Уведомления

#1 Июнь 27, 2012 13:14:46

xpath_list через тег br в найденом ноде ломаетса список

#2 Июнь 27, 2012 17:47:49

xpath_list через тег br в найденом ноде ломаетса список

#3 Июнь 27, 2012 18:51:38

xpath_list через тег br в найденом ноде ломаетса список

#4 Июнь 27, 2012 20:21:36

xpath_list через тег br в найденом ноде ломаетса список

#5 Июнь 28, 2012 13:47:54

xpath_list через тег br в найденом ноде ломаетса список

#6 Июнь 28, 2012 16:46:01

xpath_list через тег br в найденом ноде ломаетса список

#7 Июнь 28, 2012 19:50:56

xpath_list через тег br в найденом ноде ломаетса список

Board footer