Python-сообщество

tfox · Май 12, 2014 13:31:11

Всем привет
Задача может быть и простая но я с таким не сталкивался.
Как из html-кода удалить определенный узел? Используя xpath шаблон.
Ниже примерно описал алгоритм. Не знаю только библиотеку и функцию который выполнили эту операцию

import "какая_нибудь_стандартная_библиотека"
html_code = '<html><head><title>Заголовок</title></head> и так далее ...</html>'
xpath_parrent = '//title'
result = "функция_удалить"(html_code, xpath_parrent)
# теперь узла title больше нету
# можно выводить на экран
print title

Отредактировано tfox (Май 12, 2014 13:32:01)

GreyZmeem · Май 12, 2014 13:55:24

Используйте lxml или xml.etree.ElementTree чтобы конвертировать ваш текст в xml.
После чего можно найти нужный вам элемент и удалить.

tfox · Май 12, 2014 14:09:10

GreyZmeem
После чего можно найти нужный вам элемент и удалить.

А как найти элемент и удалить его?

GreyZmeem · Май 12, 2014 14:19:53

XPath
remove Element

py.user.next · Май 12, 2014 15:33:18

GreyZmeem
или xml.etree.ElementTree чтобы конвертировать ваш текст в xml.

для разбора html модуль xml не применяют, так как html не преобразуется в xml
в xml не допускаются незакрытые теги

поэтому там вариант только lxml.html

>>> import lxml.html
>>> 
>>> s = '<html><head><title>test</title></head></html>'
>>> 
>>> doc = lxml.html.fromstring(s)
>>> node = doc.xpath('//title')
>>> node[0].getparent().remove(node[0])
>>> lxml.html.tostring(doc)
b'<html><head></head></html>'
>>>

Отредактировано py.user.next (Май 12, 2014 15:47:18)

tfox · Май 12, 2014 16:14:36

py.user.next
для разбора html модуль xml не применяют, так как html не преобразуется в xml
в xml не допускаются незакрытые теги

Это точно. Об этот lxml все копья сломал.

py.user.next
node.getparent().remove(node)

Подскажите. А как пройтись по всем узлам?

py.user.next · Май 12, 2014 16:27:26

tfox
Подскажите. А как пройтись по всем узлам?

нужно через xpath найти родительский, а затем удалить его дочерние узлы

tfox · Май 12, 2014 16:27:49

До петрив. Вот таким циклом можно.

    doc = lxml.html.fromstring(a_text)
    node = doc.xpath('//h2')
    for i in node:
        i.getparent().remove(i)

tfox · Май 12, 2014 16:28:39

py.user.next
Спасибо Вам.

Python-сообщество

Уведомления

#1 Май 12, 2014 13:31:11

Удалить кусок html используя xpath

#2 Май 12, 2014 13:55:24

Удалить кусок html используя xpath

#3 Май 12, 2014 14:09:10

Удалить кусок html используя xpath

#4 Май 12, 2014 14:19:53

Удалить кусок html используя xpath

#5 Май 12, 2014 15:33:18

Удалить кусок html используя xpath

#6 Май 12, 2014 16:14:36

Удалить кусок html используя xpath

#7 Май 12, 2014 16:27:26

Удалить кусок html используя xpath

#8 Май 12, 2014 16:27:49

Удалить кусок html используя xpath

#9 Май 12, 2014 16:28:39

Удалить кусок html используя xpath

Board footer