info
Июнь 27, 2015 18:02:33
Использую для этого метод text_content() из lxml, но в некоторых местах (<br>, <ul>) пара предложений слепляется в одно предложение и разделить их с помощь, например, nltk не представляется возможным(?). Вопрос – как можно получить текст в том виде, в котором он виден с html в плане, хотя бы, разделения по абзацам/предложениям?
info
Июнь 27, 2015 20:54:24
terabayt
Кроме br еще много чего есть, все теги, что ли, перечислять руками?
info
Июнь 27, 2015 20:57:41
Хотелось бы решения по-универсальнее, если такое есть.
terabayt
Июнь 27, 2015 22:08:59
info
Хотелось бы решения по-универсальнее, если такое есть.
не демаю что с с помощью lxml можно это сделать. он немного не для этого
вам нужно выводить форматированый текст
используйте html2text
>>> import html2text
>>> s = """
... <html>
... <body>
... la-la<br>newline<br/>hh
... </body>
... </html>
... """
>>> s = html2text.html2text(s)
>>> print s.strip()
la-la
newline
hh
slav0nic
Июнь 29, 2015 11:58:47
https://github.com/codelucas/newspaper можно глянуть или подобные более продвинутые методы