Форум сайта python.su
Так какой же инструмент самый православный-то?
Офлайн
очевидно оба: html5lib + lxml :)
Офлайн
boris_bladeначните с этого:
Погуглил и что-то не нашел примером как им парсит хтмл.
import html5lib
from html5lib import sanitizer
parser = html5lib.HTMLParser(tree=html5lib.getTreeBuilder("lxml"),
tokenizer=sanitizer.HTMLSanitizer)
dom = parser.parse(...)
Офлайн
Есть питоновый код:
# -*- coding: utf-8 -*-
__author__ = 'Егор'
import urllib2
from BeautifulSoup import BeautifulSoup
class ParsePage():
def __init__(self, link):
self.link = link
page = urllib2.urlopen(self.link)
soup = BeautifulSoup(page)
p = soup.findAll('strong')
print p[4].parent
print p[5].parent.nextSibling
ex = ParsePage('http://www.profvibor.ru/node/1778')
<p><strong><font color="#009933" size="3">Пути получения профессии</font></strong></p> <p>ВУЗы.</p> <p><strong><font color="#009933" size="3">Родственные профессии</font></strong></p> <p>Маркетолог-аналитик, экономист.</p>
C:\Python27\python.exe C:/Users/Егор/PycharmProjects/test_parser/temp.py
<p><strong><font color="#009933" size="3">Пути получения профессии</font></strong></p>
Process finished with exit code 0
Офлайн