Найти - Пользователи
Полная версия: Проблемы с Beautiful Soup
Начало » Python для новичков » Проблемы с Beautiful Soup
1 2
boris_blade
Так какой же инструмент самый православный-то?
pyuser
очевидно оба: html5lib + lxml :)
pyuser
boris_blade
Погуглил и что-то не нашел примером как им парсит хтмл.
начните с этого:
import html5lib
from html5lib import sanitizer
parser = html5lib.HTMLParser(tree=html5lib.getTreeBuilder("lxml"),
tokenizer=sanitizer.HTMLSanitizer)
dom = parser.parse(...)
Hayate
Есть питоновый код:
# -*- coding: utf-8 -*-
__author__ = 'Егор'
import urllib2
from BeautifulSoup import BeautifulSoup

class ParsePage():
def __init__(self, link):
self.link = link
page = urllib2.urlopen(self.link)
soup = BeautifulSoup(page)
p = soup.findAll('strong')
print p[4].parent
print p[5].parent.nextSibling

ex = ParsePage('http://www.profvibor.ru/node/1778')
Нужный кусок html:
<p><strong><font color="#009933" size="3">Пути получения профессии</font></strong></p> <p>ВУЗы.</p> <p><strong><font color="#009933" size="3">Родственные профессии</font></strong></p> <p>Маркетолог-аналитик, экономист.</p>
Вывод:
C:\Python27\python.exe C:/Users/Егор/PycharmProjects/test_parser/temp.py
<p><strong><font color="#009933" size="3">Пути получения профессии</font></strong></p>

Process finished with exit code 0
print p.parent.nextSibling должен вывести
<p>Маркетолог-аналитик, экономист.</p>
Почему не выводит? :(
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB