Форум сайта python.su
Как организовать что-то типа позиционной проверки в Beautiful Soup? Мне нужно инфу между уникальными html тегами выдернуть с веб-страницы. И еще, может кто знает где хороший справочник по Beautiful Soup найти? Очень надо.
Офлайн
Можно использовать регекспы.
Но можно и через суп:
Пример
from BeautifulSoup import BeautifulSoup
import re
hello = "Hello! <!--I've got to be nice to get what I want.-->"
commentSoup = BeautifulSoup(hello)
comment = commentSoup.find(text=re.compile("nice"))
comment.__class__
# <class 'BeautifulSoup.Comment'>
comment
# u"I've got to be nice to get what I want."
comment.previousSibling
# u'Hello! '
str(comment)
# "<!--I've got to be nice to get what I want.-->"
print commentSoup
# Hello! <!--I've got to be nice to get what I want.-->
Офлайн
Можно так :
>>> from BeautifulSoup import BeautifulSoup as BS
>>> s='<html><body>qwqe<some_tag>what we want</some_tag>qweqweqsdsvdv</body></html>'
>>> so=BS(s)
>>> print so.some_tag
<some_tag>what we want</some_tag>
Офлайн