import re body = html rex = re.compile(r'(\href=(\"|\'|\.\.)([^>]*?)(\"|\'|(class=))([^>]*?)>)', re.S) urls = [c[2] for c in rex.findall(body)] print urls
Получаю :
“TypeError: expected string or buffer”
В “body” html код.
import re body = html rex = re.compile(r'(\href=(\"|\'|\.\.)([^>]*?)(\"|\'|(class=))([^>]*?)>)', re.S) urls = [c[2] for c in rex.findall(body)] print urls
fata1exДа, знаю но к сожалению это не совсем мой случай. При том, что используемая для парсинга либа умеет работать совместно с beautifulsoup у меня не сложилось. Это была попытка использовать знакомый и понятный вариант, пусть и не красиво.
html-код принято парсить html-парсерами. Например: lxml, beautifulsoup, htmlparser и тд.
И везде используется ‘pyquery’ который у меня говорит “AttributeError: ‘module’ object has no attribute ‘Pyquery’”.