DjangoBB LoFi version

Полная версия: парсинг html BeautifulSoup

Начало » Python для новичков » парсинг html BeautifulSoup

py.webs

Дек. 27, 2011 13:32:52

Собираем ссылки с словом “word” внутри url:

soup = BeautifulSoup.BeautifulSoup(html)
urls = [tag['href'] for tag in soup.findAll('a')]
f = lambda x: True if (x[:4] == "word") else False
print filter(f, urls)

Часть сайтов выдает ошибки:
1. ‘malformed start tag’
2. KeyError: ‘href’
Первая более - менеее понятна, суп считает ‘html’ невалидным. Возможно ли избежать?
Причина второй не ясна. Сылки в скармливаемом супу ‘html’ есть.

И умеет ли BeautifulSoup собирать ссылки с заданным словом в анкоре? Вроде '<a href="http://domain.com/">'*world*'</a>'

Может быть есть лучшее решение для подобных задач?

py.user.next

Дек. 27, 2011 23:18:44

py.webs
Причина второй не ясна. Сылки в скармливаемом супу ‘html’ есть.

может там не только ссылки, но и <a name
сначала нужно делать проверку на наличие атрибута, а потом уже брать из него значение
есть модуль htmllib

majestic

Дек. 28, 2011 19:08:12

Замени:

urls = [tag['href'] for tag in soup.findAll('a')]

на:

urls = [tag.get('href') for tag in soup.findAll('a') if tag.get('href') != None]