soup = BeautifulSoup.BeautifulSoup(html)
urls = [tag['href'] for tag in soup.findAll('a')]
f = lambda x: True if (x[:4] == "word") else False
print filter(f, urls)
1. ‘malformed start tag’
2. KeyError: ‘href’
Первая более - менеее понятна, суп считает ‘html’ невалидным. Возможно ли избежать?
Причина второй не ясна. Сылки в скармливаемом супу ‘html’ есть.
И умеет ли BeautifulSoup собирать ссылки с заданным словом в анкоре? Вроде '<a href="http://domain.com/">'*world*'</a>'
Может быть есть лучшее решение для подобных задач?