А у меня следующая задача. Мне нужно пропарсить несколько постов в LiveJournal и собрать оттуда юзернеймы всех, кто оставлял комментарии. В идеале - с количеством комментариев у каждого, но это пока далёкое будущее.
Код в ЖЖ выглядит следующим образом:
<a href="http://USERNAME.livejournal.com/">
<b>USERNAME</b>
</a>
Ковырялся с BeautifulSoup. Получилось следующее:
from BeautifulSoup import BeautifulSoup
import urllib2
import re
page = urllib2.urlopen("http://od-group.livejournal.com/23659.html")
soup = BeautifulSoup(page)
ljuser = soup.findAll('a') # нашёл вообще все ссылки
soup.findAll('a', '*.livejournal.com') # выдал []
soup.findAll("a", { "href" : "*.livejournal.com"}) # выдал []
soup.findAll("span", { "lj:user" : "True"}) # выдал []
soup.findAll(href=re.compile('http://*.livejournal.com')) # выдал []
C Python не знаком вообще. Разбирался только с документацией к BeautifulSoup.