офян
Только условие ">(+?)<" работать не слишком хотит…sad… а вроде должно…
Это условие включает только буквы и цифры без пробелов, а у тебя там и пробелы и знаки препинания. Пожалуй подойдет вот так: ">(+?)<".
добавлено:
параметр text ищет в супе только содержимое тэгов, поэтому треугольные скобки не нужны, и можно сделать более мягкое условие. Вот мой код:
import time
import re
from BeautifulSoup import BeautifulSoup
start = time.time()
html = open("html").read()
soup = BeautifulSoup(html)
for table in soup.findAll("table"):
rows = table.findAll("tr")
for tr in rows:
cols = tr.findAll("td", {"class": "row"},
text=re.compile("\S+?", re.I | re.U))
for td in cols:
print td
print "-----------------------------"
print "============================"
print "time:", time.time() - start, "sec"
1.7-1.8 сек работает.