Форум сайта python.su
Помогите написать фильтр, который смог бы отфильтровать подгружаемую страницу. Суть фильтра - отбор текста находящегося между <td></td>. Спасибо.
Офлайн
1. Смотри в сторону BeautifulSoup или html5lib + xpath.
2. В некоторых случаях можно воспользоваться регулярными выражениями.
3. Воспользуйся поиском на форуме, эта тема не раз обсуждалась.
..bw
Офлайн
import re
.....
result = re.findall(r"<td>(.*)?</td>", page_data)
Офлайн
shizaошибка(
import re
…..
result = re.findall(r“<td>(.*)?</td>”, page_data)
Отредактировано (Дек. 27, 2008 21:29:14)
Офлайн
скопи-пасти ошибку целиком.
Офлайн
shizaвот ошибка: r“<td>(.*?)</td>”
скопи-пасти ошибку целиком.
Отредактировано (Дек. 27, 2008 21:30:25)
Офлайн
Ошибки целиком обычно выгледят примерно так:
Traceback (most recent call last):
File "C:\tmp\\op1.py", line 3, in <module>
result = re.findall(r"<td>(.*)?</td>", page_data)
NameError: name 'page_data' is not defined
Отредактировано (Дек. 27, 2008 21:38:57)
Офлайн
result = re.findall('<td>(.*?)</td>', the_page)
Офлайн
YaJoNэто не ошибка. это строчка кода.
result = re.findall('<td>(.*?)</td>', the_page)
Отредактировано (Дек. 27, 2008 21:46:44)
Офлайн