Найти - Пользователи
Полная версия: Фильтр
Начало » Python для новичков » Фильтр
1
YaJoN
Помогите написать фильтр, который смог бы отфильтровать подгружаемую страницу. Суть фильтра - отбор текста находящегося между <td></td>. Спасибо.
bw
1. Смотри в сторону BeautifulSoup или html5lib + xpath.
2. В некоторых случаях можно воспользоваться регулярными выражениями.
3. Воспользуйся поиском на форуме, эта тема не раз обсуждалась.

..bw
shiza
import re
.....
result = re.findall(r"<td>(.*)?</td>", page_data)
YaJoN
shiza
import re
…..
result = re.findall(r“<td>(.*)?</td>”, page_data)
ошибка(
shiza
скопи-пасти ошибку целиком.
YaJoN
shiza
скопи-пасти ошибку целиком.
вот ошибка: r“<td>(.*?)</td>”
shiza
Ошибки целиком обычно выгледят примерно так:
Traceback (most recent call last):
File "C:\tmp\\op1.py", line 3, in <module>
result = re.findall(r"<td>(.*)?</td>", page_data)
NameError: name 'page_data' is not defined
Давай ее целиком.
YaJoN
result = re.findall('<td>(.*?)</td>', the_page)
shiza
YaJoN
result = re.findall('<td>(.*?)</td>', the_page)
это не ошибка. это строчка кода.

Где тут
————————
Traceback (most recent call last):
File “C:\tmp\\op1.py”, line 3, in <module>
————————
и
————————
NameError: name ‘page_data’ is not defined
————————

??

Ошибку обычно выдает интерпретатор при попытке выполнения ошибочного кода.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB