Python-сообщество

YaJoN · Дек. 22, 2008 14:06:24

Помогите написать фильтр, который смог бы отфильтровать подгружаемую страницу. Суть фильтра - отбор текста находящегося между <td></td>. Спасибо.

bw · Дек. 22, 2008 14:31:22

1. Смотри в сторону BeautifulSoup или html5lib + xpath.
2. В некоторых случаях можно воспользоваться регулярными выражениями.
3. Воспользуйся поиском на форуме, эта тема не раз обсуждалась.

..bw

shiza · Дек. 22, 2008 14:36:51

import re
.....
result = re.findall(r"<td>(.*)?</td>", page_data)

YaJoN · Дек. 27, 2008 21:08:01

shiza
import re
…..
result = re.findall(r“<td>(.*)?</td>”, page_data)

ошибка(

Отредактировано (Дек. 27, 2008 21:29:14)

shiza · Дек. 27, 2008 21:22:37

скопи-пасти ошибку целиком.

YaJoN · Дек. 27, 2008 21:29:43

shiza
скопи-пасти ошибку целиком.

вот ошибка: r“<td>(.*?)</td>”

Отредактировано (Дек. 27, 2008 21:30:25)

shiza · Дек. 27, 2008 21:38:36

Ошибки целиком обычно выгледят примерно так:

Traceback (most recent call last):
  File "C:\tmp\\op1.py", line 3, in <module>
    result = re.findall(r"<td>(.*)?</td>", page_data)
NameError: name 'page_data' is not defined

Давай ее целиком.

Отредактировано (Дек. 27, 2008 21:38:57)

YaJoN · Дек. 27, 2008 21:40:09

result = re.findall('<td>(.*?)</td>', the_page)

shiza · Дек. 27, 2008 21:45:31

YaJoN
result = re.findall('<td>(.*?)</td>', the_page)

это не ошибка. это строчка кода.

Где тут
————————
Traceback (most recent call last):
File “C:\tmp\\op1.py”, line 3, in <module>
————————
и
————————
NameError: name ‘page_data’ is not defined
————————

??

Ошибку обычно выдает интерпретатор при попытке выполнения ошибочного кода.

Отредактировано (Дек. 27, 2008 21:46:44)

Python-сообщество

Уведомления

#1 Дек. 22, 2008 14:06:24

Фильтр

#2 Дек. 22, 2008 14:31:22

Фильтр

#3 Дек. 22, 2008 14:36:51

Фильтр

#4 Дек. 27, 2008 21:08:01

Фильтр

#5 Дек. 27, 2008 21:22:37

Фильтр

#6 Дек. 27, 2008 21:29:43

Фильтр

#7 Дек. 27, 2008 21:38:36

Фильтр

#8 Дек. 27, 2008 21:40:09

Фильтр

#9 Дек. 27, 2008 21:45:31

Фильтр

Board footer