Уведомления

Группа в Telegram: @pythonsu

#1 Окт. 29, 2010 17:54:06

asilyator
От:
Зарегистрирован: 2010-10-24
Сообщения: 276
Репутация: +  -2  -
Профиль   Отправить e-mail  

Парсинг html

Чем парсить сабж? Слышал, что можно через парсер xml.



Офлайн

#2 Окт. 29, 2010 18:15:54

certanista
От:
Зарегистрирован: 2010-10-28
Сообщения: 20
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html

BeautifulSoup, lxml.



Офлайн

#3 Окт. 29, 2010 18:18:43

asilyator
От:
Зарегистрирован: 2010-10-24
Сообщения: 276
Репутация: +  -2  -
Профиль   Отправить e-mail  

Парсинг html

А пример можно?



Офлайн

#4 Окт. 29, 2010 18:21:32

certanista
От:
Зарегистрирован: 2010-10-28
Сообщения: 20
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html

Смотри доки к ним.



Офлайн

#5 Окт. 29, 2010 18:41:48

mrzaggi
От:
Зарегистрирован: 2010-09-25
Сообщения: 6
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html

Советую отдать предпочтение lxml - лучше справляется с невалидным html.



Офлайн

#6 Окт. 29, 2010 20:33:21

asilyator
От:
Зарегистрирован: 2010-10-24
Сообщения: 276
Репутация: +  -2  -
Профиль   Отправить e-mail  

Парсинг html

Че-то я совсем запутался. Как внутри документа повытаскивать из таблицы нужные поля?



Офлайн

#7 Окт. 29, 2010 20:55:37

Alex977
От:
Зарегистрирован: 2008-11-26
Сообщения: 10
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html

1. Пример файла (хотя бы фрагмент) не помешал бы
2. Критерии, по которым можно отличить “нужные” поля от “ненужных”



Офлайн

#8 Окт. 30, 2010 12:23:20

Александр Кошелев
От: Москва
Зарегистрирован: 2007-02-03
Сообщения: 1724
Репутация: +  2  -
Профиль   Отправить e-mail  

Парсинг html

Парсить html надо через html5lib.



Офлайн

#9 Окт. 30, 2010 13:02:08

asilyator
От:
Зарегистрирован: 2010-10-24
Сообщения: 276
Репутация: +  -2  -
Профиль   Отправить e-mail  

Парсинг html

Пример - http://www.wcg.com/6th/replay/replay_list_2010.asp?dbcodeno=0&evtno=2010&itemno=G100308101&natno=0&entryno=0 . Нужны как минимум первая и ссылки из последней колонки (которые javascript:winOpens();)



Отредактировано (Окт. 30, 2010 13:03:20)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version