DjangoBB LoFi version

Полная версия: Парсинг html

asilyator

Окт. 29, 2010 17:54:06

Чем парсить сабж? Слышал, что можно через парсер xml.

certanista

Окт. 29, 2010 18:15:54

BeautifulSoup, lxml.

asilyator

Окт. 29, 2010 18:18:43

А пример можно?

certanista

Окт. 29, 2010 18:21:32

Смотри доки к ним.

mrzaggi

Окт. 29, 2010 18:41:48

Советую отдать предпочтение lxml - лучше справляется с невалидным html.

asilyator

Окт. 29, 2010 20:33:21

Че-то я совсем запутался. Как внутри документа повытаскивать из таблицы нужные поля?

Alex977

Окт. 29, 2010 20:55:37

1. Пример файла (хотя бы фрагмент) не помешал бы
2. Критерии, по которым можно отличить “нужные” поля от “ненужных”

Александр Кошелев

Окт. 30, 2010 12:23:20

Парсить html надо через html5lib.

asilyator

Окт. 30, 2010 13:02:08

Пример - http://www.wcg.com/6th/replay/replay_list_2010.asp?dbcodeno=0&evtno=2010&itemno=G100308101&natno=0&entryno=0 . Нужны как минимум первая и ссылки из последней колонки (которые javascript:winOpens();)