Форум сайта python.su
http://www.wcg.com/6th/replay/replay_list_2010.asp?dbcodeno=0&evtno=2010&itemno=G100308101&natno=0&entryno=0
1. Вонючий beautifulsoup отказывался парсить, пока не заменил все ' на ".
2.
>>> [tag.name for tag in soup.html.body.table.tr.td.table.findAll(recursive=False)]
[u'tr', u'tr']
Офлайн
Не используйте старый BeautifulSoup. Возьмите html5lib с деревом lxml и ищете что вам нужно через xpath.
PS: И вроде tr там только 43
Офлайн
А через lxml можно это сделать?
Конкретный пример кода привести можешь (ничего, что я на ты? :))?
Офлайн
DaevaornИнтересно, ты это руками подсчитал, или как?
PS: И вроде tr там только 43
Офлайн
asilyatorА где “пожалуйста”?
Конкретный пример кода привести можешь (ничего, что я на ты? :))?
import html5lib
from urllib2 import urlopen
res = html5lib.parse(urlopen('http://www.wcg.com/6th/replay/replay_list_2010.asp?dbcodeno=0&evtno=2010&itemno=G100308101&natno=0&entryno=0'),
treebuilder='lxml', namespaceHTMLElements=False)
trs = res.xpath('//body/table/tbody/tr/td/table/tbody/tr')
asilyatorСкрипт сказал.
Интересно, ты это руками подсчитал, или как?
Офлайн
Вот мне ж и интересно - скрипт написать, чтобы посчитать невпадлу было, а выложить - нини.
Теперь спасибо.
P.S. За то время, что я с парсерами трахался, я бы уже руками это распарсил.
Отредактировано (Окт. 31, 2010 13:43:35)
Офлайн
asilyatorТут не кодогенератор бесплатный.
Вот мне ж и интересно - скрипт написать, чтобы посчитать невпадлу было, а выложить - нини.
asilyatorА не надо с ними было этим заниматься. Надо просто было подумать и написать. Ну я конечно понимаю, что, наверно, этот процесс менее интересен некоторым…
P.S. За то время, что я с парсерами трахался, я бы уже руками это распарсил.
Офлайн
DaevaornНет, ну если впадлу писать - это одно. Но не полениться ж написать, а потом сидеть и смотреть, как другой трахается… Интересно, а чего ты ожидал? Оплата все равно не подразумевалась.asilyatorТут не кодогенератор бесплатный.
Вот мне ж и интересно - скрипт написать, чтобы посчитать невпадлу было, а выложить - нини.
Я могу писать какие-угодно скрипты и при этом не должен их выкладывать. А если выложил, то считай , у тебя сегодня счастливый день. Сходи в церковь, свечку поставь.
DaevaornПросто я в питоне не профи. Я на нем пишу мелкие проги для работы с сокетами и текстом, которые на нем или перле писать быстрее, чем на яве. Из этого я сделал (наверно, неправильный) вывод, что парсить html на нем тоже будет проще.asilyatorА не надо с ними было этим заниматься. Надо просто было подумать и написать. Ну я конечно понимаю, что, наверно, этот процесс менее интересен некоторым…
P.S. За то время, что я с парсерами трахался, я бы уже руками это распарсил.
Офлайн