Enchantner
Июнь 21, 2010 22:49:10
Приходится писать проект для сервера, на котором Python 2.4. Прикол в том, что lxml собрался неправильно и модуль парсинга html попросту не импортируется. Как посоветуете, чем парсить из стандартного? Доступа к серверу для установки модулей нет, только через админа, с которым почти нет связи, разве что что-нибудь рядом в папочке положить могу. Задача - отпарсить из страницы текст, игнорируя все теги внутри определенного div-элемента. Естественно, чем быстрее - тем лучше, но вот с lxml получилось как-то неудачно.
dimabest
Июнь 21, 2010 23:14:15
для таких задач придумали регулярные выражения
Enchantner
Июнь 22, 2010 07:37:09
dimabest
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.
Ed
а черт его знает. Линукс какой-то вроде как, а какое это значение имеет для питона?
Ed
Июнь 22, 2010 10:25:48
Это имет значение для lxml.
Ed
Июнь 22, 2010 11:26:59
Но если влом разбираться, то можно попользовать стандартные тулзы, коих тоже есть:
http://docs.python.org/library/markup.html
Александр Кошелев
Июнь 22, 2010 14:07:14
pasaranax
Скачай суп, положи рядом и парсь.
Только не его.
На данный момент есть один и только один парсер html –
html5lib
o7412369815963
Июнь 22, 2010 15:10:30
Enchantner
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.
я тока регулярками и выкусываю html, зачем мне распарсивать всю страницу когда мне нужно выкусить всего 10 байт…
o7412369815963
Июнь 22, 2010 15:12:39
Daevaorn
pasaranax
Скачай суп, положи рядом и парсь.
На данный момент есть один и только один парсер html – html5lib
а он ломаный html хавает?