Форум сайта python.su
0
Приходится писать проект для сервера, на котором Python 2.4. Прикол в том, что lxml собрался неправильно и модуль парсинга html попросту не импортируется. Как посоветуете, чем парсить из стандартного? Доступа к серверу для установки модулей нет, только через админа, с которым почти нет связи, разве что что-нибудь рядом в папочке положить могу. Задача - отпарсить из страницы текст, игнорируя все теги внутри определенного div-элемента. Естественно, чем быстрее - тем лучше, но вот с lxml получилось как-то неудачно.
Офлайн
0
для таких задач придумали регулярные выражения
Офлайн
13
Дистр какой на сервере?
Офлайн
0
dimabest
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.
Ed
а черт его знает. Линукс какой-то вроде как, а какое это значение имеет для питона?
Офлайн
13
Это имет значение для lxml.
Офлайн
13
Но если влом разбираться, то можно попользовать стандартные тулзы, коих тоже есть: http://docs.python.org/library/markup.html
Офлайн
0
Скачай суп, положи рядом и парсь.
Офлайн
2
pasaranaxТолько не его.
Скачай суп, положи рядом и парсь.
Офлайн
32
Enchantnerя тока регулярками и выкусываю html, зачем мне распарсивать всю страницу когда мне нужно выкусить всего 10 байт…
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.
Офлайн
32
Daevaornа он ломаный html хавает?pasaranaxНа данный момент есть один и только один парсер html – html5lib
Скачай суп, положи рядом и парсь.
Офлайн