Найти - Пользователи
Полная версия: Парсил, парсил, да не выпарсил
Начало » Python для новичков » Парсил, парсил, да не выпарсил
1 2
Enchantner
Приходится писать проект для сервера, на котором Python 2.4. Прикол в том, что lxml собрался неправильно и модуль парсинга html попросту не импортируется. Как посоветуете, чем парсить из стандартного? Доступа к серверу для установки модулей нет, только через админа, с которым почти нет связи, разве что что-нибудь рядом в папочке положить могу. Задача - отпарсить из страницы текст, игнорируя все теги внутри определенного div-элемента. Естественно, чем быстрее - тем лучше, но вот с lxml получилось как-то неудачно.
dimabest
для таких задач придумали регулярные выражения
Ed
Дистр какой на сервере?
Enchantner
dimabest
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.
Ed
а черт его знает. Линукс какой-то вроде как, а какое это значение имеет для питона?
Ed
Это имет значение для lxml.
Ed
Но если влом разбираться, то можно попользовать стандартные тулзы, коих тоже есть: http://docs.python.org/library/markup.html
pasaranax
Скачай суп, положи рядом и парсь.
Александр Кошелев
pasaranax
Скачай суп, положи рядом и парсь.
Только не его.

На данный момент есть один и только один парсер html – html5lib
o7412369815963
Enchantner
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.
я тока регулярками и выкусываю html, зачем мне распарсивать всю страницу когда мне нужно выкусить всего 10 байт…
o7412369815963
Daevaorn
pasaranax
Скачай суп, положи рядом и парсь.
На данный момент есть один и только один парсер html – html5lib
а он ломаный html хавает?
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB