DjangoBB LoFi version

Полная версия: Парсил, парсил, да не выпарсил

Начало » Python для новичков » Парсил, парсил, да не выпарсил

1 2

Enchantner

Июнь 21, 2010 22:49:10

Приходится писать проект для сервера, на котором Python 2.4. Прикол в том, что lxml собрался неправильно и модуль парсинга html попросту не импортируется. Как посоветуете, чем парсить из стандартного? Доступа к серверу для установки модулей нет, только через админа, с которым почти нет связи, разве что что-нибудь рядом в папочке положить могу. Задача - отпарсить из страницы текст, игнорируя все теги внутри определенного div-элемента. Естественно, чем быстрее - тем лучше, но вот с lxml получилось как-то неудачно.

dimabest

Июнь 21, 2010 23:14:15

для таких задач придумали регулярные выражения

Июнь 22, 2010 00:52:51

Дистр какой на сервере?

Enchantner

Июнь 22, 2010 07:37:09

dimabest
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.
Ed
а черт его знает. Линукс какой-то вроде как, а какое это значение имеет для питона?

Июнь 22, 2010 10:25:48

Это имет значение для lxml.

Июнь 22, 2010 11:26:59

Но если влом разбираться, то можно попользовать стандартные тулзы, коих тоже есть: http://docs.python.org/library/markup.html

pasaranax

Июнь 22, 2010 11:28:47

Скачай суп, положи рядом и парсь.

Александр Кошелев

Июнь 22, 2010 14:07:14

pasaranax
Скачай суп, положи рядом и парсь.

Только не его.

На данный момент есть один и только один парсер html – html5lib

o7412369815963

Июнь 22, 2010 15:10:30

Enchantner
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.

я тока регулярками и выкусываю html, зачем мне распарсивать всю страницу когда мне нужно выкусить всего 10 байт…

o7412369815963

Июнь 22, 2010 15:12:39

Daevaorn
pasaranax
Скачай суп, положи рядом и парсь.
На данный момент есть один и только один парсер html – html5lib

а он ломаный html хавает?