Ctrl →

Enchantner · Июнь 21, 2010 22:49:10

Приходится писать проект для сервера, на котором Python 2.4. Прикол в том, что lxml собрался неправильно и модуль парсинга html попросту не импортируется. Как посоветуете, чем парсить из стандартного? Доступа к серверу для установки модулей нет, только через админа, с которым почти нет связи, разве что что-нибудь рядом в папочке положить могу. Задача - отпарсить из страницы текст, игнорируя все теги внутри определенного div-элемента. Естественно, чем быстрее - тем лучше, но вот с lxml получилось как-то неудачно.

dimabest · Июнь 21, 2010 23:14:15

для таких задач придумали регулярные выражения

Ed · Июнь 22, 2010 00:52:51

Дистр какой на сервере?

Enchantner · Июнь 22, 2010 07:37:09

dimabest
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.
Ed
а черт его знает. Линукс какой-то вроде как, а какое это значение имеет для питона?

Ed · Июнь 22, 2010 10:25:48

Это имет значение для lxml.

Ed · Июнь 22, 2010 11:26:59

Но если влом разбираться, то можно попользовать стандартные тулзы, коих тоже есть: http://docs.python.org/library/markup.html

pasaranax · Июнь 22, 2010 11:28:47

Скачай суп, положи рядом и парсь.

Александр Кошелев · Июнь 22, 2010 14:07:14

pasaranax
Скачай суп, положи рядом и парсь.

Только не его.

На данный момент есть один и только один парсер html – html5lib

o7412369815963 · Июнь 22, 2010 15:10:30

Enchantner
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.

я тока регулярками и выкусываю html, зачем мне распарсивать всю страницу когда мне нужно выкусить всего 10 байт…

Запуск программ из Python
Кодировки в python
Мой блог

o7412369815963 · Июнь 22, 2010 15:12:39

Daevaorn
pasaranax
Скачай суп, положи рядом и парсь.
На данный момент есть один и только один парсер html – html5lib

а он ломаный html хавает?

Запуск программ из Python
Кодировки в python
Мой блог

Python-сообщество

Уведомления

#1 Июнь 21, 2010 22:49:10

Парсил, парсил, да не выпарсил

#2 Июнь 21, 2010 23:14:15

Парсил, парсил, да не выпарсил

#3 Июнь 22, 2010 00:52:51

Парсил, парсил, да не выпарсил

#4 Июнь 22, 2010 07:37:09

Парсил, парсил, да не выпарсил

#5 Июнь 22, 2010 10:25:48

Парсил, парсил, да не выпарсил

#6 Июнь 22, 2010 11:26:59

Парсил, парсил, да не выпарсил

#7 Июнь 22, 2010 11:28:47

Парсил, парсил, да не выпарсил

#8 Июнь 22, 2010 14:07:14

Парсил, парсил, да не выпарсил

#9 Июнь 22, 2010 15:10:30

Парсил, парсил, да не выпарсил

#10 Июнь 22, 2010 15:12:39

Парсил, парсил, да не выпарсил

Board footer