Уведомления

Группа в Telegram: @pythonsu

#1 Июнь 21, 2010 22:49:10

Enchantner
От:
Зарегистрирован: 2009-02-11
Сообщения: 442
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсил, парсил, да не выпарсил

Приходится писать проект для сервера, на котором Python 2.4. Прикол в том, что lxml собрался неправильно и модуль парсинга html попросту не импортируется. Как посоветуете, чем парсить из стандартного? Доступа к серверу для установки модулей нет, только через админа, с которым почти нет связи, разве что что-нибудь рядом в папочке положить могу. Задача - отпарсить из страницы текст, игнорируя все теги внутри определенного div-элемента. Естественно, чем быстрее - тем лучше, но вот с lxml получилось как-то неудачно.



Офлайн

#2 Июнь 21, 2010 23:14:15

dimabest
От:
Зарегистрирован: 2009-02-12
Сообщения: 253
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсил, парсил, да не выпарсил

для таких задач придумали регулярные выражения



Офлайн

#3 Июнь 22, 2010 00:52:51

Ed
От:
Зарегистрирован: 2008-12-13
Сообщения: 1032
Репутация: +  13  -
Профиль   Отправить e-mail  

Парсил, парсил, да не выпарсил

Дистр какой на сервере?



Офлайн

#4 Июнь 22, 2010 07:37:09

Enchantner
От:
Зарегистрирован: 2009-02-11
Сообщения: 442
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсил, парсил, да не выпарсил

dimabest
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.
Ed
а черт его знает. Линукс какой-то вроде как, а какое это значение имеет для питона?



Офлайн

#5 Июнь 22, 2010 10:25:48

Ed
От:
Зарегистрирован: 2008-12-13
Сообщения: 1032
Репутация: +  13  -
Профиль   Отправить e-mail  

Парсил, парсил, да не выпарсил

Это имет значение для lxml.



Офлайн

#6 Июнь 22, 2010 11:26:59

Ed
От:
Зарегистрирован: 2008-12-13
Сообщения: 1032
Репутация: +  13  -
Профиль   Отправить e-mail  

Парсил, парсил, да не выпарсил

Но если влом разбираться, то можно попользовать стандартные тулзы, коих тоже есть: http://docs.python.org/library/markup.html



Офлайн

#7 Июнь 22, 2010 11:28:47

pasaranax
От:
Зарегистрирован: 2009-06-13
Сообщения: 574
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсил, парсил, да не выпарсил

Скачай суп, положи рядом и парсь.



Офлайн

#8 Июнь 22, 2010 14:07:14

Александр Кошелев
От: Москва
Зарегистрирован: 2007-02-03
Сообщения: 1724
Репутация: +  2  -
Профиль   Отправить e-mail  

Парсил, парсил, да не выпарсил

pasaranax
Скачай суп, положи рядом и парсь.
Только не его.

На данный момент есть один и только один парсер html – html5lib



Офлайн

#9 Июнь 22, 2010 15:10:30

o7412369815963
От:
Зарегистрирован: 2009-06-17
Сообщения: 1986
Репутация: +  32  -
Профиль   Отправить e-mail  

Парсил, парсил, да не выпарсил

Enchantner
да я думал об этом, но меня как-то пока ломает парсить регулярками HTML, когда вокруг столько библиотек хороших.
я тока регулярками и выкусываю html, зачем мне распарсивать всю страницу когда мне нужно выкусить всего 10 байт…

Офлайн

#10 Июнь 22, 2010 15:12:39

o7412369815963
От:
Зарегистрирован: 2009-06-17
Сообщения: 1986
Репутация: +  32  -
Профиль   Отправить e-mail  

Парсил, парсил, да не выпарсил

Daevaorn
pasaranax
Скачай суп, положи рядом и парсь.
На данный момент есть один и только один парсер html – html5lib
а он ломаный html хавает?

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version