Уведомления

Группа в Telegram: @pythonsu

#1 Окт. 8, 2007 20:13:32

BUNGY STEP
От:
Зарегистрирован: 2007-10-08
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

как регулярными выражениями сделать парсинг HTML?

Люди-если повторяюсь - сильно не пиннайте…;-)…надо сделать парсинг хтмл…а собственно вот сама задача: есть сайты №1(основной), и сайт №2. пользователь вводит поисковый запрос в поисковую форму сайта №1(основного)-этот запрос передается поисковой форме сайта №2-и тот выдает результаты поиска в виде ссылок с кусками текста(это уже там есть)- типа как яндекс или рамблер…нужно чтобы после того как сайт №2 выдал результаты поиска -сайт №1 их отпарсил и вывел у себя в том же виде-но без оболочки того сайта(№2)-но при нажатии на ссылки - выданные поиском- запрос уходил опять на сайт №2 - и возвращался в виде результатов- опять без оболочки и т.д. мишуры сайта №2.. задача состоит в том -чтобы пользователь не знал-откуда берется инфа…всю голову изломал не придумаю никак как это провернуть…знаю только что регулярными выражениями можно вроде…



Офлайн

#2 Окт. 8, 2007 21:52:38

Yurietc
От:
Зарегистрирован: 2007-07-18
Сообщения: 112
Репутация: +  0  -
Профиль   Отправить e-mail  

как регулярными выражениями сделать парсинг HTML?

Я так понял, что с помощью регекспов нужно удалять из результатов поиска все ссылки и названия сайта № 2 ? Можно использовать метод sub :

sub(repl, s)

Заменяет в строке s все (или только count, если он задан) вхождения неперекрывающихся подстрок, удовлетворяющих шаблону, на строку, заданную с помощью repl…
http://www.intuit.ru/department/pl/python/6/5.html
На большее регексп по ходу не способен (в данном контексте :)).



Офлайн

#3 Окт. 8, 2007 22:11:52

umup
От:
Зарегистрирован: 2007-07-14
Сообщения: 53
Репутация: +  0  -
Профиль   Отправить e-mail  

как регулярными выражениями сделать парсинг HTML?

парсинг хтмл не рекомендуют делать регекспами. лучше использовать готовые - например beautiful soup - http://www.crummy.com/software/BeautifulSoup/ . там можно сделать все - искать по тегам, атрибутам, заменять или удалять содержимое и т.п.



Офлайн

#4 Окт. 10, 2007 11:55:00

shiza
От:
Зарегистрирован: 2007-07-03
Сообщения: 1073
Репутация: +  0  -
Профиль   Отправить e-mail  

как регулярными выражениями сделать парсинг HTML?

Или можно попробовать библиотечку htmldata
http://oregonstate.edu/~barnesc/htmldata/
она попроще и побыстрее.



Офлайн

#5 Окт. 16, 2007 13:58:52

bibilov
От:
Зарегистрирован: 2007-09-12
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

как регулярными выражениями сделать парсинг HTML?

Если владелец сайта N2 не знает о вашем намерении, то это дурно пахнет.
А так, можно поискать публичный интерфейс для доступа к результатам поиска сайта N2 (например, в виде xml-сервиса), либо попросить сделать таковой.

Парсить HTML можно и регулярными выражениями, если есть уверенность в себе.
Этот подход имеет минус - если сайт сменит дизайн, то придется переделывать логику поиска значимой информации на странице.
Начать изучать их можно вот с этой статьи:
http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D1%8B%D0%B5_%D0%B2%D1%8B%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version