Уведомления

Группа в Telegram: @pythonsu

#1 Окт. 12, 2016 14:54:50

ales_arina
Зарегистрирован: 2016-10-12
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

Помогите с регулярными выражениями для выкачивания ссылок

Суть такая: с помощью регулярного выражения выкачать определенные (не все подряд) ссылки с сайта газеты. То есть, с сайта газеты http://kbpravda.ru/news достать ссылки на статьи (по 15 на каждой из страниц), не зацепив при этом ничего другого (типа блоков “Свежий номер”, “Последнее” и т.д..
Скорее всего, я запуталась с тегами и самим выражением.
Проект горит, очень надеюсь на Вашу помощь!

Отредактировано ales_arina (Окт. 12, 2016 15:03:14)

Офлайн

#2 Окт. 12, 2016 15:07:32

ZerG
Зарегистрирован: 2012-04-05
Сообщения: 2627
Репутация: +  61  -
Профиль   Отправить e-mail  

Помогите с регулярными выражениями для выкачивания ссылок

http://wiki.python.su/Документации/BeautifulSoup



Влодение рускай арфаграфией - это как владение кунг-фу: настаящие мастира не преминяют ево бес ниабхадимости

Офлайн

#3 Окт. 12, 2016 15:17:20

ales_arina
Зарегистрирован: 2016-10-12
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

Помогите с регулярными выражениями для выкачивания ссылок

Через суп нельзя (проект по учебе, раз не проходили - не используем)

Офлайн

#4 Окт. 12, 2016 20:15:52

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9890
Репутация: +  854  -
Профиль   Отправить e-mail  

Помогите с регулярными выражениями для выкачивания ссылок

ales_arina
достать ссылки на статьи (по 15 на каждой из страниц), не зацепив при этом ничего другого (типа блоков “Свежий номер”, “Последнее” и т.д..
Тут надо использовать несложный конечный автомат (почитай про них). Сначала нужно отловить слово “Новости”, а потом уже после этого места искать блоки новостей. Блоки новостей сначала нужно превратить в текстовые блоки (в последовательность текстовых блоков). И вот когда есть эта последовательность, тогда и перебирать её и из каждого текстового блока выделять ссылку (получить последовательность ссылок). Ссылки там относительные, нужно потом их ещё сделать абсолютными, когда они будут выделены.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version