DjangoBB LoFi version

Полная версия: Помогите с регулярными выражениями для выкачивания ссылок

Начало » Центр помощи » Помогите с регулярными выражениями для выкачивания ссылок

ales_arina

Окт. 12, 2016 14:54:50

Суть такая: с помощью регулярного выражения выкачать определенные (не все подряд) ссылки с сайта газеты. То есть, с сайта газеты http://kbpravda.ru/news достать ссылки на статьи (по 15 на каждой из страниц), не зацепив при этом ничего другого (типа блоков “Свежий номер”, “Последнее” и т.д..
Скорее всего, я запуталась с тегами и самим выражением.
Проект горит, очень надеюсь на Вашу помощь!

ZerG

Окт. 12, 2016 15:07:32

http://wiki.python.su/Документации/BeautifulSoup

ales_arina

Окт. 12, 2016 15:17:20

Через суп нельзя (проект по учебе, раз не проходили - не используем)

py.user.next

Окт. 12, 2016 20:15:52

ales_arina
достать ссылки на статьи (по 15 на каждой из страниц), не зацепив при этом ничего другого (типа блоков “Свежий номер”, “Последнее” и т.д..

Тут надо использовать несложный конечный автомат (почитай про них). Сначала нужно отловить слово “Новости”, а потом уже после этого места искать блоки новостей. Блоки новостей сначала нужно превратить в текстовые блоки (в последовательность текстовых блоков). И вот когда есть эта последовательность, тогда и перебирать её и из каждого текстового блока выделять ссылку (получить последовательность ссылок). Ссылки там относительные, нужно потом их ещё сделать абсолютными, когда они будут выделены.