Найти - Пользователи
Полная версия: Помогите с регулярными выражениями для выкачивания ссылок
Начало » Центр помощи » Помогите с регулярными выражениями для выкачивания ссылок
1
ales_arina
Суть такая: с помощью регулярного выражения выкачать определенные (не все подряд) ссылки с сайта газеты. То есть, с сайта газеты http://kbpravda.ru/news достать ссылки на статьи (по 15 на каждой из страниц), не зацепив при этом ничего другого (типа блоков “Свежий номер”, “Последнее” и т.д..
Скорее всего, я запуталась с тегами и самим выражением.
Проект горит, очень надеюсь на Вашу помощь!
ales_arina
Через суп нельзя (проект по учебе, раз не проходили - не используем)
py.user.next
ales_arina
достать ссылки на статьи (по 15 на каждой из страниц), не зацепив при этом ничего другого (типа блоков “Свежий номер”, “Последнее” и т.д..
Тут надо использовать несложный конечный автомат (почитай про них). Сначала нужно отловить слово “Новости”, а потом уже после этого места искать блоки новостей. Блоки новостей сначала нужно превратить в текстовые блоки (в последовательность текстовых блоков). И вот когда есть эта последовательность, тогда и перебирать её и из каждого текстового блока выделять ссылку (получить последовательность ссылок). Ссылки там относительные, нужно потом их ещё сделать абсолютными, когда они будут выделены.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB