Форум сайта python.su
Суть такая: с помощью регулярного выражения выкачать определенные (не все подряд) ссылки с сайта газеты. То есть, с сайта газеты http://kbpravda.ru/news достать ссылки на статьи (по 15 на каждой из страниц), не зацепив при этом ничего другого (типа блоков “Свежий номер”, “Последнее” и т.д..
Скорее всего, я запуталась с тегами и самим выражением.
Проект горит, очень надеюсь на Вашу помощь!
Отредактировано ales_arina (Окт. 12, 2016 15:03:14)
Офлайн
http://wiki.python.su/Документации/BeautifulSoup
Офлайн
Через суп нельзя (проект по учебе, раз не проходили - не используем)
Офлайн
ales_arinaТут надо использовать несложный конечный автомат (почитай про них). Сначала нужно отловить слово “Новости”, а потом уже после этого места искать блоки новостей. Блоки новостей сначала нужно превратить в текстовые блоки (в последовательность текстовых блоков). И вот когда есть эта последовательность, тогда и перебирать её и из каждого текстового блока выделять ссылку (получить последовательность ссылок). Ссылки там относительные, нужно потом их ещё сделать абсолютными, когда они будут выделены.
достать ссылки на статьи (по 15 на каждой из страниц), не зацепив при этом ничего другого (типа блоков “Свежий номер”, “Последнее” и т.д..
Офлайн