Найти - Пользователи
Полная версия: Спарсить ссылку href с розетки
Начало » Python для новичков » Спарсить ссылку href с розетки
1
KangarooJack
Здравствуйте помогите пожалуйста вытащить ссылку отсюда? то что хранится в href
 <div class="g-i-tile-i-title clearfix">
<a href="http://rozetka.com.ua/12189913/p12189913/" onclick="document.fireEvent('goodsTitleClick',{extend_event:[{name:'goods_id',value:12189913}]});"> Ноутбук Dell Inspiron 3162 (I11C25NIW-46R) Red (582) - Уценка </a>
</div>
DesSolo
 import re
x= (' <div class="g-i-tile-i-title clearfix">\n'
    '<a href="http://rozetka.com.ua/12189913/p12189913/" onclick="document.fireEvent(\'goodsTitleClick\',{extend_event:[{name:\'goods_id\',value:12189913}]});"> Ноутбук Dell Inspiron 3162 (I11C25NIW-46R) Red (582) - Уценка </a>\n'
    '</div>')
print(re.findall(r'href=(".*") ',x)[0])
В регулярных вырожениях не силен. Получается так:
 "http://rozetka.com.ua/12189913/p12189913/"
при условии разделения пробелом. Либо используйте Beautiful Soup
KangarooJack
Блин забыл сказать, я использую grab, ваш метод не подходит так как я вытаскиваю элементы чере селекторы, вот как то так - название получаю
 print(g.xpath_text('//div[@class = "g-i-tile-i-title clearfix"]'))
DesSolo
С grub не работал, не знаю. С помощью Beautiful Soup это делается элементарно:
 import requests
from bs4 import BeautifulSoup
class GetItems:
    def __init__(self,url):
        self.url=url
        self.response=requests.get(url)
        self.soup=BeautifulSoup(self.response.text,'lxml')
    @property
    def get_href(self):
        hrefs=self.soup.find_all('div', class_="g-i-tile-i-title clearfix")
        for item in hrefs:
            print(item.a['href'])
def main():
    Page=GetItems('http://rozetka.com.ua/mobile-phones/c80003/filter/preset=smartfon/')
    Page.get_href
if __name__=='__main__':
    main()
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB