Уведомления

Группа в Telegram: присоединиться | Jabber-конференция сообщества: pythonua@conference.jabber.ru

#1 Окт. 4, 2017 20:41:27

wesmokeweed
Зарегистрирован: 2017-10-04
Сообщения: 5
Репутация: +  0  -
Профиль   Отправить e-mail  

Проблемы в парсингом сайта

Всем доброго времени суток. С парсингом на питоне, да и просто с парсингом ни разу не сталкивался. Требуется запарсить сайт CS.MONEY, а именно данный div-блок: *скриншот* . Но в связи с моей неопытностью(криворукостью) не обошлось без проблем. Вот собственно и они:

1) Сайт не парсится. При попытке запустить скрипт, вылазит эта ошибка: *скриншот*. Причем не парсится только этот сайт, с остальными все в порядке. Код:

 import urllib.request
from bs4 import BeautifulSoup
def get_html(url):
	response = urllib.request.urlopen(url)
	return response.read()
def main():
	print(get_html('https://cs.money/'))
if __name__ == '__main__':
	main()

2) Даже если бы скрипт смог запарсить сайт, в html-коде отображается нет информации по тому div-блоку, который нужен мне. Что бы было понятнее, вот скриншоты: *скриншоты*.

3) Допустим, я решил 1 и 2 проблемы, но есть еще одна. При открытии страницы в html-коде загружаются не все элементы(оружия), а лишь часть из них. Что бы загрузить все элементы(оружия), нужно скролить вниз этот div-блок.

Надеюсь, вы поняли, что я тут накалякал. Никогда не умел четко выражать мысли. Жду вашей помощи.

Офлайн

#2 Окт. 28, 2017 13:32:15

python335
Зарегистрирован: 2016-10-19
Сообщения: 88
Репутация: +  -8  -
Профиль   Отправить e-mail  

Проблемы в парсингом сайта

Ух. Извини, но я пока могу парсить только текст - это легче чем картинки и другие элементы, типо картинок, различных блоков и т.п. Но ты можешь посмотреть на pythonworld(или .ru или .com или .su - скорее всего .ru). Там ввобще все есть - от изучения синтаксиса до sqlite и т.п.

Отредактировано python335 (Окт. 28, 2017 13:33:11)

Офлайн

#3 Окт. 30, 2017 13:39:55

helm2004
От: Украина, Винница
Зарегистрирован: 2008-02-27
Сообщения: 627
Репутация: +  9  -
Профиль   Отправить e-mail  

Проблемы в парсингом сайта

Код на коленке:

 from bs4 import BeautifulSoup
import requests
from urllib.parse import urlparse
from basket_rest.basket.models import *
a = requests.get('http://basket.com.ua')
soup = BeautifulSoup(a.content, 'lxml')
els_ul_new = soup.find_all('div', {'class': 'ul_new'})

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version