Уведомления

Группа в Telegram: @pythonsu

#1 Ноя. 16, 2017 16:13:50

ewro
Зарегистрирован: 2017-11-03
Сообщения: 39
Репутация: +  0  -
Профиль   Отправить e-mail  

парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

Есть сайт с фильтром данных по запросу на начальной странице. На ней (на начальной) странице тестовый код работает как и положено. При переходе на страницу результата не может открыть страницу. Причина в библиотеке или в свойствах сайта? Соответственно эта ссылка открывается в любом браузере без проблем.

 import urllib.request
from bs4 import BeautifulSoup
source = urllib.request.urlopen('http://...тратата')
soup = BeautifulSoup(source, "lxml")
for paragraf in soup.find_all('span'):
    print(paragraf.string)

Офлайн

#2 Ноя. 16, 2017 18:12:57

damilkrose
Зарегистрирован: 2017-11-10
Сообщения: 18
Репутация: +  -1  -
Профиль   Отправить e-mail  

парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

Проблема может быть в том что у блоков span может и не быть параметров string. Посмотри HTML код страницы и проверь правильность поиска. Может быть тебе не span нужен, а какой нибудь div или a блоки.

Офлайн

#3 Ноя. 16, 2017 18:16:33

damilkrose
Зарегистрирован: 2017-11-10
Сообщения: 18
Репутация: +  -1  -
Профиль   Отправить e-mail  

парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

damilkrose
Проблема может быть в том что у блоков span может и не быть параметров string. Посмотри HTML код страницы и проверь правильность поиска. Может быть тебе не span нужен, а какой нибудь div или a блоки.
Может быть, если ты пишешь for paragraph in soup.findall(‘span’), значит поиск по текстам. Может там не string а text, content. Не не - просто проверь исходный код.

P. S. Лично я вместо urllib3 юза requests. Он в принципе просто Упрощенный urllib, но с ним удобнее.

Офлайн

#4 Ноя. 16, 2017 18:24:16

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

damilkrose
Какое это отношение имеет к ошибке 404?
Вы какой-то перманентный бред несете. То не к месту потоки приплетете, то на 404 виноват парсер. Давайте вы сначала думать будете, а потом раздавать советы?



Офлайн

#5 Ноя. 16, 2017 18:27:21

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

ewro
Пока вы не скажите, какой УРЛ пытаетесь парсить, вам вряд ли помогут - нюансов может быть миллион, может их серверу куки не хватает? Как это проверить?



Офлайн

#6 Ноя. 16, 2017 19:35:07

ewro
Зарегистрирован: 2017-11-03
Сообщения: 39
Репутация: +  0  -
Профиль   Отправить e-mail  

парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

http://zakupki.gov.ru
Там в поиске что-нибудь вбить. Например, “закупки”.

Отредактировано ewro (Ноя. 16, 2017 19:36:59)

Офлайн

#7 Ноя. 18, 2017 08:32:51

ewro
Зарегистрирован: 2017-11-03
Сообщения: 39
Репутация: +  0  -
Профиль   Отправить e-mail  

парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

Надо попробовать Selenium. То ли это направление?

Офлайн

#8 Ноя. 18, 2017 08:36:40

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

ewro
http://zakupki.gov.ruТам в поиске что-нибудь вбить. Например, “закупки”.
К сожалению там регламентные работы



Офлайн

#9 Ноя. 18, 2017 08:41:17

ewro
Зарегистрирован: 2017-11-03
Сообщения: 39
Репутация: +  0  -
Профиль   Отправить e-mail  

парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

Да, я видел уже. Скажите свое мнение о Selenium.

Офлайн

#10 Ноя. 18, 2017 08:52:43

ewro
Зарегистрирован: 2017-11-03
Сообщения: 39
Репутация: +  0  -
Профиль   Отправить e-mail  

парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

Я подозреваю, что моя проблема все же в библиотеке. И если, как я понял о Селениуме, он эмулирует браузер Chrome, например, то все должно получиться. При прочих равных условиях

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version