DjangoBB LoFi version

Полная версия: парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

Начало » Python для новичков » парсинг python ошибка urllib.error.HTTPError: HTTP Error 404: Not Found

1 2

ewro

Ноя. 16, 2017 16:13:50

Есть сайт с фильтром данных по запросу на начальной странице. На ней (на начальной) странице тестовый код работает как и положено. При переходе на страницу результата не может открыть страницу. Причина в библиотеке или в свойствах сайта? Соответственно эта ссылка открывается в любом браузере без проблем.

 import urllib.request
from bs4 import BeautifulSoup
source = urllib.request.urlopen('http://...тратата')
soup = BeautifulSoup(source, "lxml")
for paragraf in soup.find_all('span'):
    print(paragraf.string)

damilkrose

Ноя. 16, 2017 18:12:57

Проблема может быть в том что у блоков span может и не быть параметров string. Посмотри HTML код страницы и проверь правильность поиска. Может быть тебе не span нужен, а какой нибудь div или a блоки.

damilkrose

Ноя. 16, 2017 18:16:33

damilkrose
Проблема может быть в том что у блоков span может и не быть параметров string. Посмотри HTML код страницы и проверь правильность поиска. Может быть тебе не span нужен, а какой нибудь div или a блоки.

Может быть, если ты пишешь for paragraph in soup.findall(‘span’), значит поиск по текстам. Может там не string а text, content. Не не - просто проверь исходный код.

P. S. Лично я вместо urllib3 юза requests. Он в принципе просто Упрощенный urllib, но с ним удобнее.

FishHook

Ноя. 16, 2017 18:24:16

damilkrose
Какое это отношение имеет к ошибке 404?
Вы какой-то перманентный бред несете. То не к месту потоки приплетете, то на 404 виноват парсер. Давайте вы сначала думать будете, а потом раздавать советы?

FishHook

Ноя. 16, 2017 18:27:21

ewro
Пока вы не скажите, какой УРЛ пытаетесь парсить, вам вряд ли помогут - нюансов может быть миллион, может их серверу куки не хватает? Как это проверить?

ewro

Ноя. 16, 2017 19:35:07

http://zakupki.gov.ru
Там в поиске что-нибудь вбить. Например, “закупки”.

ewro

Ноя. 18, 2017 08:32:51

Надо попробовать Selenium. То ли это направление?

FishHook

Ноя. 18, 2017 08:36:40

ewro
http://zakupki.gov.ruТам в поиске что-нибудь вбить. Например, “закупки”.

К сожалению там регламентные работы

ewro

Ноя. 18, 2017 08:41:17

Да, я видел уже. Скажите свое мнение о Selenium.

ewro

Ноя. 18, 2017 08:52:43

Я подозреваю, что моя проблема все же в библиотеке. И если, как я понял о Селениуме, он эмулирует браузер Chrome, например, то все должно получиться. При прочих равных условиях