Форум сайта python.su
Есть сайт с фильтром данных по запросу на начальной странице. На ней (на начальной) странице тестовый код работает как и положено. При переходе на страницу результата не может открыть страницу. Причина в библиотеке или в свойствах сайта? Соответственно эта ссылка открывается в любом браузере без проблем.
import urllib.request from bs4 import BeautifulSoup source = urllib.request.urlopen('http://...тратата') soup = BeautifulSoup(source, "lxml") for paragraf in soup.find_all('span'): print(paragraf.string)
Офлайн
Проблема может быть в том что у блоков span может и не быть параметров string. Посмотри HTML код страницы и проверь правильность поиска. Может быть тебе не span нужен, а какой нибудь div или a блоки.
Офлайн
damilkroseМожет быть, если ты пишешь for paragraph in soup.findall(‘span’), значит поиск по текстам. Может там не string а text, content. Не не - просто проверь исходный код.
Проблема может быть в том что у блоков span может и не быть параметров string. Посмотри HTML код страницы и проверь правильность поиска. Может быть тебе не span нужен, а какой нибудь div или a блоки.
Офлайн
damilkrose
Какое это отношение имеет к ошибке 404?
Вы какой-то перманентный бред несете. То не к месту потоки приплетете, то на 404 виноват парсер. Давайте вы сначала думать будете, а потом раздавать советы?
Офлайн
ewro
Пока вы не скажите, какой УРЛ пытаетесь парсить, вам вряд ли помогут - нюансов может быть миллион, может их серверу куки не хватает? Как это проверить?
Офлайн
http://zakupki.gov.ru
Там в поиске что-нибудь вбить. Например, “закупки”.
Отредактировано ewro (Ноя. 16, 2017 19:36:59)
Офлайн
Надо попробовать Selenium. То ли это направление?
Офлайн
ewroК сожалению там регламентные работы
http://zakupki.gov.ruТам в поиске что-нибудь вбить. Например, “закупки”.
Офлайн
Да, я видел уже. Скажите свое мнение о Selenium.
Офлайн
Я подозреваю, что моя проблема все же в библиотеке. И если, как я понял о Селениуме, он эмулирует браузер Chrome, например, то все должно получиться. При прочих равных условиях
Офлайн