Latest posts on Парсинг книжного сайта topichttp://python.su/forum/topic/36700/2019-03-22T12:13:44+02:00Общий :: Data Mining :: Парсинг книжного сайта
2019-03-22T12:13:44+02:00Pablic200145<blockquote><em>Lunnar</em><br/>Проблема решена или еще актуальна?</blockquote>Саму задачу решил, но использовал библиотеку selenium и тупо повторял свои действия на сайте
Общий :: Data Mining :: Парсинг книжного сайта
2019-03-22T12:04:47+02:00Lunnar200140Проблема решена или еще актуальна?
Общий :: Data Mining :: Парсинг книжного сайта
2019-02-04T23:42:49+02:00Romissevd198963Вероятно, что <strong>Pablic</strong> авторизован на сайте через какой-то из браузеров у себя. А авторизацию через requests не выполняет. Конечно могу и ошибаться, но исходя из представленного кода так и есть.
Общий :: Data Mining :: Парсинг книжного сайта
2019-02-04T23:14:39+02:00vic57198960смотрите на веб-инспекторе в браузере, вариантов что вам мешает много
Общий :: Data Mining :: Парсинг книжного сайта
2019-02-04T23:01:12+02:00Pablic198959<blockquote><em>vic57</em><br/>возможно станица динамическая, с JS. тут реквестом не обойдешься посмотри код страницы в браузере</blockquote>Если Вы имеете ввиду URL по которому файл спокойно скачиватся, то я не знаю как посмотреть его код в браузере. Я могу сказать точно, что после перехода по нему происходит GET запрос, который возвращает мне SVG файл со страницей. Что мешает мне со скрипта, грубо говоря, также обратиться к URL и получить файл?
Общий :: Data Mining :: Парсинг книжного сайта
2019-02-04T22:52:38+02:00vic57198958возможно станица динамическая, с JS. тут реквестом не обойдешься<br/>посмотри код страницы в браузере
Общий :: Data Mining :: Парсинг книжного сайта
2019-02-04T20:01:09+02:00Pablic198956Всем здравствуйте, прошу помочь с одним делом.<br/>Ситуация такая: есть книжный сайт, который по специальной подписке даёт доступ к книге через собственный viewer. Доступ именно ко всем страницам книги можно получить только если ты авторизован на сайте с подпиской, но в если в браузере вставить url по типу "http<img src="/static/djangobb_forum/img/smilies/hmm.png" />/***/page/4" и открыть, то скачается svg файл с текстом страницы.<br/>Исходя из этого я решил написать скрипт, который бы скачивал все страницы и сшивал бы их в книгу, но когда я использую такой запрос:<div class="code"><pre> <span class="kn">import</span> <span class="nn">requests</span>
<span class="n">s</span> <span class="o">=</span> <span class="n">requests</span><span class="o">.</span><span class="n">Session</span><span class="p">()</span>
<span class="n">page</span> <span class="o">=</span> <span class="n">s</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">'url страницы по которой идёт скачивание'</span><span class="p">)</span>
<span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="s1">'./page.svg'</span><span class="p">,</span> <span class="s1">'w'</span><span class="p">)</span> <span class="k">as</span> <span class="n">output_file</span><span class="p">:</span>
<span class="n">output_file</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">page</span><span class="o">.</span><span class="n">text</span><span class="p">)</span>
</pre></div><br/>Файл svg, после выполнения данных команд сохраняет страницу с надписью “Просмотр недоступен” как это было бы если я попытался посмотреть эту страницу в viewer'е без авторизации. На тот момент я был авторизован в аккаунте с подпиской.<br/><br/>Подскажите пожалуйста чего не хватает в запросе или как узнать какую ещё информацию от меня хочет сервер. Заранее спасибо