Latest posts on Проблемы в парсингом сайта topichttp://python.su/forum/topic/33722/2017-10-30T13:39:55+02:00Общий :: Data Mining :: Проблемы в парсингом сайта
2017-10-30T13:39:55+02:00helm2004185585Код на коленке:<br/><div class="code"><pre> <span class="kn">from</span> <span class="nn">bs4</span> <span class="kn">import</span> <span class="n">BeautifulSoup</span>
<span class="kn">import</span> <span class="nn">requests</span>
<span class="kn">from</span> <span class="nn">urllib.parse</span> <span class="kn">import</span> <span class="n">urlparse</span>
<span class="kn">from</span> <span class="nn">basket_rest.basket.models</span> <span class="kn">import</span> <span class="o">*</span>
<span class="n">a</span> <span class="o">=</span> <span class="n">requests</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">'http://basket.com.ua'</span><span class="p">)</span>
<span class="n">soup</span> <span class="o">=</span> <span class="n">BeautifulSoup</span><span class="p">(</span><span class="n">a</span><span class="o">.</span><span class="n">content</span><span class="p">,</span> <span class="s1">'lxml'</span><span class="p">)</span>
<span class="n">els_ul_new</span> <span class="o">=</span> <span class="n">soup</span><span class="o">.</span><span class="n">find_all</span><span class="p">(</span><span class="s1">'div'</span><span class="p">,</span> <span class="p">{</span><span class="s1">'class'</span><span class="p">:</span> <span class="s1">'ul_new'</span><span class="p">})</span>
</pre></div>
Общий :: Data Mining :: Проблемы в парсингом сайта
2017-10-28T13:32:15+03:00python335185468Ух. Извини, но я пока могу парсить только текст - это легче чем картинки и другие элементы, типо картинок, различных блоков и т.п. Но ты можешь посмотреть на pythonworld(или .ru или .com или .su - скорее всего .ru). Там ввобще все есть - от изучения синтаксиса до sqlite и т.п.
Общий :: Data Mining :: Проблемы в парсингом сайта
2017-10-04T20:41:27+03:00wesmokeweed184537Всем доброго времени суток. С парсингом на питоне, да и просто с парсингом ни разу не сталкивался. Требуется запарсить сайт <a href="https://cs.money">CS.MONEY</a>, а именно данный div-блок: <a href="https://imgur.com/a/hgYPB">*скриншот*</a> . Но в связи с моей неопытностью(криворукостью) не обошлось без проблем. Вот собственно и они:<br/><br/> 1) Сайт не парсится. При попытке запустить скрипт, вылазит эта ошибка: <a href="https://imgur.com/Sfq5BUN">*скриншот*</a>. Причем не парсится только этот сайт, с остальными все в порядке. Код:<div class="code"><pre> <span class="kn">import</span> <span class="nn">urllib.request</span>
<span class="kn">from</span> <span class="nn">bs4</span> <span class="kn">import</span> <span class="n">BeautifulSoup</span>
<span class="k">def</span> <span class="nf">get_html</span><span class="p">(</span><span class="n">url</span><span class="p">):</span>
<span class="n">response</span> <span class="o">=</span> <span class="n">urllib</span><span class="o">.</span><span class="n">request</span><span class="o">.</span><span class="n">urlopen</span><span class="p">(</span><span class="n">url</span><span class="p">)</span>
<span class="k">return</span> <span class="n">response</span><span class="o">.</span><span class="n">read</span><span class="p">()</span>
<span class="k">def</span> <span class="nf">main</span><span class="p">():</span>
<span class="k">print</span><span class="p">(</span><span class="n">get_html</span><span class="p">(</span><span class="s1">'https://cs.money/'</span><span class="p">))</span>
<span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">'__main__'</span><span class="p">:</span>
<span class="n">main</span><span class="p">()</span>
</pre></div><br/> 2) Даже если бы скрипт смог запарсить сайт, в html-коде отображается нет информации по тому div-блоку, который нужен мне. Что бы было понятнее, вот скриншоты: <a href="https://imgur.com/a/Ay4jF">*скриншоты*</a>.<br/><br/> 3) Допустим, я решил 1 и 2 проблемы, но есть еще одна. При открытии страницы в html-коде загружаются не все элементы(оружия), а лишь часть из них. Что бы загрузить все элементы(оружия), нужно скролить вниз <a href="https://imgur.com/a/hgYPB">этот</a> div-блок.<br/><br/>Надеюсь, вы поняли, что я тут накалякал. Никогда не умел четко выражать мысли. Жду вашей помощи.