Найти - Пользователи
Полная версия: Не знаю с чего начать.
Начало » Python для новичков » Не знаю с чего начать.
1
smoke853
Вообщем возник такой вопрос:
Допустим мне нужно с какого-то сайта скачать набор каких-нибудь файлов (аудио, фото, видео, текстовые файлы, таблицы excel к примеру, pdf файлы и т.д.). Собственно что мне для этого нужно и можно ли такое сделать на Python? какие модули поставить, может какие-нибудь статьи есть на эту тему. Просто что касается web я в этом полный 0, т.е. тупо даже не знаю с чего начать и про что гуглить

P.S. пишу на python 3.3.0.

GaiveR
Вопрос-то в чём, как скачать файл зная его url? Или надо спарсить с сайта ссылки на файлы и все их выкачать?
smoke853
GaiveR, например: есть сайт goodfon.ru, и мне надо скачать обои из раздела текстуры допустим за вчерашний день, при этом обои должны быть только 1920х1080.
P.S. как и я написал выше я в этом полный 0, что такое спарсить ссылки я не знаю, может нужно и спарсить

P.S. готовый скрипт мне не нужен, мне нужна помощь именно в том с чего начать, документацию каких модулей почитать и т.д. Просто я вообще не представляю как это делается, и в какую сторону капать.
mks
Посмотрите эти уроки о применении библиотеки Grab. Правда она насколько я помню для 2-го питона.
GaiveR
smoke853 гуглите на тему парсинга сайтов.
В начале я бы рекомендовал спарсить что-нибудь без узкоспециализированных библиотек вроде grab. Когда будет базовое понимание того как это происходит, можно знакомиться с специализированными библиотеками.

Краткий алгоритм такой:
1. Получить страницу с данными (requests, urllib)
2. Разобрать её (lxml, в некоторых случаях достаточно re)
3. Выкачать/сохранить на диск необходимую информацию.
4. Получить очередную страницу с данными.
smoke853
mks, GaiveR и FishHook большое спасибо, буду изучать
FishHook
smoke853
Просто я вообще не представляю как это делается, и в какую сторону капать.
Минимально освоить HTML и HTTP для начала. Литературы - океан.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB