Пишу парсер, который должен вытащить с сайта все картинки. Начал с конца. Написал сначала последнюю часть в которой картинки сохраняются на диск с теми же путями как у донора.
А вот с первой частью возникли вопросы.
Нужно проходить по странице, собирать ссылки на изображения и добавлять их либо в список, либо записывать в файл - это не проблема.
Нужно собирать ссылки на другие страницы сайта и пробегаться по ним. Собрать ссылки со страницы тоже не проблема.
Хочу получить совет как организовать логику парсера. Я сейчас смутно вижу задачу так:
- собираю нужные данные с текущей страницы
- собираю ссылки со страницы, добавляю их в кортеж или список (“Белый список”)
- заношу текущую страницу в (“Черный список”)
- затем беру первый элемент из белого списка и определяю нет ли его в черном списке, если нет, то загружаю документ по этому урлу
- повторяю процесс.
Знаю про фреймворки Grab и Scrappy, но думаю разбираться в них буду дольше чем делать сам. Кроме того написать самому было бы интереснее. Я только учу Питон, и хотелось бы совместить одно полезное с другим.
