Форум сайта python.su
такс, столкнулся со следующей задачей, есть сайт с кучей ссылок, мне нужно считать эти все ссылки в список, в дальнейшем планирую делать скачивание файла по одной из этих ссылок
как это можно организовать?
Отредактировано (Дек. 25, 2011 13:22:25)
Офлайн
А что у Вас собственно не выходит?
Используйте модуль urllib для открытия страниц и скачки файлов, а модуль re для парсинга ссылок.
Офлайн
собсна хотелось бы подробней узнать что конкретно использовать из модулей urllib и re
Офлайн
Ищите информацию по этих модулях.За Вас программу никто не напишет.
Python 3
Пример открытия страницы:
from urllib import urlopen
site = urlopen('http://python.su')
data = site.read() #html код
from urllib import urlopen
site = urlopen('http://site.ru/music.mp3')
file = site.read()
save = open('music.mp3','wb')
save.write(file)
save.close()
from urllib import urlopen
import re
site = urlopen('http://site.ru')
html = site.read()
links = re.findall('<a href=['|"](.+?)['|"]>',html)
Офлайн
murdocесть ещё модуль html (htmllib) для разбора тегов
собсна хотелось бы подробней узнать что конкретно использовать из модулей urllib и re
Отредактировано (Дек. 27, 2011 08:03:08)
Офлайн
спасибо, буду разбираться :)
Офлайн