Форум сайта python.su
0
Всем привет, хотел по списку сайтов собрать емейлы, но столкнулся с проблемой, как только попадается сайт с https или редиректом каким-либо, grab начинает следующие страницы грузить, как 404. Уже настройки менял и так и сяк, не помогает, может кто сталкивался?
Подскажите пжл, регулярку на поиск ссылки с вхождение - “instagram.com”
Список:
yseasons.ru
be2b.pro
arlekinospb.ru
world-stars.eu
www.Event-ER.ru
ledwed.ru
sunday-agency.ru
www.9540935.ru
panda-project.ru
https://clever-events.ru
https://vk.com/kreo_kuhnya
svyshe.com
www.remar.ru
www.sloko.ru
www.DesignBoutique.ru
yseasons.ru
from grab import Grab, GrabError import pycurl import time import random import re g = Grab() g.setup(connect_timeout=10) g.setup(log_dir='log') #g.setup(redirect_limit=0) #g.setup(reuse_cookies = True) #g.setup(follow_refresh= False) #g.clear_cookies() eventfirm=open('url.txt').read().splitlines() #kbkres= open('eventSPB.txt','w') #print (eventfirm) #g.go('www.terem-prazdnik.ru') #print g.doc.rex_search('[\w\.-]+@[\w\.-]+').group(0) #print g.doc.text_search(u'@') x=0 for x in range(len(eventfirm)): try: g.go(eventfirm[x]) print g.doc.rex_search('[\w\.-]+@[\w\.-]+').group() #emeil except IndexError: print ('Email не найден '+ eventfirm[x]) continue except GrabError: print ('Сайт не работает '+ eventfirm[x]) continue print('Конец цикла')
Офлайн
6
Так и не понял в чем суть вопроса.
aydatЧто за настройки ?
Уже настройки менял и так и сяк, не помогает, может кто сталкивался?
info@yseasons.ru ('Resolving timed out after 10016 milliseconds', error(28, 'Resolving timed out after 10016 milliseconds'))http://be2b.pro.ru arlekinospb@mail.ru booking@world-stars.eu ig-badge-sprite-32@2x.png office@ledwed.ru Email not found http://sunday-agency.ru ('Could not resolve: 9540935.ru (Domain name not found)', error(6, 'Could not resolve: 9540935.ru (Domain name not found)'))http://9540935.ru hello@panda-project.ru info@clever-events.ru makarova@kreativprazdnik.ru info@svyshe.com info@remar.ru info@sloko.ru Email not found http://designboutique.ru info@yseasons.ru finish Process finished with exit code 0
Отредактировано papuas (Апрель 10, 2018 04:23:39)
Офлайн
0
papuas
Что за настройки ?
Вы с телевизора чтоль майните ?
#g.setup(redirect_limit=0) #g.setup(reuse_cookies = True) #g.setup(follow_refresh= False)
papuas
Не смотря на то, что код не идеален, достаточно изменить кое-что и он работает.
Список который вы подаете на вход нужно препарировать.
И вот результат работы вашего скрипта.
/ худо-бедно заработало.papuasЧто посоветуете изменить?
Не смотря на то, что код не идеален
Подскажите пжл, регулярку на поиск ссылки с вхождение - “instagram.com”
Отредактировано aydat (Апрель 10, 2018 09:23:07)
Офлайн