Уведомления

Группа в Telegram: @pythonsu

#1 Апрель 9, 2018 16:49:41

aydat
Зарегистрирован: 2016-09-28
Сообщения: 25
Репутация: +  0  -
Профиль   Отправить e-mail  

Grab и https

Всем привет, хотел по списку сайтов собрать емейлы, но столкнулся с проблемой, как только попадается сайт с https или редиректом каким-либо, grab начинает следующие страницы грузить, как 404. Уже настройки менял и так и сяк, не помогает, может кто сталкивался?
Подскажите пжл, регулярку на поиск ссылки с вхождение - “instagram.com

Список:

yseasons.ru
be2b.pro
arlekinospb.ru
world-stars.eu
www.Event-ER.ru
ledwed.ru
sunday-agency.ru
www.9540935.ru
panda-project.ru
https://clever-events.ru
https://vk.com/kreo_kuhnya
svyshe.com
www.remar.ru
www.sloko.ru
www.DesignBoutique.ru
yseasons.ru


 from grab import Grab, GrabError
import pycurl
import time
import random
import re
g = Grab()
g.setup(connect_timeout=10)
g.setup(log_dir='log')
#g.setup(redirect_limit=0)
#g.setup(reuse_cookies = True)
#g.setup(follow_refresh= False)
#g.clear_cookies()
eventfirm=open('url.txt').read().splitlines()
#kbkres= open('eventSPB.txt','w')
#print (eventfirm)
#g.go('www.terem-prazdnik.ru')
#print g.doc.rex_search('[\w\.-]+@[\w\.-]+').group(0) 
#print g.doc.text_search(u'@')
x=0
for x in range(len(eventfirm)):
	try:
		g.go(eventfirm[x])
		print g.doc.rex_search('[\w\.-]+@[\w\.-]+').group() #emeil
		  
	except IndexError:
                print ('Email не найден '+ eventfirm[x])
		continue
	except GrabError:
		print ('Сайт не работает '+ eventfirm[x])
		continue
print('Конец цикла')

Офлайн

#2 Апрель 10, 2018 04:11:43

papuas
Зарегистрирован: 2015-06-19
Сообщения: 159
Репутация: +  6  -
Профиль   Отправить e-mail  

Grab и https

Так и не понял в чем суть вопроса.

aydat
Уже настройки менял и так и сяк, не помогает, может кто сталкивался?
Что за настройки ?
Вы с телевизора чтоль майните ?

Не смотря на то, что код не идеален, достаточно изменить кое-что и он работает.
Список который вы подаете на вход нужно препарировать.
И вот результат работы вашего скрипта.
 info@yseasons.ru
('Resolving timed out after 10016 milliseconds', error(28, 'Resolving timed out after 10016 milliseconds'))http://be2b.pro.ru
arlekinospb@mail.ru
booking@world-stars.eu
ig-badge-sprite-32@2x.png
office@ledwed.ru
Email not found http://sunday-agency.ru
('Could not resolve: 9540935.ru (Domain name not found)', error(6, 'Could not resolve: 9540935.ru (Domain name not found)'))http://9540935.ru
hello@panda-project.ru
info@clever-events.ru
makarova@kreativprazdnik.ru
info@svyshe.com
info@remar.ru
info@sloko.ru
Email not found http://designboutique.ru
info@yseasons.ru
finish
Process finished with exit code 0

Отредактировано papuas (Апрель 10, 2018 04:23:39)

Офлайн

#3 Апрель 10, 2018 09:15:23

aydat
Зарегистрирован: 2016-09-28
Сообщения: 25
Репутация: +  0  -
Профиль   Отправить e-mail  

Grab и https

papuas
Что за настройки ?
Вы с телевизора чтоль майните ?

 #g.setup(redirect_limit=0)
#g.setup(reuse_cookies = True)
#g.setup(follow_refresh= False)

papuas
Не смотря на то, что код не идеален, достаточно изменить кое-что и он работает.
Список который вы подаете на вход нужно препарировать.
И вот результат работы вашего скрипта.

Добрый, препарировал с http/ худо-бедно заработало.

papuas
Не смотря на то, что код не идеален
Что посоветуете изменить?

Так же стоит задача, если емейл на найден на первой странице, провалиться по ссылке с именем Контакты/О нас и найти там, как это лучше реализовать?

Подскажите пжл, регулярку на поиск ссылки с вхождение - “instagram.com”

Отредактировано aydat (Апрель 10, 2018 09:23:07)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version