Найти - Пользователи
Полная версия: Grab и https
Начало » Python для новичков » Grab и https
1
aydat
Всем привет, хотел по списку сайтов собрать емейлы, но столкнулся с проблемой, как только попадается сайт с https или редиректом каким-либо, grab начинает следующие страницы грузить, как 404. Уже настройки менял и так и сяк, не помогает, может кто сталкивался?
Подскажите пжл, регулярку на поиск ссылки с вхождение - “instagram.com

Список:

yseasons.ru
be2b.pro
arlekinospb.ru
world-stars.eu
www.Event-ER.ru
ledwed.ru
sunday-agency.ru
www.9540935.ru
panda-project.ru
https://clever-events.ru
https://vk.com/kreo_kuhnya
svyshe.com
www.remar.ru
www.sloko.ru
www.DesignBoutique.ru
yseasons.ru


 from grab import Grab, GrabError
import pycurl
import time
import random
import re
g = Grab()
g.setup(connect_timeout=10)
g.setup(log_dir='log')
#g.setup(redirect_limit=0)
#g.setup(reuse_cookies = True)
#g.setup(follow_refresh= False)
#g.clear_cookies()
eventfirm=open('url.txt').read().splitlines()
#kbkres= open('eventSPB.txt','w')
#print (eventfirm)
#g.go('www.terem-prazdnik.ru')
#print g.doc.rex_search('[\w\.-]+@[\w\.-]+').group(0) 
#print g.doc.text_search(u'@')
x=0
for x in range(len(eventfirm)):
	try:
		g.go(eventfirm[x])
		print g.doc.rex_search('[\w\.-]+@[\w\.-]+').group() #emeil
		  
	except IndexError:
                print ('Email не найден '+ eventfirm[x])
		continue
	except GrabError:
		print ('Сайт не работает '+ eventfirm[x])
		continue
print('Конец цикла')
papuas
Так и не понял в чем суть вопроса.
aydat
Уже настройки менял и так и сяк, не помогает, может кто сталкивался?
Что за настройки ?
Вы с телевизора чтоль майните ?

Не смотря на то, что код не идеален, достаточно изменить кое-что и он работает.
Список который вы подаете на вход нужно препарировать.
И вот результат работы вашего скрипта.
 info@yseasons.ru
('Resolving timed out after 10016 milliseconds', error(28, 'Resolving timed out after 10016 milliseconds'))http://be2b.pro.ru
arlekinospb@mail.ru
booking@world-stars.eu
ig-badge-sprite-32@2x.png
office@ledwed.ru
Email not found http://sunday-agency.ru
('Could not resolve: 9540935.ru (Domain name not found)', error(6, 'Could not resolve: 9540935.ru (Domain name not found)'))http://9540935.ru
hello@panda-project.ru
info@clever-events.ru
makarova@kreativprazdnik.ru
info@svyshe.com
info@remar.ru
info@sloko.ru
Email not found http://designboutique.ru
info@yseasons.ru
finish
Process finished with exit code 0
aydat
papuas
Что за настройки ?
Вы с телевизора чтоль майните ?

 #g.setup(redirect_limit=0)
#g.setup(reuse_cookies = True)
#g.setup(follow_refresh= False)

papuas
Не смотря на то, что код не идеален, достаточно изменить кое-что и он работает.
Список который вы подаете на вход нужно препарировать.
И вот результат работы вашего скрипта.

Добрый, препарировал с http/ худо-бедно заработало.

papuas
Не смотря на то, что код не идеален
Что посоветуете изменить?

Так же стоит задача, если емейл на найден на первой странице, провалиться по ссылке с именем Контакты/О нас и найти там, как это лучше реализовать?

Подскажите пжл, регулярку на поиск ссылки с вхождение - “instagram.com”
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB