Есть код для парсинга прокси с
gatherproxy.com:
import re
import requests
from fake_useragent import UserAgent
ua = UserAgent()
headers = {'User-Agent': ua.random}
class GatherProxy(object):
url = 'http://gatherproxy.com/proxylist'
pre1 = re.compile(r'gp\.insertPrx\({.*?}\)')
pre2 = re.compile(r'(?<=":").+?(?=",")')
def get_elite_proxy(self, pages=4, uptime=25):
proxies = set()
for i in range(1, pages + 1):
params = {"Type": "elite", "PageIdx": str(i), "Uptime": str(uptime)}
r = requests.post(self.url + "/anonymity/?t=Elite", params=params, headers=headers)
r = r.text
for td in self.pre1.findall(r):
try:
tmp = self.pre2.findall(str(td))
proxies.add(tmp[1] + ":" + str(int(tmp[3], 16)))
except:
pass
return proxies
P = GatherProxy()
prox = P.get_elite_proxy()
Пробую спарсить первые четыре страницы (взял для примера) но парсится только первая страница. Не могу понять, почему.