自建免费的代理ip池

00×01— 前言

因为爬虫被禁ip这样的反扒真的很凶，但自从建了一个代理ip池以后，反反扒就可以跟的上节奏。当然你也可以上网上各种代理平台自己付费。这些平台当然很方便提供api调用，还不用自己验证。但你不想付费的话，可以看看下面这个国外的开源项目，我是从某网站的评论信息里找到的，下面操作均是基于该网站：https://raw.githubusercontent.com/fate0/proxylist/master/proxy.list

00×02— 获取代理的json信息

打开网站，不过需要墙，这是一个开源的项目

00×03 — 分析

很明显每一行是一个json数据，但整个页面你拿到的也不过是字符串而已，每一行末都换行，也就是说每一行末都有”\n”，那么思路很清晰，用requests获得整个页面的text（字符串），然后用split(‘\n’) 将每一行分割之后组成的列表，便利这个列表用json.loads()方法，将每一行的字符串转换为json对象，最后取值。

00×04 — 上代码

 #!/usr/bin/env python3
 # coding:utf-8
 #lanxing import json
 import telnetlib
 import requests
 import random proxy_url = 'https://raw.githubusercontent.com/fate0/proxylist/master/proxy.list'
 # proxyList = [] #定义函数,验证代理ip是否有效
 def verify(ip,port,type):
     proxies = {}
     try:
         telnet = telnetlib.Telnet(ip,port=port,timeout=3)  #用这个ip请访问，3s自动断开，返回tiemout
     except:
         print('unconnected')
     else:
         #print('connected successfully')
         # proxyList.append((ip + ':' + str(port),type))
         proxies['type'] = type
         proxies['host'] = ip
         proxies['port'] = port
         proxiesJson = json.dumps(proxies)
         #保存到本地的proxies_ip.json文件
         with open('proxies_ip.json','a+') as f:
             f.write(proxiesJson + '\n')
         print("已写入：%s" % proxies) #定义函数，带着url地址去获取数据
 def getProxy(proxy_url):
     response = requests.get(proxy_url)
     #print(type(response))
     # 用split('\n') 将每一行分割之后组成的列表，消除换行影响
     proxies_list = response.text.split('\n')
     for proxy_str in proxies_list:
         # 用json.loads()方法，将每一行的字符串转换为json对象，最后取值
         proxy_json = json.loads(proxy_str)
         host = proxy_json['host']
         port = proxy_json['port']
         type = proxy_json['type']
         verify(host,port,type) #主函数，入口
 if __name__ == '__main__':
     getProxy(proxy_url)

00×05 — 效果图

参考文章：https://blog.csdn.net/qq_42776455/article/details/83047883

个人收藏笔记记录

开通VIP