python3之爬虫代理IP的使用+建立代理IP池

免费代理推荐 2025-02-13 67°

IP

IP

http://httpbin.org/get

用浏览器先访问测试网址下看看
再用我们写的代码简单请求一下网页看看

import requests
url='http://httpbin.org/get'

html=requests.get(url=url).text
print(html)
"""
{
  "args": {},
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "httpbin.org",
    "User-Agent": "python-requests/2.23.0",
    "X-Amzn-Trace-Id": "Root=1-5ff704d4-3841771516040beb29f6066f"
  },
  "origin": "1.192.244.128",
  "url": "http://httpbin.org/get"
}
"""

疑惑???

“User-Agent”: “python-requests/2.23.0”

User-Agentheaders

fake_useragent

import requests
from fake_useragent import UserAgent
url='http://httpbin.org/get'

headers={'User-Agent':UserAgent().random}

html=requests.get(url=url,headers=headers).text
print(html)
"""
{
  "args": {},
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "httpbin.org",
    "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:17.0) Gecko/20100101 Firefox/17.0.6",
    "X-Amzn-Trace-Id": "Root=1-5ff7a4de-05f8d7bf49dfe85e3be31d79"
  },
  "origin": "1.192.244.128",
  "url": "http://httpbin.org/get"
}
"""

“User-Agent”: “Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:17.0) Gecko/20100101 Firefox/17.0.6”

headers

IP

“origin”: “1.192.244.128”

IPIPIP

IPIPIPIP

IP

import requests
from fake_useragent import UserAgent
url='http://httpbin.org/get'
headers={'User-Agent':UserAgent().random}

# 参数类型
# proxies
# proxies = {'协议': '协议://IP:端口号'}
proxies = {
            'http': 'http://{}'.format('8.129.28.247:8888'),
            'https': 'https://{}'.format('8.129.28.247:8888'),
        }

html=requests.get(url=url,headers=headers,proxies=proxies).text
print(html)
"""
{
  "args": {},
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "httpbin.org",
    "User-Agent": "Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1667.0 Safari/537.36",
    "X-Amzn-Trace-Id": "Root=1-5ff7a71d-10b181340f8dc04f7514dfba"
  },
  "origin": "8.129.28.247",
  "url": "http://httpbin.org/get"
}
"""

“origin”: “8.129.28.247”

IPIP

IP

IPIP

定义一个测试函数

import requests
from fake_useragent import UserAgent

test_url = 'http://httpbin.org/get'

headers = {'User-Agent': UserAgent().random}

#                      参数 IP 地址
def test_proxy(proxy):
    '''测试代理IP是否可用'''
    proxies = {
        'http': 'http://{}'.format(proxy),
        'https': 'https://{}'.format(proxy),
    }
    # 参数类型
    # proxies
    # proxies = {'协议': '协议://IP:端口号'}
    # timeout 超时设置 网页响应时间3秒 超过时间会抛出异常
    try:
        resp = requests.get(url=test_url, proxies=proxies, headers=headers, timeout=3)
        
        # 查看状态码   
        if resp.status_code == 200:
            print(proxy, '\033[31m可用\033[0m')
            
        else:
            print(proxy, '不可用')


    except Exception as e:
        print(proxy, '不可用')

完整代码

xpathIP

# 建立属于自己的开放代理IP池
import requests
import random
import time
from lxml import etree
from fake_useragent import UserAgent

class IpPool:
    def __init__(self):
        # 测试ip是否可用url
        self.test_url = 'http://httpbin.org/get'
        # 获取IP的 目标url
        self.url = 'https://www.89ip.cn/index_{}.html'

        self.headers = {'User-Agent': UserAgent().random}
        # 存储可用ip
        self.file = open('ip_pool.txt', 'wb')

    def get_html(self, url):
        '''获取页面'''
        html = requests.get(url=url, headers=self.headers).text

        return html

    def get_proxy(self, url):
     	'''数据处理  获取ip 和端口''' 
        html = self.get_html(url=url)
        # print(html)
       
        elemt = etree.HTML(html)
        
        ips_list = elemt.xpath('//table/tbody/tr/td[1]/text()')
        ports_list = elemt.xpath('//table/tbody/tr/td[2]/text()')

        for ip, port in zip(ips_list, ports_list):
            # 拼接ip与port
            proxy = ip.strip() + ":" + port.strip()
            # print(proxy)
            
            # 175.44.109.195:9999
            self.test_proxy(proxy)

    def test_proxy(self, proxy):
        '''测试代理IP是否可用'''
        proxies = {
            'http': 'http://{}'.format(proxy),
            'https': 'https://{}'.format(proxy),
        }
        # 参数类型
        # proxies
        # proxies = {'协议': '协议://IP:端口号'}
        # timeout 超时设置 网页响应时间3秒 超过时间会抛出异常
        try:
            resp = requests.get(url=self.test_url, proxies=proxies, headers=self.headers, timeout=3)
           # 获取 状态码为200 
            if resp.status_code == 200:
                print(proxy, '\033[31m可用\033[0m')
                # 可以的IP 写入文本以便后续使用
                self.file.write(proxy)
                
            else:
                print(proxy, '不可用')

        except Exception as e:
            print(proxy, '不可用')

    def crawl(self):
        '''执行函数'''
        # 快代理每页url 的区别
        # https://www.kuaidaili.com/free/inha/1/
        # https://www.kuaidaili.com/free/inha/2/
        # .......
		# 提供的免费ip太多
        # 这里只获取前100页提供的免费代理IP测试
        for i in range(1, 101):
            # 拼接完整的url
            page_url = self.url.format(i)
            # 注意抓取控制频率
            time.sleep(random.randint(1, 4))
            self.get_proxy(url=page_url)

        # 执行完毕关闭文本
        self.file.close()


if __name__ == '__main__':
    ip = IpPool()
    ip.crawl()

IPIPIP

IP

159.203.44.177:3128

203.202.245.62:80

8.210.88.234:3128

89.187.177.106:80

89.187.177.106:80

96.113.165.182:3128

IP

阅读剩余 0%

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。

ip地址更改方法有哪些类型

应用程序“M.LSPTC.COM.CN”中的服务器错误

相关推荐

免费代理推荐

ip地址更改方法有哪些类型

发表于 2025-04-28

在互联网世界中，IP地址作为每个网络设备的唯一标识符，其重要性不言而喻。无论是为了提升网络安全、实现远程办公，还是解决地域限制等问题，我们都有可能需要更改IP地址。本文将详细介绍IP地址更改方法有哪些类型，以便在实际应用中能够灵活应对各种需求。一、静态IP地址更改静态IP地址是手动配置的，通常用于需要固定网络地址的场景。更改静态IP地址通常需要进入设备的网络设置或路由器管理界面

免费代理推荐

Hubstudio指纹浏览器使用巨量HTTP设置代理IP教程（详细）

发表于 2025-04-29

Hubstudio指纹浏览器是一款专为社交高效推广、广告精准投放等海外营销推广而专门研发的安全管理系统。它可以帮助卖家实现社交帐号的安全管理；同时提供多种工具帮用户提高广告投放的效率，节省运营成本。那么，在使用Hubstudio指纹浏览器的过程中针对不同的环境，就需要用到代理ip服务，今天，巨量http小编就给大家详细介绍下，在Hubstudio系统中，如何设置静态ip和动态ip的规则教程：

免费代理推荐

dhcp配置如何操作？花生壳如何进行端口映射？

发表于 2025-04-30

DHCP（Dynamic Host Configuration Protocol ,动态主机配置协议）通常被用在大型的局域网络中，主要作用是集中的管理，分配IP地址，使网络环境中的主机动态的获得IP地址，Gateway地址，DNS服务器地址等信息，并能够提升地址的使用率。小编整理了关于dhcp配置的相关信息，带大家了解如何进行dhcp配置。 dhcp配置如何操作？ DHCP由三种机制分配IP地址

免费代理推荐

应用程序“M.LSPTC.COM.CN”中的服务器错误

发表于 2025-02-15

错误摘要 HTTP 错误 404.0 - Not Found 您要找的资源已被删除、已更名或暂时不可用。详细错误信息模块 IIS Web Core 通知 MapRequestHandler 处理程序 StaticFile 错误代码 0x80070002 请求的 URL http://m.lsptc.com.cn:80/dzw=70370350 物理路径 D:\wwwroot\lsptc

免费代理推荐

提供免费办公场地合法吗

发表于 2025-02-11

咨询我帮助人数：42639 人好评率：95.25% 响应时间：5-10分钟内提供免费办公场地在一定情况下是合法的。从法律角度来看，如果是基于合法的商业合作、租赁协议的变更或其他合法的民事行为而提供免费办公场地，通常是合法的。例如，双方签订了长期的租赁合同，出租方出于某种商业考虑或与承租方的特殊关系，在一定时期内免除承租方的场地租金，这种行为符合双方的约定和法律规定。然而

免费代理推荐

免费网络代理，你真的了解它吗？

发表于 2025-02-11

在数字化时代，互联网已成为我们日常生活不可或缺的一部分。无论是工作、学习还是娱乐，网络都扮演着至关重要的角色。然而，随着网络环境的日益复杂，访问某些网站或服务时，我们可能会遇到地域限制、网络速度缓慢或隐私泄露等问题。这时，网络代理作为一种中间服务，便成为了许多用户的“救星”。尤其是免费网络代理，因其无需付费的特性，更是吸引了大量用户的关注和使用。但你真的了解免费网络代理吗？它背后的原理