【玩转python系列】【小白必看】使用Python爬虫技术获取代理IP并保存到文件中

免费代理推荐 2025-02-10 23°

前言

这篇文章介绍了如何使用 Python 爬虫技术获取代理IP并保存到文件中。通过使用第三方库 requests 发送HTTP请求，并使用 lxml 库解析HTML，我们可以从多个网页上获取IP、Port和地址信息。本文将逐步解析代码的每一部分，帮助读者更好地理解爬虫的工作原理。

导入依赖库

import requests
from lxml import etree

requestslxml

打开文件准备写入数据

with open('IP代理.txt','w',encoding='utf-8') as f:

openf'IP代理.txt''utf-8'

循环爬取多个页面

for i in range(1,10):
    url = f'http://www.66ip.cn/{i}.html'
    print(f'正在获取{url}')
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'
    }
    resp = requests.get(url,headers = headers)
    resp.encoding ='gbk'
    e = etree.HTML(resp.text)
    ips = e.xpath('//div[1]/table//tr/td[1]/text()')
    ports = e.xpath('//div[1]/table//tr/td[2]/text()')
    addrs = e.xpath('//div[1]/table//tr/td[3]/text()')

    for i,p,a in zip(ips,ports,addrs):
        f.write(f'IP地址：{i}----port端口号：{p}-----地址：{a}\n')

ihttp://www.66ip.cn/{i}.html{i}print

headers

requestsheadersresp

'gbk'

elxmletree.HTML

ipsportsaddrs

zipforfwrite'IP地址：{i}----port端口号：{p}-----地址：{a}\n'

'IP代理.txt'

完整代码

import requests
from lxml import etree

# 定义保存结果的文件
with open('IP代理.txt', 'w', encoding='utf-8') as f:
    # 循环爬取多个页面
    for i in range(1, 10):
        # 构造完整的URL
        url = f'http://www.66ip.cn/{i}.html'
        print(f'正在获取{url}')

        # 伪装浏览器请求头
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'
        }

        # 发送GET请求
        resp = requests.get(url, headers=headers)

        # 设置响应的编码为GBK
        resp.encoding = 'gbk'

        # 解析HTML
        e = etree.HTML(resp.text)

        # 提取IP、Port和地址信息
        ips = e.xpath('//div[1]/table//tr/td[1]/text()')
        ports = e.xpath('//div[1]/table//tr/td[2]/text()')
        addrs = e.xpath('//div[1]/table//tr/td[3]/text()')

        # 将提取的代理信息写入文件
        for ip, port, addr in zip(ips, ports, addrs):
            f.write(f'IP地址：{ip}----port端口号：{port}-----地址：{addr}\n')

运行效果

结束语

通过本文介绍的Python爬虫技术，您可以轻松地获取代理IP并保存到文件中。这对于需要使用代理IP进行数据采集、反爬虫处理或其他网络爬虫应用非常有用。希望本文能够帮助您更好地理解爬虫的工作原理，并在实际项目中发挥作用。

阅读剩余 0%

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。

【安卓】手机代理软件：Postern代理使用教程

国内代理 IP 哪家质量更高？选择爱加速不会后悔

相关推荐

免费代理推荐

【安卓】手机代理软件：Postern代理使用教程

发表于 2025-02-10

Postern也是安卓手机常用的代理软件一、首先，添加手机白名单！（重要！重要！重要！）如果你使用手机代理的话，请先添加手机IP到花生HTTP的白名单。白名单添加后，才可正常使用手机代理。 ------------------- 二、白名单添加后，便可开始使用Postern代理。具体教程如下： 1、下载安装Postern ，图标图下图； 2、使用花生HTTP，获取ip和端口； 3

免费代理推荐

轻松实现安全公网访问：Lucky反向代理工具使用指南

发表于 2025-02-10

引言在上一篇我提到使用nginx-proxy-manager来配置反向代理，然后介绍了一下nginx-proxy-manager的简单配置。但其实在使用nginx-proxy-manager之前，我最开始用的是lucky，也很好用，有些功能特别优秀。如果你正在寻找一款简单易用的工具来快速搭建起你的家庭NAS公网访问方案，比如说飞牛NAS，那么Lucky是一个很不错的选择。什么是Lucky？

免费代理推荐

防封代理ip软件哪个好

发表于 2025-02-10

防封代理IP软件是一种网络工具，它可以帮助用户在互联网上保护自己的真实IP地址，防止被恶意攻击或者被封锁，这种的主要作用是在用户使用网络服务时，将用户的请求通过代理服务器转发出去，从而达到隐藏用户真实IP的目的，本文将详细介绍防封代理IP软件的技术原理、使用方法以及相关问题与解答。技术原理防封代理IP软件的核心技术是代理服务器的设置，当用户使用这种软件时，软件会自动选择一个可用的代理服务器

免费代理推荐

国内代理 IP 哪家质量更高？选择爱加速不会后悔

发表于 2025-02-10

伴随着对网络需求的改变，大家使用到国内代理 IP 的频率越来越高。很多商家也闻风而来，现在搜索“代理 IP”可以跳出一堆软件。这么多相似的软件，到底哪款质量更高呢？很多人特别喜欢爱加速代理 IP，那它有没有辜负大家的喜爱呢？爱加速代理 IP 的服务质量如何？如果你向爱加速代理 IP 的使用者提出这个问题，那么“优质”、“安全”、“可靠”这几个词一定会出现在答案中。爱加速代理 IP

免费代理推荐

国内代理IP哪家强？揭秘优质代理IP的选择秘诀！

发表于 2025-02-10

在网络信息时代，代理IP已经成为许多用户提高网络访问速度、突破地域限制、保护隐私安全的必备工具。然而，面对市场上琳琅满目的代理IP提供商，我们该如何挑选出优质的服务呢？今天，就让我来为你揭秘优质代理IP的选择秘诀！首先，我们要明确代理IP的作用和类型。代理IP，顾名思义，就是代替我们正常IP地址访问网络的服务器。它可以分为国内代理IP和国际代理IP。国内代理IP主要用于访问国内网站

免费代理推荐

国内代理IP有哪些适用场景 | 兔子IP

发表于 2025-02-10

在数字化时代，国内代理IP作为一种重要的网络工具，已经被广泛应用于各种场景中。它不仅可以帮助用户绕过地域限制，还能提供匿名访问和提高数据安全性。国内代理IP在多个领域都有广泛的应用，以下是一些常见的应用场景：这里推荐使用兔子IP ，会提供稳定可靠的IP资源以及相应的技术支持和售后服务。国内代理IP在网页抓取和数据采集中发挥着重要作用。通过使用代理IP，用户可以绕过目标网站的访问限制