Scrapy抓取免费ip代理地址的示例

Scrapy是一个用于爬取网站并提取结构化数据的应用程序框架，可用于各种有用的应用程序，例如数据挖掘，信息处理或历史档案。本文主要描述从某IP代理网站抓取内容的代码示例，免费代理IP时效性很差，仅供大家学习试用。

centos7安装Scrapy

pip install Scrapy

我本机安装时，不幸发生错误（Microsoft Visual C++ 14.0 is required），转而使用whl文件安装，下载地址【https://www.lfd.uci.edu/~gohlke/pythonlibs/】
分别下载Twisted和Scrapy，Twisted是依赖包，也需要安装。注意操作系统版本。

pip install Twisted-20.3.0-cp38-cp38-win_amd64.whl
pip install Scrapy-2.1.0-py3-none-any.whl

创建项目

scrapy startproject ipproxys

创建项目文件结构和主要文件的作用，如下：
scrapy.cfg ：项目的配置文件
ipproxys/ ：项目的Python模块
ipproxys/items.py ：项目的目标文件，将抓取内容模型化
ipproxys/pipelines.py ：项目的管道文件
ipproxys/settings.py ：项目的设置文件
Scrapy抓取免费ip代理地址的示例 ipproxys/spiders/ ：存储具体爬虫代码的目录

编写items.py代码

在items文件中增加目标网页对应的类，继承Item类，数据项是Field类型

class IpProxyItem(scrapy.Item):
    # define the fields for your item here like:
    ip = scrapy.Field()
    port = scrapy.Field()
    # 匿名度
    anons = scrapy.Field()
    # 类型：http/https
    schema = scrapy.Field()
    # 国家
    country = scrapy.Field()
    # 位置
    position = scrapy.Field()
    # 响应速度
    speed = scrapy.Field()
    # 最后验证时间
    verify_time = scrapy.Field()

编写爬虫代码

在spiders目录下，新建jiangxianli_spider.py并编写爬虫类文件，继承scrapy.Spider类，实现start_requests和parse两个方法。

class JxlIpSpider(scrapy.Spider):
    """
    搜索免费代理IP地址
    """
    #  Spider 的标识符，用于唯一标识该 Spider；在整个项目中是全局唯一的
    name = "free_ip"

    def start_requests(self):
        """
        必须定义并返回一组可以被 Spider 爬取的 Requests，Request 对象由一个 URL 和一个回调函数构成
        :return:
        """
        urls = [
            'https://ip.jiangxianli.com/?page=1',
            'https://ip.jiangxianli.com/?page=2'
            # 'https://www.kuaidaili.com/free'  # 国内高匿IP
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        """
         Request 对象中的回调方法，用来解析request返回的内容
        :param response:
        :return:
        """
        self.logger.info('正在爬取：< ' + response.request.url + ' >')
        # 按行读取数据
        tr_list = response.css("div.layui-form>table>tbody>tr")
        for tr in tr_list:
            # css的伪类 ::text
            ip = tr.css('td:nth-child(1)::text').get()
            port = tr.css('td:nth-child(2)::text').get()
            anons = tr.css('td:nth-child(3)::text').get()
            schema = tr.css('td:nth-child(4)::text').get()
            position = tr.css('td:nth-child(5)::text').get()
            country = tr.css('td:nth-child(6)::text').get()
            # 7 运营商
            speed = tr.css('td:nth-child(8)::text').get()
            # 9 存活时间
            verify_time = tr.css('td:nth-child(10)::text').get()
            item = IpProxyItem()
            item['ip'] = ip
            item['port'] = port
            item['anons'] = anons
            item['schema'] = schema
            item['position'] = position
            item['country'] = country
            item['schema'] = schema
            item['speed'] = speed
            item['verify_time'] = verify_time
            print(item)

            yield item

注意点：

name ：标识蜘蛛. 它在一个项目中必须是唯一的，也就是说，不能为不同的Spider设置相同的名称.
start_requests() ：必须返回一个可迭代的Requests（您可以返回请求列表或编写生成器函数），Spider将开始从中进行爬网. 随后的请求将从这些初始请求中依次生成.
parse() ：将被调用以处理为每个请求下载的响应的方法. response参数是TextResponse一个实例，该实例保存页面内容并具有其他有用的方法来处理它.

编写pipe保存数据

在piplelines.py文件中编写代码，将数据保存到redis库中。
同时，切记在配置文件中进行配置。

# 使用 connection pool 来管理对一个 redis server 的所有连接，避免每次建立、释放连接的开销
redis_pool = redis.ConnectionPool(host='192.168.xx.xx', port=6379, decode_responses=True, password='your password')
class IpProxyPipeline:

    def process_item(self, item, spider):
        self.save_redis(item)
        return item

    def save_redis(self, item):
        """
        redis 提供两个类 Redis 和 StrictRedis, StrictRedis 用于实现大部分官方的命令，Redis 是 StrictRedis 的子类，用于向后兼用旧版本。
        redis 取出的结果默认是字节，我们可以设定 decode_responses=True 改成字符串
        :return:
        """
        # 从连接池获取
        redis_server1 = redis.StrictRedis(connection_pool=redis_pool)
        # 直接创建连接
        # redis_server2 = redis.StrictRedis(host='192.168.xx.xx', port=6379, password='your password')

        # redis cache, push类似list.append
        redis_server1.rpush('iplist', '{}://{}:{}'.format(item['schema'].lower(), item['ip'], item['port']))

配置pipe

# Configure item pipelines
ITEM_PIPELINES = {
   'ipproxys.pipelines.IpProxyPipeline': 300,
}

运行项目

按蜘蛛名称运行

scrapy crawl free_ip

也可以按文件运行：scrapy runspider <spider_file.py>

附录：试用代理

url = 'https://www.baidu.com'
# 从redis获取代理ip列表，循环试用
for i in range(redis_server1.llen('iplist')):
	ip_proxy = redis_server1.lindex('iplist', i)
	# 区分http和https，如果拆分为两个key，则更方便一些
	schame = 'http' if url.find(':') == 5 else 'https'
	if schame == ip_proxy[0:5]:
		proxies[schame] = ip_proxy
		try:
			# 超时分为连接超时和读取超时
			res = requests.get(url=url, proxies=proxies, timeout=(5, 20))
			if res.status_code == 200:
				print('ok')
				break
		except Exception as ex:
			print(ex)

阅读剩余 0%

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。