Scrapy使用代理爬取网站

在我们平时使用爬虫程序采集数据时,经常会遇到因采集速度过快导致自己的IP地址被目标网站封禁,有时候会封几分钟,有时候是封一天。这不仅会导致局域网内其他人也无法访问目标网站,还会阻碍我们的数据采集。为了保证正常采集数据且本地IP不被封禁,我们一般会使用代理IP。爬虫最好用高匿代理,高匿名代理不改变客户机的请求,这样在服务器看来就像有个真正的客户浏览器在访问它,这时客户的真实IP是隐藏的,服务器端不会认为我们使用了代理。我们爬虫程序一般使用的是神龙HTTP代理IP,质量稳定可用率高。requests库使用代理IP# 准备好的代理ipproxy = “127.0.0.1:8000” proxies = { “https”: “https://{0}”.format(proxy), “http”: “http://{0}”.format(proxy), }res = requests.get(url, proxies=proxies)以上代码片段是最简单的requests库实现代理IP执行get请求。线上爬虫使用代理IP方案目前爬虫使用代理的方法很多,这里我简单说说我在线上环境使用代理的心得。首先,我自己维护了一个代理IP池,这个IP池是放在redis中的,也就是说我的所有可使用的代理IP是放在redis中,使用redis的set数据结构。scrapy使用代理IPclass RandomProxyMiddleware(object): def init(self): settings = get_project_settings() self.PROXY_REDIS_HOST = settings.get(‘PROXY_REDIS_HOST’) self.PROXY_REDIS_PORT = settings.get(‘PROXY_REDIS_PORT’) self.PROXY_REDIS_PARAMS = settings.get(‘PROXY_REDIS_PARAMS’) self.PROXY_REDIS_KEY = settings.get(‘PROXY_REDIS_KEY’) self.pool = redis.ConnectionPool(host=self.PROXY_REDIS_HOST, port=self.PROXY_REDIS_PORT, db=self.PROXY_REDIS_PARAMS[‘db’], password=self.PROXY_REDIS_PARAMS[‘password’]) self.conn = redis.StrictRedis(connection_pool=self.pool) def process_request(self, request, spider): proxy = self.conn.srandmember(self.PROXY_REDIS_KEY) proxy = proxy.decode(‘utf-8’) proxy = json.loads(proxy) ip = proxy[‘proxy’] request.meta[‘proxy’] = “https://%s” % ip上面代码片段自定义一个代理中间件RandomProxyMiddleware,在scrapyprocess_request(self, request, spider)这个方法中使用redis的操作随机获取一个代理出来,加到request.meta[‘proxy’]中,便完成了代理中间件的编写。随后把RandomProxyMiddleware加到setting文件中,DOWNLOADER_MIDDLEWARES = { ‘crawl_spider.middlewares.RandomProxyMiddleware’: 400,}便可完成scrapy增加代理的需求。

阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。