使用爬虫Scrapy框架获取完整小说原创

2021-10-21 16:23

最近发现身边很多朋友都在看小说，然后还有朋友跟我抱怨过，虽然很多小说网站都有提供免费的小说阅读，但是它不提供下载全本的服务。道理大家都明白，商家也是为了获得更多的流量嘛。但是小编觉得这样还是很不好的，心理觉得就不服了，所以准备利用自己学的爬虫技术去挑战下。通过小编研究发现国内小说网站的结构，大概都如出一辙，改改地址，就差不多了。

爬取数据之前我们要先整理下思路

1、目标网站：

2、使用爬虫框架Scrapy

3、小说网站的分析、这个网站是比较大型的小说网站，网站的反爬机制肯定是做的比较好，所以我们在抓取之前还是需要做好一些基本的应对网站反扒的策略。随机ua，cookie，代理等。这里重点讲下爬虫代理的，这是个必不可少的辅助工具，但是网上代理千万家，好用的就那么几家，大家根据自己多年的爬虫经验肯定有信赖的代理的。

4、爬虫代理:

接下来我们就通过访问我们获得链接，进行标题和文本的获得。完整示例如下：

  #! -*- encoding:utf-8 -*-
        import base64            
        import sys
        import random

        PY3 = sys.version_info[0] >= 3

        def base64ify(bytes_or_str):
            if PY3 and isinstance(bytes_or_str, str):
                input_bytes = bytes_or_str.encode('utf8')
            else:
                input_bytes = bytes_or_str

            output_bytes = base64.urlsafe_b64encode(input_bytes)
            if PY3:
                return output_bytes.decode('ascii')
            else:
                return output_bytes

        class ProxyMiddleware(object):                
            def process_request(self, request, spider):
                # 代理服务器(产品官网 www.16yun.cn)
                proxyHost = "	u7452.5.tn.16yun.cn"
                proxyPort = "5446"

                # 代理验证信息
                proxyUser = "16JGPGSP"
                proxyPass = "360350"

                request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)

                # 添加验证头
                encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
                request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass                    

                # 设置IP切换头(根据需求)
                tunnel = random.randint(1,10000)
                request.headers['Proxy-Tunnel'] = str(tunnel)

本示例主要是跟大家分享是使用Scrapy如何通过配置代理访问目标网站。有需要的小伙伴可以参考实践下。

阅读 785 / 评论 0