使用爬虫Scrapy框架获取完整小说 原创
2021-10-21 16:23
最近发现身边很多朋友都在看小说,然后还有朋友跟我抱怨过,虽然很多小说网站都有提供免费的小说阅读,但是它不提供下载全本的服务。道理大家都明白,商家也是为了获得更多的流量嘛。但是小编觉得这样还是很不好的,心理觉得就不服了,所以准备利用自己学的爬虫技术去挑战下。通过小编研究发现国内小说网站的结构,大概都如出一辙,改改地址,就差不多了。
爬取数据之前我们要先整理下思路
1、目标网站:
2、使用爬虫框架Scrapy
3、小说网站的分析、这个网站是比较大型的小说网站,网站的反爬机制肯定是做的比较好,所以我们在抓取之前还是需要做好一些基本的应对网站反扒的策略。随机ua,cookie,代理等。这里重点讲下爬虫代理的,这是个必不可少的辅助工具,但是网上代理千万家,好用的就那么几家,大家根据自己多年的爬虫经验肯定有信赖的代理的。
4、爬虫代理:
接下来我们就通过访问我们获得链接,进行标题和文本的获得。完整示例如下:
#! -*- encoding:utf-8 -*-
import base64
import sys
import random
PY3 = sys.version_info[0] >= 3
def base64ify(bytes_or_str):
if PY3 and isinstance(bytes_or_str, str):
input_bytes = bytes_or_str.encode('utf8')
else:
input_bytes = bytes_or_str
output_bytes = base64.urlsafe_b64encode(input_bytes)
if PY3:
return output_bytes.decode('ascii')
else:
return output_bytes
class ProxyMiddleware(object):
def process_request(self, request, spider):
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = " u7452.5.tn.16yun.cn"
proxyPort = "5446"
# 代理验证信息
proxyUser = "16JGPGSP"
proxyPass = "360350"
request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)
# 添加验证头
encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass
# 设置IP切换头(根据需求)
tunnel = random.randint(1,10000)
request.headers['Proxy-Tunnel'] = str(tunnel)本示例主要是跟大家分享是使用Scrapy如何通过配置代理访问目标网站。有需要的小伙伴可以参考实践下。
阅读 728 / 评论 0
- 上一篇: python帮你更快选择国考职位
- 下一篇: python爬取微博关键词数据






