学习爬虫前需要掌握的知识点原创

2021-09-30 16:12

这篇文章主要介绍了学习Python爬虫前,我们需要了解涉及爬虫的知识点，学习爬虫的知识点比较多，我们一起学习爬虫吧。

一、基本的协议http和https

爬虫代理包含了这两种协议，我们可以使用这两种协议去访问目标网站。亿牛云将爬虫代理分成两种不同的使用方式。（1）爬虫代理：是自动转发技术，通过配置固定代理域名、端口、用户名和密码直接使用，默认每个http请求自动转发，不需要绑定IP白名单。有demo参考使用，方便快捷，适合快速启动项目。（2）API提取的代理：通过URL提取文本，格式是IP:PORT，需要绑定IP白名单。适合自建IP池做策略管理，程序比较复杂。

二、常见url请求方式

get请求：一般只从服务器获取数据下来，并不会对服务器资源产生任何的影响.

post请求：向服务器发送数据（登陆），上传文件等，会对服务器资源产生影响的时候，会使用post请求三、常见的请求头参数：user-agent 浏览器名称

四、基本的状态码

200 请求正常，服务器正常返回数据

301 永久重定向

429 请求超量

302 网站跳转

504 目标网站封爬虫

五、基础的应对目标网站反爬机制

任何网站都会有反爬机制，基本的应对策略，添加代理，随机user-agent，cookie。

代理添加的一些示例