马上就放“五一”了小长假了,但是为了疫情不在蔓延增加估计大家都选择待在家里。不知道疫情还要多久才能结束,让我们回到出行自由的日子。疫情前的“五一”小长假大家估计都是在思考到底应该去哪个地方玩儿,哪里才能玩得尽兴?哪些城市哪些景点最火?各个省份都有哪些好评又热门的景点?哪些景点打折力度大?现在估计思考的都是我应该多买些什么零食水果回去。虽然现在不能自由的出行旅游,但是我们可以想念下以前的那些出游时光。
所以今天我们就利用python爬取了飞猪网54675条全国景点门票数据,通过分析看下那些曾经让大家积极推荐的景点有哪些。我们通过请求,获取那些热门景区信息,这里爬取了前4页的景点信息,每页有15个景点。因为飞猪还是有一些反爬机制的,所以不能直接请求需要做些反爬策略。一般就加上代理IP辅助就可以,实现代码如下:
#! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "http://httpbin.org/ip" # 要访问的目标HTTPS页面 # targetUrl = "https://httpbin.org/ip" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
到此这篇关于Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析的文章就介绍到这了,读万卷书不如行万里路,学的扎不扎实要通过实战才能看出来,大家放假宅在家里可以实践下,可以在过程中查缺补漏,看看自己掌握程度怎么样。
若有收获,就点个赞吧