若有收获,就点个赞吧
python系列之食谱数据 原创
2022-05-26 16:50
疫情之下,很多人都经历过居家隔离生活,一日三餐的都需要自己动手,对于没有烹饪经验的人而言,做菜是先放油还是先放盐都是一种难以抉择的考验,更别说美味了。那么如果你是爬虫工作者,那么学完本小节之后,你就可以轻松地按着教程的步骤做出任何美味佳肴,而且不带重样的,从此成为新一代神厨小当家,心动了吗?那么我们学起来吧。
首先我们的数据来源网站是:,在进行获取之前我们需要简单的分析下这个网站,整体比较好爬取,反爬机制不是很严,但是我们基本的反爬措施还是需要做好,尤其是代理IP的添加。对代理IP不知道怎么选择靠谱的,可以直接选择这家,api获取的和动态转发的都有提供。接下来的实现代码里面就算使用的动态转发的,可以参考学习下:
#! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "http://www.xiachufang.com/explore/" # 要访问的目标HTTPS页面 # targetUrl = "http://www.xiachufang.com/explore/" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "636868" # 代理验证信息 proxyUser = "16RAEFHU" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
获取到的食谱我们通过表格保存起来,需要的时候直接看着操作就可以,不仅让我们学会了下厨还解决了我们不知道吃什么的烦恼问题。
阅读 317 / 评论 0
- 上一篇: 利用python浅分析下最近的股票市场
- 下一篇: 每逢高考必有雨?