怎样捅穿CloudFlare的5秒盾,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
创新互联公司专注为客户提供全方位的互联网综合服务,包含不限于成都网站建设、网站设计、新蔡网络推广、小程序制作、新蔡网络营销、新蔡企业策划、新蔡品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;创新互联公司为所有大学生创业者提供新蔡建站搭建服务,24小时服务热线:18982081108,官方网址:www.cdcxhl.com
经常写爬虫的同学,肯定知道 Cloud Flare 的五秒盾。当你没有使用正常的浏览器访问网站的时候,它会返回如下这段文字:
Checking your browser before accessing xxx.
This process is automatic. Your browser will redirect to your requested content shortly.
Please allow up to 5 seconds…
即使你把 Headers 带完整,使用代理 IP,也会被它发现。我们来看一个例子。Mountain View Whisman students sent home after children test positive for COVID-19 [1] 这篇文章,使用正常浏览器访问,效果如下图所示:
直接查看原始的网页源代码,可以看到,新闻标题和正文就在源代码里面,说明新闻的标题和正文都是后端渲染的,不是异步加载。如下图所示:
现在,我们使用 requests,带上完整的请求头来访问这个网站,效果如下图所示:
网站识别到了爬虫行为,成功把爬虫请求挡住了。很多同学在这个时候就已经束手无策了。因为这是爬虫的第一次请求就被挡住了,所以网站不是检测的 IP 或者访问频率,所以即使用代理 IP 也无济于事。而现在即使带上了完整的请求头都能被发现,那还有什么办法绕过这个检测呢?
实际上,要绕过这个5秒盾非常简单,只需要使用一个第三方库,叫做cloudscraper。我们可以使用pip来安装:
python3 -m pip install cloudscraper
安装完成以后,只需要使用3行代码就能绕过 Cloud Flare 的5秒盾:
import cloudscraper scraper = cloudscraper.create_scraper() resp = scraper.get('目标网站').text
我们还是以上面的网站为例:
import cloudscraper from lxml.html import fromstring scraper = cloudscraper.create_scraper() resp = scraper.get('https://mv-voice.com/news/2021/05/04/mountain-view-whisman-students-sent-home-after-children-test-positive-for-covid-19').text selector = fromstring(resp) title = selector.xpath('//h2/text()')[0] print(title)
运行效果如下图所示:
破盾成功。
CloudScraper[2] 非常强大,它可以突破 Cloud Flare 免费版各个版本的五秒盾。而且它的接口和 requests 保持一致。原来用 requests 怎么写代码,现在只需要把requests.xxx改成scraper.xxx就可以了。
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注创新互联行业资讯频道,感谢您对创新互联的支持。
文章题目:怎样捅穿CloudFlare的5秒盾
URL网址:http://lswzjz.com/article/ghcoej.html