python中xpath爬虫实例详解-创新互联
案例一:
创新互联专注于共和网站建设服务及定制,我们拥有丰富的企业做网站经验。 热诚为您提供共和营销型网站建设,共和网站制作、共和网页设计、共和网站官网定制、微信平台小程序开发服务,打造共和网络公司原创品牌,更为您提供共和网站排名全网营销落地服务。某套图网站,套图以封面形式展现在页面,需要依次点击套图,点击广告盘链接,最后到达百度网盘展示页面。
这一过程通过爬虫来实现,收集百度网盘地址和提取码,采用xpath爬虫技术
1、首先分析图片列表页,该页按照更新先后顺序暂时套图封面,查看HTML结构。每一组“li”对应一组套图。属性href后面即为套图的内页地址(即广告盘链接页)。所以,我们先得获取列表页内所有的内页地址(即广告盘链接页)
代码如下:
import requests 倒入requests库 from lxml import etree 倒入lxml 库(没有这个库,pip install lxml安装) url = "https://www.xxxx.com/gc/" 请求地址 response = requests.get(url= url) 返回结果 wb_data = response.text 文本展示返回结果 html = etree.HTML(wb_data) 将页面转换成文档树 b = html.xpath('//ul[@class = "clearfix"]//@href') 这一步的意思是class“clearfix”下所有属性为“href”赋值给“b”,因为我们的目标内容都展示在class“clearfix”下,且在href属性后面 print(b) 打印b,这里的b是一个数组 print(b[0]) 打印b的第一项数据
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
本文标题:python中xpath爬虫实例详解-创新互联
转载源于:http://lswzjz.com/article/dchisc.html