python中xpath爬虫实例详解-创新互联-乐山大橙子建站

新闻中心

这里有您想知道的互联网营销解决方案

python中xpath爬虫实例详解-创新互联

案例一：

创新互联专注于共和网站建设服务及定制，我们拥有丰富的企业做网站经验。热诚为您提供共和营销型网站建设，共和网站制作、共和网页设计、共和网站官网定制、微信平台小程序开发服务，打造共和网络公司原创品牌,更为您提供共和网站排名全网营销落地服务。

python 中xpath爬虫实例详解

某套图网站，套图以封面形式展现在页面，需要依次点击套图，点击广告盘链接，最后到达百度网盘展示页面。

这一过程通过爬虫来实现，收集百度网盘地址和提取码，采用xpath爬虫技术

1、首先分析图片列表页，该页按照更新先后顺序暂时套图封面，查看HTML结构。每一组“li”对应一组套图。属性href后面即为套图的内页地址（即广告盘链接页）。所以，我们先得获取列表页内所有的内页地址（即广告盘链接页）

python 中xpath爬虫实例详解

代码如下：

import requests 倒入requests库
from lxml import etree 倒入lxml 库（没有这个库，pip install lxml安装）
url = "https://www.xxxx.com/gc/" 请求地址
response = requests.get(url= url) 返回结果
wb_data = response.text 文本展示返回结果
html = etree.HTML(wb_data) 将页面转换成文档树
b = html.xpath('//ul[@class = "clearfix"]//@href') 这一步的意思是class“clearfix”下所有属性为“href”赋值给“b”，因为我们的目标内容都展示在class“clearfix”下，且在href属性后面
print(b) 打印b，这里的b是一个数组
print(b[0]) 打印b的第一项数据

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

本文标题：python中xpath爬虫实例详解-创新互联
转载源于：http://lswzjz.com/article/dchisc.html

新闻中心

其他资讯