Python使用BeautifulSoup爬取豆瓣音乐排行榜过程解析-创新互联
前言
创新互联专业做网站、成都网站制作,集网站策划、网站设计、网站制作于一体,网站seo、网站优化、网站营销、软文发布平台等专业人才根据搜索规律编程设计,让网站在运行后,在搜索中有好的表现,专业设计制作为您带来效益的网站!让网站建设为您创造效益。要想学好爬虫,必须把基础打扎实,之前发布了两篇文章,分别是使用XPATH和requests爬取网页,今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup爬取网页。
什么是Beautiful Soup
- Beautiful Soup是一款高效的Python网页解析分析工具,可以用于解析HTL和XML文件并从中提取数据。
- Beautiful Soup输入文件的默认编码是Unicode,输出文件的编码是UTF-8。
- Beautiful Soup具有将输入文件自动补全的功能,如果输入的HTML文件的title标签没有闭合,则在输出的文件中会自动补全,并且还可以将格式混乱的输入文件按照标准的缩进格式输出。
Beautiful Soup要和其他的解析器搭配使用,例如Python标准库中的HTML解析器和其他第三方的lxml解析器,由于lxml解析器速度快、容错能力强,因此一般和Beautiful Soup搭配使用。
初始化Beautiful Soup对象的代码:
html = '''Hello Beautiful Soup Hello
''' soup = BeautifulSoup(html,'lxml')
文章题目:Python使用BeautifulSoup爬取豆瓣音乐排行榜过程解析-创新互联
文章分享:http://lswzjz.com/article/djdsic.html