pythonrequests库爬取豆瓣电视剧数据并保存到本地详解-创新互联-乐山大橙子建站

新闻中心

这里有您想知道的互联网营销解决方案

pythonrequests库爬取豆瓣电视剧数据并保存到本地详解-创新互联

首先要做的就是去豆瓣网找对应的接口，这里就不赘述了，谷歌浏览器抓包即可，然后要做的就是分析返回的json数据的结构：

创新互联公司长期为上1000家客户提供的网站建设服务，团队从业经验10年，关注不同地域、不同群体，并针对不同对象提供差异化的产品和服务；打造开放共赢平台，与合作伙伴共同营造健康的互联网生态环境。为曲水企业提供专业的成都网站制作、做网站，曲水网站改版等技术服务。拥有十余年丰富建站经验和众多成功案例,为您定制开发。

https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start=0

这是接口地址，可以大概的分析一下各个参数的规则：

type=tv，表示的是电视剧的分类
tag=国产剧，表示是国产剧的分类
sort参数，这里猜测是一个排序方式
page_limit=20，这个一定就是每页所存取的数据数量了
page_start=0，表示的是这页从哪条数据开始，比如第二页就为page_start=20，第三页为page_start=40，以此类推
最终我们要用到的主要是page_start和page_limit两个参数

下面这里是返回的json数据格式，可以看出我们要的是json中subjects列表中的每条数据，在之后的程序中会把每一个电视剧的信息保存到文件里的一行

python requests库爬取豆瓣电视剧数据并保存到本地详解

有了这些，就直接上程序了，因为感觉程序还是比较好懂，主要还是遵从面向对象的程序设计：

import json
import requests


class DoubanSpider(object):
  """爬取豆瓣热门国产电视剧的数据并保存到本地"""

  def __init__(self):
    # url_temp中的start的值是动态的，所以这里用{}替换，方便后面使用format方法
    self.url_temp = 'https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start={}'
    self.headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
    }

  def pass_url(self, url): # 发送请求，获取响应
    print(url)
    response = requests.get(url, headers=self.headers)
    return response.content.decode()

  def get_content_list(self, json_str): # 提取数据
    dict_ret = json.loads(json_str)
    content_list = dict_ret['subjects']
    return content_list

  def save_content_list(self, content_list): # 保存
    with open('douban.txt', 'a', encoding='utf-8') as f:
      for content in content_list:
        f.write(json.dumps(content, ensure_ascii=False)) # 一部电视剧的信息一行
        f.write('\n') # 写入换行符进行换行
    print('保存成功！')


  def run(self): # 实现主要逻辑
    num = 0
    while True:
      # 1. start_url
      url = self.url_temp.format(num)
      # 2. 发送请求，获取响应
      json_str = self.pass_url(url)
      # 3. 提取数据
      content_list = self.get_content_list(json_str)
      # 4. 保存
      self.save_content_list(content_list)
      if len(content_list) < 20:
        break
      # 5. 构造下一页url地址，进入循环
      num += 20 # 每一页有二十条数据


if __name__ == '__main__':
  douban_spider = DoubanSpider()
  douban_spider.run()

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

当前文章：pythonrequests库爬取豆瓣电视剧数据并保存到本地详解-创新互联
标题网址：http://lswzjz.com/article/cshhgi.html

新闻中心

其他资讯