【网站SEO】你需要了解百度搜索抓取到索引入库的工作流程
【网站SEO】你需要了解百度搜索抓取到索引入库的工作流程
创新互联主要从事成都网站建设、网站建设、网页设计、企业做网站、公司建网站等业务。立足成都服务嘉荫,十余年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:028-86922220
百度搜索引擎工作大致可以分为四步。
分别为:1.蜘蛛抓取建库;2.库内检索排序;3.外部链接;4.结果显示。
一、蜘蛛爬行网页抓取内容建库
百度蜘蛛从一些重要的种子URL开始,通过页面上的超链接关系,不断的发现新URL并抓取网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。
二、建立索引,检索排序
抓取入库后,对页面进行分析,页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等。
然后再需要进行分词,分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;前面的工作完成后,接下来即是建立倒排索引,形成{termàdoc}
接下来就要进行排序,影响搜索结果排序的因素:相关性、权威性、时效性、重要性、丰富度、受欢迎程度,以上便是百度搜索引擎决定搜索结果排序时考虑的六大原则。
三、外部链接,即为外链,正所谓内容为王超链为皇。
文章标题:【网站SEO】你需要了解百度搜索抓取到索引入库的工作流程
标题来源:http://lswzjz.com/article/dghpghs.html