wordpressrobots的简单介绍-乐山大橙子建站

新闻中心

这里有您想知道的互联网营销解决方案

wordpressrobots的简单介绍

WordPress网站怎样正确设置robots.txt

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。搜索引擎机器人访问网站时，首先会寻找站点根目录有没有 robots.txt文件，如果有这个文件就根据文件的内容确定收录范围，如果没有就按默认访问以及收录所有页面。另外，当搜索蜘蛛发现不存在robots.txt文件时，会产生一个404错误日志在服务器上，从而增加服务器的负担，因此为站点添加一个robots.txt文件还是很重要的。知道Robots协议的作用后，下面具体说一下WordPress站点如何编写robots.txt文件。 WordPress站点默认在浏览器中输入：你的域名/robots.txt，会显示如下内容： User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ 这是由WordPress自动生成的，意思是告诉搜索引擎不要抓取后台程序文件。但这是远远不够的，比较完整的WordPress站点robots.txt文件内容如下： User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /*/comment-page-* Disallow: /*?replytocom=* Disallow: /category/*/page/ Disallow: /tag/*/page/ Disallow: /*/trackback Disallow: /feed Disallow: /*/feed Disallow: /comments/feed Disallow: /?s=* Disallow: /*/?s=*\ Disallow: /attachment/

成都创新互联公司网站建设公司，提供成都做网站、成都网站设计，网页设计，建网站，PHP网站建设等专业做网站服务;可快速的进行网站开发网页制作和功能扩展；专业做搜索引擎喜爱的网站，是专业的做网站团队，希望更多企业前来合作!

wordpress中robots.txt不显示怎么办

当我最开始搭建wordpress博客的时候，发现上传到根目录的robots.txt里面的内容根本就不是自己所上传的内容。那么如何查看自己网站robots.txt呢？一般情况下都是 http://你的域名/robots.txt这种样式的。

那

么当打开发现这个robots.txt不是自己填写的时候怎么办呢？这个可能是wordpress博客系统在你搭建网站的时候虚拟了一个

robots.txt文件，当你上传之后就会优先选用你上传的robots.txt文件，但是有时候就是优先选用了系统默认的robots.txt了。

首先打开你的程序，在wp-includes目录下找到functions.php文件

然后用记事本打开或者是用dreamweaver 打开，这里用dreamweaver进行编辑，打开functions.php文件，找到function do_robots() ，大概在1070行左右，可以看到系统默认的robots.txt文件的定义规则。

按照上面的规则样式来重新编写，将你网站需要添加的内容添加到这段代码里面。

添加好之后然后点击保存，这时候你就可以打开你的网站查看网站robots.txt是否完整了。

运营人博客

wordpress如何设置最佳robots.txt

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。Robots协议是国际互联网界通行的道德规范，尊重信息提供者的意愿维护其隐身，正如08年淘宝网屏蔽蜘蛛，11年京东的一淘网屏蔽了爬虫，都是体现robots.txt的规范互联网的原则，遵从民主自由。话题有点偏了，回到wordpress如何设置最佳robots.txt。

Robots.txt是搜索引擎蜘蛛进站的第一个胃口，首要检查的文件，网站有很多内容例如js，style，插件，图片是无需爬虫去抓取的，对博客网站来说文章才是重中之重，把所有力气放在文章，一点击破，而不是浪费资源做无用功，而wordpress默认的robots.txt是：

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

这只是其中的一小部分，对不懂优化的人来说，屏蔽这些应该已经足够，但对SEO来说，就是追求完美，没有最好只有更好，那么要屏蔽那些，如何屏蔽呢

1.动态页面对搜索引擎不友好，搜索引擎的口味是静态页面，所以可以屏蔽动态页面，前提是网站要伪静态，

Disallow: /*?* 限制动态页面 /%post_id%.html 伪静态设置

2.管理员登录界面，既然是管理员就没必要给爬虫抓取，登录界面对用户也没用

Disallow: /wp-admin/ 限制管理员登陆页面

3.插件、模板、js文件这些是网站的后台程序代码，也可以屏蔽

Disallow: /wp-content/plugins/ 限制插件文件

Disallow: /wp-content/themes/ 限制模板文件

Disallow: /wp-includes/ 限制js文件

4.feed，不知道站长们对这个熟悉吗，这个是网站的订阅文件，原本漳州网站建设也不知道，只知道有RSS订阅，在网站域名后加个feed你就清楚了，这个也可以屏蔽。

Disallow: /feed

5.网站的评论，评论被抓取会导致文章的重复，不利于观察分析，用户体验，但这个视具体情况，个人爱好不一。

Disallow: /comments 限制评论

Disallow: /*?replytocom* 限制每一个评论页面

设置完Robots.txt后，为保险起见，最好用百度站长工具检查一下，漳州网站建设就被robots.txt解禁困扰过，花了很长时间才把它搞定。插个小曲，robots.txt不仅可以禁止爬虫爬取网站结构，也可以禁止 404页面，搜索蜘蛛非常喜欢网站地图，sitemap可以为搜索引擎蜘蛛指路，增加网站重要内容页面的收录，也有利于用户体验，所以最后一点就是加入网站地图。

wordpress的robots文件怎么写？

在一个网站里，robots.txt是一个重要的文件，每个网站都应当有一个设置正确的robots.txt。

User-agent: *

Disallow: /admin_login/

Disallow: /admin/

Disallow: /admin.htm

Disallow:/admin.aspx

User-agent就是搜索引擎的蜘蛛，后面用了*号，表示对所有的蜘蛛有效。

Disallow就是表示不允许抓取，后面的目录或者文件，表示禁止抓取的范围。

当前文章：wordpressrobots的简单介绍
网页网址：http://lswzjz.com/article/doespdd.html

新闻中心

WordPress网站怎样正确设置robots.txt

wordpress中robots.txt不显示怎么办

wordpress如何设置最佳robots.txt

wordpress的robots文件怎么写？

其他资讯