wordpress网站的robots.txt文件写法详解及示例

2025-04-26 11:59:20

robots.txt是一个放置在网站根目录的协议，它是搜索引擎进入网站的必经关卡，robots文件能告知进入网站的搜索引擎spider，这个网站中哪些网站是允许爬取的，哪些是禁止爬取的。

robots的语法很丰富，最常用的两个命令有两个：User-Agent和Disallow。

User-Agent：适用下列规则的漫游器，一般常写为：

User-agent：*

星号（*）表示面对所有搜索引擎爬虫spider程序，比如Google的“Googlebot”，百度的“Baiduspider”等。

Disallow：要拦截的网页，即不允许搜索引擎访问和索引的目录。robots文件中至少要有一个Disallow，如果都允许收录，则写: Disallow: ，如果都不允许收录，则写:Disallow: / （注：只是差一个斜杆）。Disallow的用法非常多，具体如下：

1、屏蔽spider捉取程序文件，同时也节约了搜索引擎蜘蛛资源。

Disallow：/wp-admin/

Disallow：/wp-content/

Disallow：/wp-includes/

2、每个默认的文章页面代码里，都有一段trackback的链接，如果不屏蔽让蜘蛛去捉取，网站会出现重复页面内容问题。

Disallow：/*/trackback

3、头部代码里的feed链接主要是提示浏览器用户可以订阅本站，而一般的站点都有RSS输出和网站地图，故屏蔽搜索引擎捉取这些链接，节约蜘蛛资源。

Disallow：/feed

Disallow：/*/feed

Disallow：/comments/feed

4、屏蔽捉取站内搜索结果。站内没出现这些链接不代表站外没有，如果收录了会造成和TAG等页面的内容相近。

Disallow：/?s=*

Disallow：/*/?s=*

5、屏蔽留言链接插件留下的变形留言链接。（没安装相关插件当然不用这条指令）

Disallow：/?r=*

6、屏蔽捉取任何图片文件，在这里主要是想节约点宽带，不同的网站管理员可以按照喜好和需要设置这几条指令。

Disallow：/*.jpg$

Disallow：/*.jpeg$

Disallow：/*.gif$

Disallow：/*.png$

Disallow：/*.bmp$

7、屏蔽捉取短链接。默认头部里的短链接，百度等搜索引擎蜘蛛会试图捉取，虽然最终短链接会301重定向到固定链接，但这样依然造成蜘蛛资源的浪费。

Disallow：/?p=*

8、屏蔽捉取留言信息链接。一般不会收录到这样的链接，但为了节约蜘蛛资源，也屏蔽之。

Disallow：/*/comment-page-*Disallow：/*?replytocom*

9、屏蔽其他的一些形形色色的链接，避免造成重复内容和隐私问题。

Disallow：/a/date/

Disallow：/a/author/

Disallow：/a/category/

Disallow：/?p=*&preview=true

Disallow：/?page_id=*&preview=true

Disallow：/wp-login.php

Sitemap：如果说sitemap是给搜索引擎爬虫指路的地图，那么robots则是看守网站的一道门。

sitemap在robots文件的写法如下：

Sitemap:http://***.com/sitemap.txt

切记S是大写的！

当然以上介绍的Disallow和Sitemap并非全部必须，可以按您网站的具体情况写入，同时可以用google管理工具测试robots.txt是否合乎规范。

声明：本网站引用、摘录或转载内容仅供网站访问者交流或参考，不代表本站立场，如存在版权或非法内容，请联系站长删除，联系邮箱：site.kefu@qq.com。