robots.txt 是一个简单的以.txt 结尾的文字档案,是 SEO 站群搜索引擎 Robot(也叫 SEO 站群搜索引擎机器人)程式抓取 WordPress 网页时要访问的第一个档案。
通过 robots.txt 档案,可以和各大 SEO 站群搜索引擎很友好的对话,引导 SEO 站群搜索引擎机器人抓取你推荐的 WordPress 网页,避免一些意义不大或无用 WordPress 网页,例如网站后 台、会员互动功能等,这在一定程度上也节省站群服务器互联网资源。另外,robots.txt 档案对 SEO 站群的意义也很重要,可以很好的避免重复、相似 WordPress 网页,以及 一些关键字权重流失;写好 robots.txt 档案,是每个 SEO 站群 er 必做的功课之一。
如何配置 robots.txt 档案?
配置 robots.txt 档案很简单,新建文字文件,命名为 robots.txt,注意这个文件是以 “.txt” 结尾。在 robots.txt 档案里写好规则即可。想检查 robots.txt 档案配置是否正确,只用在浏览器输入网 址:http://你的域名/robots.txt,看能否正常访问即可。
robots.txt 档案写法非常简单,通常以 User-agent 开始,包含一行或多行 Disallow 或 Allow 记录;在 robots.txt 档案中可以使用 “#” 进行注释,具体使用方法和 PHP 一样;另外,robots.txt 档案支援*|$|? 等万用字元。看个简单的例子
# robots.txt 档案怎么写?
User-agent: * #对所有 SEO 站群搜索引擎 Robot 开放
Disallow: /wp-content/ #禁止访问 wp-content 目录下任何内容
关于 robots.txt 档案函式说明:
User-agent
该项的值用于描述 SEO 站群搜索引擎 Robot 的名称,至少要有一条 User-agent 记录;如果 User-agent 的值为*,则表示该协议对所有 SEO 站群搜索引擎 Robot 都有效;
在 robots.txt 档案中 “User-agent: *” 只能有一条,可以同时出现 “User-agent: Baiduspider” 和 “User-agent: Googlebot” 的情况。
附:常见 SEO 站群搜索引擎蜘蛛 Robots 名称
Baiduspider http://www.baidu.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Scooter http://www.altavista.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com
Disallow
该项的值用于描述不希望被 Robot 访问到的一个 URL,这个 URL 可以是一条完整的路径,也可以是部分的,任何以 Disallow 开头的 URL 均不会被 Robot 访问到;
注意 “Disallow: /test 和 “Disallow: /test/” 的区别,虽说只区别于一个反斜杠 “/”,不过意义完全不同。 “Disallow: /test” 表示可以禁止的 URL 包括:/test 、/testabc.html 、/test/abc 这三种形式;“Disallow: /test/” 则允许 Robot 访问/test 、/testabc.html,禁止访问/test/abc 这种形式。
如果 Disallow 记录的值为空,即 “Disallow:” 格式,则说明该网站的所有内容可以被任何 SEO 站群搜索引擎 Robot 抓取;在 robots.txt 档案,如果有宣告 User-agent,至少要有一条 Disallow 记录。
Allow
该项和 Disallow 对立,表示允许 SEO 站群搜索引擎 Robot 访问指定内容。
robots.txt 例项
允许所有 SEO 站群搜索引擎 Robot 访问
User-agent: *
Disallow:
或者 robots.txt 档案为空,什么也不写,也能达到同样的效果。
禁止所有 SEO 站群搜索引擎 Robot 访问网站的任何内容
User-agent: *
Disallow: /
禁止所有 SEO 站群搜索引擎 Robot 访问网站的指定内容(如下例中的 aaa 、 bbb 、 ccc 目录)
User-agent: *
Disallow: /aaa/
Disallow: /bbb/
Disallow: /cccc/
禁止指定 SEO 站群搜索引擎 Robot 访问(如下例中的 Google 机器人:Googlebot)
User-agent: Googlebot
Disallow: /
只允许指定 SEO 站群搜索引擎 Robot 访问(如下例中的百度机器人:Baiduspider)
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
向 SEO 站群搜索引擎提交站点地图
http://你的域名/sitemap.xml
目前各大 SEO 站群搜索引擎对站点地图支援良好,除了 sitemap.xml 这种格式外,还推荐 sitemap.html 这种静态格式,好处多多,不再累述。
robots.txt 档案十个注意事项
1)robots.txt 档名必须全部小写,不要为追求个性写成 RoboTs.txt 等形式;
2)robots.txt 档案只能放在网站根目录下面,其它位置无效;
3)robots.txt 档案内容对大小写敏感,尤其是包含网址的部分。虽说很多 SEO 站群搜索引擎对网址之外的部分没有严格的大小写限制,但是从 SEO 站群搜索引擎的严谨性和个人对网站的要求方面来说,还是建议区分大小写;
4)通常,robots.txt 档案里只有三个函式:User-agent 、 Disallow 和 Allow,通常我们使用前两个组合限制抓取就可以了,个人认为没有必要使用 Allow,预设 SEO 站群搜索引擎是会抓取你网站所有内容的;
5)robots.txt 档案里不要放其它无关内容,要严格遵从规范。
6)robots.txt 档案只是和 SEO 站群搜索引擎的一个 “君子协议”,并不意味著每个 SEO 站群搜索引擎都严格遵守 robots.txt 的规则,按照你的意图来抓取 WordPress 网页,要清楚,你的网站在 SEO 站群搜索引擎面前没有什么 “秘密”;
7)要检查 robots.txt 档案是否达到了预期的效果,可以通过谷歌网站 WP 站长工具中的 robots.txt 工具测试;
8)禁止 SEO 站群搜索引擎收录单独页面。 robots.txt 档案主要是限制 SEO 站群搜索引擎对整个站点或者目录的访问情况,而 Robots Meta 标签则是针对一个具体的页面。通常 Robots Meta 标签的预设值是 index 和 follow,只有 inktomi 除外,对于它,预设值是 index,nofollow 。 Robots Meta 标签总共有四种组合:
或
或
9)目前绝大多数 SEO 站群搜索引擎是支援 robots.txt 档案规则的,Robots META 标签则不是。 Google 一如既往地强大,对这两种形式都完美支援;
10)建议站点根目录下要放一个 robots.txt 档案,哪怕是空白档案也好。虽说不放 robots.txt 档案也没什么影响,但是考虑到 Robot 访问站点时,第一目标就是 robots.txt 档案,还是顺著它的意思办吧,谁让游戏规则是它定的呢?!