robots.txt档案是什么？ - WordPress 多站点站群

robots.txt 是一个简单的以.txt 结尾的文字档案，是 SEO 站群搜索引擎 Robot（也叫 SEO 站群搜索引擎机器人）程式抓取 WordPress 网页时要访问的第一个档案。
通过 robots.txt 档案，可以和各大 SEO 站群搜索引擎很友好的对话，引导 SEO 站群搜索引擎机器人抓取你推荐的 WordPress 网页，避免一些意义不大或无用 WordPress 网页，例如网站后台、会员互动功能等，这在一定程度上也节省站群服务器互联网资源。另外，robots.txt 档案对 SEO 站群的意义也很重要，可以很好的避免重复、相似 WordPress 网页，以及一些关键字权重流失；写好 robots.txt 档案，是每个 SEO 站群 er 必做的功课之一。
如何配置 robots.txt 档案？
配置 robots.txt 档案很简单，新建文字文件，命名为 robots.txt，注意这个文件是以 “.txt” 结尾。在 robots.txt 档案里写好规则即可。想检查 robots.txt 档案配置是否正确，只用在浏览器输入网址:http://你的域名/robots.txt，看能否正常访问即可。
robots.txt 档案写法非常简单，通常以 User-agent 开始，包含一行或多行 Disallow 或 Allow 记录；在 robots.txt 档案中可以使用 “#” 进行注释，具体使用方法和 PHP 一样；另外，robots.txt 档案支援*|$|? 等万用字元。看个简单的例子
# robots.txt 档案怎么写？
User-agent: * #对所有 SEO 站群搜索引擎 Robot 开放
Disallow: /wp-content/ #禁止访问 wp-content 目录下任何内容
关于 robots.txt 档案函式说明：
User-agent
该项的值用于描述 SEO 站群搜索引擎 Robot 的名称，至少要有一条 User-agent 记录；如果 User-agent 的值为*，则表示该协议对所有 SEO 站群搜索引擎 Robot 都有效；
在 robots.txt 档案中 “User-agent: *” 只能有一条，可以同时出现 “User-agent: Baiduspider” 和 “User-agent: Googlebot” 的情况。
附：常见 SEO 站群搜索引擎蜘蛛 Robots 名称
Baiduspider http://www.baidu.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Scooter http://www.altavista.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com
Disallow
该项的值用于描述不希望被 Robot 访问到的一个 URL，这个 URL 可以是一条完整的路径，也可以是部分的，任何以 Disallow 开头的 URL 均不会被 Robot 访问到；
注意 “Disallow: /test 和 “Disallow: /test/” 的区别，虽说只区别于一个反斜杠 “/”，不过意义完全不同。 “Disallow: /test” 表示可以禁止的 URL 包括：/test 、/testabc.html 、/test/abc 这三种形式；“Disallow: /test/” 则允许 Robot 访问/test 、/testabc.html，禁止访问/test/abc 这种形式。
如果 Disallow 记录的值为空，即 “Disallow:” 格式，则说明该网站的所有内容可以被任何 SEO 站群搜索引擎 Robot 抓取；在 robots.txt 档案，如果有宣告 User-agent，至少要有一条 Disallow 记录。

Allow
该项和 Disallow 对立，表示允许 SEO 站群搜索引擎 Robot 访问指定内容。

robots.txt 例项
允许所有 SEO 站群搜索引擎 Robot 访问
User-agent: *
Disallow:
或者 robots.txt 档案为空，什么也不写，也能达到同样的效果。
禁止所有 SEO 站群搜索引擎 Robot 访问网站的任何内容
User-agent: *
Disallow: /
禁止所有 SEO 站群搜索引擎 Robot 访问网站的指定内容（如下例中的 aaa 、 bbb 、 ccc 目录）
User-agent: *
Disallow: /aaa/
Disallow: /bbb/
Disallow: /cccc/
禁止指定 SEO 站群搜索引擎 Robot 访问（如下例中的 Google 机器人：Googlebot）
User-agent: Googlebot
Disallow: /
只允许指定 SEO 站群搜索引擎 Robot 访问（如下例中的百度机器人：Baiduspider）
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
向 SEO 站群搜索引擎提交站点地图
http://你的域名/sitemap.xml
目前各大 SEO 站群搜索引擎对站点地图支援良好，除了 sitemap.xml 这种格式外，还推荐 sitemap.html 这种静态格式，好处多多，不再累述。

robots.txt 档案十个注意事项
1）robots.txt 档名必须全部小写，不要为追求个性写成 RoboTs.txt 等形式；
2）robots.txt 档案只能放在网站根目录下面，其它位置无效；
3）robots.txt 档案内容对大小写敏感，尤其是包含网址的部分。虽说很多 SEO 站群搜索引擎对网址之外的部分没有严格的大小写限制，但是从 SEO 站群搜索引擎的严谨性和个人对网站的要求方面来说，还是建议区分大小写；
4）通常，robots.txt 档案里只有三个函式：User-agent 、 Disallow 和 Allow，通常我们使用前两个组合限制抓取就可以了，个人认为没有必要使用 Allow，预设 SEO 站群搜索引擎是会抓取你网站所有内容的；
5）robots.txt 档案里不要放其它无关内容，要严格遵从规范。
6）robots.txt 档案只是和 SEO 站群搜索引擎的一个 “君子协议”，并不意味著每个 SEO 站群搜索引擎都严格遵守 robots.txt 的规则，按照你的意图来抓取 WordPress 网页，要清楚，你的网站在 SEO 站群搜索引擎面前没有什么 “秘密”；
7）要检查 robots.txt 档案是否达到了预期的效果，可以通过谷歌网站 WP 站长工具中的 robots.txt 工具测试；
8）禁止 SEO 站群搜索引擎收录单独页面。 robots.txt 档案主要是限制 SEO 站群搜索引擎对整个站点或者目录的访问情况，而 Robots Meta 标签则是针对一个具体的页面。通常 Robots Meta 标签的预设值是 index 和 follow，只有 inktomi 除外，对于它，预设值是 index,nofollow 。 Robots Meta 标签总共有四种组合：
或

或
9）目前绝大多数 SEO 站群搜索引擎是支援 robots.txt 档案规则的，Robots META 标签则不是。 Google 一如既往地强大，对这两种形式都完美支援；
10）建议站点根目录下要放一个 robots.txt 档案，哪怕是空白档案也好。虽说不放 robots.txt 档案也没什么影响，但是考虑到 Robot 访问站点时，第一目标就是 robots.txt 档案，还是顺著它的意思办吧，谁让游戏规则是它定的呢？！

robots.txt 档案是什么？

robots.txt 档案是什么？