robots.txt檔案是什麼？ - WordPress 多站點站羣

robots.txt 是一個簡單的以.txt 結尾的文字檔案，是 SEO 站羣搜索引擎 Robot（也叫 SEO 站羣搜索引擎機器人）程式抓取 WordPress 網頁時要訪問的第一個檔案。
通過 robots.txt 檔案，可以和各大 SEO 站羣搜索引擎很友好的對話，引導 SEO 站羣搜索引擎機器人抓取你推薦的 WordPress 網頁，避免一些意義不大或無用 WordPress 網頁，例如網站後台、會員互動功能等，這在一定程度上也節省站羣服務器互聯網資源。另外，robots.txt 檔案對 SEO 站羣的意義也很重要，可以很好的避免重複、相似 WordPress 網頁，以及一些關鍵字權重流失；寫好 robots.txt 檔案，是每個 SEO 站羣 er 必做的功課之一。
如何配置 robots.txt 檔案？
配置 robots.txt 檔案很簡單，新建文字文件，命名為 robots.txt，注意這個文件是以 “.txt” 結尾。在 robots.txt 檔案裏寫好規則即可。想檢查 robots.txt 檔案配置是否正確，只用在瀏覽器輸入網址:http://你的域名/robots.txt，看能否正常訪問即可。
robots.txt 檔案寫法非常簡單，通常以 User-agent 開始，包含一行或多行 Disallow 或 Allow 記錄；在 robots.txt 檔案中可以使用 “#” 進行註釋，具體使用方法和 PHP 一樣；另外，robots.txt 檔案支援*|$|? 等萬用字元。看個簡單的例子
# robots.txt 檔案怎麼寫？
User-agent: * #對所有 SEO 站羣搜索引擎 Robot 開放
Disallow: /wp-content/ #禁止訪問 wp-content 目錄下任何內容
關於 robots.txt 檔案函式説明：
User-agent
該項的值用於描述 SEO 站羣搜索引擎 Robot 的名稱，至少要有一條 User-agent 記錄；如果 User-agent 的值為*，則表示該協議對所有 SEO 站羣搜索引擎 Robot 都有效；
在 robots.txt 檔案中 “User-agent: *” 只能有一條，可以同時出現 “User-agent: Baiduspider” 和 “User-agent: Googlebot” 的情況。
附：常見 SEO 站羣搜索引擎蜘蛛 Robots 名稱
Baiduspider http://www.baidu.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Scooter http://www.altavista.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com
Disallow
該項的值用於描述不希望被 Robot 訪問到的一個 URL，這個 URL 可以是一條完整的路徑，也可以是部分的，任何以 Disallow 開頭的 URL 均不會被 Robot 訪問到；
注意 “Disallow: /test 和 “Disallow: /test/” 的區別，雖説只區別於一個反斜槓 “/”，不過意義完全不同。 “Disallow: /test” 表示可以禁止的 URL 包括：/test 、/testabc.html 、/test/abc 這三種形式；“Disallow: /test/” 則允許 Robot 訪問/test 、/testabc.html，禁止訪問/test/abc 這種形式。
如果 Disallow 記錄的值為空，即 “Disallow:” 格式，則説明該網站的所有內容可以被任何 SEO 站羣搜索引擎 Robot 抓取；在 robots.txt 檔案，如果有宣告 User-agent，至少要有一條 Disallow 記錄。

Allow
該項和 Disallow 對立，表示允許 SEO 站羣搜索引擎 Robot 訪問指定內容。

robots.txt 例項
允許所有 SEO 站羣搜索引擎 Robot 訪問
User-agent: *
Disallow:
或者 robots.txt 檔案為空，什麼也不寫，也能達到同樣的效果。
禁止所有 SEO 站羣搜索引擎 Robot 訪問網站的任何內容
User-agent: *
Disallow: /
禁止所有 SEO 站羣搜索引擎 Robot 訪問網站的指定內容（如下例中的 aaa 、 bbb 、 ccc 目錄）
User-agent: *
Disallow: /aaa/
Disallow: /bbb/
Disallow: /cccc/
禁止指定 SEO 站羣搜索引擎 Robot 訪問（如下例中的 Google 機器人：Googlebot）
User-agent: Googlebot
Disallow: /
只允許指定 SEO 站羣搜索引擎 Robot 訪問（如下例中的百度機器人：Baiduspider）
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
向 SEO 站羣搜索引擎提交站點地圖
http://你的域名/sitemap.xml
目前各大 SEO 站羣搜索引擎對站點地圖支援良好，除了 sitemap.xml 這種格式外，還推薦 sitemap.html 這種靜態格式，好處多多，不再累述。

robots.txt 檔案十個注意事項
1）robots.txt 檔名必須全部小寫，不要為追求個性寫成 RoboTs.txt 等形式；
2）robots.txt 檔案只能放在網站根目錄下面，其它位置無效；
3）robots.txt 檔案內容對大小寫敏感，尤其是包含網址的部分。雖説很多 SEO 站羣搜索引擎對網址之外的部分沒有嚴格的大小寫限制，但是從 SEO 站羣搜索引擎的嚴謹性和個人對網站的要求方面來説，還是建議區分大小寫；
4）通常，robots.txt 檔案裏只有三個函式：User-agent 、 Disallow 和 Allow，通常我們使用前兩個組合限制抓取就可以了，個人認為沒有必要使用 Allow，預設 SEO 站羣搜索引擎是會抓取你網站所有內容的；
5）robots.txt 檔案裏不要放其它無關內容，要嚴格遵從規範。
6）robots.txt 檔案只是和 SEO 站羣搜索引擎的一個 “君子協議”，並不意味著每個 SEO 站羣搜索引擎都嚴格遵守 robots.txt 的規則，按照你的意圖來抓取 WordPress 網頁，要清楚，你的網站在 SEO 站羣搜索引擎面前沒有什麼 “秘密”；
7）要檢查 robots.txt 檔案是否達到了預期的效果，可以通過谷歌網站 WP 站長工具中的 robots.txt 工具測試；
8）禁止 SEO 站羣搜索引擎收錄單獨頁面。 robots.txt 檔案主要是限制 SEO 站羣搜索引擎對整個站點或者目錄的訪問情況，而 Robots Meta 標籤則是針對一個具體的頁面。通常 Robots Meta 標籤的預設值是 index 和 follow，只有 inktomi 除外，對於它，預設值是 index,nofollow 。 Robots Meta 標籤總共有四種組合：
或

或
9）目前絕大多數 SEO 站羣搜索引擎是支援 robots.txt 檔案規則的，Robots META 標籤則不是。 Google 一如既往地強大，對這兩種形式都完美支援；
10）建議站點根目錄下要放一個 robots.txt 檔案，哪怕是空白檔案也好。雖説不放 robots.txt 檔案也沒什麼影響，但是考慮到 Robot 訪問站點時，第一目標就是 robots.txt 檔案，還是順著它的意思辦吧，誰讓遊戲規則是它定的呢？！

robots.txt 檔案是什麼？

robots.txt 檔案是什麼？