robots.txt 是一個簡單的以.txt 結尾的文字檔案,是 SEO 站羣搜索引擎 Robot(也叫 SEO 站羣搜索引擎機器人)程式抓取 WordPress 網頁時要訪問的第一個檔案。
通過 robots.txt 檔案,可以和各大 SEO 站羣搜索引擎很友好的對話,引導 SEO 站羣搜索引擎機器人抓取你推薦的 WordPress 網頁,避免一些意義不大或無用 WordPress 網頁,例如網站後 台、會員互動功能等,這在一定程度上也節省站羣服務器互聯網資源。另外,robots.txt 檔案對 SEO 站羣的意義也很重要,可以很好的避免重複、相似 WordPress 網頁,以及 一些關鍵字權重流失;寫好 robots.txt 檔案,是每個 SEO 站羣 er 必做的功課之一。
如何配置 robots.txt 檔案?
配置 robots.txt 檔案很簡單,新建文字文件,命名為 robots.txt,注意這個文件是以 “.txt” 結尾。在 robots.txt 檔案裏寫好規則即可。想檢查 robots.txt 檔案配置是否正確,只用在瀏覽器輸入網 址:http://你的域名/robots.txt,看能否正常訪問即可。
robots.txt 檔案寫法非常簡單,通常以 User-agent 開始,包含一行或多行 Disallow 或 Allow 記錄;在 robots.txt 檔案中可以使用 “#” 進行註釋,具體使用方法和 PHP 一樣;另外,robots.txt 檔案支援*|$|? 等萬用字元。看個簡單的例子
# robots.txt 檔案怎麼寫?
User-agent: * #對所有 SEO 站羣搜索引擎 Robot 開放
Disallow: /wp-content/ #禁止訪問 wp-content 目錄下任何內容
關於 robots.txt 檔案函式説明:
User-agent
該項的值用於描述 SEO 站羣搜索引擎 Robot 的名稱,至少要有一條 User-agent 記錄;如果 User-agent 的值為*,則表示該協議對所有 SEO 站羣搜索引擎 Robot 都有效;
在 robots.txt 檔案中 “User-agent: *” 只能有一條,可以同時出現 “User-agent: Baiduspider” 和 “User-agent: Googlebot” 的情況。
附:常見 SEO 站羣搜索引擎蜘蛛 Robots 名稱
Baiduspider http://www.baidu.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Scooter http://www.altavista.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com
Disallow
該項的值用於描述不希望被 Robot 訪問到的一個 URL,這個 URL 可以是一條完整的路徑,也可以是部分的,任何以 Disallow 開頭的 URL 均不會被 Robot 訪問到;
注意 “Disallow: /test 和 “Disallow: /test/” 的區別,雖説只區別於一個反斜槓 “/”,不過意義完全不同。 “Disallow: /test” 表示可以禁止的 URL 包括:/test 、/testabc.html 、/test/abc 這三種形式;“Disallow: /test/” 則允許 Robot 訪問/test 、/testabc.html,禁止訪問/test/abc 這種形式。
如果 Disallow 記錄的值為空,即 “Disallow:” 格式,則説明該網站的所有內容可以被任何 SEO 站羣搜索引擎 Robot 抓取;在 robots.txt 檔案,如果有宣告 User-agent,至少要有一條 Disallow 記錄。
Allow
該項和 Disallow 對立,表示允許 SEO 站羣搜索引擎 Robot 訪問指定內容。
robots.txt 例項
允許所有 SEO 站羣搜索引擎 Robot 訪問
User-agent: *
Disallow:
或者 robots.txt 檔案為空,什麼也不寫,也能達到同樣的效果。
禁止所有 SEO 站羣搜索引擎 Robot 訪問網站的任何內容
User-agent: *
Disallow: /
禁止所有 SEO 站羣搜索引擎 Robot 訪問網站的指定內容(如下例中的 aaa 、 bbb 、 ccc 目錄)
User-agent: *
Disallow: /aaa/
Disallow: /bbb/
Disallow: /cccc/
禁止指定 SEO 站羣搜索引擎 Robot 訪問(如下例中的 Google 機器人:Googlebot)
User-agent: Googlebot
Disallow: /
只允許指定 SEO 站羣搜索引擎 Robot 訪問(如下例中的百度機器人:Baiduspider)
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
向 SEO 站羣搜索引擎提交站點地圖
http://你的域名/sitemap.xml
目前各大 SEO 站羣搜索引擎對站點地圖支援良好,除了 sitemap.xml 這種格式外,還推薦 sitemap.html 這種靜態格式,好處多多,不再累述。
robots.txt 檔案十個注意事項
1)robots.txt 檔名必須全部小寫,不要為追求個性寫成 RoboTs.txt 等形式;
2)robots.txt 檔案只能放在網站根目錄下面,其它位置無效;
3)robots.txt 檔案內容對大小寫敏感,尤其是包含網址的部分。雖説很多 SEO 站羣搜索引擎對網址之外的部分沒有嚴格的大小寫限制,但是從 SEO 站羣搜索引擎的嚴謹性和個人對網站的要求方面來説,還是建議區分大小寫;
4)通常,robots.txt 檔案裏只有三個函式:User-agent 、 Disallow 和 Allow,通常我們使用前兩個組合限制抓取就可以了,個人認為沒有必要使用 Allow,預設 SEO 站羣搜索引擎是會抓取你網站所有內容的;
5)robots.txt 檔案裏不要放其它無關內容,要嚴格遵從規範。
6)robots.txt 檔案只是和 SEO 站羣搜索引擎的一個 “君子協議”,並不意味著每個 SEO 站羣搜索引擎都嚴格遵守 robots.txt 的規則,按照你的意圖來抓取 WordPress 網頁,要清楚,你的網站在 SEO 站羣搜索引擎面前沒有什麼 “秘密”;
7)要檢查 robots.txt 檔案是否達到了預期的效果,可以通過谷歌網站 WP 站長工具中的 robots.txt 工具測試;
8)禁止 SEO 站羣搜索引擎收錄單獨頁面。 robots.txt 檔案主要是限制 SEO 站羣搜索引擎對整個站點或者目錄的訪問情況,而 Robots Meta 標籤則是針對一個具體的頁面。通常 Robots Meta 標籤的預設值是 index 和 follow,只有 inktomi 除外,對於它,預設值是 index,nofollow 。 Robots Meta 標籤總共有四種組合:
或
或
9)目前絕大多數 SEO 站羣搜索引擎是支援 robots.txt 檔案規則的,Robots META 標籤則不是。 Google 一如既往地強大,對這兩種形式都完美支援;
10)建議站點根目錄下要放一個 robots.txt 檔案,哪怕是空白檔案也好。雖説不放 robots.txt 檔案也沒什麼影響,但是考慮到 Robot 訪問站點時,第一目標就是 robots.txt 檔案,還是順著它的意思辦吧,誰讓遊戲規則是它定的呢?!