什麼是 Robots.txt 檔案?
robots.txt 是一個很小但很重要的檔案,位於網站的根目錄中。可以讓蜘蛛(機器人)瞭解哪些頁面或目錄可以被爬行(爬行),哪些頁面不能被爬行(爬行)。 robots.txt 檔案可以用來完全阻止搜索引擎爬行器,或者僅僅限制它們對網站某些區域的訪問。下面 WordPress 站羣美國虛擬主機商主要就 robots 檔案裏面的一些基本內容做一個介紹。
User-agent:用於指定特定蜘蛛的抓取。適用於所有蜘蛛的抓取可以使用 “*” 。
不允許:用於告知機器人哪些檔案和資料夾不能爬行。
允許:告訴機器人可以爬行不允許爬行的資料夾中的檔案。
網站地圖:用於指定網站地圖的位置。
在 robots.txt 檔案中還可以使用的其他規則,比如 “Host:” 和 “Crawl-delay:”,但這些規則並不常見,只在特定的情況下使用。
Robots.txt 檔案的作用是什麼?
每一個被爬行的網站都有一個爬行預算。爬行預算主要是搜索引擎在任何給定時間都可以爬行的有限頁面數量,誰都不想把爬行預算浪費在低質量,垃圾的或不重要的頁面上。這就是 robots.txt 檔案的作用,可以使用 robots.txt 檔案指定搜索引擎應該忽略哪些頁面、檔案和目錄(以及其他搜索引擎),允許搜索引擎機器人把重點放在重要高質量的內容上。
下面是一些可以考慮在 WordPress 網站上遮蔽的重要事情:
分面導航和會話識別符號
現場重複的內容
軟錯誤頁面
被黑的頁面
無限的空間和代理
低質量和垃圾內容
這個列表直接來自谷歌網站管理員中心 WordPress 博客,在上面列出的頁面上浪費爬行預算將會減少在真正有價值的頁面上的爬行活動,這可能導致在搜索網站上重要內容時出現明顯的延遲。
不應該用 Robots.txt 做什麼
robots.txt 不應該用來作為一種控制搜索引擎索引頁面的方式,如果正在試圖阻止某些頁面被包含在搜索引擎結果中,應該使用 noindex 標記或指令,或加密保護頁面。這樣做的原因是 robots.txt 檔案實際上並沒有説明搜索引擎不要索引內容,它只是告訴他們不要爬行它。雖然搜索引擎不會從自己的網站中爬行不允許的區域,但它們確實指出,如果外部連結指向已經排除的頁面,它仍然可能被爬行和索引。在 WordPress 中需要 Robots.txt 檔案嗎?我想説的是 WordPress 可以不需要 robots.txt 檔案,但它絕對是被推薦的。
如何建立 WordPress Robots.txt 檔案
現在已經瞭解了 robots.txt 是什麼以及它的用途,接下來我們將研究如何建立一個 robots.txt 。有三種不同的方法,下面我將逐一介紹。
1 、使用插件外掛建立 Robots.txt
像 Yoast 這樣的搜索引擎優化插件外掛具有在 WordPress 儀表盤中建立和編輯 robots.txt 檔案的選項,這可能是最簡單的選項。
2 、使用 FTP 上傳 Robots.txt
另一個選項是使用記事本(或類似的東西)在計算機上建立.txt 檔案,並將其命名為 robots.txt 。然後,您可以使用 FTP(檔案傳輸協議)(如 FileZilla)將檔案上傳到網站的根目錄。
3 、在 cPanel 中建立 Robots.txt
如果以上兩個選項都不合適,您也可以登入到 cPanel 並手動建立檔案。務必確保在根目錄中建立檔案。
如何為 WordPress 優化 Robots.txt
WordPress robots.txt 中應該包含什麼呢?您可能會覺得很驚訝,但又不是是很多。下面,我將解釋原因。谷歌(和其他搜索引擎)正在不斷地發展和改進,所以曾經的最佳實踐不一定會再有效。現在谷歌不僅可以讀取網的站 HTML,還可以讀取您的 CSS 和 JS 檔案。由於這個原因,他們不喜歡在您遮蔽任何需要渲染的檔案或資料夾時使用它。在過去,阻止像/wp-include /和/wp-content/的資料夾是可以的。現在情況已經不同了。通過登入到谷歌 Webmaster 賬户並測試實時 URL 是測試它的簡單方法。如果有任何資源被谷歌機器人阻止,他們將會在頁面資源選項卡中不友好。
此外在修改 robots.txt 網站時要小心。雖然這些改變可以提高搜索流量,但如果犯錯,它們也會弊大於利。在建立並定製 robots.txt 之後,登入到谷歌 Webmaster 帳户,並使用這個機器人測試工具,該工具的操作方式與 Googlebot 類似,它將檢查 robots.txt 檔案,並驗證 URL 是否已被適當遮蔽。站長需要驗證一切都是正確的,並且沒有任何警告或錯誤。
robots.txt 是網站搜索引擎優化的重要部分。如果使用得當,它可以加快爬行的速度,並使更新的內容更快地建立索引。但是濫用這個檔案會對搜索引擎排名造成很大的損害,所以在進行任何更改時要小心。
希望本文能讓您更好地理解 robots.txt 檔案,以及如何針對特定的 WordPress 需求對其進行優化。有其他問題可以訪問 WordPress 站羣美國虛擬主機官網瞭解更多內容。推薦閲讀:站長應該怎樣著手優化網站。