編者按:前兩週簡要地給大家介紹了搜索抓取系統工作原理,根據該工作原理今天簡要介紹一下如何建立網站是符合搜索引擎抓取系統習慣的。

  1 、簡單明瞭的網站結構

  Spider 抓取相當於對 web 這個有向圖進行遍歷,那麼一個簡單明瞭結構層次分明的網站肯定是它所喜歡的,並儘量保證 spider 的可讀性。

  (1) 樹型結構優的結構即 “頁—頻道—詳情頁”;

  (2) 扁平頁到詳情頁的層次儘量少,既對抓取友好又可以很好的傳遞權重。

  (3) 網狀保證每個頁面都至少有一個文字連結指向,可以使網站儘可能全面的被抓取收錄,內鏈建設同樣對排序能夠產生積極作用。

  (4) 導航為每個頁面加一個導航方便多用户知曉所在路徑。

  (5) 子域與目錄的選擇相信有大批的站羣站長對此有疑問,在我們看來,當內容較少並且內容相關度較高時建議以目錄形式來實現,有利於權重的繼承與收斂; 當內容量較多並且與主站相關度略差時建議再以子域的形式來實現。

  2 、簡潔美觀的 url 規則

  (1) 性網站中同一內容頁只與一個 url 相對應,過多形式的 url 將分散該頁面的權重,並且目標 url 在系統中有被濾重的風險;

  (2) 簡潔性動態引數儘量少,保證 url 儘量短;

  (3) 美觀性使得多用户及機器能夠通過 url 即可判斷出頁面內容的主旨;

  我們推薦如下形式的 url:url 儘量短且易讀使得多用户能夠快速理解,例如使用拼音作為目錄名稱; 同一內容在系統中只產生的 url 與之對應,去掉無意義的引數; 如果無法保證 url 的性,儘量使不同形式的 url301 到目標 url; 防止多用户輸錯的備用域名 301 至主域名。

  3 、其他注意事項

  (1) 不要忽略倒黴的 robots 檔案,預設情況下部分系統 robots 是封禁搜索引擎抓取的,當網站建立後及時檢視並書寫合適的 robots 檔案,網站日常維護過程中也要注意定期檢查;

  (2) 建立網站 sitemap 檔案、死鏈檔案,並及時通過百度站羣站長平台進行提交;

  (3) 部分電商網站存在地域跳轉問題,有貨無貨建議統一做成一個頁面,在頁面中標識有無貨即可,不要此地區無貨即返回一個無效頁面,由於 spider 出口的有限性將造成正常頁面無法收錄。

  (4) 合理利用站羣站長平台提供的 robots 、 sitemap 、索引量、抓取壓力、死鏈提交、網站改版等工具。