百度優先建重要庫的原則  Baiduspider 抓了多少頁面並不是重要的,重要的是有多少頁面被建索引庫,即我們常説的 “建庫” 。眾所周知,搜索引擎的索引庫是分層級的,優質的網頁會被分配到重要索引庫,普通網頁會待在普通庫,再差一些的網頁會被分配到低階庫去當補充材料。目前 60% 的檢索需求只呼叫重要索引庫即可滿足,這也就解釋了為什麼有些網站的收錄量超高流量卻一直不理想。  那麼,哪些網頁可以進入優質索引庫呢。其實總的原則就是一個:對多用户的價值。包括卻不僅於:  1 、有時效性且有價值的頁面:在這裏,時效性和價值是並列關係,缺一不可。有些站點為了產生時效性內容頁面做了大量採集工作,產生了一堆無價值面頁,也是百度不願看到的。  2 、內容優質的專題頁面:專題頁面的內容不一定完全是原創的,即可以很好地把各方內容整合在一起,或者增加一些新鮮的內容,比如觀點和評論,給多用户更豐富全面的內容。  3 、高價值原創內容頁面:百度把原創定義為花費一定成本、大量經驗積累提取後形成的文章。千萬不要再問我們偽原創是不是原創。  4 、重要個人頁面:這裏僅舉一個例子,科比在新浪微博開户了,即使他不經常更新,但對於百度來説,它仍然是一個極重要的頁面。
  哪些網頁無法建入索引庫  上述優質網頁進了索引庫,那其實互聯網上大部分網站根本沒有被百度收錄。並非是百度沒有發現他們,而是在建庫前的篩選環節被過濾掉了。那怎樣的網頁在初環節就被過濾掉了呢:  1 、重複內容的網頁:互聯網上已有的內容,百度必然沒有必要再收錄。  2 、主體內容空短的網頁  1)有些內容使用了百度 spider 無法解析的技術,如 JS 、 AJAX 等,雖然多用户訪問能看到豐富的內容,依然會被搜索引擎拋棄  2)載入速度過慢的網頁,也有可能被當作空短頁面處理,注意廣告載入時間算在網頁整體載入時間內。  3)很多主體不突出的網頁即使被抓取回來也會在這個環節被拋棄。  3 、部分作弊網頁