1 、錯誤的封禁 在百度的 robots.txt 的更新上,如果多次點選 “檢測並更新” 就會出現時常可以更新,但是又時常無法更新的問題。如此一來:不應當被收錄的東西,在 robots.txt 上禁止的被收錄了,又刪除就很正常了。那麼它的問題是什麼呢?並非服務器負載過度,而是因為防火牆錯誤的將部分 Baiduspider 列入了黑名單。
2 、服務器異常 常規的服務器就不説了,大家都知道的,北上廣的一般都不錯。不過有一些特殊服務器,想必絕大多數的站羣站長都不知道吧?例如西部數碼的 “港台服務器” 就很有趣,真的是港台的嗎?本身機房在國內,還算什麼港台?為了逃避備案而用一個港台的 IP,資料全部在國內。 這樣有什麼不好呢?我們會發現:站點的服務器是經過 CDN 的,哪怕是您上傳的一張圖片,都會顯示為 “302 狀態碼”,訪問速度是提升上去了,可是這樣利於 SEO 站羣嗎? 3 、獲取不到真實 IP 規模較大的網站,一般都會使用 CDN 加速,但是有些站點不僅僅對 “裝置” 使用了 CDN 加速,而且還對 Spider 使用了加速功能。後的結果是什麼呢?如果 CDN 節點不穩定,那麼對網站 spider 來講,這個問題將是致命的。 很多大型站點開放 CDN 的原因就是容易被攻擊,這個時候如果不做 “蜘蛛回源” 就可想而知了。您的站點做了 CDN 了嗎?請登入百度站羣站長平台檢視一下 spider 是否可以抓取真實 IP 地址吧! 4 、頻繁的 50X 類錯誤
這樣的連結其中一個共同的特點是:當開啓後,全部都是正常的,那麼 Spider 為什麼會報錯提醒呢?只是因為在爬蟲發起抓取的那一刻,httpcode 返回了 5XX”,您的站點是否頻繁有這樣的問題呢?有的話需要立即安排技術,或者通報 IDC 服務商做解決了!
5 、錯誤的抓取比例 任何網站都做不到 100% 不出問題,但是萬事有一個度:我們認為,這個比例不超過 5%,對網站基本上是無影響的,且這樣的錯誤不應當每天都出現。常見的抓取錯誤一般都是連線超時:” 抓取請求連線建立後,下載頁面速度過慢,導致超時,可能原因服務器過載,頻寬不足” 這種情況: A:儘量在不影響圖片質量的情況下,對圖片進行壓縮,上傳的時候就進行了壓縮。 B:減少如 JS 指令碼檔案型別的使用,或者進行合併 C:頁面大小進行控制,尤其是一些瀏覽量、抓取量較高的頁面,不建議超過 2MB 。 D:增加網站的頻寬,提升下載速度,或者更換服務器。 今天 SEO 站羣關於網站收錄服務器端問題就分享到這裏,更多網站建設、優化等問題可諮詢 SEO 站羣技術團隊。