有一個網頁 3000 多行中文+英文,快照顯示不完整,通過站羣站長平台模擬抓取(注:這位同學指的是抓取診斷工具),文字也顯示不完整,對網站影響會不會很大?百度工程師進歸類整理了相關問題解釋。 個問題:百度對網頁內容多少大小有限制嗎? 答:對內容文字多少沒有限制,但原始碼大小上有一定的防制,過長的話,會取前面一部分,所以,原始碼還是越簡潔越好 第二個問題:如果快照顯示網頁不完整,是不是説明 BaiduSpider 沒有完整收錄網頁? 答:不是的,快照的生成涉及很多環節,顯示不完整的原因會很多,不能簡單地認為沒有收錄完整。 第三個問題:使用平台抓取診斷工具也不能完整顯示,是不是就可以認為沒有收錄完整了? 答:不是的,工具只展示前 200K 。我們設計工具的時候對網頁做過調研,一般來説展示前 100K 就夠用了。 第四個問題:百度是否要求網頁上不能有什麼特殊字元? 答:沒有這個限制。