搜尋引擎工作原理十分複雜,想要全部弄懂需要極為專業的知識,但作為 SEO 站群人員,我們必須瞭解基礎性知識,如引擎是怎麼實現網頁收錄、如何確定排名等,才能有針對性有效率地做好最佳化工作。下面就來看看 WordPress 站群香港主機小編為大家介紹的文章吧。

一、爬行和抓取

想要在引擎中展示出網站,第一步工作就是完成資料的收集。引擎透過蜘蛛爬行訪問頁面,將頁面程式碼存入原始頁面資料庫,再透過連線爬行到其他頁面重複抓取過程,直至完成所有頁面的抓取。

通常蜘蛛爬行分為兩種策略,深度優先與廣度優先。簡單說,前者是不斷沿著發現的連線往下,直到前面再沒有連結才返回到最初的頁面爬行另一個連結。後者是優先將第一個頁面的所有連結爬行完,再去爬行深層次連結。

因此,想要蜘蛛在網頁待更嘗試時間,希望更多頁面收錄,就要不斷更新內容,匯入其他連結等方式來吸引蜘蛛。怎麼去最佳化網站,可以閱讀如何著手最佳化網站?

二、預處理

當所有頁面都存入到資料庫中後,就需要對這些頁面進行處理,否則數億級別的頁面想要在不到一秒之內呈現給使用者,幾乎是不可能的。

因此,搜尋引擎會對抓取到的頁面進行預處理,包括:

1. 提取文字,將可識別的內容提取出來;

2. 分詞,將內容分成一個個關鍵詞;

3. 去停止詞,刪除 “的” 、 “啊” 等無影響詞;

4. 消除噪聲,刪除對內容毫無意義毫不相關的內容;

5. 去重,去除與其他頁面重複的內容;

6. 正排索引,將頁面轉化為關鍵詞的集合,與檔名產生對應關係,建立起索引詞表庫,如檔案 1 包含關鍵詞 1 、關鍵詞 2 、關鍵詞 7,檔案 2 包含關鍵詞 1 、關鍵詞 3 、關鍵詞 8 等;

7. 倒排索引,因為正排索引在篩選內容時需要掃描整個資料庫,工作量太大,因此需要建立倒排索引,將關鍵詞與檔案關係對調,比如關鍵詞 1 包含檔案 1 、檔案 2,關鍵詞 2 包含檔案 X 。

8. 計算連結關係,計算每個頁面有多少連結,連結的質量如何,形成一定的權重。

三、排名

在以上預處理完畢後,就是排名。但使用者在引擎上搜尋一個關鍵詞,引擎會優先將搜尋詞進行分詞、去停止詞、指令處理等簡單處理一下,便於更好地識別配對,然後根據已經建立的倒排索引表配對。

但因為每個關鍵詞可能配對的檔案可能達到幾十萬甚至更多,需要的時間很長,因此,引擎會只計算大致前 1000 個結果,形成初始頁面子集,最主要的判斷就是頁面權重,只有權重到達一定程度才能進入初始子集。

進入後,引擎對其計算相關性,更具綜合計算方法最終確定排名。想知道個更多的內可以閱讀搜尋引擎應該如何更有效的最佳化呢?