WordPress搜尋引擎工作原理簡介 - WordPress 多站點站群

搜尋引擎工作原理十分複雜，想要全部弄懂需要極為專業的知識，但作為 SEO 站群人員，我們必須瞭解基礎性知識，如引擎是怎麼實現網頁收錄、如何確定排名等，才能有針對性有效率地做好最佳化工作。下面就來看看 WordPress 站群香港主機小編為大家介紹的文章吧。

一、爬行和抓取

想要在引擎中展示出網站，第一步工作就是完成資料的收集。引擎透過蜘蛛爬行訪問頁面，將頁面程式碼存入原始頁面資料庫，再透過連線爬行到其他頁面重複抓取過程，直至完成所有頁面的抓取。

通常蜘蛛爬行分為兩種策略，深度優先與廣度優先。簡單說，前者是不斷沿著發現的連線往下，直到前面再沒有連結才返回到最初的頁面爬行另一個連結。後者是優先將第一個頁面的所有連結爬行完，再去爬行深層次連結。

因此，想要蜘蛛在網頁待更嘗試時間，希望更多頁面收錄，就要不斷更新內容，匯入其他連結等方式來吸引蜘蛛。怎麼去最佳化網站，可以閱讀如何著手最佳化網站？

二、預處理

當所有頁面都存入到資料庫中後，就需要對這些頁面進行處理，否則數億級別的頁面想要在不到一秒之內呈現給使用者，幾乎是不可能的。

因此，搜尋引擎會對抓取到的頁面進行預處理，包括：

1. 提取文字，將可識別的內容提取出來；

2. 分詞，將內容分成一個個關鍵詞；

3. 去停止詞，刪除 “的” 、 “啊” 等無影響詞；

4. 消除噪聲，刪除對內容毫無意義毫不相關的內容；

5. 去重，去除與其他頁面重複的內容；

6. 正排索引，將頁面轉化為關鍵詞的集合，與檔名產生對應關係，建立起索引詞表庫，如檔案 1 包含關鍵詞 1 、關鍵詞 2 、關鍵詞 7，檔案 2 包含關鍵詞 1 、關鍵詞 3 、關鍵詞 8 等；

7. 倒排索引，因為正排索引在篩選內容時需要掃描整個資料庫，工作量太大，因此需要建立倒排索引，將關鍵詞與檔案關係對調，比如關鍵詞 1 包含檔案 1 、檔案 2，關鍵詞 2 包含檔案 X 。

8. 計算連結關係，計算每個頁面有多少連結，連結的質量如何，形成一定的權重。

三、排名

在以上預處理完畢後，就是排名。但使用者在引擎上搜尋一個關鍵詞，引擎會優先將搜尋詞進行分詞、去停止詞、指令處理等簡單處理一下，便於更好地識別配對，然後根據已經建立的倒排索引表配對。

但因為每個關鍵詞可能配對的檔案可能達到幾十萬甚至更多，需要的時間很長，因此，引擎會只計算大致前 1000 個結果，形成初始頁面子集，最主要的判斷就是頁面權重，只有權重到達一定程度才能進入初始子集。

進入後，引擎對其計算相關性，更具綜合計算方法最終確定排名。想知道個更多的內可以閱讀搜尋引擎應該如何更有效的最佳化呢？

WordPress 搜尋引擎工作原理簡介