WordPress搜索引擎工作原理简介 - WordPress 多站点站群

搜索引擎工作原理十分复杂，想要全部弄懂需要极为专业的知识，但作为 SEO 站群人员，我们必须了解基础性知识，如引擎是怎么实现网页收录、如何确定排名等，才能有针对性有效率地做好优化工作。下面就来看看 WordPress 站群香港主机小编为大家介绍的文章吧。

一、爬行和抓取

想要在引擎中展示出网站，第一步工作就是完成资料的收集。引擎通过蜘蛛爬行访问页面，将页面代码存入原始页面资料库，再通过连线爬行到其他页面重复抓取过程，直至完成所有页面的抓取。

通常蜘蛛爬行分为两种策略，深度优先与广度优先。简单说，前者是不断沿著发现的连线往下，直到前面再没有连结才返回到最初的页面爬行另一个连结。后者是优先将第一个页面的所有连结爬行完，再去爬行深层次连结。

因此，想要蜘蛛在网页待更尝试时间，希望更多页面收录，就要不断更新内容，汇入其他连结等方式来吸引蜘蛛。怎么去优化网站，可以阅读如何著手优化网站？

二、预处理

当所有页面都存入到资料库中后，就需要对这些页面进行处理，否则数亿级别的页面想要在不到一秒之内呈现给使用者，几乎是不可能的。

因此，搜索引擎会对抓取到的页面进行预处理，包括：

1. 提取文字，将可识别的内容提取出来；

2. 分词，将内容分成一个个关键词；

3. 去停止词，删除 “的” 、 “啊” 等无影响词；

4. 消除噪声，删除对内容毫无意义毫不相关的内容；

5. 去重，去除与其他页面重复的内容；

6. 正排索引，将页面转化为关键词的集合，与档名产生对应关系，建立起索引词表库，如档案 1 包含关键词 1 、关键词 2 、关键词 7，档案 2 包含关键词 1 、关键词 3 、关键词 8 等；

7. 倒排索引，因为正排索引在筛选内容时需要扫描整个资料库，工作量太大，因此需要建立倒排索引，将关键词与档案关系对调，比如关键词 1 包含档案 1 、档案 2，关键词 2 包含档案 X 。

8. 计算连结关系，计算每个页面有多少连结，连结的质量如何，形成一定的权重。

三、排名

在以上预处理完毕后，就是排名。但使用者在引擎上搜索一个关键词，引擎会优先将搜索词进行分词、去停止词、指令处理等简单处理一下，便于更好地识别配对，然后根据已经建立的倒排索引表配对。

但因为每个关键词可能配对的档案可能达到几十万甚至更多，需要的时间很长，因此，引擎会只计算大致前 1000 个结果，形成初始页面子集，最主要的判断就是页面权重，只有权重到达一定程度才能进入初始子集。

进入后，引擎对其计算相关性，更具综合计算方法最终确定排名。想知道个更多的内可以阅读搜索引擎应该如何更有效的优化呢？

WordPress 搜索引擎工作原理简介