搜索引擎工作原理十分复杂,想要全部弄懂需要极为专业的知识,但作为 SEO 站群人员,我们必须了解基础性知识,如引擎是怎么实现网页收录、如何确定排名等,才能有针对性有效率地做好优化工作。下面就来看看 WordPress 站群香港主机小编为大家介绍的文章吧。

一、爬行和抓取

想要在引擎中展示出网站,第一步工作就是完成资料的收集。引擎通过蜘蛛爬行访问页面,将页面代码存入原始页面资料库,再通过连线爬行到其他页面重复抓取过程,直至完成所有页面的抓取。

通常蜘蛛爬行分为两种策略,深度优先与广度优先。简单说,前者是不断沿著发现的连线往下,直到前面再没有连结才返回到最初的页面爬行另一个连结。后者是优先将第一个页面的所有连结爬行完,再去爬行深层次连结。

因此,想要蜘蛛在网页待更尝试时间,希望更多页面收录,就要不断更新内容,汇入其他连结等方式来吸引蜘蛛。怎么去优化网站,可以阅读如何著手优化网站?

二、预处理

当所有页面都存入到资料库中后,就需要对这些页面进行处理,否则数亿级别的页面想要在不到一秒之内呈现给使用者,几乎是不可能的。

因此,搜索引擎会对抓取到的页面进行预处理,包括:

1. 提取文字,将可识别的内容提取出来;

2. 分词,将内容分成一个个关键词;

3. 去停止词,删除 “的” 、 “啊” 等无影响词;

4. 消除噪声,删除对内容毫无意义毫不相关的内容;

5. 去重,去除与其他页面重复的内容;

6. 正排索引,将页面转化为关键词的集合,与档名产生对应关系,建立起索引词表库,如档案 1 包含关键词 1 、关键词 2 、关键词 7,档案 2 包含关键词 1 、关键词 3 、关键词 8 等;

7. 倒排索引,因为正排索引在筛选内容时需要扫描整个资料库,工作量太大,因此需要建立倒排索引,将关键词与档案关系对调,比如关键词 1 包含档案 1 、档案 2,关键词 2 包含档案 X 。

8. 计算连结关系,计算每个页面有多少连结,连结的质量如何,形成一定的权重。

三、排名

在以上预处理完毕后,就是排名。但使用者在引擎上搜索一个关键词,引擎会优先将搜索词进行分词、去停止词、指令处理等简单处理一下,便于更好地识别配对,然后根据已经建立的倒排索引表配对。

但因为每个关键词可能配对的档案可能达到几十万甚至更多,需要的时间很长,因此,引擎会只计算大致前 1000 个结果,形成初始页面子集,最主要的判断就是页面权重,只有权重到达一定程度才能进入初始子集。

进入后,引擎对其计算相关性,更具综合计算方法最终确定排名。想知道个更多的内可以阅读搜索引擎应该如何更有效的优化呢?