搜索引擎就是一种程序,自动从因特网搜集资讯,经过一定整理以后,提供给多用户进行查询的系统。搜索引擎可以分为:百度蜘蛛: Baiduspider , 360 蜘蛛:360spider ,谷歌蜘蛛:geoglebot 等。
搜索引擎的工作原理一般来说可以分为四步来完成,抓取,过滤,存取,排序。 1. 抓取,搜索引擎顺着网页中的超连结在互联网中发现,搜索网页资讯,然后再抓取里面的内容。从抓取的方式来看,可以分为深度抓取和广度抓取。深度抓取就是搜索引擎沿着网站的内部结构进行抓取,比如先抓取页,再抓取栏目页,然后再抓取详情页,就象树形结构一样,先到主干,然后到树枝,再到枝稍。一般结构超过三层,就不利于搜索引擎抓取了。不利于搜索引擎抓取和内容有 JS,图片,视讯,iframe 框架,以及层级多的巢状。
2. 过滤,搜索引擎抓取了网页上的资讯以后,就会把资料存放入临时资料库。然后搜索引擎把一些低质量的页面,比如采集来的,没有丰富内容的,文不对题的页面过滤掉。把它们当作垃圾一样,处理掉了。 3. 储存,搜索引擎对一些高质量的,对多用户有价值的,符合多用户体验的内容就把它们存放在资料库中。以方便多用户进行搜索查询进,随时可以调取。 4. 排序,检索器根据多用户输入的查询的关键词在索引库中快速检出文件,进行文件与查询的相关度评价,对将要输出的结果进行排序。当我们看到在搜索引擎看到的只是一种强果,搜索引擎根据各种演算法,把某个关键词的展现在页的位。