搜索引擎就是一種程序,自動從因特網蒐集資訊,經過一定整理以後,提供給多用户進行查詢的系統。搜索引擎可以分為:百度蜘蛛: Baiduspider , 360 蜘蛛:360spider ,谷歌蜘蛛:geoglebot 等。
搜索引擎的工作原理一般來説可以分為四步來完成,抓取,過濾,存取,排序。 1. 抓取,搜索引擎順着網頁中的超連結在互聯網中發現,搜索網頁資訊,然後再抓取裏面的內容。從抓取的方式來看,可以分為深度抓取和廣度抓取。深度抓取就是搜索引擎沿着網站的內部結構進行抓取,比如先抓取頁,再抓取欄目頁,然後再抓取詳情頁,就象樹形結構一樣,先到主幹,然後到樹枝,再到枝稍。一般結構超過三層,就不利於搜索引擎抓取了。不利於搜索引擎抓取和內容有 JS,圖片,視訊,iframe 框架,以及層級多的巢狀。
2. 過濾,搜索引擎抓取了網頁上的資訊以後,就會把資料存放入臨時資料庫。然後搜索引擎把一些低質量的頁面,比如採集來的,沒有豐富內容的,文不對題的頁面過濾掉。把它們當作垃圾一樣,處理掉了。 3. 儲存,搜索引擎對一些高質量的,對多用户有價值的,符合多用户體驗的內容就把它們存放在資料庫中。以方便多用户進行搜索查詢進,隨時可以調取。 4. 排序,檢索器根據多用户輸入的查詢的關鍵詞在索引庫中快速檢出文件,進行文件與查詢的相關度評價,對將要輸出的結果進行排序。當我們看到在搜索引擎看到的只是一種強果,搜索引擎根據各種演算法,把某個關鍵詞的展現在頁的位。