搜索引擎作用及排序機(jī)制
同學(xué)們大家好!今天我們來(lái)學(xué)習(xí)搜索引擎作用及排序機(jī)制。
搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)
上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將
用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。
本節(jié)課的重點(diǎn)是了解搜索引擎的工作原理及作用,難點(diǎn)是搜索引
擎排序機(jī)制的學(xué)習(xí)。
首先我們來(lái)學(xué)習(xí)搜索引擎的作用。
搜索引擎是對(duì)互聯(lián)網(wǎng)信息資源進(jìn)行搜索整理和分類,并儲(chǔ)存在網(wǎng)
絡(luò)數(shù)據(jù)庫(kù)中供用戶查詢的系統(tǒng)。
一、搜索引擎工作原理
(1)爬行:搜索引擎是通過(guò)一種特定規(guī)律的軟件跟蹤網(wǎng)頁(yè)的鏈接,
從一個(gè)鏈接爬到另外一個(gè)鏈接,像蜘蛛在蜘蛛網(wǎng)上爬行一樣,所以被
稱為“蜘蛛”也被稱為“機(jī)器人”。搜索引擎蜘蛛的爬行是被輸入了
一定的規(guī)則的,它需要遵從一些命令或文件的內(nèi)容。
(2)抓取存儲(chǔ):搜索引擎是通過(guò)蜘蛛跟蹤鏈接爬行到網(wǎng)頁(yè),并將爬
行的數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù)。其中的頁(yè)面數(shù)據(jù)與用戶瀏覽器得到的
HTML 是完全一樣的。搜索引擎蜘蛛在抓取頁(yè)面時(shí),也做一定的重復(fù)
內(nèi)容檢測(cè),一旦遇到權(quán)重很低的網(wǎng)站上有大量抄襲、采集或者復(fù)制的
內(nèi)容,很可能就不再爬行。
(3)預(yù)處理:搜索引擎將蜘蛛抓取回來(lái)的頁(yè)面,進(jìn)行各種步驟的預(yù)
處理。