合肥網(wǎng)站建設(shè)
文章閱讀
網(wǎng)建技巧
優(yōu)化技巧
網(wǎng)建問(wèn)題
謹(jǐn)宸新聞
行業(yè)新聞

首頁(yè) > 合肥網(wǎng)站建設(shè) > 正文

搜索引擎有哪四大系統(tǒng)

發(fā)布時(shí)間:2014/01/03字體:
摘要:搜索引擎有哪四大系統(tǒng),搜索引擎四大系統(tǒng),搜索引擎對(duì)站長(zhǎng)來(lái)說(shuō)并不陌生,但也并不熟悉。我們知道搜索引擎可以索引網(wǎng)站、分析網(wǎng)站,給網(wǎng)站一個(gè)排名。合肥網(wǎng)站建設(shè)今天跟大家介紹的是搜索引擎的四大系統(tǒng)。
搜索引擎對(duì)站長(zhǎng)來(lái)說(shuō)并不陌生,但也并不是很熟悉。我們知道搜索引擎可以索引網(wǎng)站、分析網(wǎng)站,給網(wǎng)站一個(gè)排名。合肥網(wǎng)站建設(shè)今天跟大家介紹的是搜索引擎的四大系統(tǒng)。

搜索引擎分四個(gè)系統(tǒng),分別是下載、分析、索引和檢索系統(tǒng),這些系統(tǒng)都有各自的工作內(nèi)容,少了其中一個(gè),搜索引擎都不能算是完整的。下面我們就分別來(lái)看一下這四大系統(tǒng)。

一、下載系統(tǒng)

搜索引擎中的下載系統(tǒng)主要的工作就是下載和存儲(chǔ)互聯(lián)網(wǎng)中的所有網(wǎng)頁(yè),也就是我們經(jīng)常說(shuō)的蜘蛛,蜘蛛是用來(lái)抓取網(wǎng)頁(yè)的。也就是說(shuō)下載系統(tǒng)有下載和存儲(chǔ)兩個(gè)主要工作,一般抓取頁(yè)面的方式是從一個(gè)頁(yè)面抓取,收集頁(yè)面中的所有鏈接,然后再去訪問(wèn)這個(gè)頁(yè)面中的所有鏈接。

二、分析系統(tǒng)

搜索引擎抓取頁(yè)面之后并不會(huì)收錄所有頁(yè)面,我們從服務(wù)器日志可以看出蜘蛛抓取了哪些頁(yè)面,但不一定收錄。搜索引擎分析系統(tǒng)的主要工作就是對(duì)網(wǎng)站內(nèi)容進(jìn)行檢查,將頁(yè)面中的標(biāo)題、正文、鏈接或廣告等內(nèi)容進(jìn)行分析,將重復(fù)或者無(wú)效頁(yè)面分析出來(lái),幫助搜索引擎收錄內(nèi)容。

三、索引系統(tǒng)

通過(guò)下載、存儲(chǔ)和分析系統(tǒng)將網(wǎng)頁(yè)抓取之后進(jìn)行過(guò)濾,會(huì)將有價(jià)值的頁(yè)面留下,接下來(lái)就會(huì)對(duì)這個(gè)頁(yè)面進(jìn)行索引、分詞,分析詞語(yǔ)在內(nèi)容中出現(xiàn)的位置、出現(xiàn)的頻率,對(duì)頁(yè)面內(nèi)容中的標(biāo)題和摘要進(jìn)行記錄。我們常用的site指令就可以查詢到網(wǎng)站收錄的所有內(nèi)容,收錄一篇內(nèi)容就增加一條索引項(xiàng),顯示的快照就是建立索引的時(shí)間,而快照更新就是蜘蛛再次訪問(wèn)抓取后的頁(yè)面時(shí)對(duì)其進(jìn)行重新索引,因此頁(yè)面快照就更新了。

四、檢索系統(tǒng)

這個(gè)系統(tǒng)和用戶有非常大的關(guān)系,這個(gè)系統(tǒng)和用戶可以建立聯(lián)系。用戶在瀏覽器中輸入搜索詞,搜索引擎就要對(duì)搜索詞進(jìn)行分詞,得出索引詞,再到索引庫(kù)中進(jìn)行匹配,最后就是搜索結(jié)果。根據(jù)頁(yè)面綜合權(quán)重和搜索詞吻合度進(jìn)行排序,這就是我們所說(shuō)的排名。






本文標(biāo)題:搜索引擎有哪四大系統(tǒng)
本文網(wǎng)址:http://www.bailzz.com/wangjianjiqiao/2995.html
原創(chuàng)網(wǎng)址:合肥網(wǎng)絡(luò)公司<謹(jǐn)宸科技> 版權(quán)所有,轉(zhuǎn)載請(qǐng)注明出處,并以鏈接形式鏈接網(wǎng)址:www.bailzz.com
文章標(biāo)簽:搜索引擎系統(tǒng)索引檢索
 上一篇:傳統(tǒng)零售商轉(zhuǎn)型電商會(huì)遇到哪些問(wèn)題
 下一篇:衡量移動(dòng)應(yīng)用是否成功的幾個(gè)標(biāo)準(zhǔn)