搜索引擎怎么變“通情達(dá)理”?

2016/11/2 10:43:17來(lái)源:中國(guó)木業(yè)網(wǎng)熱度:1912

搜索是我們幾乎每天都要用到的工具之一。隨著網(wǎng)絡(luò)數(shù)據(jù)的爆炸性增長(zhǎng),搜索引擎已經(jīng)成為信息化社會(huì)不可或缺的基礎(chǔ)互聯(lián)網(wǎng)應(yīng)用。  

辦公桌、地鐵上、茶余飯后、工作間隙……無(wú)論是電腦還是手機(jī),搜索讓我們從海量的信息中,快速找到自己所需要的信息。  

互聯(lián)網(wǎng)搜索技術(shù)看似簡(jiǎn)單實(shí)則復(fù)雜。它就像一個(gè)橋梁,一邊連接著海量規(guī)模的數(shù)據(jù),一邊連接著高度復(fù)雜的用戶信息需求,而如何正確合理地實(shí)現(xiàn)兩者的匹配則面臨著一系列的挑戰(zhàn),尤其是如何避免經(jīng)常出現(xiàn)“答非所問(wèn)”的情況。  

搜索引擎怎么變“通情達(dá)理”?

搜索引擎面臨多項(xiàng)挑戰(zhàn)  

對(duì)于用戶而言,搜索引擎的界面非常的簡(jiǎn)單,只需要一個(gè)簡(jiǎn)單的輸入框,當(dāng)用戶輸入查詢?cè)~之后,搜索引擎就會(huì)迅速給出搜索結(jié)果。搜索引擎就像一個(gè)“百科全書(shū)”,回答著用戶的“十萬(wàn)個(gè)為什么”。這一看似簡(jiǎn)單的過(guò)程,從搜索引擎的角度卻并沒(méi)有那么簡(jiǎn)單。  

盡管搜索引擎在應(yīng)用層面已經(jīng)取得了很大的成功,但搜索技術(shù)發(fā)展中仍然面臨著巨大的技術(shù)挑戰(zhàn):一方面,網(wǎng)絡(luò)空間數(shù)據(jù)資源的規(guī)模龐大而內(nèi)容繁雜,目前中文網(wǎng)頁(yè)的規(guī)模已經(jīng)達(dá)到數(shù)千億的規(guī)模。  

中文網(wǎng)頁(yè)數(shù)量達(dá)到1900億。但其中的低質(zhì)量網(wǎng)頁(yè)、垃圾信息乃至非法內(nèi)容為數(shù)不少。另一方面,搜索用戶信息需求的內(nèi)容復(fù)雜而表述模糊,搜索引擎每日需要處理數(shù)以億計(jì)的用戶查詢,但這些查詢的平均長(zhǎng)度僅有6個(gè)字左右。  

“計(jì)算方法在處理問(wèn)題時(shí)具有存儲(chǔ)、處理效率較高的優(yōu)勢(shì),但是其應(yīng)對(duì)認(rèn)知、推理任務(wù)的能力有限。而人類個(gè)體具有較強(qiáng)的認(rèn)知、推理能力,但是反饋效率較低、質(zhì)量也不甚穩(wěn)定?!? 

讓搜索引擎不再“答非所問(wèn)”  

對(duì)于搜索引擎而言,最嚴(yán)重的問(wèn)題就是“答非所問(wèn)”??墒?,“巧婦難為無(wú)米之炊”,如果用戶提出的關(guān)鍵詞不明晰,搜索引擎也就很難準(zhǔn)確地給出想要的搜索結(jié)果了。  

顯然,作為一個(gè)工具,搜索引擎只能依靠“自我進(jìn)化”,只有準(zhǔn)確地了解用戶到底想要什么,才能更好地為人類服務(wù)。  

“火眼金睛”輕松識(shí)別垃圾網(wǎng)頁(yè)  

網(wǎng)絡(luò)信息資源在擁有巨大數(shù)據(jù)量的同時(shí),也包含了大量的垃圾頁(yè)面甚至是惡意的欺詐頁(yè)面。

免責(zé)聲明:稿件文字來(lái)源于木業(yè)網(wǎng)新聞部原創(chuàng),圖片由相關(guān)企業(yè)提供,如涉及版權(quán)問(wèn)題,由該企業(yè)負(fù)責(zé),并請(qǐng)版權(quán)方聯(lián)系本網(wǎng),本網(wǎng)將及時(shí)予以處理。