首頁>>搜索查詢技巧

 

探索搜索引擎技術的現狀和將來

2001-11-26

文/廣東 水月子

  1、原理:信息檢索理論是起源

  從字面意義上來解釋,搜索引擎是用于幫助互聯網用戶查詢信息的搜索工具,它以一定的策略在互聯網中搜集、發現信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的。

Click here to find out more!

  不過在早期的時候,互聯網上面的搜索引擎和今天我們使用的搜索引擎有所不同,早期的搜索引擎更加像是我們今天很多中文“ICP網站”,把因特網中的資源服務器的地址收集起來,由其提供的資源類型的不同而分成不同的目錄,再一層層地進行分類。人們要找自己想要的信息可按他們的分類一層層進入,就能最后到達目的地,找到自己想要的信息。這其實是最原始的方式,只適用于因特網信息并不多的時候,因為如果信息一旦多起來,查找的時候所花費的時間就很長了。

  簡單地說,搜索引擎的原理是起源于傳統的信息全文檢索理論,即計算機程序通過掃描每一篇文章中的每一個詞,建立以詞為單位的排序文件,檢索程序根據檢索詞在每一篇文章中出現的頻率和每一個檢索詞在一篇文章中出現的概率,對包含這些檢索詞的文章進行排序,最后輸出排序的結果。互聯網搜索引擎除了需要有全文檢索系統之外,還要有所謂的“蜘蛛”(SPIDER)系統,即能夠從互聯網上自動收集網頁的數據搜集系統。蜘蛛系統是John Leavitt開發的,并且由Michael Mauldin將這個系統融合到了Lycos搜索引擎里面去,它能夠將搜集所得的網頁內容交給索引和檢索系統處理,就形成了我們常見的互聯網搜索引擎系統。當然,一個完整的搜索引擎系統還需要有一個檢索結果的頁面生成系統,也就是要把檢索結果高效地組裝成萬維網頁面。

  2、歷史:Yahoo!是代表

  說到搜索引擎的歷史,自然不能不說雅虎(Yahoo!)了。正如計算機時代的很多新事物一樣,Yahoo!起源于一個想法,隨后變成一種業余愛好,最終成了使人全身心投入的一項事業。Yahoo!的兩位創始人大衛.費羅(David Filo)和楊致遠(Jerry Yang)是美國斯坦福大學電機工程系的博士生,于1994年4月建立了自己的網絡指南信息庫,將其作為記錄他們個人對互聯網的興趣的一種方式。但是不久,他們將Yahoo!變成了一個可定制的數據庫,旨在滿足成千上萬的、剛剛開始通過互聯網社區使用網絡服務的用戶的需要。他們開發了可定制的軟件,幫助他們有效地查找、識別和編輯互聯網上存儲的資料。最初Yahoo!存放在楊致遠的學生工作站“akebono”上,而搜索引擎存放在Filo的計算機“konishiki”上(這些計算機的名稱都來自于一些具有傳奇色彩的夏威夷摔交手),結果令大家意想不到的是,Yahoo!大受歡迎,斯坦福大學的計算機網絡由此受到來自外界的大瀏覽量的沖擊。1995年初,Netscape Communications公司邀請大衛.費羅和楊致遠將他們的文件轉移到Netscape公司提供的更大的計算機上。這一做法不僅使斯坦福大學的計算機網絡恢復了正常,而且令雙方都有所受益。今天,Yahoo!含有鏈接到互聯網上的成千上萬臺計算機中存儲的信息。

  從1994年4月中國科學院網首次與Internet網互聯開始,中文搜索引擎的發展速度就非常驚人,臺灣和香港加入互聯網的時間較早,建立和發展中文搜索引擎的歷史較長,其發展速度也很快。在中國,大陸的中文搜索引擎以天網、搜狐網易新浪搜索等為代表;臺灣的中文搜索引擎以Openfind、奇摩、蓋世引擎等為代表;香港的中文搜索引擎以茉莉之窗、網上行、悠游等為代表。國際上一些大型的搜索引擎公司也紛紛加入了中文搜索引擎市場,最具有代表性的是Alta Vista、Yahoo中文簡體版和繁體版,還有Excite。

  3、現在:與網頁完美結合

  隨著網上內容的爆炸式增長和內容形式花樣的不斷翻新,搜索引擎越來越不能滿足挑剔的網民們的各種信息需求。目前的搜索引擎仍然存在不少的局限性。從1996年起,搜索引擎技術開始注重網頁質量與相關性的結合,這主要是通過三種手段:

  1.是對網上的超鏈結構進行分析,如INFOSEEK和GOOGLE;

  2.是對用戶的點擊行為進行分析,如DIRECTHIT(被ASK JEEVES收購);

  3.是與網站目錄相結合。最新的趨勢則是搜索的個性化和本地化。

  個性化:入門網站的個性化已經比較成熟了,但是搜索引擎的個性化并沒有得到解決,不同的人使用相同的檢索詞得到的結果是相同的。也就是說搜索引擎沒有考慮人的地域、性別、年齡等方面的差別。DIRECTHIT等公司一年前開始了個性化方面的研發工作,但至今沒有推出任何產品。

  本地化:本地化是一個比個性化更明顯的趨勢。隨著互聯網在全球的迅速普及,綜合性的搜索引擎已經不能滿足很多非美國網民的信息需求。近來,YAHOO!、INKTOMI、LYCOS等公司不斷推出各國、各地區的本地搜索網站,搜索的本地化已經是勢不可擋。

  4、未來:高效、智能是主流

  未來,搜索引擎的發展方向是:

  1.自然語言理解技術

  自然語言理解是計算機科學中的一個引人入勝的、富有挑戰性的課題。從計算機科學特別是從人工智能的觀點看,自然語言理解的任務是建立一種計算機模型,這種計算機模型能夠給出像人那樣理解、分析并回答自然語言。以自然語言理解技術為基礎的新一代搜索引擎,我們稱之為智能搜索引擎。由于它將信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力,能夠實現分詞技術、同義詞技術、概念搜索、短語識別以及機器翻譯技術等。因而這種搜索引擎具有信息服務的智能化、人性化特征,允許網民采用自然語言進行信息的檢索,為他們提供更方便、更確切的搜索服務。

  2. P2P對等網

  P2P是peer-to-peer的縮寫,意為對等網絡。其在加強網絡上人的交流、文件交換、分布計算等方面大有前途。長久以來,人們習慣的互聯網是以服務器為中心,人們向服務器發送請求,然后瀏覽服務器回應的信息。而P2P所包含的技術就是使聯網電腦能夠進行數據交換,但數據是存儲在每臺電腦里,而不是存儲在既昂貴又容易受到攻擊的服務器里。網絡成員可以在網絡數據庫里自由搜索、更新、回答和傳送數據。所有人都共享了他們認為最有價值的東西,這將使互聯網上信息的價值得到極大的提升。

  3.多媒體搜索引擎

  隨著寬帶技術的發展,未來的互聯網是多媒體數據的時代。開發出可查尋圖像、聲音、圖片和電影的搜索引擎是一個新的方向。目前瑞典一家公司已經研制推出被稱作“第五代搜索引擎”的動態的和有聲的多媒體搜索引擎。圖像、視頻將很快取代文本成為互聯網上主要的信息。

(新浪科技)


Copyright ©  2001-2002 SOWANG.COM All rights reserved. 
中文搜索引擎指南網  版權所有