首頁>>搜索技巧

 

 因特網上中文搜索引擎的評述

作者  葉中行 葛 勇 葉 蕾   2001-06-28

葉中行: 教授; 
Ye Zhongxing:: Professor
葛 勇: 博士研究生:上海交通大學應用數學系,上海 20030
GE Yong: Postgraduate for PhD: Department of Mathematics, Shanghai Jiaotong University, Shanghai 200030
葉 蕾: 上海朗訊科技光網絡有限公司,上海 200233
Ye Lei: Lucent Technologies Optical Networks (China) Co. Ltd, Shanghai 200233


因特網上的科學信息和電子雜志的總量在持續增長,整個網絡可看作是一個可以檢索的150億單詞的大電子百科全書。但是這些信息是極其無序的,如何獲取和利用因特網上的信息已經成了一個大問題。目前解決這一問題的最佳途徑是利用搜索引擎。
因特網上的信息呈幾何級數增長,快速有效地查詢一項艱巨的任務,這個需求直接導致了廣域網信息檢索技術的快速發展,各類搜索引擎層出不窮。
所謂搜索引擎,是指因特網上的在萬維網 (WWW)中主動搜索信息并能起自動索引、提供查詢服務的一類網站,這些網站通過網絡搜索軟件(又稱為網絡搜索機器人)或網站登錄等方式,將因特網上大量網站的頁面收集到本地,經過加工處理而建成數據庫,從而能夠對用戶提出的各種查詢作出響應,提供用戶所需的信息。科學家很早就夢想能夠快速檢索所有的科技文獻,現在,搜索引擎使得在數秒鐘內取得大量的文獻成為可能。
中文搜索引擎概述
中文搜索引擎的出現是最近幾年的事情,但發展很快。它的性能究竟如何,能檢索到的信息有多少,因特網上的中文信息或網頁知多少,這些都是值得關心的問題。
目前中文引擎共有約80多個,可以分為兩類,一類是自由詞或關鍵詞檢索搜索引擎,另一類是分類搜索引擎。由于語言、文化上的差異,中文搜索引擎必然與國外的搜索引擎有所不同。中文搜索引擎有兩個特點。
1.內碼:由于歷史原因,目前世界上使用中文的國家與地區在中文語言的使用上有較大差別,體現在計算機處理上也有很大不同,其中最重要的區別是采用不同的字符集及內碼體系,例如祖國大陸用的是GB碼,而中國臺灣地區則用BIG5碼,字符集的大小也不盡相同。
2.分詞:西文單詞用空格分隔相當清晰,而此法對中文的字詞則行不通,因此造成傳統上就的不同處理方法。一種是完全單漢字全文檢索,即將文章中的每一個漢字都進行索引,而將用戶的檢索提問根據單漢字匹配的原則去檢索。此法查全率高,但查準率低。此處還有一種方法,則是目前絕大多數中文搜索引擎采用的分詞方法,即根據一定的原則和手段來對文章進行自動分詞,然后按詞建庫,對檢索結果按詞匯匹配進行查詢。一般來講,這樣既比較準確又能提高整個系統的檢索響應效率。但中文的組詞十分復雜,常用名詞、專用名詞、地名、人名、成語等各不相同,目前的中文搜索引擎還沒有很好地解決中文名詞分詞的技術,往往影響了引擎的查準率。
如同因特網上的信息一樣,搜索引擎的發展本身也是無序的,如何選擇最符合需要的搜索引擎,通過其在因特網上以最小的代價找到所需要的信息,這些涉及到對搜索引擎性能的評價。
中文搜索引擎的評價方式
要有效地評價各中文引擎,首先要選定評價標準。(1)資料全:即查全率高,以免為了某一信息要查詢多個搜索引擎;(2)信息準:即搜索得到的信息與用戶所要求的信息的相關性高,查準率直接影響到搜索的速度和費用;(3)速度快;(4)費用省。用四個字表述就是:全、準、快、省
勞倫斯和賈爾斯曾對Alta Vista、 Excite、 HotBot、 In-foSeek、 Lycos、 Northern Light以及Alta Vista、 EuroSeek、 Excite、 Google、 HotBot、 InfoSeek 、Lycos、 Microsoft、 North-ern、 Light、 Snap 、Yahoo等英文搜索引擎收集大量的試驗數據,利用統計方法進行比較。分析和評價[1,2] 。研究結果宣稱,1997年公眾搜索引擎包含至少3.2億個網頁,最大的搜索引擎蓋率估計為網頁總量的三分之一。1999年他們利用隨機抽樣估計出網絡服務器總數為1.6億個。而公眾搜索引擎則為8億頁,兩年中翻了2.6倍。他們還估計出萬維網上總的影像資料數量約為3*1012字節,公眾搜索頁面上有1.8億個圖像。同時搜索引擎的搜索結果有重疊部分,引擎的不同覆蓋組合之各為3.35億頁,是估計總頁數的42%。
中英文集成搜索引擎及網址
英文集成搜索引擎 Easy Searcher2 Http://www.easysearch..comByteSearch Http://www.bytesearch.comMamma Http://ww.mamma.comMetaCrawler Http://www.metacrawler.comProfusion Http://www.profusion.comSearch.com Http://www.search.comSavvySearch Http://www.savvysearch.comDogpile Http://www.dogpile.com
中文集成搜索引擎 飚鳳搜索通 Http://www.pchome..net萬緯搜索引擎 Http://www.wldesearch..yway.com3721 Http://www.3721.netT500 Http://search..t500.net(163用戶訪問 Http://longfei.itpc.com/asp/searcj.asp(169用戶訪問
中文搜索引擎的評價方法
為簡化測試和計算,筆者采用了抽樣統計方法,利用上海萬緯信息技術有限公司的一個可以同時對多個中英文搜索引擎進行搜索的集成搜索引擎進行測試,首先精選30個關鍵詞對頗有名氣的14個中文搜索引擎進行測試,選擇測試結果中返回頁總數最大的6個引擎,然后用精選的500個關鍵詞進行測試,搜集檢測返回頁數的數據,并進一步估計萬維網上中文頁數總量和單個引擎的覆蓋率。
同時用二引擎、三引擎、四引擎、五引擎和六引擎進行測試,每次輸入關鍵詞,搜索結果返回各引擎的網頁總數,同時要求返回前100、200、300條信息的記錄,用這三批信息中的重復數估計被測試的多個引擎返回頁的重復數。于是,各引擎的返回網頁總數之和減去重復數,即得被測試的幾個搜索引擎返回的網頁總數。測試的日期從2000年3月18日到5月24日。
同時,隨機抽取一些關鍵詞進行手工檢查,以便確認所有的檢索結果都是從每個引擎中返回,并且是經過正確的語法分析得到的,手工檢查的重復數與上述試驗中返回的重復數是一致的。通過邏輯查詢發現,不同關鍵詞之間檢索結果重復率很低,可以忽略不計。
還要指出的是:每個搜索引擎我覆蓋的頁數每天都會有變化,很小的可以忽略不計,而有的變化很大,如其中一個引擎返回的網頁總數在5月12日到5月24日期間比二周前增加了1.675倍。

測試結果的評價
通過上述方法對2000年3月18日到5月15日測試結果進行計算。測試一個、兩個、三個、四個、五個、六個引擎返回頁數的數據,可以認為返回順的網頁數與引擎個數呈指數關系。用最小二乘法估計參數,500個關鍵詞返回的中文萬維網頁總數上界為7500萬頁左右。考慮到所選用的關鍵詞僅500個,因此猜測實際的網頁總數應在1億頁以上。
單個引擎的覆蓋率
算出了每個引擎返回中文萬維網頁數和萬維網總頁數的估計數,就可以計算每個引擎的覆蓋率。如考慮覆蓋率變化較大的一個引擎的影響,再重新測試,對在3月18日到5月24日測試所得結果進行計算,得到各中文搜索引擎的覆蓋率。
由計算結果可知,大多數單個引擎的覆蓋面都是有限的,只有一個引擎能夠覆蓋各類引擎搜索總頁數的約60%。還有很大一部分萬維網頁沒有被任何引擎索引過。六個引擎組合的結果是最大引擎覆蓋頁數的1.67倍,是最小引擎覆蓋頁數的29.54倍。不同中文搜索引擎可檢索信息量的差距非常明顯。
造成引擎覆蓋面差距的原因是多方面的,如網絡帶寬、磁盤容量、計算能力等,引擎覆蓋面的大小顯然是衡量引擎功能的一個重要指標。
中文搜索引擎的查準率
筆者另外的一些試驗結果表明,不同引擎對同一個關鍵詞的查準率及同一引擎對選自不同領域的關鍵詞的查準率都有很大差別,查準率的變化范圍從0到100%。這表明各個引擎搜集信息的領域各有偏重。
在測試過程中還發現各個搜索引擎搜索的方式各不相同,Yahoo在查詢的時候是按目錄進行查詢的,比如說,在查"上海交通大學"的時候,它首先查詢有無與"上海交通大學"有關的目錄,如上海,然后再一層一層的往下查,而新浪和Lotof則是在網頁中直接按整個詞進行查詢,比如說在查詢"上海交通大學"時,這兩個搜索引擎將查詢包含"上海交通大學"這個詞的網頁,而Goyoyo則是按單字進行查詢的,如在查"上海交通大學"的時候,它將分別查詢與各個字有關的網頁,其結果是查全率較高,但查準率相對低一些。
查全率和查準率是有關的,查準率高但查全率低,查到的信息的絕對量就少。反之,查到有用信息的代價就高。為提高搜索的準確度,大多數的英文搜索引擎都支持邏輯查詢。用戶可以用多個單詞,加上適當的邏輯字符來縮小搜索范圍,從而顯著提高搜索結果的準確度。中文搜索引擎并非都支持控制符。
主要的引擎供應商都聲稱他們的引擎能夠跟上整個因特網的膨脹速度,但是,萬維網是分布式的、動態的、快速增長的信息資源,這對于傳統的信息收集技術來講有著不可克服的困難。傳統的信息收集技術是為不同環境設計并代表性地用來索引一個靜態的、且可以直接訪問的文檔。而萬維網的發展帶來一些重要問題,如引擎的集中化架構是否能跟上文檔的擴張速度;引擎是否能有規律地及時更新他們的數據庫,以便檢測那些已修改過的、已刪除的、已重新定位的信息。令人遺憾的是,對所有這些問題的回答都和目前最好的引擎技術相沖突,甚至和可預見未來的引擎技術相沖突。
集成搜索引擎
單個的搜索引擎是從數據庫提取信息的,具有很大的局限性,因此有必要發展性能更優越的新型引擎搜索技術,集成搜索引擎應運而生。
集成搜索引擎(meta-search engine),也稱元搜索引擎、多搜索引擎、索引搜索引擎等,被稱為搜索引擎之上的搜索引擎。用戶只需遞交一次檢索請求,由集成搜索引擎負責轉換處理后提交給多個預先選定的獨立搜索引擎,并將所有查詢結果集中起來以整體統一的格式呈現到用戶面前。它是將整個因特網作為一超大型的動態的數據庫。由于采用了一系列的優化運行機制,能夠在盡可能短的時間內提供相對全面、準確的信息,即使不能完全滿足用戶需求,仍可以作為相對可靠的參考源進行擴展搜索,因此成為備受推崇的檢索首選入口。
許多人認為,集成搜索引擎不過是多個獨立搜索引擎的堆積、簡單的集中調用而已。事實上,一個真正的集成搜索引擎由三部分組成,即:檢索請求提交機制、檢索接口代理機制、檢索結果顯示機制。"請求提交"負責實現用戶"個性化"的檢索設置要求,包括調用哪些搜索引擎、檢索時間限制、結果數量限制等。"接口代理"負責將用戶的檢索請求"翻譯"成滿足不同搜索引擎"本地化"要求的格式。"結果顯示"負責所有源搜索引擎檢索結果的去重、合并、輸出處理等。
集成搜索引擎主要分為基于服務器端和基于用戶端兩大類,基于用戶端的根據用戶應用模式又可分為基于萬維網的免費搜索引擎、可供免費下載的客戶端桌面應用型、可共享或授權使用的桌面應用型等。
英文集成搜索引擎涵蓋范圍較廣。Easy Searcher2收錄有網上最流行的20余個通用搜索引擎和19個類別的近400個專業的搜索引擎。 ByteSearch提供最新的20個檢索瀏覽、聯機商店等內容方面的服務。 Mamma可同時調用7個最常用的獨立搜索引擎。MetaCrawler除支持調用12個獨立搜索引擎外,本身還提供了涵蓋近20個主題的目錄檢索服務。Profusion的檢索界面支持個性化設置,并自動實現符合特殊檢索語法要求的轉換。Search.com是美國著名的 IT站點CNNET下的一個子站,它提供14個類別的搜索引擎。 SavvySearch可調用200多個搜索引擎或指南,一次可并行調用5個搜索引擎,也可以作為一個專用搜索引擎的導航工具使用。SavvySearc同時提供23種語言版本,但其高級功能只適用英文版。Dogpile的特點是能檢索新聞組。
中文集成搜索引擎目前還不多見,基于客戶端的飚風搜索通,可免費下載具有集成搜索功能的搜索軟件。上海萬緯信息技術有限公司最新推出的萬緯中文集成搜索引擎(基于服務器端)包括8個英文搜索引擎和12個中文搜索引擎,它們分別是AltaVista、 Argos、 DirectHit、 Fast、 Google、 Hotbot、 NorthernLight、 Yahoo,網典、新浪、雅虎(中文)、搜狐、搜索客、天網、悠游搜索、好多、找到啦、歐姆龍、飛華、Excite(中文)。用戶可根據需要自由選擇其中最多6個引擎進行同步搜索,搜索結果可按相關度、時間、域名和引擎分類。
此外還有的中文網站也提供多個引擎的搜索功能,但不是真正意義上的集成搜索引擎。如3721是一個搜索工具類網站,它可以把用戶輸入的關鍵詞同時提交到網易、新浪、雅虎(中英文)、搜狐、搜索客、263、悠游搜索7個搜索引擎上,其查找結果是這7個搜索引擎查找結果的大集合。T500網站則集成了國內外近百個搜索引擎,分為網站、軟件、MP3、文章、新聞、游戲、硬件等類別,大部分搜索引擎都提供中文信息,著重服務于國內網友。
中文集成搜索引擎的競爭剛剛開始,它將促進中文搜索引擎的進一步完善與提高,加速網絡技術的發展。
[1]Lawrence S, Giles G L. Science, 1998, 280
[2]Lawrence S, Giles G L. Nature, 1999,400
關鍵詞:搜索引擎 集成搜索引擎 因特網


Copyright ©  2001-2002 SOWANG.COM All rights reserved. 
中文搜索引擎指南網  版權所有