首頁>>搜索指導

 

 關(guān)鍵詞搜索引擎的信息搜集系統(tǒng)、索引數(shù)據(jù)庫和查詢接口

sowang.com  2002/03/26


 

關(guān)鍵詞搜索引擎有網(wǎng)站搜索和網(wǎng)頁搜索。

  網(wǎng)站搜索是將網(wǎng)站作為信息搜索對象,一般由人工完成;網(wǎng)頁搜索引擎的信息搜集系統(tǒng)是通過網(wǎng)絡(luò)機器人(robot)或是網(wǎng)絡(luò)蜘蛛(spider)來自動完成的,不需要任何的人工處理。

  網(wǎng)絡(luò)機器人(robot)或是網(wǎng)絡(luò)蜘蛛(spider)從一組已知的文檔出發(fā),通過這些文檔的超文本鏈接確定新的檢索點,然后用機器人或蜘蛛周游這些新的檢索點,標引這些檢索點上的新文檔,加入索引數(shù)據(jù)庫組成倒排文檔。因此如何從原始文檔中抽取出全部有用信息,并將抽取的信息記錄到索引庫中是關(guān)鍵。

  關(guān)鍵詞搜索引擎的的索引數(shù)據(jù)庫建立的策略很大程度上影響了搜索引擎的效率與準確性。在設(shè)計一個索引數(shù)據(jù)庫時,要針對實際需要確定索引數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)和存儲方式。

  由于搜索引擎系統(tǒng)通常處理的都是海量的信息,因此還要設(shè)計一定的壓縮策略,對索引庫進行有效的壓縮,以提高檢索的速度。

  關(guān)鍵詞搜索引擎的檢索接口除了要提供對單個字符串進行檢索的基本檢索功能外,還要支持多種復雜的高級檢索功能,如多個字符串組合檢索、模糊檢索等。

  網(wǎng)頁搜索引擎的檢索接口還擔負著檢索結(jié)果相關(guān)性排序等關(guān)鍵技術(shù)的實現(xiàn)。

 


Copyright ©  2001-2002 SOWANG.COM All rights reserved. 
中文搜索引擎指南網(wǎng)  版權(quán)所有