在傳統信息檢索中,衡量系統的基本指標:查全率(Recall)和查準率(Pricision),查全率是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率;查準率是檢索出的相關文檔數與檢索出的文檔總數的比率。對于一個檢索系統來講,召回率和精度不可能兩全其美:召回率高時,精度低,精度高時,召回率低。
對于搜索引擎系統來講,因為沒有一個搜索引擎系統能夠搜集到所有的WEB網頁,所以召回率很難計算。由于互聯網海量信息的特征,查詢返回的結果大都非常多,因此目前的搜索引擎系統都非常關心精度。同時,互聯網的信息是動態變化的,搜索引擎必須反映這種變化。
簡單來講,搜索引擎要滿足用戶對信息查詢的需求,提高用戶的搜索體驗。以下是幾個比較重要的指標:
1. 網頁覆蓋率。提高查全率,是保證查準率的基礎。
2. 返回結果的準確性,主要是第一頁結果的準確性。大部分用戶僅僅察看搜索結果的第一頁。
3. 重復信息返回的過濾。返回結果應該盡可能不出現重復、類似的結果。
4. 網頁更新速度。取決于新網頁的發現,和死鏈(指無法訪問網頁)的及時刪除。結果中大量的死鏈和過時信息的鏈接,將會降低用戶體驗。
5. 搜索服務的相應時間,也就是用戶提交檢索后得到結果返回的等待時間,一般要低于一秒即可。
6. 搜索服務的系統穩定性。