Author:Salton, G.
Title:The State of Retrieval System Evaluation
Citation:Information Processing &Management 28:4(1992):441-49
Topic: 說明當前系統評估之現況
Purpose:讓人對於系統評估之研究有一概括的理解,並從而思考未來研究的方向
Methodology:文獻分析
Finding:
Summary:
雖然系統評估的研究已經發展已久,但仍有不少專家對於其所使用的研究方法產生質疑,其中COOPER認為傳統的系統評估是基於變化極大的相關判斷以及許多主觀的因素,令人無法信服,另外回現率及準確率的使用也受人質疑,因此有人認為實驗室所產生的結果無法套用的現實生活之中。一般評估系統多使用1.求全率,指檢索到相關文獻的能力2.精確率,指排除非相關的文獻的能力,來測量系統效能,這建立於認為使用者想要檢索到大量的相關文獻同時拒絕大量的不相關文獻的假設上。但是此一概念與效用理論並不相容。Cooper認為所謂相關的文獻有時是沒有用的,使用者可能會因為一篇相關文獻而過度評價低回收率的系統。而事實上,只有少數的使用者會關注於檢索到所有相關的文獻上。傳統回收率跟準確率的雙指標有比較上的困難,另外也無法詳細的呈現檢索集的規模與已檢索的數量。但是Swet的E-measure及Cooper的預期檢索長度等測量值均有計算上的困難,因此回收率及準確率仍然是目前檢索評估的主流工具。
大部分的檢索評估研究都是在實驗室裡進行的,現實世界裡很難進行與實驗室相同的實驗。因此有以下批評:1.檢索要求無法表現真實的使用者需求,相關的判斷也無法與現實相同2.每個人的相關判斷都不盡相同3.回收率建立於所有相關的文獻上,而事實上對於無法檢索到的相關文獻只能使用估測值4.查詢詞與文獻測試集規模過小。
Cranfield實驗是第一個以固定的查詢及文件集配對的大規模實驗,其比較了三種索引語言:單一詞彙語言(single term language)、簡單概念索引語言(simple concept index language)與控制詞彙索引(controlled term index),並應用了切截、同義詞、類同義詞等技術,其結果證明了單一詞彙語言的效能最佳。單一詞彙語言完全反映了自然語言的專指程度,既廣且深。而簡單概念索引語言的高度專指性造成了檢索效能低落。Swanson和Harter認為該實驗有兩個問題:1.使用者比較喜歡使用關鍵字比對2.該實驗並未包含大量相關但未被檢索出的文獻。但是即使在相關的判定上有所缺失,以及無法準確的推估未檢索到的相關文獻,但是基於同樣的基礎上,比較不同索引語言的效能仍是有效的。
SMART系統評估以CRANFIELD的測試集為基礎,目的在於證明內容分析會增加檢索系統之效能,但實驗結果發現加權關鍵字加上切截後的檢索結果較佳,而內容分析之檢索結果卻較預期的差。
雖然Smart和Cranfield的測試結果是互補的,但並不廣為接受,其原因在於小型實驗測試與現實檢索的差異性。
Stairs全文系統的評估報告指出其準確率為0.79,回收率為0.20,其使用無權重的關鍵字及布林邏輯進行檢索,研究指出回收率0.20已達全文檢索系統的最大值。McCarn和Lewis認為使用者自行擁有準確率的門檻,這意指系統應該提供讓使用者縮小檢索範圍的機制來提供更為準確的檢索。在實驗環境中查詢詞的擴展或窄化可以改變回現率及準確率,但在現實中是不可行的。系統評估必須建立在值得信賴的相關判斷以及可信的相關文獻數量。而SMART系統沒有特別強調回收率及準確率,但在其大規模的測試集的實驗下,不同索引語言是具有被比較的基礎。而過去的系統評估多關注於查詢詞與文獻測試集的關係,未來的研究方向則是應從使用者的相關回饋來呈現系統與人的互動。
Comment:
本文旨在分析當時的系統評估研究,同時指出未來的研究方向應該朝自動分類索引邁進。本文所分析之研究仍多屬於系統導向的研究方法,多以回現率及精確率來測量系統效能,忽略了使用者與系統互動的部份。但是由於使用者導向的研究方法變數過於龐大,且因人而異,對於整體環境無法一體適用,因此目前對於系統評估的方式仍然是以回現率以及精確率為主。
目前必須思考出能夠量化的相關評估指標,從而發展出可以使用單一測量值比較系統效能的研究方法,當前雙指標的反比關係對於系統比較上一直存在著根本上的謬誤。
0 回應:
張貼留言
留言前請選擇身分別名稱/網址。
選匿名的話,最新回應一整排Anonymous很難看