2007年11月19日 星期一

Some Fundamental Concepts of Information Retrieval

AuthorPatrick Wilson


TitleSome Fundamental Concepts of Information Retrieval


CitationDrexel Library Quarterly 14:2(1978):10-24


Topic:說明資訊檢索中關鍵概念


Purpose:理解人如何處理資訊


Methodology:現象描述


Finding:資訊組織應以多面向分析,而非單一的使用主題相關來聚及資訊。


Summary


     文件中所包含的面向有兩種,一為關於某件事之資訊,一為關於某件事的正確資訊。前者可以稱為弱資訊(week)後者可以稱為強資訊(strong),而強資訊其實是一種特殊形式的弱資訊。文件本身所包含的只有文字(context),擁有相同文字的文件並不代表其擁有相同的資訊。資訊的產生端賴於使用者自身的詮釋。人在接收資訊時有兩個要素,第一是理解所要傳達的資訊,第二是相信該資訊為真。即便我不相信你所提供的資訊,但是我仍從中得到一些了解。必須要正確的推斷文字所代表的涵義才能接收到資訊。我們用思考來推斷文字的涵義。


    資訊檢索系統所提供的資訊可以分為不確定真假及確定為真兩種類型的資訊。提供前者的系統應該稱為內容檢索(content retrieval),而後者才可稱為資訊檢索(information retrieval)


    在分類及索引中,我們利用「關於」來描述文件所包含的主題。決定文件的主題是相當複雜的,因為一份文件可能由多個主題所構成,或者是其主題曖昧不清,造成定義上的困難,因此界定「關於」操作型定義就更為重要。而MARON提出的以使用者最常使用的檢索詞來表示文件的主題。必須要利用文件本身的結構來整理組織知識。


    資訊檢索系統中所討論的相關概念基本上是指值得檢索的資訊。分別相不相關的資訊只是將資訊分為是否應被檢索而已。但是這種相關概念是不完整的,沒有任何因子可以單獨影響相關性,相關性的決定應該視檢索及檢索者而定。決定檢索價值的因素也相當多元,而且多是因人而異。因此目前較為有效的方式是以主題相關決定相關性。


    需求(need)則是達成目標的要件,在達成目標之後需求也就自然消滅了。而以消極層面而言,需求指的是可以促進達成目標的物件,其目的在於減少達成目標的成本。亦即若我的需求無法滿足,我可能會退而求其次尋求其他的方法來達成較低層次的目標。而需求本身可以是知覺或不知覺的,前者是主觀的心理狀態,後者則是對於所缺乏資訊的不知覺。需求只有在提供真正需要的物件時被滿足,而使用者的需求滿足與否則要視其是否認為已被提供所需的物件。在誤訊(misinformation)的情況下,使用者的需求也有被滿足的可能性,這彰顯出需求滿足的主觀性。因此在資訊檢索系統中,可用性評估會有過於主觀的疑慮。


    資訊的描述即是該文件主要用途(primary use)的描述。而資訊的延伸用途(further use)則要視其主要用途的方向所延伸。在資訊檢索系統中,文件的主要用途是來自於作者對於該主題論述的資訊,亦即相同主題的文件可能有不同思考面向。必須以相同延伸使用的層面來聚集文件,而非以傳統的相同主題方式。只是透過描述主要用途的索引詞提供檢索,並從而驗證其相關性,對於資訊的分析是相當不足的。


    當前的資訊檢索系統仍只能回應主題相關的需求,對於自然語言檢索、資訊內容的分析、資訊的用途等方面多是缺乏的,未來的努力方向應朝此邁進。


Comment


    本文成文的年代相當早,但是對於現象的分析仍頗為精闢。其主要論點在於資訊檢索系統並無法判斷資訊的內容,而只能從關鍵字匹配的角度提供資訊給使用者。此一方向大大削弱了資訊本身的廣度,單一字詞描述資訊的侷限性太大了,過度壓縮了資訊量。此一現象亦發生在分類法之中,亦即綜合性書籍只有一類號代表。


     為了解決主題相關的侷限性,層面分析法目前已逐漸受到重視。透過多面向的描述資訊,可以將資訊較為有效的組織起來,並提供使用者更為簡便的檢索。同時在相關的概念發展之下,主題相關已經不在是唯一個相關關係,諸如情境相關、心理相關的與使用者高度連結的相關概念亦已發展而出。


A Perspective on the Measurement of Retrieval Effectiveness

方程式編輯器貼不上來...





AuthorCooper, W.S


TitleA Perspective on the Measurement of Retrieval Effectiveness


CitationDrexel Library Quarterly 14:2(1978):25-39


Topic:評估資訊檢索系統


Purpose:推廣效用評估


Methodology:各評估方式的比較


Finding:效用評估應取代現有評估方式


Summary


    評估檢索效益的測量方法對於資訊檢索理論以及實務是必要的。最早的評估方法是「準確率」,意指檢索結果中檢索到的相關文件比率。而之後為了平衡準確率評估,「求全率」應運而生,意指檢索出系統相關文獻的比率。這兩者是最常用來評估資訊檢索系統的指標,但是彼此間存在著成反比的關係。在A系統擁有比B系統較高的準確率以及較低的求全率時,可以透過個別的交替曲線(trade off curve)做比較。但如過要評估排序過後的結果,則必須使用「常態化準確率」及「常態化求全率」。而此二指標亦受限於樣本大小,因此又有「誤檢率」的應用。


    而效用(utility)評估則是取代相關(relevance)評估的新方法,其具焦於檢出結果對於使用者的價值,例如使用者是否能夠接受檢索的結果以及花費。雖然效用是一個新的評估概念,但是由於其尚未有一完整的計算公式,仍無法取代既有的準確率及求全率。同時因為其忽略了未被檢出的相關文獻比率,造成多數學者無法接受效用評估是有意義的測量方法。


    在檢驗效用時,其公式有四種。其一為檢索規模可以讓使用者一一評估其效用。其公式為:U=V1+V2+V3+..+Vn。其二為使用者認為有效文獻價值為常數u,無效文獻之價值為常數v,而檢索相關文獻數為r,不相關文獻數為i,則其公式為:U=ur+vi。其三為若系統提供排序的結果,則使用者的需求會檢索到q篇相關文獻即滿足,而sq減去檢索結果中所有相關文獻數之值,而假設有效文獻數為r,無效文獻數為ij為負相關文獻之總數,且各文獻之正效用為u,負效用為v,則其效用公式為。在比較多個系統時,該公式可以簡化成e.s.l=,此即為預期檢索長度。   


    雖然公式的呈現有不同的形式,但是其目標均在於量化相同的「使用者效用」。


Comment


    本文旨在說明僅以準確率以及求全率來評估檢索系統是不足的,因為其兩者本身存在著反比的關係,造成同時以兩者比較系統效能時的偏差。而為了減少此一謬誤,則發展出了一個新的評估方法:效用。其並以阿幾米德為例,說明效用評估是創新的思考概念而非既有公式的補充,意欲證明其在系統評鑑上的高度指標性。


    但是時至今日,最常見的評估方式仍是準確率以及求全率。效用評估為何未被接受?可能的原因在於其對於個別文獻的價值過於單一化,以及其計算公式的複雜化造成了推廣上的障礙。


    現今評估系統的方式除了傳統兩個指標的比較外,相關的評估反而蔚為主流。雖然相關基本上也被批評為過於主觀,但是由於其高度動態的本質造成其高度的適用性。而如何客觀且精確的評估系統,正是目前所需努力的方向。


 

2007年11月14日 星期三

Modeling Subject Access: Extending the FRBR and FRANAR Conceptual Models

AuthorDelsey, Tom

TitleModeling Subject Access: Extending the FRBR and FRANAR Conceptual Models


CitationCataloging and Classification, 39(3/4):49-61


Summary


    FRBRFRANAR的模型雖然有涵蓋主題的概念,但是並沒有完整的呈現在書目紀錄或權威紀錄中所產生的主題關係。必須對其實體、關係、特性做進一步的檢驗。


    必須重新檢驗三個主要目標:1.確保實體範圍包含了所有可以視為「主題」的物件。2.確保實體屬性有適切的涵蓋性。3.確保模型能夠明確且務實的呈現書目紀錄中主題取用點的關係。實體定義有兩個主要的問題1.實體是否足夠完整包含所謂的主題世界。2.實體的分類呈現是否適切且有意義的澄清書目紀錄間的關係


以下將以計畫與FRBRFRANAR的實體間做比較。


    將實體劃分為三個原始概念:1.感知的(percept)2.認知的(concept)3.多重的(關係) (relation)。而感知之下又分為生命的(生物)及非生命的(),關係之下分為動態事件及固定狀態。FRBR模型中缺少了中的固定狀態的實體。而FRBR中的物件必須定義的更為明確來包含所有可以感知的東西。


FRBR中有很多過於粗分的實體,相較之下之實體定義較為詳盡。必須重新思考FRBR中實體的劃分。


實體中的屬性代表了檢索點。在FRBR第三組實體中,concept, object, event, place均只有被定義一個屬性而已。


FRANAR中,提供基礎檢索點的元素被劃分為name實體。而與FRBR實體連結的屬性集也為了使用者的辨識性而有所擴展。而其中觀念的類型、物件的類型必須要反映出在索引典、分類法中的階層關係。而這些附加屬性又可以利用既有實體間的屬性。若FRBRFRANAR要重新定義實體時,其屬性也必須詳盡的定義。


FRBRFRANAR定義的關係有兩種層次,一為不同實體間的一般關係,二為相同或不同實體間的特定案例關係。前者必須要思考實體間的主題關係。除了”XX的主題是…”的概念,主題關係包含了更多廣泛而鬆散的關係。以主題取用連鎖的附加屬性必須在模型中呈現。例如反映索引典語意的上、下位詞的關係。因此必須明確區分對等以及階層或連鎖的關係。對等關係反映的是對於特定實例的血緣關係(如索引典中的見(see))。階層關係反映的索引典中的上下位詞的概念。FRBRFRANAR中的部份關係在階層關係中是有效的。而連鎖關係反映的是索引典中的參見以及相關詞的概念。其處理的既不是對等關係也不是階層關係。若要呈現連鎖關係,必須決定是否以單一分類或是多重分類處理。同時必須要更為詳盡的區分實體間的連鎖關係。


從資料模塑的觀點而言,有兩個重要的問題。其一為如何呈現在特定脈絡中的語句關係。第二個問題是如何定義及分類多種的語句關係。


擴充資料模型是很複雜的作業,必須囊括多方的專家才有可能為之。同時必須與其他非圖書館社群互相交流才能完善的分析資料模型。


心得


本篇文章以主題分析的角度切入FRBR的資料模型,突顯了在第三個實體組concept, object, event, place屬性較為不明確。而也進一步指出唯有清楚定義該組實體,並且分析其之間的關係,才能提供使用者適切的檢索點。在RDA中,權威控制已改成了檢索點,標示出權威控制的意義,也就是提供使用者檢索的功能。權威控制的目的在於維護標目的一致性以及建立標目之間的參照關係,必須透過定義第三實體組的關係才能達成此檢索功能。


 

2007年11月9日 星期五

我不該湊學分的

教授對不起



我不應該湊學分的



研究所本該是興趣取向 而非畢業取向的



我錯了



我應該在第一次上課後 發現自己的頭一直倒在牆壁上的時候就該決定



決定不參予這堂課



可惜我迷惘了 我迷惘在學分的誘惑之中



我以為倒在牆上一學期三學分就可以輕鬆入袋



我錯了



我以為回家自己看一看講義 就可以吸收全部的東西



我對抄投影片的筆記嗤之以鼻



我錯了



千不該萬不該



被這三學分所誘惑



白白三小時的空轉



學習也是有第一印象的



我在第一堂的課的時候就該明瞭



怎麼辦



現在停修還來得及嗎





或許理論就是這樣吧



老師講你去想 你不想老師講也是白搭




2007年11月7日 星期三

The Representation of Knowledge in Library Classification Schemes

我的研究所第一次熬夜經驗獻給了這一篇



莫名奇妙



又再一次的証明口語障礙之牆


logometic...ㄎㄎ the term is 決定可說與不可說的社會結構


AuthorRafferty, Pauline


TitleThe Representation of Knowledge in Library Classification Schemes


CitationKnowledge Organization 28(4): 180-191


摘要:


    圖書館分類法是以人為中心用來描述所有的東西的


   一般的分類法是關注於將知識應對成個別的主題。而一般分類法由大類、標記以及索引所組成。標記是一種基於自然語言的符號語言。Berwick認為圖書的編排是人的天性,一如秩序是天堂的第一條法律。十九世紀末因為知識的多產造成分類法的大量出現,如DDCUDCCC。而其用意在於取用書籍的知識及相信科學價值,並多強調實務運用。UDC的編者亦言UDC並非是知識分類的哲學或是學科重要性的排序。而其本身卻是基於DDC從培根的知識分類架構所延伸而來。Berwick認為分類系統是建立於哲學之上卻一直強調實務上的運用是矛盾的。


    而分類法分為以有形上學基礎的DDC以及為了實務方便的法國系統。而就算是沒有理論基礎的分類法也是建立於某種世界觀之上。事物並無法全然的隨機排列。其排列會基於傳統上的認知而給某些類別較為崇高的概念。其往往反映了物質社會的架構。而大類應該有以下特性:1.必須是建構的2.理想性而非代表性構成自然世界3.基於歷史的。


    大類一般是基於思想體系建構的,並不是物質世界的符號呈現,而分類法的建構往往是基於文化政治因素來決定大類以及細目的重要性。分類法會因為社會的變動而有所改動而反應現實。特定學科及論題的處理便是主題的時間變化。DDC對於小說的處理是以歷史及地理來分類的,並沒有進行內容或主題的分析。但是最近的檢索系統已經開發出小說的內容分析等功能。而AMAZON.COM對於小說的檢索提供了書目以及書評的功能顯示出社會對於小說的觀感上的改變。


    圖書館員經常強調分類法的實用性,而實用性的定義相當不明確。杜威雖然基於實用主義建立DDC,但它仍有些部分是其於知識上的哲學。


    DDC是從HARRIS反轉培根的知識體系的分類法為基礎而建構的。其類目並沒有呈現當代學科的性質。即使是實用的分類法也是基於某種哲學的基礎而影響其對於類目的關係。其強加並合理化其世界觀,讓使用者不用經過長考才能取得資料。但是必須透過其世界觀來搜尋資料。


    Bliss是以學術性一致來訂定大類,其認為反轉培根的知識體系沒有哲學概念,因為主要的科學已經分散開了,其同時批評DDC註記的低經濟性跟複雜性。其認為圖書館分類法不能只基於實務需要,其必須要具有教育功能,透過了解知識的關聯可以理解整個世界。他認為分類法必須與學術具有一致性。他認為定義明確的分類表會與時俱進,不過在後解構主義社會中將不易達成。


    DDC的流行在於其標記使用阿拉伯數字的概念。Paul Otlet Henri La Fontain關注於將語言轉換成國際語言。而阮岡納桑則是想要將個人認知的語言轉化成單純的符號語言。分類標記的翻譯是符號學的案例。Sassure Peirce把符號當作語言分析的基本單位。Sassure認為符號是由意符(Signifier)和意指(Signified)兩部分所組成。意符是符號的語音形象;意指是符號的意義概念部份。由兩部份組成的一個整體,稱為符號。而Peirce則認為符號包括代表項(representamen)、指涉對象(object)和解釋項interpretant) 所組成。而圖像符號可分為象徵性符號(Symbol)、指示性符號(Index)、象形性符號(Icon)。圖書分類標記法通常使用已經具有其他意義的符號。如阿拉伯數字、希臘字母。


    國際十進分類法由Paul Otlet Henri La Fontaine製作,以DDC改良並使用分面組配式分類法。Otlet認為他的分類語言可以呈現原始文件的核心理念。


    阮岡納桑的冒號分類法使用人(關鍵系統)、事(材料)、能量(過程與操作)、空間、時間,即為「PMEST 來標記。而他認為封閉的列舉式系統只適合用來描述固定的知識如古希臘哲學,並不適合當今變動成長快速的知識。他認為他的標記語言可以表示可以意會不能言傳的概念。


    當前超文本的出現再一次挑戰了知識組織,同時知識的架構也從既有的樹狀結構轉變成了樹根結構。


心得:


   本文敘述了分類法的知識呈現的過程以及原理,透過閱讀此文可以讓人再一次重新思考分類的目的是什麼,甚至進而思考資訊組織的概念及目標究竟是如何。


   本文充斥了大量的哲學術語,對於理解上確實造成了部份的障礙,但是對於其所欲闡述的概念仍能有個模糊的概念。


   基於對於本文的理解,讓我體認到自己對於其他學科認知的不足。很多的概念都是我未曾接觸過的,必須要做進一步的閱讀才能從中有所收穫。在現階段而言,本文對於我而言難度有些偏高。


 

2007年11月5日 星期一

What is diffusion?

我有在公共電腦上面看到別人的作業



相較之下 我寫的跟大便一樣



我是個沒有創造思考能力的考試機器 ㄎㄎ



Author
Rogers,  M.

TitleWhat is diffusion?


CitationDiffusion of Innovations. New York: The Free Press. 5th ed.2003


Topic:擴散 


Purpose:說明擴散的原理


Methodology:理論分析以及案例分析


Finding


Summary


    本文首先以秘魯推廣燒開水的案例將接受創新的人分為1.基於傳統風俗的接受者2.被說服的接受者3.抗拒者。創新計畫的接受度取決於是否能與當地的價值觀相容。此案例同時強調了人際網路的關鍵性,新知的擴散是一個社會過程而非科技事件。潛在接受者如何看待新知推動者也會影響其接受新觀念的意願。


    擴散是一種過程,在一定時間內,由社會中的成員藉由特定管道傳播關於某項新知的訊息。其為一種特殊形式的溝通。其溝通的訊息與新知有關。擴散亦為社會的變遷,因為新知擴散會使得社會結構產生變化。


    並不是有益的新知就會快速的被接受,必須仍要經過推廣才會被大眾所接受,如英國海軍防治壞血病的案例,以及Dvorak鍵盤並未廣泛被利用。科技創新並不必然得到成功擴散以及廣泛接受。


    擴散的四大要素為1.創新2.溝通管道3.時間4.社會體系


    創新意指接受端認可一個觀念為新時,此即為創新。大多數被研究的新知擴散多為科技上的創新,但科技是為了某依特定目標而設計的工具。應思考科技創新中的軟體層面,意即思想上的創新。科技本身就是一項軟硬體的混合物。創新的潛在優勢會影響接受的程度。傳統的創新研究只處理單一的案例,而目前的潮流將會考慮相關的創新傳播並已創新群集稱之。


    創新易於讓人接受的屬性為1.相對優勢:比既有更好2.相容性:跟社會體系及價值觀不相牴觸3.複雜性:可以讓人理解的程度4.可試驗性:透過實驗減少不確定性5.可觀察性:看的到創新的結果。另外在創新中又在一次創新的概念為再發明。


    創新傳播的溝通要素為1.創新2.了解創新的人3.不了解創新的人4.溝通管道。大眾媒體是最為快速且有效的管道,而網際網路的互動式溝通對創新來說也是很重要的。


    在溝通的過程中,以雙方對創新的看法是異質的,而在其他變數上是同質的情況下最為理想,因為與特質相近的人較容易溝通,而又必須存有對創新的不一致認知才能有傳播的產生。


    創新中的時間因素為:1.創新決策過程2.個人接受創新時間的早晚3.體系的接受率


    創新決策過程為1.認知:知道創新的存在和其效用2.說服:個人對於創新的正負面看法3.決策:選擇取捨創新與否4.執行:實踐創新5.確認:就先前的決策做再一次的確認。創新決策過程是一項搜尋和處理資訊的過程,個人以取得的資訊來降低對創新的不確定感。而創新決策的結果有兩種,即為接受跟不接受創新。


    基於創新性可以將接受者分類成:1.創新先驅者2.早期接受者3.早期大多數4.後期大多數5.落後者。


    接受率是指在一社會體系中全體成員接受創新的相對速率,而多以體系中具相當比例的成員接受創新的快慢來衡量的,並非以個人來衡量接受率。


    擴散必須在社會體系中進行。社會結構為各單位在體系中的定位,而此結構讓體系中的成員行為具有一定的規律性和穩定性,從而進行具準確性的預測。社會結構本身就是一種資訊,因為它能減少某些不確定性。傳統規範界定了體系可容忍的行為範圍,也影響的創新傳播的程度。


    創新先驅者對於擴散作用不大,反而是體系中的意見領袖具有較大的影響力。當社會體系傾向變革時,其亦展現出創新性;若社會傳統規範反對改變時,其則與傳統一致。意見領袖是社會結構的一個縮影和象徵。而其特質為1.熱衷於外在的溝通2.擁有較高的社會經濟地位3.創新性較高。而最重要的是意見領袖居於人際溝通網路的中心,對於體系內的溝通具有相當大的影響力。


    擴散推廣人員則是從體系外部對體系發生影響,通常會延攬意見領袖作為其代言人來推廣。因為推廣人員與體系內部成員存在著相當程度的異質性,溝通較為不易,因此亦會僱用與體系成員具有較高同質性的人士來推廣創新。


    創新決策的種類有1.個人抉擇式:個人自行決定接受創新與否,不受外界影響2.集體表決式:由體系成員之共識決定是否接受創新3.權威式:由體系內掌握權力的相對少數決定。以汽車的安全帶為例,最早由車主決定是否安裝,屬於個人抉擇。1966年美國國會通過一項法令,規定全國新車必須裝配安全帶,並於開車前繫上,此則屬於集體表決。而後經過反彈之後,繫安全帶則變成個人抉擇。如今,許多州政府制定「開車必須繫安全帶」法案,此一決策類型又變回權威決策了。


    創新的後果有1.滿意的與不滿意的:創新使否健全體性之功能或削弱之2.直接或間接的:視其對體系的反應而定3.可以預料或不可預料的:體系成員是否可以預料創新帶來的改變。





Comment


    創新傳播屬於資訊的上中下游裡的下游,也就是資訊的傳播與應用部份,其所強調的是創新推廣到社會中的過程以及結果。其目的在於如何有效的傳播新知,此一觀點與圖書資訊學中讓使用者能夠取用資訊的研究方向不謀而合。前者屬於主動的傳播創新,後者則是被動的讓使用者檢索資訊,兩者間的共通性就是提供資訊。


    而本文中提到諸多創新傳播的特質以及屬性,亦可應用於圖書館推廣利用教育之中,透過掌握傳播的本質並有效利用其特性,對於推廣工作必然有事半功倍的效用。此外,除了應用在圖書館業務之外,在學科內所產生的創新亦可應用之。學科內的概念創新有時因傳播較慢,造成普及率偏低,或許會造成疊床架屋的研究結果。有效散佈學科內的新知,讓研究人員可以認知到較新的概念以及技術,對於學科的發展也能有較為有效的助益,正如同牛頓所言之「站在巨人的肩膀上」可以看的更高更遠,使得學科整體的發展更趨於進步。


 

2007年11月1日 星期四

渾渾噩噩

全然的不知所為何來



每次禮拜三都在打瞌睡 從早上9點打瞌睡到下午6點半



我也不知道自己在幹嘛 又不是交學費特地去打瞌睡的



可是光看著別人在台前打嘴砲 倒也沒什麼好說的



又不是說聽著聽著 有一天我就會打嘴砲了



每個禮拜兩三篇 我的英文還是不太好



用導讀串接而成的學習 知者幾稀



有沒有人要發表問題的?



不是一片靜默 就是偶爾插花



幹 雖然我上研究所以後好像就變成啞巴一樣 可是我真的不知道該怎麼說啊



每次摘要心得不知所云 總是讓人深感無力





我覺得寫心得是一種消磨自信心的一種很有效的方式



因為你完全不知道自己之前在看什麼東西 你只是一台翻譯機



最後硬著頭皮寫出來的東西 相信自己也不會想看第二遍



一次次的 只是要讓你體認 你其實懂得還很少



幹 怎麼聽起來很耳熟



這不就跟小時候被逼著背三字經千字文全唐詩的時候



媽媽說「現在不懂沒關係 你大了就懂了」的感覺有些熟悉有些相似



想來有些心酸 這麼些年 還是沒什麼長進





上學就好像上班 刷停車證就好像在打卡 出席只是代表我有來 不代表我有在聽 就跟上班會摸魚一樣



求的只是一紙文憑 卻不知求來何用



期末報告 還是不知道要幹嘛



我找不到任何的potential topic 這是哪個環節出了問題?



還是說真的應該先去當兵 才能燃起求學的渴望



可是我明明就是因為大學書沒唸好 才想要繼續唸研究所的啊



矛盾的人生



莫忘初衷



趕羚羊



機掰