2010年歐洲數位圖書館


會議時間:99年9月6日至9月10日
會議地點:英國格拉斯哥
主辦單位:European Conference on Research and Advanced Technology for Digital Libraries (ECDL)

歐洲數位圖書館會議「European Conference on Research and Advanced Technology for Digital Libraries 」成立於1997年,為數位博物館與圖書館領域裡重要的年度國際會議,也是歐洲頂尖的科學論壇之一,它與首屆DELOS工作團隊活動共同舉辦。該工作團隊是由歐盟所贊助,也奠定了歐洲研究數位圖書館社群的發展基礎。歐洲數位圖書館會議已成為歐洲地區有關數位圖書館和相關技術、應用和社會議題的主要論壇,與會人員包含該領域的學術研究者、從業人員、開發商、內容提供和使用者,以滿足更廣大、多元的需求。2010年第14屆歐洲數位圖書館會議將由格拉斯哥大學舉辦,內容主要分為五個主要類別:研習課程、博士生學術交流研討會、論文發表會議、海報與展示及工作坊。而明年的歐洲數位圖書館會議將正式更名為「Theory and Practice of Digital Libraries, TPDL」,中文暫譯為「數位圖書館理論與實踐大會」,在九月於德國柏林的洪堡大學(Humboldt-Universität zu Berlin)舉行,由圖書館與資訊科學、電腦與媒體服務、以及電腦科學學院負責(Berlin School of Library and Information Science, the Computer and Media Services and the Department of Computer Science) 。



本次海報發表與展示場次的主題有四大類,針對數位保存(創造合作研究環境、系統平台管理、數位保存基礎建設、標準工作流程與互動式環境。)、數位圖書館內容 (數位內容的再利用與呈現、多語化、多媒體與視覺化、文件典藏之多樣性與動態性、公共圖書館數位服務分類)、後設資料 (後設資料影響力之研究、控制詞彙的使用、資訊檢索對話、數位註記與檢索詞彙)與使用者(行為分析、以使用者導向來提升網頁影像的檢索、依使用者功能需求發展數位圖書館互通性。)

本次投稿ECDL會議之海報「AAT-Taiwan: Toward a Multilingual Access to Cultural Objects」,是由計畫辦公室由陳淑君專案經理、吳岱晏小姐、彭珮雯小姐和張詠婷小姐共同撰寫,經大會審查後接受,於九月八日午間上台先進行一分鐘的內容概述,接著於下午的海報與展示場次中發表。研究海報內容先簡介AAT-Taiwan中文版的藝術與建築索引典當前多語化之成果,包含AAT-Taiwan工作小組團隊的中文在地化工作流程(等同關係對照、翻譯與校訂、學者專家審核、系統網頁開發)。並探討在進行多語化的過程中,尤其是在等同關係對照和翻譯校訂作業時,常遇到因文化語言隔閡,而造成難以定義中文的翻譯和定位合適的層級位置。AAT-Taiwan目前採用的解決方式,是尋求該詞彙領域專家的協助,確保翻譯和層級架構的正確性,以及範圍註內容的完整性,在必要時也會另外新增TELDAP範圍註,標明該詞彙在東西方文化或中英語言方面的差異之處。研究海報中,也展現AAT-Taiwan未來以作語言文化橋樑的發展目標,幫助東西方使用者瞭解彼此的文化與藝術。



現場有一位來自日本立命館大學的與會者,表示AAT-Taiwan和他們進行的計畫「日本傳統彩繪版畫(Ukiyo-e)跨語言檢索資料庫」頗有相似之處,雖然該計畫是將藏品後設資料與Dublin Core進行比對,並以日英字典的翻譯作為檢索的詞彙,但在處理語言文化差異的對照與翻譯上,也遭遇到類似之難題; 對方表示或許可參考AAT-Taiwan的方式,以附註欄位來處理此類問題。而AAT-Taiwan在執行業務時,或許可參考使用目前國內現有之翻譯資源,如來自國內典藏機構或具權威性的辭典、百科全書等,有助於加速中文化業務的執行。

由於執行AAT-Taiwan計畫的緣故,在對照和索引典方面接觸較多,參與本次ECDL大會後,更了解到知識系統的多語化實為資訊世界發展的必要趨勢。唯有透過不同資料庫、系統之間的整合,才能夠加速內容的擴充,更徹底的善用網路無緣弗屆的力量。唯一遺憾的是在對照方面,目前數位圖書館尚未有一套完整的機制,可在不同語言間進行自動化對照,大多仍是仰賴人員進行,而這是在與會中,發現各國進行多語化的過程中會遭遇到的難題,因此仍有待更多專業人士的研究與分析。另外,目前AAT-Taiwan的翻譯作業即將告一段落,在本次與會後,了解到除了接續進行校訂、學者專家審核的部份之外,也該開始思考如何有效利用中文的AAT、並依目標使用者來進行相關規劃,例如在未來是否要開放使用者公開標記、評論等功能,以AAT索引典中具有權威性的字詞內容註釋為引,加入一般使用者會用來檢索的辭彙,作為AAT的非偏好辭彙,甚至是針對AAT的詞彙相關圖片來標註。這樣一來,可提高互動性,讓不熟悉索引典的使用者也能輕易入手,增加了檢索的效率、得到更豐富的搜尋結果。

閱讀全文... 0

多語詞彙學工作組會議

(上圖 :多與詞彙學工作組各國成員合照)

會議時間:99年8月23日(一)至8月26日(四)
會議地點:美國洛杉磯蓋提研究中心
主辦單位:蓋提研究中心

本國家型計畫成員於2010年8月23日至26日赴美國洛杉磯參與Getty舉辦的「多語詞彙學工作組會議」(Multilingual Terminology Working Group Meeting),此次會議為期四天,聚集了同在進行AAT多語化的成員國家之研究機構與學者,包括美國(英文)、台灣(中文)、荷蘭(荷蘭文)、智利(西班牙文)以及德國(德文)。為了促進AAT多語化的國際合作與交流,Getty於2009年十月成立「多語化詞彙工作組」,為進行多語化工程的各國成員提供訊息交流的平台,成員包括:美國(Getty Research Institute)、台灣(Academia Sinica)、智利(Centro de Documentación de Bienes Patrimoniales)、荷蘭(Netherlands Institute for Art History)以及德國(State Museums of Berlin/Institute for Museum Research)。本次會議即為該工作組成立後的第一次多邊會議,各國成員就彼此多語化索引典的方法與進度展開討論。

Getty詞彙現況與更新

由Getty Vocabulary Program的執行編輯Patricia Harpring發表,針對Getty所研發的四套詞彙:Art & Architecture Thesaurus (AAT)、Union List of Artist Names (ULAN)、Getty Thesaurus of Geographic Names (TGN)以及即將完成的Cultural Objects Name Authority (CONA),進行內容、範圍與未來計畫的概略報告。AAT包含約34,000個概念,131,000個詞彙,目前已有的多語化成果為西班牙文(已完成)、中文(進行中)、德文(進行中)、荷蘭文(進行中)、義大利文(3000個詞彙)與法文(3000個詞彙),而許多本來沒有修飾語(qualifier)的詞彙,比如gouache,在新增修飾語的結構後成為gouache (paint),會因為paint的關係而更容易被使用者搜尋到,藉此增加了多語資料檢索的便利性。若有新資料貢獻給AAT時,系統的管理頁面會顯示該筆記錄為Dom (表Dominant)或Rec (表Recessive),以區別新舊記錄,編輯便可隨時追蹤更新的情況。AAT系統端在處理非英語詞彙時,比如Provençal 會顯示為Proven$05cal,“$05” 即代表讀音符號,這些符號之間有特定關聯,AAT網站上便有讀音符號的代碼可供查詢。另外,在翻譯AAT詞彙時,每個翻譯都需有至少一筆權威資料可供查考,且AAT只接受完全同義的對等詞彙翻譯,不可輕易將具有類似意義的詞彙視為相同概念。遇到本地文化沒有的概念詞彙而無法翻譯時,應使用loan term的方式直接借用,不得自創一個沒有來源根據的對等詞彙,但此方式似乎較適合使用拉丁字母的語言(如英語與大部分歐洲語言),是否適用於中文的AAT,尚有待討論。而各語言版本的AAT詞彙並不一定要有相同的範圍註(scope note),各國在進行多語化的時候,可依本地文化的情況需要,增補或修改範圍註。

(上圖 : 多語詞彙學工作組開會情況)

ULAN旨在收集藝術家的名字,包含別名、假名/筆名與各語言異體字,以及相關的傳記式資料與書目資訊,共有約127,000筆記錄,375,000個姓名。其中特別提到的是「無名氏」( Anonymous Artists)與「不明」(unknown)的不同,前者可由一些特定的特色加以識別,但後者確實是不知名的狀態。TGN著重於對藝術與建築之研究有相當重要性的地點,共有約895,000筆記錄,1,115,000個名稱、地點種類、座標與描述註(descriptive notes)。TGN並不包括虛構的地方(屬於CONA的範疇),但可包含不確定確切位置的地方(比如「消失的亞特蘭大」)。若已消失的聚落有兩個可能的地點A與B,則A跟B須為兩筆分開的記錄,再彼此連結為聯想關係。

CONA 是目前Getty正在研發中的一套新詞彙,可望於2011年完成並公開。此套詞彙將收集文化作品的權威記錄(authority records),包括建築與可移動的藝術作品(繪畫、雕塑、照片、陶瓷器、紡織品、家具等),其他視覺媒體如壁畫、表演藝術、考古文物等,以及物質文化領域的各種功能性物件。CONA的物件類型(object type)是由AAT控制,如同目前AAT-Taiwan於聯合目錄與ARTstor上的應用。兩個相似的作品之間可有相互的聯想關係,比如兩幅畫作可藉由Jean Auguste Dominique Ingres這個畫家的名字彼此連結;而作品的地點可為實際的地理位置,或其所在的典藏館;描述的主題可分為一般(比如architecture)與特定(比如Holy wisdom)。貢獻詞彙到CONA的方式與AAT類似,每次可為一批或一個詞彙。

技術問題探討

自發展AAT以來,Getty持續進行AAT內容的更新,而AAT-Taiwan現有的版本為兩年前安裝的版本,和Getty最新的版本有明顯落差。如何與Getty的更新保持同步,對AAT-Taiwan團隊來說一直是個很大的課題,其他國家成員的情況亦同。Getty方面目前提供兩種方式,一是經由API的執行而有雙週一次的同步更新,或藉由每年的系統資料匯出(XML、relational tables、MARC)而更新,但因AAT-Taiwan方面沒有使用API,故只能選擇第二種方式。我方技術團隊亦決定發展程式來比對Getty提供的XML更新文件和自有資料庫內容的差異,以便更有效率地進行資料庫的更新,而此程式在開發後亦保留供其他AAT團隊使用的可能。

(上圖 : 發展科林晰科長與GRI技術人員開會情況)

各國在貢獻新詞彙給Getty時,詞彙需要專屬的ID,故Getty將提供相關的web service,智利的西班牙文AAT便是使用Getty提供的ID進而合併資料(merging data)。Getty並承諾提出貢獻者XML彙送格式以及FTP上載區,以便各國提供Getty其翻譯或貢獻詞彙的成果。尚未建立好記錄的新概念詞彙,會放在之下等待後續處理,在完成前不會出現在索引典上。目前AAT-Taiwan貢獻詞彙之中文字體採用Unicode方式,是因Getty方面缺乏中文專業人才,若不使用Unicode,所貢獻的資料有可能變成亂碼,使他們無法辨別資料是否為junk contribution,而造成管理上的困難。由蓋提文物維護中心(The Getty Conservation Institute)發展中的Conservation Thesaurus (CT)將會比CONA還快完成,並將與AAT整合,包括新貢獻的部份,依需要AAT也會增加新的層面(facet)。

同時,AAT也計畫與Wikipedia進行連結,藉由增補footnote至某筆詞彙的百科內容中,參考文獻的欄位裡便可顯示AAT的連結資訊,以擴大AAT的使用者群。此種做法AAT-Taiwan團隊已實行了一段時間,目前成功連結的詞彙數量為77筆,對增加AAT-Taiwan網站的流量有不少助益。

各國AAT多語化實行現況

TAA(智利)為西班牙文版AAT,由CDBP(Centro de Documentación de Bienes Patrimoniales/Center for Documentation of Cultural Heritage)推動,動機為替DIBAM (Dirección de Bibliotecas, Archivos y Museos/Directorate of Libraries, Archives and. Museums)整合典藏,除了發展SUR記錄系統,亦評估國際上可用的工具,決定採用AAT來標準化他們的詞彙。自1996年一開始採用機器翻譯而效果不彰,後來利用專門辭典進行翻譯,至今已完成了33,792筆詞彙翻譯,並於2003年在線,是第一部線上西班牙文索引典,廣受博物館、研究機構、數位圖書館與西方藝術與建築的專家學者使用。

智利團隊指出AAT缺乏許多有關前哥倫比亞時代、美國殖民時代與宗教物件的詞彙,內容不夠完備以致於使用度受限。AAT原本是以複數形為偏好詞彙,但因為大多數西班牙文詞彙的複數是在語尾加上s,而有些語尾為s的詞彙單複數同形,因此TAA是選擇以單數形為偏好詞彙。另外,TAA的一筆記錄裡也會列出不同國家地區之西班牙文用法(如智利、西班牙、古巴、阿根廷等)或歷史詞彙為非偏好詞彙,未來AAT-Taiwan或許可參考此作法,將中國大陸、香港或其他華文地區的用法納入索引典。

TAA網站支援多語搜尋,並可藉由字首、字尾或複合詞進行詞彙檢索,其每年從AAT接收的新詞彙約為1,500-2,500筆。TAA團隊提出,成功的翻譯與等同關係比對在於選用適當的參考文獻,固定某些英文的譯法(如範圍註中常出現的Use for…),與學者專家合作(以專業知識度為優先),以及Vocabulary Program與技術團隊的支援。作為未來的目標,TAA團隊會繼續維持線上標準化工具(online standardization instruments)的工作,增補新詞,修訂舊詞,廣納使用者的意見做出適當的變更,並加入詞彙的相關圖檔。另外,也將與SUR系統連結(object-term-TAA),為DIBAM使用者設計訓練課程,藉由講座與出版品推廣宣傳,擴展TAA的使用度。

(上圖 : 蓋提研究中心Murtha Baca博士為會議做開場說明)

Dutch AAT(荷蘭)之發展是由RKD(Rijksbureau voor Kunsthistorische Documentatie/Netherlands Institute for Art History)主導規劃,分為三個階段:1994~1998,1999~2004與2007至今,學者專家的加入是在第二階段。目前的更新情況為他們已匯入新資料至系統,包括2300個新概念與9000個資料變更,亦使用新網站與瀏覽器讓介面更user-friendly,並與其他計畫進行整合,包括MOVe、collective Gelderland、MusIP等,AAT-Taiwan日後在策略規劃上可考慮與這些計畫展開合作。

荷蘭AAT團隊利用PR與行銷擴展使用者群,經由與顧問開會、發Newsletter與手冊、在網站上設置user form以及FAQ的方式與使用者交流,未來我們網站上的contribution form可以仿效他們的user form,列出所有貢獻新詞彙所需的欄位,讓使用者亦能參與詞彙內容的增補,活化AAT-Taiwan的發展。荷蘭AAT的未來目標是成為使用者可信任的資訊來源,與Getty AAT密切互動以保持一致性,並盡快開始另一次內容更新,貢獻新荷蘭詞彙,鼓勵使用者的參與,改善系統的好用性,並與其他線上典藏連結。

至於荷蘭AAT在翻譯上的問題主要有三:1)無法確定網路參考資源的可靠性。Getty回應:將會在編輯指引裡面列出準則。2)AAT只接受完全同義的詞彙翻譯,但有時無法找出完全對等的詞彙,或來源語(source language)之概念與目標語(target language)為一對多的關係,AAT-Taiwan團隊亦有同樣的問題。Getty回應:可用loan word的方式,在此情況下參考文獻不限定為英文。3)貢獻新詞彙至什麼樣的程度才算足夠?是否應建構兩種版本AAT(國際版vs.在地版),以便更符合本地使用者的需求? Getty回應:應以典藏的需求為導向,依荷蘭的博物館需要什麼樣的詞彙來敘述他們的藏品而定。

AAT in German是由State Museums of Berlin/Institute for Museum Research推動,他們的報告分為兩大項,首先是技術層面的分享,他們採用Xtree tool讓系統頁面分為兩部分(介面原是德文,現有英文版),左欄有三個tab(tree, search, list)可供切換,其中tree是顯示AAT的層級架構,在tree點選詞彙後,詞彙的相關資訊會在右欄顯示,右欄的tab包括Basic data, relations, mappings, Notes, Forum,可進行參考文獻新增(從建好的選單中選擇)、德文詞彙新增(使其為偏好詞彙)等。亦可在左欄的search鍵入搜尋詞彙,於右欄顯示搜尋結果,而詞彙的範圍註是以英文跟德文並列的方式呈現。德文AAT亦提供圖檔,可在左欄的list中選擇圖片瀏覽,或利用詞彙搜尋相關圖片。

另外,他們亦檢視Getty提供的參考文獻清單,以Visual and verbal communication層級為例,共有475筆資料,依使用頻率排序,這些資源可大致分類為一般字典、權威資料庫、領域專書,其中有些英語文獻已翻成德文,有些雖無德文版,但有其他類似的德文文獻可供參考。報告的另一部份為初步翻譯的成果,由Antje Fehrmann博士(藝術史、中世紀藝術專家)試翻了Visual and verbal communication層級,目前共有311個德文詞彙,110個翻譯的範圍註,以及由詞彙上下位關係而衍生的24個新概念。而翻譯後的feedback為:一般字典的翻譯通常不夠精確,應多查領域專書,且使用線上資源較為省時。提出的問題:1)是否應選擇完全對等的詞彙為偏好詞彙,就算該詞彙較不普遍? Getty回應:YES。2)若有需要,可否修改AAT層級以求更精確的詞彙架構? Getty回應:YES。至於相關建議:1)使用task manager讓工作流程最佳化(optimization)。2)從既有德文詞彙中建立貢獻詞彙(candidate)資料庫,如博物館與可靠的線上資料庫所用的詞彙。

AAT-Taiwan現階段進度與成果

AAT-Taiwan(台灣)計畫啟動的動機為要將TELDAP的典藏成果與國際分享,首要挑戰便是克服語言的隔閡與控制各典藏機構所使用的描述詞彙。所以計畫目標是與Getty建立合作關係,整合與統一典藏機構的詞彙,成為一個權威的知識庫,並與聯合目錄結合,融入藏品的metadata與數位圖檔,讓東西方的使用者得以跨越語言藩籬接觸不同的文化藝術。自2008年正式啟動,並於2009年發展系統雛型與研究方法架構,AAT-Taiwan目前已翻譯25,580筆詞彙,其中校訂完成10,670筆,學者專家審訂452筆,而與聯合目錄連結的圖片則有1,185張。我們亦在今年三月貢獻17筆「中國書體」概念詞彙給Getty,包含中文詞彙的Unicode、拼音/漢語拼音與韋氏拼音,以及英文範圍註(scope note),充實AAT在中華文化方面的內容。AAT-Taiwan團隊預計在今年年底完成中文版編輯指引,並完成全部詞彙的翻譯。

AAT-Taiwan計畫架構可分為兩大部份:在地化(localization)與貢獻新詞彙(contribution),前者包含AAT詞彙英翻中、校訂、學者專家審訂、系統著錄,以及結合聯合目錄的圖檔與同義字;後者包含等同關係比對、新詞彙範圍註撰寫、詞彙內容中翻英、學者專家審訂、系統著錄。其中在翻譯與校訂方面,目前共有13位譯者與6位校訂人員參與,多具有語言、翻譯、藝術與建築等的學術背景,我們訂立了一套人員管理與訓練方法,包括文件格式與翻譯規定、建置網上翻譯論壇(問題討論與意見交流)、工作表現要求(25%的譯稿不合格或遲交稿件3次以上即開除)等。而在詞彙審訂方面,目前共邀請了7位學者專家,領域包括色彩學、中國書體、青銅器、陶瓷器、中國繪畫、藝術概念、翻譯學。學者專家審訂完後會給予專業的feedback,比如色彩學的專家-中國文化大學的徐明景教授,即指出AAT色彩學的詞彙偏重於建築領域,此套詞彙可應用在更廣大的讀者群,整體架構上需要更宏觀的考量,對色彩的學習才能有較完整而全面的效果。

(上圖 : TELDAP共同主持人李德財院士現場說明AAT-Taiwan進度概況)

在系統發展上,AAT-Taiwan網站除提供多語搜尋之外,亦有中英文頁面切換功能,且使用者可藉由外部連結或圖片連至Getty AAT、聯合目錄與MuseFusion。經過學者專家審訂的詞彙,在詞彙頁上會顯示該位專家的名字,並提供連結至專家的個人網頁,以彰顯AAT-Taiwan內容的精準度與權威性。且除了AAT本來的範圍註,亦提供學者專家補充的TELDAP範圍註,讓中文使用者能獲得更詳盡完整的資訊。另外,AAT-Taiwan亦努力朝加值應用的方向發展,除了上述的與聯合目錄和Wikipedia連結外,AAT-Taiwan的詞彙也在ARTstor Pilot Study中作為控制詞彙用來翻譯TELDAP的藏品,並與商用關鍵字進行比對,藉以發展商用關鍵字的多語特色,讓世界各地的廠商更易搜尋到TELDAP的藏品。未來亦考慮與Chinese WordNet合作,增加更多一般性的詞彙內容,變得更user-friendly。

AAT-Taiwan等同關係比對上的問題主要為:1)有時中文文獻不足,難以確認某概念在我國文化的重要性,導致比對結果不夠精確。建議:邀請專家學者的參與,提高精確度。2)一對多的比對結果,如temple通常翻為「寺廟」,但依宗教或建築目的亦可細分為廟、祠、寺、庵、觀等。建議:新增的層級以囊括並區分這些詞彙,顯示文化獨特性。3)詞彙「文房四寶」在AAT裡只能比對到筆、墨、紙、硯四個分開的概念。建議:將「文房四寶」視為單一概念並新增到desk sets之下,提供中華文化獨有的詞彙。

而翻譯上的問題則如下:1)有些非英語詞彙因資料較少且不確定發音,意譯或音譯皆有困難。建議:交給該語言的專家決定,或保留原文不翻譯。2)一對多的翻譯,如component依前面所接詞彙不同,可翻成組件、構造、成分、構成要素、結構。建議:統一使用「組件」,視情況可加上修飾語,如→<蛋的組件(構造)>。3)AAT有一部分詞彙缺乏範圍註,導致翻譯上的困難,且難以追蹤範圍註的增補狀況。建議:請Getty定期提供詞彙的更新情形。4)有時AAT一筆記錄裡會有兩種以上的意義,如stitching可翻為縫訂(書籍裝訂)與縫合(針線工)。建議:修改AAT架構,新增”stitching縫”為上位詞,下列”stitching縫訂”與”stitching縫合”兩詞彙。


SlideShare

其他多語化計畫

在8/25的會議當中,蓋提研究中心邀請到來自紐西蘭、伊朗和義大利的學者專家,與大家一同分享他們各自在索引典、控制詞彙、以及後設資料建構上的經驗談。紐西蘭Te Papa Tongarewa博物館的藏品資料經理Adrian Kington在報告中提到他們如何善用蓋提研究中心地理名稱索引典(TGN)和藝術與建築索引典(AAT),整合至現有的藏品系統中,有效提高藏品搜尋效率,方便使用者瀏覽並發現更多相關的典藏內容。

由於紐西蘭與美國為相同語系國家,除了因文化差異所產生的部分詞彙概念與架構不同之外,基本上已可成功呈現與TGN和AAT知識架構結合的成果。他們運用本身的資料源,也向一些機構取得資料源授權。從各資料源的編目擷取十餘個資料項,主要是關於人、事、時、地、物的訊息,還有大量圖像,匯聚於檢索平台。搜尋針對這些資料項進行,使用者下達檢索詞之後,可運用索引典的同義詞、狹義詞、廣義詞及人、時、地、物等限制條件,持續調整檢索精度。檢索速率佳,呈現的結果豐富,包含許多圖像。觀摹之後,是深思如何運用中文AAT的時候。對於TELDAP來說,進行 AAT-Taiwan研究計畫的最終目的,也是為了與數位典藏與數位學習國家型計畫多年來累積的龐大數位藏品結合,紐西蘭博物館的範例值得我方參考,AAT-Taiwan未來加值應用的推廣策略規劃上,也因此獲益良多。


SlideShare |

閱讀全文... 0

藝術與建築索引典(AAT)中文化研討會


會議時間:99年6月2日(三)至6月9日(五)
會議地點:中央研究院資訊科學研究所會議室
主辦單位:中央研究院資訊科技創新研究中心 | TELDAP藝術與建築索引典研究小組 | 博物館電腦網路協會台灣分會 標準規範主題小組


AAT-Taiwan研究小組是由數位典藏與數位學習國家型科技計畫(TELDAP)計畫辦公室所設立規劃,與美國蓋提研究中心(Getty Research Institute)進行國際合作,致力於藝術與建築索引典(Art and Architecture Thesaurus, AAT)的中文化研究(簡稱AAT-Taiwan)。TELDAP自啟動以來,已累積超過三百萬件的數位藏品於聯合目錄中,藉由AAT系統化的層級架構與知識脈絡,能為這些豐富的文化資產提供一套完整的概念架構,作為編目與索引的依據,協助藝術、建築和物質文化方面的資訊檢索,並促進各典藏機構之控制詞彙的整合。而AAT的多語化檢索功能,亦可為東西方文化搭起交流的橋樑,讓西方世界對於中華文化相關的資源有更多的認識,增加國際能見度。

為探討AAT中文化過程中的相關議題與執行策略,並評估未來發展的目標與方向,本國家型計畫於99年6月1日至9日間,邀請美國紐約州立大學水牛城分校教育研究所圖書資訊學系教授Dagobert Soergel博士來台,參與在中央研究院舉行的「藝術與建築索引典中文化研討會」,與會人士包括本國家型計畫共同主持人李德財院士、資訊科學研究所陳克健研究員、計算中心發展科林晰科長、資訊科技創新研究中心研究助技師陳淑君小姐以及AAT-Taiwan研究小組全體成員。Dagobert Soergel博士的專長領域為資訊系統研發、知識本體發展、索引典建置、資料庫設計、使用者需求分析等,本次研討會期望透過博士的專業諮詢與寶貴經驗分享,協助AAT-Taiwan成長為一個更完善全面的知識庫。

研討會一開始先由李德財院士、陳克健研究員與陳淑君研究助技師分別就本國家型計畫、聯合目錄以及AAT-Taiwan的內涵與發展情況,給予Dagobert Soergel博士一個初步的介紹,之後便針對AAT-Taiwan的各個面向,包括工作流程、執行方法、系統架構、詞彙等同關係對照與翻譯校訂問題、未來展望與發展策略等,進行深入的討論與分析,會中Dagobert Soergel博士給予許多寶貴的意見,以下為各個討論面向的摘要整理:


一、 詞彙等同關係對照
1. 處理比對結果時不應受限於AAT原有的層級模式,應考慮拓展AAT-Taiwan的中國文化概念詞彙,以發展有別於AAT的優勢。
2. 除AAT原有的34種詞彙關係外,擴展與中國文化概念有關的詞彙連結性,加強相關聯詞彙的發展。
3. 由學者專家挑選中文藝術辭典專書中重要的代表性詞彙,將詞彙清單列入資料庫,加強對照過程的自動化。
4. 比對作業可增加與學者專家之間的合作,以提高作業效率與成果。
二、 詞彙翻譯與校訂
1. 嚴格控管翻譯人員的作業品質,不適任者淘汰率可提高至25%。
2. 參考引用國內機構如故宮、或其他現有辭典等的翻譯,以增加效率。
3. 遇到中英翻譯上的概念一對多(或多對一)的語言文化問題,可新增廣義的上層詞彙,底下再細分子詞彙,以展現完整的語意脈絡。
4. 非英語系語言之詞彙可交予該語言的專家審核,並保留原文。
三、 撰寫範圍註
1. 建立範圍註撰寫指引及品質控管準則。
2. 翻譯AAT原有的範圍註時,建議標示出該詞彙在中西文化的不同之處。藉由TELDAP範圍註的補充說明,可充分展現比對與翻譯的工作成果,讓AAT-Taiwan不再只是中文版的AAT。
3. 範圍註可分為一般和學者專家範圍註兩種分級,以滿足不同使用目的。
四、 管理與系統架構
1. 與AAT資訊更新的同步度,有兩方面可加強:
- 每半年向AAT要求提供其更新部分的資料庫,並在AAT-Taiwan上標示出所有更動。
- 在AAT-Taiwan系統中新增資料變更的過程記錄,可保留原始資料並顯示修改日期、修改人員以及每次修改之內容。
2. 層級架構的展現方式改以點數來表示層級數,而非原先的虛線,而¬點選層級時可以展開整個架構到最底層,方便使用者瀏覽。
3. Scope Note(範圍註)可改為Definition(註釋),以符合一般大眾使用習慣。
4. 不需過度遷就AAT本身的系統,可建立凌駕於AAT與AAT-Taiwan之上的核心系統(core system),增加資料庫設計上的彈性與發展空間。
5. AAT層級裡的詞彙為依字母排序,有時並不恰當,因此中文的排列方式需視情況調整 (如中國書體是依發展年代排序)。
五、 經營策略與未來展望
1. 與Chinese WordNet進行合作,促進經驗交流與資源分享。
2. 採用URI技術,與其他線上百科全書、圖書館書目檢索系統或國內外學術機構進行整合,增加AAT-Taiwan的外部連結。
3. AAT-Taiwan可有以下四種功用:
(1) Make Chinese art accessible to Chinese users
(2) Make Western (or African or other cultures) accessible to Chinese users.(需要跨文化的解釋概念與關聯性)
(3) Make Chinese art accessible to users from Western and other cultures.(需要跨文化的解釋概念與關聯性)
(4) Make Western art accessible to Western users.

在研討會期間,Dagobert Soergel博士亦發表了一場學術演講–Illuminating Chaos, Using Semantics to Harness the Web,介紹語意網路與知識組織系統(KOS)的基本概念以及相關議題,吸引許多博物館、圖書館、檔案館及資訊科學之研究員與專業人士,以及對數位圖書館/博物館相關領域有興趣之民眾的參與。演講中闡述了分類(classification)對於資訊處理的助益,良好的分類法可協助人們有系統的搜尋,電腦系統亦需要控制詞彙索引(controlled vocabulary indexing)或語意架構以進行更有效率的資訊檢索,而社會性標籤(social tagging)的建立與組織化更可增加搜尋上的便利。同時Dagobert Soergel博士也介紹了概念樞紐(conceptual hub)的方法,可應用於許多部分重疊的知識本體與KOS對照上的問題,為網路上以層面為主的搜尋提供基礎。

經過這次研討會,雙方對於AAT-Taiwan的建置方法與未來走向有了許多討論與交流,除了繼續經營AAT本身在西方人文藝術與建築領域上的豐碩成果,並進行多語互通的研發以開啟更多合作機會之外,也需建立AAT-Taiwan在華文世界人文藝術與建築上的專業地位,成為可獨立蓬勃發展的知識寶庫,透過語言翻譯所帶來的文化傳遞,以及與本國家型計畫所累積之豐富資源的整合,讓世界各地不同文化的使用者可以藉由單一的平台,感受中華文化的魅力。


SlideShare


閱讀全文... 0

詞彙知識庫的建構與多語化工作坊

圖1:會議主席中央研究院資訊科學研究所陳克健研究員致詞

會議時間:99年4月20日星期二下午2點至4點30分
會議地點:中央研究院人文社會科學館北棟1樓大會議室
主辦單位:TELDAP計畫辦公室 | 中央研究院資訊科技創新研究中心

成果國際化是數位典藏與數位學習國家型科技計畫的重要任務之一,為使外語使用者可以透過中英文詞彙對照的方式,以英文為媒介,找到相對應的中文詞彙,而檢索到符合需求的資料,本國家型計畫與美國蓋提研究中心(The Getty Research Center)合作,進行「藝術與建築索引典」 (Art and Architecture Thesaurus, AAT)的中文化工作(簡稱AAT-Taiwan),進而建構數位典藏多語詞彙庫。另一方面,中央研究院語言學研究所的詞彙網路組為中文語言資訊處理研究的需要,參考美國普林斯頓大學認知科學實驗室的詞彙網絡(Princeton WordNet),建置了「中文詞彙知識庫」中文詞彙網路(Chinese Wordnet)。

為對藝術與建築索引典中文化和中文詞彙網路有深一層的認識,並促進本計畫和語言所詞彙網路組的經驗交流與分享,本國家型計畫辦公室邀請中文詞彙網路計畫主持人謝舒凱助理教授,及AAT-Taiwan計畫主持人陳淑君研究助技師發表演講,針對中文詞彙網路的理論與建置工作,以及藝術與建築索引典的多語互通方式與研發成果,分享各自執行多年的經驗。相信透過此工作坊的討論與交流,不但可深入瞭解藝術與建築索引典中文化和中文詞彙網路建置的內容與作法,並可開啟合作的契機。

中文詞彙網絡CWN (Chinese WordNet)為中研院語言所、香港理工大學人文學院、台灣師範大學英語系、台大語言所和資工所共同發展,主題在於語言資源的建構、評估、與知識模型,即所謂專業領域知識模型的建立。謝教授強調他們先就中文詞義內容與詞義關係的發掘與分析,結合實際語料來進行驗證與舉例。並在語料庫尚平行進行詞義標記,以完整知識系統的建立,兼顧知識本體的完備規範與人類語言系統內部的完整知識。

中文詞彙網路計畫所採取的策略,是從語言學的角度來建立或分析詞彙結構。這是根據普林斯頓大學發展的WordNet,由心理學家、認知科學家還語言學者共同合作,所發展的詞彙網路計畫。其基本設計就是先把詞彙分出來,然後對每一個詞的詞意做分析,相同詞意的詞彙會放在一起當成一個集合,很多同義詞集合,就像是一個網路的節點,節點之間的聯繫透過詞彙語意關係來建構,其中關係類型就包括很多種。

而Sinica Bow即是運用現有資源來做快速原型,雖會有跨語言、文化的問題,但可在短期內形成樣本,便於將來進一步發展。它已和Sumo ontology比對完成,運用這項資源可與知識本體連結,進而形成有本體知識與詞彙知識的知識庫。(目前利用google翻譯的功能,翻譯品質雖不高,但可在短時間內迅速反應,理想上是由人工進行單筆的分析。)目前是根據Sinica的斷詞系統來進行,從中頻的詞彙開始,等發展出一定模式後再擴展。會中雙方更就建構知識庫與索引典所遭遇的問題相互切磋,AAT-Taiwan也可參考Chinese WordNet分析詞義關係的模式,在之後進行AAT中文化作業時,針對詞彙語義關係方面進行小部分的測試,以建立一套可用的模式,再來大規模的套用於AAT-Taiwan標準作業上。


閱讀全文... 0

國際文獻委員會CIDOC 2009年會議


會議時間:98年9月27日至10月1日
會議地點:智利聖地牙哥 Centro Patrimonial Recoleta Dominica
主辦單位:ICOM CIDOC

本屆國際文獻委員會(CIDOC)會議在智利聖地牙哥舉行,約有140名來自世界各國的文化資產社群的專業成員參與此次會議,與會者來自南美洲國家外(如智利、祕魯、哥倫比亞等)、北美地區(美國、加拿大)、歐洲(英國、德國、荷蘭等)、亞洲(臺灣、蒙古、喬治亞共和國等)、以及非洲等國。今年在美國蓋提研究中心(the Getty Institute)的贊助下,有許多發展中國家的文化資產工作者參加,拓展此次會議的內容多元化,為會議帶來更寬廣的視野。

數位典藏與數位學習國家型計畫專案經理陳淑君女士,受邀在會中發表「Chinese-language Art & Architecture Thesaurus:Methods and Issues」,分享藝術與建築索引典中文化所面臨的研究與實作議題,獲得廣大迴響。並與不同國家,但同樣進行多語化藝術與建築索引典的研究者如美國(英語)、荷蘭(荷蘭語)、智利(西班牙語)、以及德國(德語)討論進行多語化索引典的方法與進度。

此次與世界各地參與藝術與建築索引典多語化的成員們面對面的接觸,彼此分享在進行索引典多語化時所運用的方法與所面臨的困境,亦發覺在多語化脈絡下,存在著不同的等同對照關係,如 : 兩個英文概念等同於一個荷文概念、或依個荷文概念相當於二個英文概念等「多對一」或「一對多」的關係。在TELDAP進行AAT-Taiwan中文化的過程中,也面臨相同的問題,並歸納出五種等同對照關係,分別為:完全等同、不完全等同、部分等同、一對多、不等同。此部分問題已於「蓋提研究中心-藝術與建築索引典(AAT)中文化研發雙邊工作會議(9月底)」與蓋提研究中心進行討論,但此次有機會與藝術與建築索引典多語化工作的各國成員當面切磋,更是獲益良多。

閱讀全文... 0

藝術與建築索引典(AAT)中文化研發雙邊工作會議


會議時間:98年9月21日至9月24日
會議地點:美國洛杉磯蓋提研究中心
主辦單位:蓋提研究中心

本次雙邊會議於9月21日展開共為期四天,由本國家型計畫總辦公室偕同第二分項子計畫一後設資料工作組,共同排擬規劃會議討論內容,希望藉由此次會議平台,與蓋提研究中心討論藝術與建築索引典(AAT)中文化系統開發狀況、詞彙概念翻譯流程相關問題、TELDAP與ARTstor數位藝術典藏合作案、以及蓋提研究中心出版品中文翻譯內容與版權事宜。為達到此一目的,本計畫和後設資料工作組特別匯整出六份重點報告,其中三份報告就藝術與建築索引典(AAT)中文化之議題,分別於兩天議程進行深度討論,主題涵蓋「A Close Look at Bilingual Translation-Methods and Issues」、「Bilingual Equivalence Mapping-Methods and Issues」和「Contribution and Creation of New Concepts in the Bilingual Thesaurus Methods and Practices」,由計畫辦公室負責報告(請參照議程表中黃色區塊);另外三個議題則由後設資料工作組負責提出,與蓋提研究中心系統開發部門、詞彙計畫部門相互切磋,討論主題包括:藝術與建築索引典中文版(AAT-Taiwan)功能開發、Translation of GRI Publications、Cooperation of TELDAP and ARTstor。

此次會議,在蓋提研究中心詞彙計畫主任Murtha Baca女士積極安排下,邀請到The Andrew W.Mellon基金會所籌辦的非營利組織ARTstor於同一時間參訪,TELDAP和ARTstor得以藉此機會就雙方未來的合作機會,進行深入的討論和瞭解。ARTstor所製作的數位圖書館(ARTstor Digital Library), 蒐集了跨時代及跨文化的影像典藏,其內容的深度、廣度及連慣性對於全球教育及學術活動提供了相當大的助益。目前ARTstor的數位圖書館收錄超過60種主題套裝,約1.000,000來自於世界各地的博物館、美術館、圖書館特藏、學者收藏及照片典藏,類型包含了建築物、畫、雕刻品、照片、裝置藝術及視覺藝術設計等之影像檔案。計畫辦公室與後設資料工作組並受邀出席ARTstor於蓋提研究中心舉辦的公開演說,聽取關於ARTsotr藏品、應用工具和未來計畫精闢扼要的解說。

本次會議計畫辦公室由陳淑君專案經理代表率隊參與,計畫辦公室1名專任助理則協助報告部分議題內容,以及參與聆聽會議的各個場次,觀察會議現況。本次會議中,各計畫和小組的主講者均出席並提供其專業意見與經驗,與蓋提研究中心的學者相互切磋,作整體國際合作案之推廣、交流。

此行是計畫辦公室第二次為了藝術與建築索引典AAT中文化合作案赴蓋提研究中心,參與雙邊工作會議,旨在針對今年二月至今半年的進展,就藝術與建築索引典中文化過程所遭遇到的各個面向的問題,向蓋提研究中心提出更具體的說明,包括如何整合東西方詞彙概念之差異、索引典系統多語化尚須克服的系統問題,以及雙方如何有效地互通資訊,建立更明確的溝通管道,達到利己(本國家型計畫)與利它(Getty研究中心)的實質效益,落實數位典藏系統知識化工程(領域知識網)。藝術與建築索引典AAT中文化包括兩個層面的工作,一是將AAT詞彙進行中文翻譯,二是將TELDAP中文詞彙英文化,提供給蓋提研究中心,成為藝術與建築索引典AAT詞彙內容的一部分。這兩者的工作項目、性質與流程不盡相同,此次參訪時多方討論這些項目,AAT Taiwan系統得以順利進入下一階段的功能分析與開發,有利本計畫達到數位典藏多語化檢索的階段性目標(目前藝術與建築索引典AAT已有英文、法文及西班牙文)。經過初步討論後,蓋提研舊中心預定在明年春季於蓋提研究中心召開多國討論會議,邀請各國參與AAT多語化建製工作的相關人員與會。

參訪期間也與ARTstor藏品開發負責人Christine Kuan會面,共同討論ARTstor與TELDAP合作的可能。該組織所經營的數位圖書館,廣泛搜集跨文化的影像典藏,與世界各地的博物館、美術館和圖書館都有合作,希望透過與TELDAP的合作,來加深其內容在東方文化上的深度和廣度。ARTstor在會議中初步瞭解TELDAP藏品內容後,對於聯合目錄中的李時珍「本草綱目」和蔣介石圖檔資料表示高度興趣。此次交流,對於數位典藏在協助社群解決其在教育及學術目的的影響,有了更深刻的認知,也可做為AAT中文版後期經營與推廣的一良好範例,未來可循ARTstor運作模式,與國內外藏品機構合作建立起一套互利模式,包括歐美博物館的亞洲藏品部門,也都是可能的合作對象。

在議題的討論上,雙方在討論過程中迅速就許多關鍵問題找到解決之道,例如AAT與AAT-Taiwan的資料庫是否能同步更新、翻譯原文內容之確認,以及如何推廣中譯的蓋提研究中心專書…等等,凸顯建立即時溝通管道的重要。以完成中譯的蓋提專書為例,雙方同意先將完成校定的專書以單篇電子檔形式發行,電子檔上標明TELDAP與GETTY的連結, 易於中英版之間的相互串聯。另外,在網路即時溝通平台盛行的時代,建立即時溝通管道可確保藝術與建築索引典中文化的過程更加順利。因此蓋提研究中心在會後特別架設「AAT詞彙多語計畫」網路wiki(http://griwiki.getty.edu/confluence),邀請所有合作的國家在此平台進行資訊交流,並將TELDAP執行AAT中文化的階段成果簡報,放置於該平台上供其他國家參考。這樣的管道跨越了國界,也輕鬆解決資金調度問題,以最節省資源和開銷的方式,為參與AAT多語化的各國團隊搭起了互通的橋樑。

閱讀全文... 0

藝術圖像內容討論會議


會議時間:98年7月30日(四),下午 2:00 - 5:00
會議地點:計算中心會議室
主辦單位:TELDAP計畫辦公室

總計畫辦公室AAT-Taiwan工作小組邀請到中研院史語所黃銘崇先生、以及故宮器物處許雅惠小姐,就藝術與建築索引典中文化過程,所發現的範圍註精準度和圖像內容相關問題進行研析。針對藝術與建築索引典中物件層面(Objects Facet)項下與中華文化相關詞彙「禮器」進行深入剖析,探討範圍註與參考圖片之間的關聯與差異。會中並將列舉禮器中的「鼎」與「盉」,供學者專家做為實證參考範例。
閱讀全文... 0
 
Copyright © 2009 AAT-Taiwan & Digital Archives Program. All rights reserved. Best viewed in IE7+ or Mozilla 2.0+ with 1024*768 resolution . Designed by DayInFlying Group.