2010/08/23 多語詞彙學工作組會議

(上圖 :多語詞彙學工作組各國成員合照)
會議時間:99年8月23日(一)至8月26日(四)
會議地點:美國洛杉磯蓋提研究中心
主辦單位:蓋提研究中心
本國家型計畫成員於2010年8月23日至26日赴美國洛杉磯參與Getty舉辦的「多語詞彙學工作組會議」(Multilingual Terminology Working Group Meeting),此次會議為期四天,聚集了同在進行AAT多語化的成員國家之研究機構與學者,包括美國(英文)、台灣(中文)、荷蘭(荷蘭文)、智利(西班牙文)以及德國(德文)。為了促進AAT多語化的國際合作與交流,Getty於2009年十月成立「多語化詞彙工作組」,為進行多語化工程的各國成員提供訊息交流的平台,成員包括:美國(Getty Research Institute)、台灣(Academia Sinica)、智利(Centro de Documentación de Bienes Patrimoniales)、荷蘭(Netherlands Institute for Art History)以及德國(State Museums of Berlin/Institute for Museum Research)。本次會議即為該工作組成立後的第一次多邊會議,各國成員就彼此多語化索引典的方法與進度展開討論。


Getty詞彙現況與更新

由Getty Vocabulary Program的執行編輯Patricia Harpring發表,針對Getty所研發的四套詞彙:Art & Architecture Thesaurus (AAT)、Union List of Artist Names (ULAN)、Getty Thesaurus of Geographic Names (TGN)以及即將完成的Cultural Objects Name Authority (CONA),進行內容、範圍與未來計畫的概略報告。AAT包含約34,000個概念,131,000個詞彙,目前已有的多語化成果為西班牙文(已完成)、中文(進行中)、德文(進行中)、荷蘭文(進行中)、義大利文(3000個詞彙)與法文(3000個詞彙),而許多本來沒有修飾語(qualifier)的詞彙,比如gouache,在新增修飾語的結構後成為gouache (paint),會因為paint的關係而更容易被使用者搜尋到,藉此增加了多語資料檢索的便利性。若有新資料貢獻給AAT時,系統的管理頁面會顯示該筆記錄為Dom (表Dominant)或Rec (表Recessive),以區別新舊記錄,編輯便可隨時追蹤更新的情況。AAT系統端在處理非英語詞彙時,比如Provençal 會顯示為Proven$05cal,“$05” 即代表讀音符號,這些符號之間有特定關聯,AAT網站上便有讀音符號的代碼可供查詢。另外,在翻譯AAT詞彙時,每個翻譯都需有至少一筆權威資料可供查考,且AAT只接受完全同義的對等詞彙翻譯,不可輕易將具有類似意義的詞彙視為相同概念。遇到本地文化沒有的概念詞彙而無法翻譯時,應使用loan term的方式直接借用,不得自創一個沒有來源根據的對等詞彙,但此方式似乎較適合使用拉丁字母的語言(如英語與大部分歐洲語言),是否適用於中文的AAT,尚有待討論。而各語言版本的AAT詞彙並不一定要有相同的範圍註(scope note),各國在進行多語化的時候,可依本地文化的情況需要,增補或修改範圍註。



(上圖 : 多語詞彙學工作組開會情況)

ULAN旨在收集藝術家的名字,包含別名、假名/筆名與各語言異體字,以及相關的傳記式資料與書目資訊,共有約127,000筆記錄,375,000個姓名。其中特別提到的是「無名氏」( Anonymous Artists)與「不明」(unknown)的不同,前者可由一些特定的特色加以識別,但後者確實是不知名的狀態。TGN著重於對藝術與建築之研究有相當重要性的地點,共有約895,000筆記錄,1,115,000個名稱、地點種類、座標與描述註(descriptive notes)。TGN並不包括虛構的地方(屬於CONA的範疇),但可包含不確定確切位置的地方(比如「消失的亞特蘭大」)。若已消失的聚落有兩個可能的地點A與B,則A跟B須為兩筆分開的記錄,再彼此連結為聯想關係。

CONA 是目前Getty正在研發中的一套新詞彙,可望於2011年完成並公開。此套詞彙將收集文化作品的權威記錄(authority records),包括建築與可移動的藝術作品(繪畫、雕塑、照片、陶瓷器、紡織品、家具等),其他視覺媒體如壁畫、表演藝術、考古文物等,以及物質文化領域的各種功能性物件。CONA的物件類型(object type)是由AAT控制,如同目前AAT-Taiwan於聯合目錄與ARTstor上的應用。兩個相似的作品之間可有相互的聯想關係,比如兩幅畫作可藉由Jean Auguste Dominique Ingres這個畫家的名字彼此連結;而作品的地點可為實際的地理位置,或其所在的典藏館;描述的主題可分為一般(比如architecture)與特定(比如Holy wisdom)。貢獻詞彙到CONA的方式與AAT類似,每次可為一批或一個詞彙。

技術問題探討

自發展AAT以來,Getty持續進行AAT內容的更新,而AAT-Taiwan現有的版本為兩年前安裝的版本,和Getty最新的版本有明顯落差。如何與Getty的更新保持同步,對AAT-Taiwan團隊來說一直是個很大的課題,其他國家成員的情況亦同。Getty方面目前提供兩種方式,一是經由API的執行而有雙週一次的同步更新,或藉由每年的系統資料匯出(XML、relational tables、MARC)而更新,但因AAT-Taiwan方面沒有使用API,故只能選擇第二種方式。我方技術團隊亦決定發展程式來比對Getty提供的XML更新文件和自有資料庫內容的差異,以便更有效率地進行資料庫的更新,而此程式在開發後亦保留供其他AAT團隊使用的可能。



(上圖 : 發展科林晰科長與GRI技術人員開會情況)

各國在貢獻新詞彙給Getty時,詞彙需要專屬的ID,故Getty將提供相關的web service,智利的西班牙文AAT便是使用Getty提供的ID進而合併資料(merging data)。Getty並承諾提出貢獻者XML彙送格式以及FTP上載區,以便各國提供Getty其翻譯或貢獻詞彙的成果。尚未建立好記錄的新概念詞彙,會放在之下等待後續處理,在完成前不會出現在索引典上。目前AAT-Taiwan貢獻詞彙之中文字體採用Unicode方式,是因Getty方面缺乏中文專業人才,若不使用Unicode,所貢獻的資料有可能變成亂碼,使他們無法辨別資料是否為junk contribution,而造成管理上的困難。由蓋提文物維護中心(The Getty Conservation Institute)發展中的Conservation Thesaurus (CT)將會比CONA還快完成,並將與AAT整合,包括新貢獻的部份,依需要AAT也會增加新的層面(facet)。

同時,AAT也計畫與Wikipedia進行連結,藉由增補footnote至某筆詞彙的百科內容中,參考文獻的欄位裡便可顯示AAT的連結資訊,以擴大AAT的使用者群。此種做法AAT-Taiwan團隊已實行了一段時間,目前成功連結的詞彙數量為77筆,對增加AAT-Taiwan網站的流量有不少助益。

各國AAT多語化實行現況

TAA(智利)為西班牙文版AAT,由CDBP(Centro de Documentación de Bienes Patrimoniales/Center for Documentation of Cultural Heritage)推動,動機為替DIBAM (Dirección de Bibliotecas, Archivos y Museos/Directorate of Libraries, Archives and. Museums)整合典藏,除了發展SUR記錄系統,亦評估國際上可用的工具,決定採用AAT來標準化他們的詞彙。自1996年一開始採用機器翻譯而效果不彰,後來利用專門辭典進行翻譯,至今已完成了33,792筆詞彙翻譯,並於2003年在線,是第一部線上西班牙文索引典,廣受博物館、研究機構、數位圖書館與西方藝術與建築的專家學者使用。

智利團隊指出AAT缺乏許多有關前哥倫比亞時代、美國殖民時代與宗教物件的詞彙,內容不夠完備以致於使用度受限。AAT原本是以複數形為偏好詞彙,但因為大多數西班牙文詞彙的複數是在語尾加上s,而有些語尾為s的詞彙單複數同形,因此TAA是選擇以單數形為偏好詞彙。另外,TAA的一筆記錄裡也會列出不同國家地區之西班牙文用法(如智利、西班牙、古巴、阿根廷等)或歷史詞彙為非偏好詞彙,未來AAT-Taiwan或許可參考此作法,將中國大陸、香港或其他華文地區的用法納入索引典。

TAA網站支援多語搜尋,並可藉由字首、字尾或複合詞進行詞彙檢索,其每年從AAT接收的新詞彙約為1,500-2,500筆。TAA團隊提出,成功的翻譯與等同關係比對在於選用適當的參考文獻,固定某些英文的譯法(如範圍註中常出現的Use for…),與學者專家合作(以專業知識度為優先),以及Vocabulary Program與技術團隊的支援。作為未來的目標,TAA團隊會繼續維持線上標準化工具(online standardization instruments)的工作,增補新詞,修訂舊詞,廣納使用者的意見做出適當的變更,並加入詞彙的相關圖檔。另外,也將與SUR系統連結(object-term-TAA),為DIBAM使用者設計訓練課程,藉由講座與出版品推廣宣傳,擴展TAA的使用度。

(上圖 : 蓋提研究中心Murtha Baca博士為會議做開場說明)
Dutch AAT(荷蘭)之發展是由RKD(Rijksbureau voor Kunsthistorische Documentatie/Netherlands Institute for Art History)主導規劃,分為三個階段:1994~1998,1999~2004與2007至今,學者專家的加入是在第二階段。目前的更新情況為他們已匯入新資料至系統,包括2300個新概念與9000個資料變更,亦使用新網站與瀏覽器讓介面更user-friendly,並與其他計畫進行整合,包括MOVe、collective Gelderland、MusIP等,AAT-Taiwan日後在策略規劃上可考慮與這些計畫展開合作。

荷蘭AAT團隊利用PR與行銷擴展使用者群,經由與顧問開會、發Newsletter與手冊、在網站上設置user form以及FAQ的方式與使用者交流,未來我們網站上的contribution form可以仿效他們的user form,列出所有貢獻新詞彙所需的欄位,讓使用者亦能參與詞彙內容的增補,活化AAT-Taiwan的發展。荷蘭AAT的未來目標是成為使用者可信任的資訊來源,與Getty AAT密切互動以保持一致性,並盡快開始另一次內容更新,貢獻新荷蘭詞彙,鼓勵使用者的參與,改善系統的好用性,並與其他線上典藏連結。

至於荷蘭AAT在翻譯上的問題主要有三:1)無法確定網路參考資源的可靠性。Getty回應:將會在編輯指引裡面列出準則。2)AAT只接受完全同義的詞彙翻譯,但有時無法找出完全對等的詞彙,或來源語(source language)之概念與目標語(target language)為一對多的關係,AAT-Taiwan團隊亦有同樣的問題。Getty回應:可用loan word的方式,在此情況下參考文獻不限定為英文。3)貢獻新詞彙至什麼樣的程度才算足夠?是否應建構兩種版本AAT(國際版vs.在地版),以便更符合本地使用者的需求? Getty回應:應以典藏的需求為導向,依荷蘭的博物館需要什麼樣的詞彙來敘述他們的藏品而定。

AAT in German是由State Museums of Berlin/Institute for Museum Research推動,他們的報告分為兩大項,首先是技術層面的分享,他們採用Xtree tool讓系統頁面分為兩部分(介面原是德文,現有英文版),左欄有三個tab(tree, search, list)可供切換,其中tree是顯示AAT的層級架構,在tree點選詞彙後,詞彙的相關資訊會在右欄顯示,右欄的tab包括Basic data, relations, mappings, Notes, Forum,可進行參考文獻新增(從建好的選單中選擇)、德文詞彙新增(使其為偏好詞彙)等。亦可在左欄的search鍵入搜尋詞彙,於右欄顯示搜尋結果,而詞彙的範圍註是以英文跟德文並列的方式呈現。德文AAT亦提供圖檔,可在左欄的list中選擇圖片瀏覽,或利用詞彙搜尋相關圖片。

另外,他們亦檢視Getty提供的參考文獻清單,以Visual and verbal communication層級為例,共有475筆資料,依使用頻率排序,這些資源可大致分類為一般字典、權威資料庫、領域專書,其中有些英語文獻已翻成德文,有些雖無德文版,但有其他類似的德文文獻可供參考。報告的另一部份為初步翻譯的成果,由Antje Fehrmann博士(藝術史、中世紀藝術專家)試翻了Visual and verbal communication層級,目前共有311個德文詞彙,110個翻譯的範圍註,以及由詞彙上下位關係而衍生的24個新概念。而翻譯後的feedback為:一般字典的翻譯通常不夠精確,應多查領域專書,且使用線上資源較為省時。提出的問題:1)是否應選擇完全對等的詞彙為偏好詞彙,就算該詞彙較不普遍? Getty回應:YES。2)若有需要,可否修改AAT層級以求更精確的詞彙架構? Getty回應:YES。至於相關建議:1)使用task manager讓工作流程最佳化(optimization)。2)從既有德文詞彙中建立貢獻詞彙(candidate)資料庫,如博物館與可靠的線上資料庫所用的詞彙。

AAT-Taiwan現階段進度與成果

AAT-Taiwan(台灣)計畫啟動的動機為要將TELDAP的典藏成果與國際分享,首要挑戰便是克服語言的隔閡與控制各典藏機構所使用的描述詞彙。所以計畫目標是與Getty建立合作關係,整合與統一典藏機構的詞彙,成為一個權威的知識庫,並與聯合目錄結合,融入藏品的metadata與數位圖檔,讓東西方的使用者得以跨越語言藩籬接觸不同的文化藝術。自2008年正式啟動,並於2009年發展系統雛型與研究方法架構,AAT-Taiwan目前已翻譯25,580筆詞彙,其中校訂完成10,670筆,學者專家審訂452筆,而與聯合目錄連結的圖片則有1,185張。我們亦在今年三月貢獻17筆「中國書體」概念詞彙給Getty,包含中文詞彙的Unicode、拼音/漢語拼音與韋氏拼音,以及英文範圍註(scope note),充實AAT在中華文化方面的內容。AAT-Taiwan團隊預計在今年年底完成中文版編輯指引,並完成全部詞彙的翻譯。

AAT-Taiwan計畫架構可分為兩大部份:在地化(localization)與貢獻新詞彙(contribution),前者包含AAT詞彙英翻中、校訂、學者專家審訂、系統著錄,以及結合聯合目錄的圖檔與同義字;後者包含等同關係比對、新詞彙範圍註撰寫、詞彙內容中翻英、學者專家審訂、系統著錄。其中在翻譯與校訂方面,目前共有13位譯者與6位校訂人員參與,多具有語言、翻譯、藝術與建築等的學術背景,我們訂立了一套人員管理與訓練方法,包括文件格式與翻譯規定、建置網上翻譯論壇(問題討論與意見交流)、工作表現要求(25%的譯稿不合格或遲交稿件3次以上即開除)等。而在詞彙審訂方面,目前共邀請了7位學者專家,領域包括色彩學、中國書體、青銅器、陶瓷器、中國繪畫、藝術概念、翻譯學。學者專家審訂完後會給予專業的feedback,比如色彩學的專家-中國文化大學的徐明景教授,即指出AAT色彩學的詞彙偏重於建築領域,此套詞彙可應用在更廣大的讀者群,整體架構上需要更宏觀的考量,對色彩的學習才能有較完整而全面的效果。

(上圖 : TELDAP共同主持人李德財院士現場說明AAT-Taiwan進度概況)
在系統發展上,AAT-Taiwan網站除提供多語搜尋之外,亦有中英文頁面切換功能,且使用者可藉由外部連結或圖片連至Getty AAT、聯合目錄與MuseFusion。經過學者專家審訂的詞彙,在詞彙頁上會顯示該位專家的名字,並提供連結至專家的個人網頁,以彰顯AAT-Taiwan內容的精準度與權威性。且除了AAT本來的範圍註,亦提供學者專家補充的TELDAP範圍註,讓中文使用者能獲得更詳盡完整的資訊。另外,AAT-Taiwan亦努力朝加值應用的方向發展,除了上述的與聯合目錄和Wikipedia連結外,AAT-Taiwan的詞彙也在ARTstor Pilot Study中作為控制詞彙用來翻譯TELDAP的藏品,並與商用關鍵字進行比對,藉以發展商用關鍵字的多語特色,讓世界各地的廠商更易搜尋到TELDAP的藏品。未來亦考慮與Chinese WordNet合作,增加更多一般性的詞彙內容,變得更user-friendly。

AAT-Taiwan等同關係比對上的問題主要為:1)有時中文文獻不足,難以確認某概念在我國文化的重要性,導致比對結果不夠精確。建議:邀請專家學者的參與,提高精確度。2)一對多的比對結果,如temple通常翻為「寺廟」,但依宗教或建築目的亦可細分為廟、祠、寺、庵、觀等。建議:新增的層級以囊括並區分這些詞彙,顯示文化獨特性。3)詞彙「文房四寶」在AAT裡只能比對到筆、墨、紙、硯四個分開的概念。建議:將「文房四寶」視為單一概念並新增到desk sets之下,提供中華文化獨有的詞彙。

而翻譯上的問題則如下:1)有些非英語詞彙因資料較少且不確定發音,意譯或音譯皆有困難。建議:交給該語言的專家決定,或保留原文不翻譯。2)一對多的翻譯,如component依前面所接詞彙不同,可翻成組件、構造、成分、構成要素、結構。建議:統一使用「組件」,視情況可加上修飾語,如→<蛋的組件(構造)>。3)AAT有一部分詞彙缺乏範圍註,導致翻譯上的困難,且難以追蹤範圍註的增補狀況。建議:請Getty定期提供詞彙的更新情形。4)有時AAT一筆記錄裡會有兩種以上的意義,如stitching可翻為縫訂(書籍裝訂)與縫合(針線工)。建議:修改AAT架構,新增”stitching縫”為上位詞,下列”stitching縫訂”與”stitching縫合”兩詞彙。


SlideShare

其他多語化計畫

在8/25的會議當中,蓋提研究中心邀請到來自紐西蘭、伊朗和義大利的學者專家,與大家一同分享他們各自在索引典、控制詞彙、以及後設資料建構上的經驗談。紐西蘭Te Papa Tongarewa博物館的藏品資料經理Adrian Kington在報告中提到他們如何善用蓋提研究中心地理名稱索引典(TGN)和藝術與建築索引典(AAT),整合至現有的藏品系統中,有效提高藏品搜尋效率,方便使用者瀏覽並發現更多相關的典藏內容。

由於紐西蘭與美國為相同語系國家,除了因文化差異所產生的部分詞彙概念與架構不同之外,基本上已可成功呈現與TGN和AAT知識架構結合的成果。他們運用本身的資料源,也向一些機構取得資料源授權。從各資料源的編目擷取十餘個資料項,主要是關於人、事、時、地、物的訊息,還有大量圖像,匯聚於檢索平台。搜尋針對這些資料項進行,使用者下達檢索詞之後,可運用索引典的同義詞、狹義詞、廣義詞及人、時、地、物等限制條件,持續調整檢索精度。檢索速率佳,呈現的結果豐富,包含許多圖像。觀摹之後,是深思如何運用中文AAT的時候。對於TELDAP來說,進行 AAT-Taiwan研究計畫的最終目的,也是為了與數位典藏與數位學習國家型計畫多年來累積的龐大數位藏品結合,紐西蘭博物館的範例值得我方參考,AAT-Taiwan未來加值應用的推廣策略規劃上,也因此獲益良多。



SlideShare |

0 意見:

Post a Comment

 
Copyright © 2009 AAT-Taiwan & Digital Archives Program. All rights reserved. Best viewed in IE7+ or Mozilla 2.0+ with 1024*768 resolution . Designed by DayInFlying Group.