2010/04/20 詞彙知識庫的建構與多語化工作坊


會議時間:99年4月20日星期二下午2點至4點30分
會議地點:中央研究院人文社會科學館北棟1樓大會議室
主辦單位:TELDAP計畫辦公室 | 中央研究院資訊科技創新研究中心
成果國際化是數位典藏與數位學習國家型科技計畫的重要任務之一,為使外語使用者可以透過中英文詞彙對照的方式,以英文為媒介,找到相對應的中文詞彙,而檢索到符合需求的資料,本國家型計畫與美國蓋提研究中心(The Getty Research Center)合作,進行「藝術與建築索引典」 (Art and Architecture Thesaurus, AAT)的中文化工作(簡稱AAT-Taiwan),進而建構數位典藏多語詞彙庫。另一方面,中央研究院語言學研究所的詞彙網路組為中文語言資訊處理研究的需要,參考美國普林斯頓大學認知科學實驗室的詞彙網絡(Princeton WordNet),建置了「中文詞彙知識庫」中文詞彙網路(Chinese Wordnet)。

為對藝術與建築索引典中文化和中文詞彙網路有深一層的認識,並促進本計畫和語言所詞彙網路組的經驗交流與分享,本國家型計畫辦公室邀請中文詞彙網路計畫主持人謝舒凱助理教授,及AAT-Taiwan計畫主持人陳淑君研究助技師發表演講,針對中文詞彙網路的理論與建置工作,以及藝術與建築索引典的多語互通方式與研發成果,分享各自執行多年的經驗。相信透過此工作坊的討論與交流,不但可深入瞭解藝術與建築索引典中文化和中文詞彙網路建置的內容與作法,並可開啟合作的契機。
中文詞彙網絡CWN (Chinese WordNet)為中研院語言所、香港理工大學人文學院、台灣師範大學英語系、台大語言所和資工所共同發展,主題在於語言資源的建構、評估、與知識模型,即所謂專業領域知識模型的建立。謝教授強調他們先就中文詞義內容與詞義關係的發掘與分析,結合實際語料來進行驗證與舉例。並在語料庫尚平行進行詞義標記,以完整知識系統的建立,兼顧知識本體的完備規範與人類語言系統內部的完整知識。
中文詞彙網路計畫所採取的策略,是從語言學的角度來建立或分析詞彙結構。這是根據普林斯頓大學發展的WordNet,由心理學家、認知科學家還語言學者共同合作,所發展的詞彙網路計畫。其基本設計就是先把詞彙分出來,然後對每一個詞的詞意做分析,相同詞意的詞彙會放在一起當成一個集合,很多同義詞集合,就像是一個網路的節點,節點之間的聯繫透過詞彙語意關係來建構,其中關係類型就包括很多種。
而Sinica Bow即是運用現有資源來做快速原型,雖會有跨語言、文化的問題,但可在短期內形成樣本,便於將來進一步發展。它已和Sumo ontology比對完成,運用這項資源可與知識本體連結,進而形成有本體知識與詞彙知識的知識庫。(目前利用google翻譯的功能,翻譯品質雖不高,但可在短時間內迅速反應,理想上是由人工進行單筆的分析。)目前是根據Sinica的斷詞系統來進行,從中頻的詞彙開始,等發展出一定模式後再擴展。會中雙方更就建構知識庫與索引典所遭遇的問題相互切磋,AAT-Taiwan也可參考Chinese WordNet分析詞義關係的模式,在之後進行AAT中文化作業時,針對詞彙語義關係方面進行小部分的測試,以建立一套可用的模式,再來大規模的套用於AAT-Taiwan標準作業上。

0 意見:

Post a Comment

 
Copyright © 2009 AAT-Taiwan & Digital Archives Program. All rights reserved. Best viewed in IE7+ or Mozilla 2.0+ with 1024*768 resolution . Designed by DayInFlying Group.