2019/09/28 【國際合作報導】「簡牘字典開發計畫」與日本奈文研等五大機構 共建文字資訊聯合檢索系統


 臺日攜手,以雙邊簡牘文字圖像互通為核心目標,開發文字資訊聯合檢索系統!未來更期望研擬出適用於所有古文書、手稿,乃至全部文字史料的國際標準規範。

由中央研究院歷史語言研究所助研究員劉欣寧與本中心共同執行的「『簡牘字典』開發計畫」,已與日本木簡發掘與典藏的代表性機構——奈良文化財研究所,以及東京大學史料編纂所、國立國語研究所、國文學研究資料館、京都大學人文科學研究所達致合作共識,採取「國際圖像互通架構」(International Image Interoperability Framework, IIIF)標準,共同建置跨機構的文字資訊聯合檢索系統。

自20世紀初至今,中國各地出土簡牘已達20萬餘件,進行先秦秦漢史研究,已無法忽視簡牘材料。日本也出土34萬件木簡,韓國亦有數百件之發現。儘管中、日、韓簡牘(木簡)的時代存在落差,書寫在竹木之上、以漢字書寫的特色一致,無疑是研究漢字及漢字書寫文化在東亞世界如何傳播、發展的極佳素材。然而,目前簡牘文字釋讀仍存在諸多問題,如文字比對工序耗時且易有遺
漏等,加上國際間尚無簡牘資料互通的標準,跨地域(跨國)的簡牘研究仍窒礙難行。因此,結合各國相關領域的智慧,建立簡牘資料的互通標準,可謂勢在必行。

「『簡牘字典』開發計畫」與日本奈文研等共同開發的文字資訊聯合檢索系統,預計於明年正式上線。該系統將使用IIIF,進行後設資料(Metadata)與圖像(Image)的資料交換。惟基於當前IIIF尚無文字圖像的後設資料標準,雙邊合作機構將共同制定相關規格。

內容方面,將以奈文研與東京大學史料編纂所合作營運的「木簡圖象資料庫・木簡字典」與「電子草書體字典資料庫」聯合檢索系統為基礎,並導入「『簡牘字典』開發計畫」所提供的漢代簡牘資料等。未來可供檢索的文字圖像數量,可望達至150萬件。

該系統預計以單個文字為檢索的基本單位。由於雙方皆希望能朝開放資源發展,檢索結果不僅提供文字資訊,亦將提供圖像瀏覽、比對功能。

本院史語所收藏漢代簡牘數量為國內之最,其中以瑞典考古學家貝格曼(Folke Bergman)等人於1930年代在內蒙古與甘肅境內之額濟納河流域發掘的「居延漢簡」為主,約11,000枚。該所於1990年代即以紅外線攝影儀等,重新釋讀所藏簡牘,進行影像、釋文資料數位化,並於2002年建置「漢代簡牘資料庫」,將簡牘的後設資料,經系統分析予以結構化方式呈現。

植基於「居延漢簡」數位化內容及「漢代簡牘資料庫」的既有基礎上,劉欣寧擬將傳統的數位典藏系統,轉型為數位人文系統開放性平台─—「簡牘字典」,為研究者提供更清晰、更完整、更多視角的影像資料,以及更便利的研究工具。因此,該計畫將發展以簡牘為主體的影像文字辨識(Optical Character Recognition,簡稱OCR)模型,建置自動字元定位與標註、自動釋讀及以圖搜圖的功能,並將資料庫導入IIIF規範、鏈結開放資料(Linked Open Data,簡稱LOD)技術,建構跨機構間數位資源得以互通共享的開放性平台。

「『簡牘字典』開發計畫—開放性資料庫的結構及技術探索」,為本院「數位典藏與數位人文學研究計畫」之一。本中心負責開發核心技術,包括IIIF功能需求研究發展、後設資料LOD處理,以及OCR技術研發等。

本中心現階段已提供IIIF技術,作為「簡牘字典」的圖像使用與交換標準,並進行圖像標記、釋文記錄等。另亦研發「筆跡比對功能」,協助IIIF功能進行圖片放大與多圖同時比對。此外,本中心所開發的中文古籍OCR技術,對印刷書籍的中文字實作辨識正確率目前已達九成以上,為簡牘的相似字影像搜尋奠定了良好基礎。未來「簡牘字典」預計提供「字」、「詞」、「後設資料」、「補充注釋」等檢索方式。

奈文研是日本蒐藏木簡最大宗的機構,自1999年起即積極投入「木簡庫」(Wooden Tablet Database)之經營。「木簡庫」整合了「木簡資料庫」與2005年推出的「木簡圖象資料庫・木簡字典」此二系統,收錄日本全國各地木簡近54,000枚,單字圖像約100,000件。2009年其與東大史料編纂所推出「木簡字典」與「電子草書體字典資料庫」共同檢索系統,2016年更共同開發「木簡・草體字解讀系統MOJIZO」(Image Matching Search for Mokkan or Cursive Characters),提供「以圖像進行檢索」的創新服務。2017年奈文研提出「藉由木簡等研究資源的公開資料化確立參加誘發型研究計畫以達成知識的開展」(木簡等の研究資源オーペンデータ化を通じた参加誘発型研究スキーム確立による知の展開)5年計畫,進一步與國內外機構展開合作。前述文字資訊聯合檢索系統的合作開發,即在此計畫下進行。

透過導入IIIF規範而達成開放資料,是文字資訊聯合檢索系統的發展重點方向。在達致合作共識前,臺日雙方於今年二度進行國際交流會議,即1月15日至16日於史語所舉辦「IIIF與LOD在簡牘資料數位人文研究的運用」會議、3月19日至20日於奈文研舉辦「2018年度第三回國際檢討會」,以探討使用者對簡牘數位資料的研究需求及使用目的,並了解各機構數位典藏現況與未來對數位資源共享的規劃。

會議主要參與者為奈文研史料研究室長馬場基(Baba Hajime)、企劃調整部研究員高田祐一(Takata Yuichi),以及櫻美林大學准教授耒代誠仁(Kitadai Akihito)、國立國語研究所准教授高田智和(Takada Tomokazu)、國文學研究資料館教授山本和明(Yamamoto Kazuaki)、東京大學史料編纂所准教授井上聰(Inoue Satoshi)及助教山田太造(Yamada Taizo)、京都大學人文科學研究所助教守岡知彥(Morioka Tomohiko)等,我方代表為劉欣寧、本中心執行秘書陳淑君及資訊總監王祥安等。

近年來投入IIIF相關研究的陳淑君,在會上以「國際圖像互通架構(IIIF)在簡牘資料庫之設計」為題,分享如何運用IIIF標準,解決以一枚簡牘為知識單元的資訊分類呈現粒度(granularity)問題,並初步提出以單字為單元的解構方式。此外,她亦評估、擴展現有IIIF Presentation API中的註記延伸功能,讓使用者進行文字釋讀時,能以更細緻化的屬性類型進行註記區分,例如文字釋讀、部首/部件、書寫特徵、書體等。此二功能極具應用價值,皆被納入雙方共同開發的文字資訊聯合檢索系統。

對於此次的國際合作,她認為深具意義,並期望以自身研究所長與本中心的技術研發專長,做出最大貢獻。「標準的建立是資料得以互通的基礎,為簡牘建立資料互通的標準,無疑是個突破性發展,讓研究者得以對簡牘形態獲得跨時代、跨地域的認識。」

促成此次合作的靈魂人物劉欣寧則表示,經由跨庫整合資料共享的機制,不僅深化國際交流,亦能提升史語所藏品的國際能見度。她期許以「簡牘字典」及此次合作為開端,未來能研擬出可應用於所有古文書、手稿,乃至所有文字史料的國際標準規範,從而強化人文領域數位資源的互通性。

臺日攜手打造的文字資訊聯合檢索系統建構完成後,將開放社會近用。屆時將如奈文研史料研究室長馬場基所強調,「我們可以更廣泛、更深入地了解貴重文化遺產的文字內容,這對研究者乃至於市民,都有很大的好處。」 


延伸閱讀:
閱讀全文... 0

2019/05/27 數位文化中心「鏈結開放資料實驗室」設立,促進臺灣LOD技術發展

以近用、共享精神,開放臺灣數位典藏資源,接軌全球數位人文研究典藏資產,開創知識及研究新視野。

網址:
鏈結開放資料實驗室 http://lodlab.ascdc.tw/
鏈結開放資料集平 http://data.ascdc.tw/



因應知識共享與全球資料開放的網路發展趨勢,本中心近年來積極將臺灣數位典藏資料,轉置為足以進行全球鏈結的鏈結開放資料Linked Open Data, LOD。為更系統性地推展此項工作,20183月正式成立「中央研究院數位文化中心鏈結開放資料實驗室」(LODLab, Academia Sinica Center for Digital Cultures),以研究為主軸,將觸手擴及更多資料主題類型,並採用國際間不同的資料語意模型,諸如歐洲數位文化遺產平台資料模型(EDM)、書目框架模型(BIBFRAME)等,使資料的知識本體脈絡更能完整表達,建立更多資料轉置典範。


鏈結開放資料,包含開放資料(Open Data)與鏈結資料(Linked Data個核心念,主要目的是以機器可以理解的標準與技術,進行資料的互通。近年來本中心已完成生物、影音、藝術、宗教、人類學及歷史等主題資料集的轉置。隨著「鏈結開放資料實驗室」成立,本中心並建置「鏈結開放資料集平台」及「鏈結開放資料實驗室」網站。「鏈結開放資料平台」用以展示中心目前已正式發布於全球的11LOD資料集、逾11萬筆資料所產出的490萬筆三元組(triples)語意結構資料,開放各界免費近用。使用者除可以JSONRDFTurtleN-Triples等機器可讀取格式下載此些五星級開放資料,亦可進行SPARQL Query語意查詢服務。





「鏈結開放資料集平台」首頁



「鏈結開放資料集平台」中的LOD資料集。



SPARQL語意查詢介面及範例推理說明

「鏈結開放資料實驗室」網站則以LOD規範推廣、教學的角度,呈現中心在LOD發展上各項成果,並彙整及提供LOD語意模型設計及資料轉置工作上重要、常用之知識本體模型、權威詞彙、線上網路資源、「LOD LifecycleSOP標準作業流程及問題諮詢等服務。



「鏈結開放資料實驗室」網首頁



LOD LifecycleSOP標準作業流程

做為臺灣發展LOD技術應用於數位文化資產保存主要單位之一,建置此二平台的目的,不僅為了展示本中心的LOD發展成就,更重要的是引導各界加入LOD技術發展行列,得以更方便地從無到有執行LOD轉置工作,讓臺灣數位典藏資源與世界接軌,在國際間發揮更大影響力!



閱讀全文... 0

2019/01/29 《臺南歷史地圖散步》全臺首發 用指尖穿越今昔 探索府城流金歲月





第一本搭配行動APP的臺南導覽書將於31日重磅登場!繼2016年《臺北歷史地圖散步》、2018年《臺中歷史地圖散步》後,中央研究院數位文化中心「再下一城」,與本院人文社會科學研究中心(簡稱人社中心)地理資訊科學研究專題中心、南瀛學研究者、臺南在地力量攜手,推出《臺南歷史地圖散步》。

《臺南歷史地圖散步》精選23篇專文,搭配13幀橫跨清朝到戰後的珍貴古地圖、246張臺南老照片,古今交映,府城的前世今生躍然眼前。此外,只要掃描書中景點所附二維條碼,即可連結前往「臺南歷史地圖」APP地圖所示地點,老照片與臺南現今街景立即對照,宛如穿越時空親臨現場。

臺南作為歷史悠久的古都,歷經政權更迭,文化底蘊深厚。《臺南歷史地圖散步》特邀23位南瀛學研究者,如中研院臺灣史研究所研究員謝國興、臺南市文化協會理事長鄭道聰等,以通俗易懂的筆觸,娓娓道出大臺南區域數百年來的地理水文變化、歷史人文脈絡及美食娛樂生活。當中包含不少坊間少見的厚實題材,如日治時期都市計畫下以圓環取代城牆的城市變貌、府城製糖與曬鹽歲月、西拉雅族文化信仰及正名運動之路、新町遊廓暗藏的藝妲風華與淚水等,超越舊城範圍,完整呈現臺南身世與不同面貌。

本書所收錄的古地圖,發行年代介於1874年至1976年間,多由中研院人社中心地理資訊科學研究專題中心提供。其中,「1874年臺灣府城街道全圖」是臺灣最早以精確比例尺測繪的城市地圖,為沈葆楨來臺時率福州船政學堂學生所繪,清楚標誌清代府城的街道名稱及城門位置。「1940臺南飛行場平面圖」則由日本防衛省防衛研究中心跨海無償提供,一目了然呈現日治時期飛行場內的配置,為研究航空史的最佳素材。

《臺南歷史地圖散步》共收錄392張今昔照片,其中246張老照片除由中研院臺灣史研究所檔案館、國立臺灣大學圖書館、國立臺灣圖書館等授權,亦取得臺南在地單位與個人提供的珍稀畫面。譬如,亞洲航空公司在〈翱翔青空下 臺南飛行場多重的身分轉換〉一文,特釋出1977年臺美斷交後採取苦肉計,租用牛車拉飛機,以呈現該公司窮匱之境,終獲美國母公司撥款解困的珍貴歷史鏡頭。鹽光文教基金會前企劃組長黃建龍先生所提供的「聯合鹽運轉運臺」照片,則揭示了早年新營糖廠火車協助鹽運的光影片段。

全書23篇深度好文,對照相應的古地圖與照片,再加上「臺南歷史地圖」APP的今日Google地圖與街景影像,使用者在指尖滑動間,即可按圖索驥依今尋古,探索臺南流金歲月。

中研院數位文化中心召集人林富士表示,「歷史地圖散步」系列結合珍貴史料與數位科技,打破時間、空間界限,開創了臺灣旅行導覽書的另一種呈現模式,深獲好評。「其實,『臺南歷史地圖』APP早在2015年就已面世,如今集結各界力量,進一步深掘府城的文史內涵,推出《臺南歷史地圖散步》專著,意味著本中心發行的臺南系列終於完整。」

中研院數位文化中心成立於2013年,接續臺灣1980年代所啟動的數位文化建設工程,承傳傾全國之力營造的560萬筆數位典藏資源,如今致力於文化內容的創新應用及轉譯。

《臺南歷史地圖散步》現正熱烈預購中,131日正式上市,全臺網路及實體書店均售,亦將於2019年臺北國際書展販售。

更多訊息,請瀏覽CCC編輯部臉書粉絲專頁

【新聞稿電子檔、出版品資料下載區  

 媒體報導:
《中廣新聞》:【新書快報】專訪
《古都電台》:【夢想新世界】節目專訪
《好讀周報》:(書摘)迢迢上學路 臺南囝仔的求學之道


閱讀全文... 0

2018/11/27 [International Partnership] Scholar from Vanderbilt University Visits the ASCDC to Import Vocabularies for Traditional Chinese Architecture to Art & Architecture Thesaurus



Dr Chen Shu-jiun, executive secretary of the ASCDC (left) and Prof Tracy Miller (right) from Vanderbilt University reach a consensus to import vocabularies for traditional Chinese architecture to Art & Architecture Thesaurus.

New contribution of vocabularies for traditional Chinese architecture will be made to the Art & Architecture Thesaurus (AAT).

Prof Tracy Miller from the College of Arts and Science, Vanderbilt University visited the Academia Sinica Center for Digital Cultures (ASCDC) on November 27. The visit brought about a consensus to transpose a multilingual vocabulary for traditional Chinese architecture to the AAT constructed by the Getty Research Institute.

A scholar of East Asian art and architecture history, Prof Miller specializes in the ceremonial architecture and gardens in China and Japan from the Tang dynasty to the Ming dynasty. Architectura Sinica, a database she has been building since 2014, surveys and documents over 120 buildings dating back the 8th-13th centuries across China. Preserved in structured data forms such as RDF/XML or TEI/XML, the data include images and vocabulary for the specific area of study.

The AAT is a multilingual dataset widely used by scholars in the humanities around the world. It contains over 35,000 entries in the arts, architecture, and material culture equipped with title, definition, and citations. The entry has seven major facets including associated concepts, physical attributes, styles and periods, agents, activities, materials, and objects.

With Getty's introduction, Prof Miller and the ASCDC will work together to import the vocabularies on Architectura Sinica to AAT to enrich the thesaurus's corpus and facilitate the consistency of data hierarchy of the given field of study. The same data will also be loaded to AAT-Taiwan.

AAT-Taiwan is a website constructed by the ASCDC, formerly known as the Taiwan e-Learning and Digital Archives Program (TELDAP) in 2008, when the Getty Research Institute designated it to be the transposing agent of the AAT into traditional Chinese. Over a decade, AAT-Taiwan has translated more than 34,000 entries into Chinese and in return made localized contribution in Chinese calligraphy scripts, bronze ritual vessels, and Chinese festivals.

In acknowledging the significance of this collaboration, Dr Chen approbates the partnership for its ability to give what the existing thesaurus is lacking in terms of specialized languages.

In addition to the importation of the Architectura Sinica vocabulary, the ASCDC will co-conduct a project with Prof Miller to convert the existing AAT-Taiwan into Linked Open Data (LOD) and optimize the visual representation in databases by applying the International Image Interoperability Framework (IIIF) to the current websites.
閱讀全文... 0

2018/11/27 美國范德比大學教授Tracy Miller來訪 「藝術與建築索引典」將首度匯入中國傳統建築詞彙




本中心執行秘書兼歷史語言研究所助研究員陳淑君(左)與美國范德比大學藝術與科學學院教授Tracy Miller(右)達致合作共識,將中國傳統建築詞彙匯入「藝術與建築索引典」。

中國傳統建築詞彙即將首度匯入「藝術與建築索引典」(Art & Architecture Thesaurus,簡稱AAT)!

美國范德比大學藝術與科學學院(College of Arts and Science, Vanderbilt University)教授Tracy Miller於11月27日拜訪本中心,雙方達致合作共識,將彙整多語化中國傳統建築詞彙,並貢獻至美國蓋提研究中心(Getty Research Institute)建構的「藝術與建築索引典」。

Tracy Miller為美國東亞藝術與建築史學者,專精於唐朝至明朝年間中國、日本的儀式性及園林建築研究。其自2014年起建構的「中國建築」(Architectura Sinica)資料網,以RDF/XML、TEI/XML等結構性資料格式,典藏、收錄西元8至13世紀間120餘座中國各地重要歷史建築的踏查資料、圖像,以及中國建築結構專有詞彙。

AAT為國際數位人文研究領域最具權威性、被廣泛應用的多語性鏈結開放資料集,目前收錄逾35,000個與藝術、建築及人類物質文明相關的詞彙(含名稱、定義、文獻來源等),主要分為關聯概念、物理特質、時代與風格、代理者、活動、材料及物件等七大主題層面。

在美國蓋提研究中心的媒合下,Tracy Miller將與本中心攜手,首度將「中國建築」資料網中的專有詞彙進行編錄、中英文化並匯入AAT,以豐富現有索引典中的中國建築詞彙數量,以及相關領域詞組層級的統整性。這些詞彙將同時匯入「藝術與建築索引典」中文版檢索平台(AAT-TAIWAN)。

AAT-TAIWAN,是本中心前身「數位典藏與數位學習國家型科技計畫」2008年與美國蓋提研究中心遞約合作、成為AAT中文繁體版轉譯工作指定成員後,所建置的網站。10年來已完成逾34,000筆詞彙中譯,並貢獻書法字體、青銅器及中國節慶等在地化詞彙。

本中心執行秘書兼AAT-TAIWAN主持人陳淑君表示,此次合作深具意義,將補足現有索引典中相關專業詞彙之不足。

除了匯入中國傳統建築詞彙,本中心亦將與Tracy Miller及其研究團隊共同規劃,逐步將現有AAT-TAIWAN的內容轉置為鏈結開放資料(Linked Open Data, LOD),並導入國際圖像互操作架構(International Image Interoperability Framework,簡稱IIIF)技術,以優化詞彙相關圖像視覺呈現機制。 
閱讀全文... 0

2018/10/27 【上線公告】中央研究院數位人文研究平台:共創臺灣人文研究新典範!



當數位科技逐漸成為學術日常,臺灣人文學未來可以是怎樣的一幅景象?

巨量資料分析新利器「中央研究院數位人文研究平台」,重磅登場!一站式服務讓研究者一舉兼得文獻資料、數位工具與合作夥伴,盼能集結數位人文研究社群,吹響共創臺灣人文研究新典範的號角!

運用數位科技豐富研究材料、改善研究環境、促進人文研究,是本中心一貫的努力方向。歷時近2年研發的「中研院數位人文研究平台」,於今日正式上線,開放全球近用。

近年來,「研究平台」已成為數位人文領域的網絡基礎設施發展主流,本中心亦不自外於此國際潮流。「數位人文研究平台」乃根據人文研究的需求而打造,只要建立了數位文本,即可進行巨量資料分析。本中心希望藉由此一研究新工具,促使臺灣人文研究者使用新的研究方法及研究途徑,進而探索新課題。

有鑑於此,此平台力求功能完整,讓研究者得以在其上同時取得研究所需之資料、工具與夥伴。兼具資料開放存取與多人協同研究機制,是「數位人文研究平台」的特色。研究者不僅能上傳文本與權威詞,更可自由加入不同主題的研究群組,結合平台內部的既有豐富史料與其他研究者匯入的開放資料,運用文本自動標記、詞頻統計、相似內容比對、關聯分析、時空整合呈現、資料視覺化等工具,進行文本資料探勘,以期梳理或發現新的知識脈絡。

目前「數位人文研究平台」已彙整與介接中研院史語所的漢籍開放文本、日本京都大學的漢籍文本Kanripo、美國哈佛大學的中國哲學書電子化計劃Ctext,共約80億字,以及中國歷史地理信息系統項目(CHGIS)的地名、中國歷代人物傳記資料庫(CBDB)的人名等開放權威檔,作為基礎的研究素材。值得一提的是,平台內的文本可使用冊、卷、章、節、段的結構呈現,權威詞亦可具多層分類架構。

在傳統人文研究之外另闢蹊徑,建立不一樣的、更具新意的研究範式,可為此領域注入新活水。「中研院數位人文研究平台」將在其中扮演集結社群、與研究者共創另一種研究可能的角色!

未來,「數位人文研究平台」將持續介接更多史料內容,並發展鏈結開放資料(Linked Open Data, LOD)、國際圖像互操作架構(International Image Interoperability Framework, IIIF)、中文古籍圖像文字辨識技術(Optical Character Recognition, OCR)、命名實體識別技術(Named Entity Recognition)等,提供更多元、具智慧分析能力的輔助研究功能。

延伸閱讀:

閱讀全文... 0
 
Copyright © 2009 AAT-Taiwan & Digital Archives Program. All rights reserved. Best viewed in IE7+ or Mozilla 2.0+ with 1024*768 resolution . Designed by DayInFlying Group.