光明日報記者 尚杰 王冰雅 光明日報通訊員 蘇家英
1900年,道士王圓箓在敦煌莫高窟清理流沙時,偶然發現藏經洞,意外打開了一座藝術寶庫。但遺憾的是,此后,藏經洞出土的7.3萬件文物中,有約4.7萬件漂洋過海散落世界各地,被收藏于不同國家的近百家公私機構中。百余年來,以藏經洞出土文物為重要研究資料的敦煌學,受到不少人的關注。
5月31日,“數字藏經洞”數據庫平臺正式上線發布,首次實現利用數字化技術對藏經洞文物全面呈現、解讀和共享,搭建起貫通古今的敦煌千年數字圖書館,引發了國內外敦煌學研究者的高度關注。
敦煌研究院院長蘇伯民在發布會上說,近些年,隨著敦煌學研究愈深入、交流愈密切,海內外各機構意識到,應加強學術合作,共同建設一個統一完整、開放共享、便捷智能的學術平臺,實現敦煌文化藝術資源的全球共享。
在中國各級政府及相關部門的鼎力支持,英國、法國、美國、匈牙利等多國公私收藏機構的密切配合下,敦煌研究院借助數字化、信息化和人工智能技術,開展了“流失海外敦煌文物數字化復原項目”,并在國際敦煌項目(IDP)的基礎上,推進建設“數字藏經洞”數據庫平臺。
當天上線發布的“數字藏經洞”數據庫平臺,已經錄入敦煌藏經洞出土文物目錄74651條,發布敦煌文書經卷9900多卷、圖像60700多幅,經卷內容識別840多萬字,首次實現利用數字化技術對藏經洞文物全面呈現、解讀和共享。
“該平臺運用人工智能技術對經卷文字進行自動識別并基于人機協同審核校正標注結果,不僅整合了流失海外敦煌文物目錄、珍貴圖像,還納入海量國內外敦煌學研究成果,同時具備圖像拼接、圖像綴合、知識圖譜構建、全文檢索等多項功能?!碧K伯民說。
敦煌研究院副院長俞天秀介紹,藏經洞經卷上文字多為古文手寫,本身難讀,再加上部分經卷里沒有標點符號,更加難讀?!皵底植亟浂础痹谡故緯r,設有“字對照閱讀、字讀音與糾錯、行對照閱讀、全文對照閱讀”等功能,幫助各個領域、不同訴求的人群都能讀通、讀懂。
“目前,通過人工智能賦能,平臺的經卷原文已支持中文、英文、法文、日文等多語種呈現?!庇崽煨阏f,“同時,平臺還可以幫助大眾快速釋譯經卷原文、凝練經卷主旨,并提供一些背景資料,以供參考?!?/p>
美國加州大學伯克利分校東亞圖書館館長周欣平表示:“平臺將敦煌文獻的圖像本全面識讀并轉換為文字本,再利用文字本來做信息檢索和知識發現等,更加有利于敦煌學的廣泛深入研究?!?/p>
當天還舉行了“數字藏經洞”管理咨詢座談會,并形成了以下共識:“數字藏經洞”為一個國際性的共建共享數據庫平臺,綜合運用人工智能等關鍵技術實現全球敦煌藏經洞文物數字資源的統一管理和共享,數據庫平臺合作伙伴之間可無償交換共享藏經洞文物數字資源,面向大眾共享敦煌文物數字資源。