香港商报官网 > 广东 > 中华大地

AI助力古今連接 華南理工大學金連文教授團隊多項成果實現古籍識別理解

2023-10-27
来源:香港商報網

    幾千年華夏文明留下的海量古籍文獻資料,但由於語言的演變,通讀理解古籍文獻的難度較大。近期,華南理工大學電子與信息學院金連文教授所在的「深度學習與視覺計算實驗室」,致力於利用先進的AI技術使古籍更易讀懂,發布了「通古大模型」「古籍文檔分析與識別系統」「彝文文檔分析識別系統」等多項成果,為中國古籍文物數據挖掘、知識發現、智能化開發與利用等領域提供了技術支撐。

    數字人文模型——通古大模型

    日前,「深度學習與視覺計算實驗室」在EvaHan2023古籍文白翻譯國際比賽中獲得冠軍。賽後,金連文教授團隊憑藉在古籍領域長期積累的豐富大數據資源,加以自動生成的對話模板,通過大模型指令微調技術訓練,構建了數字人文模型——通古大模型。該模型可智能實現文白翻譯、句讀標點和古籍檢索等功能,使大眾更便捷有效地了解中國傳統文化。

1.jpg

「通古大模型」操作界面

    金連文教授團隊還開發了業內先進的古籍文檔分析與識別系統,集成了該團隊自主研發的古籍句讀(自動標點)和文本翻譯兩大功能。用戶只需提供一張古籍圖片,系統便能自動識別並定位其中所有的文本,將識別出的文本按照正確的閱讀順序排序,添加標點符號並翻譯為現代文,便於閱讀。

    團隊精心對這一系統進行了算法優化,能夠應對現實場景中古籍文檔可能出現的各種挑戰,例如書本彎曲、傾斜、密集以及低解像度等問題,實現了技術的突破。該系統兼具實用性和穩健性,為推動古籍數碼化工作提供了有力支持。

2.jpg

「古籍文檔分析與識別系統」演示界面

    系統相關技術曾獲2019年首屆數字中國創新大賽「文化傳承——漢字多場景識別」賽道第一名及總決賽唯一最佳算法能力獎、2022年首屆大灣區國際算法算例大賽-古籍圖像分析與識別競賽冠軍。

    此外,團隊還開發了彝文文檔分析識別系統,能自動精確定位並辨識圖片中的彝文文字(以自定義編碼給出輸出)。這項識別技術採用的彝文編碼基於團隊今年早前與上海大學、上海合合信息科技公司聯合發布的業界首個古彝文基礎編碼數據庫。

3.jpg

「彝文文檔分析識別系統」演示界面

    古籍文獻是中國傳統文化的載體,金連文教授團隊開發的一系列技術,有助於促進中華優秀傳統文化傳承與發展,對增強國家文化軟實力具有重要意義。(記者 黃裕勇 通訊員 華軒)

[责任编辑:严燕红 ]