中國首個支持30種方言混說語音大模型發布

責任編輯：朱劍明 2024-05-26 16:23:12 來源：中國新聞網

　AI(人工智能)正在為傳承語言文化注入全新生命力。中國運營商發布首個支持30種方言混說語音大模型。

　25日，在第七屆數字中國建設峰會上，中國電信人工智能研究院發布業內首個支持30種方言自由混說的語音識別大模型——星辰超多方言語音識別大模型，打破單一模型只能識別特定單一方言的困境，可同時識別理解粵語、上海話、四川話、溫州話等30多種方言，是國內支持最多方言的語音識別大模型。

　中國幅員遼闊，「百里不同俗，十里不同音」。各種方言語法語音特徵各不相同，傳統的方言研究依賴於調查者主觀感知標註，人力工程量巨大且難以系統標註。而AI能夠更高效、系統地對方言進行整理歸納，對方言保護和傳承意義重大。

　構建高質量方言數據庫，是方言保護和研究的基礎。中國電信人工智能研究院已構建超過30種、超30萬小時的高質量方言數據庫，方言數據庫在豐富性和高質量等層面均居於業內前列。

　此外，中國電信研發團隊首創「蒸餾+膨脹」聯合訓練算法，解決超大規模多場景數據集和大規模參數條件下，預訓練坍縮的問題。

　據悉，星辰語音大模型已廣泛應用落地。星辰語音大模型已在福建、江西、廣西、北京、內蒙古等地的中國電信10000智能客服試點應用。接入星辰大模型以後，智能客服秒懂30種方言，實現日均處理約200萬通電話。此外，星辰語音大模型還落地多地市的12345平台。(中新社記者劉育英)

責任編輯：朱劍明

推薦新聞

7天