香港商報
-- 天氣
騰訊混元OCR模型宣布開源

騰訊混元OCR模型宣布開源

責任編輯:王錦坤 2025-11-25 15:01:43 來源:香港商報網

 11月25日,騰訊混元於11月25日推出開源OCR模型HunyuanOCR,該模型參數量為1B,基於混元原生多模態架構構建,在多項OCR應用評測中取得當前最優效果。

 該模型採用端到端訓練推理範式,通過單次前向推理即可完成多項任務,相比傳統級聯方案更具效率優勢。其架構由原生分辨率視頻編碼器、自適應視覺適配器與輕量化語言模型三部分組成。

2.png

 在性能方面,HunyuanOCR在複雜文檔解析評測OmniDocBench中獲得94.1分,超過谷歌Gemini3-pro等模型;在涵蓋文檔、街景、手寫等九大場景的測試集上,其文字檢測與識別能力領先同類開源及商業模型。同時,該模型支持14種小語種翻譯,並在ICDAR2025文檔翻譯比賽中獲得小模型賽道冠軍。

3.png

 目前該模型已應用於票據字段抽取、視頻字幕識別及拍照翻譯等場景,並正式對外開放源代碼。

4.png

 在文字檢測和識別能力上,模型對文檔、藝術字、街景、手寫、廣告、票據、截屏、遊戲、視頻等場景上表現卓越。

5.png

 對多語種文檔掃描件或拍攝圖像進行電子化。

6.png

 對常見卡證和票據的感興趣字段(如姓名/地址/單位等),採用標準的json格式解析。

7.png

 對視頻的字幕實現自動化抽取,包括雙語字幕。

8.png

 拍照翻譯功能,支持14種高頻應用小語種。

責任編輯:王錦坤 騰訊混元OCR模型宣布開源
香港商報PDF

友情鏈接

承印人、出版人:香港商報有限公司 地址:香港九龍觀塘道332號香港商報大廈 香港商報有限公司版權所有,未經授權,不得複製或轉載。 Copyright © All Rights Reserved
聯絡我們

電話:(香港)852-2564 0768

(深圳)86-755-83518792 83518734 83518291

地址:香港九龍觀塘道332號香港商報大廈