華為發布AI推理技術UCM 實現高吞吐低時延

責任編輯：程向明 2025-08-12 14:54:16 來源：香港商報網

　8月12日，在2025金融AI推理應用落地與發展論壇上，華為正式發布AI推理創新技術UCM（推理記憶數據管理器）。該技術是一款以KV Cache為中心的推理加速套件，集成了多類型緩存加速算法工具，實現推理過程中KV Cache記憶數據的分級管理，從而擴大推理上下文窗口，提升推理效率。

　UCM通過優化推理過程，可顯著改善用戶與AI交互時的體驗，包括降低回答問題的時延、提升答案準確度以及增強複雜上下文的推理能力。這一技術方案有助於實現高吞吐、低時延的推理效果，並有效降低每Token的推理成本。

　HBM是解決「數據搬運」的關鍵技術。當HBM不足時，用戶使用AI推理的體驗會明顯下降，導致出現任務卡頓、響應慢等問題。華為此次技術突破有望緩解這一瓶頸。

　華為數據存儲產品線副總裁樊傑在接受央廣財經記者專訪時指出，AI下一階段的突破將高度依賴高質量行業數據的釋放，而存力正是激活數據價值、賦能垂直行業的關鍵基礎設施。華為通過技術優化，推出的高性能AI存儲，能夠將小時級數據加載縮短至分鐘級，使算力集群效率從30%提升至60%。在推理環節，通過長記憶存儲能力，避免重複運算，大幅降低推理成本。

　當前，AI產業發展重心已從「追求模型能力的極限」轉向「追求推理體驗的最優化」，推理體驗成為影響用戶滿意度和商業可行性的關鍵因素，也是衡量模型價值的重要標準。

　據悉，華為計劃於今年9月正式開源UCM，屆時將在魔擎社區首發，後續逐步貢獻給業界主流推理引擎社區，並共享給業內所有Share Everything(共享架構)存儲廠商和生態夥伴。

責任編輯：程向明