8月12日,在2025金融AI推理應用落地與發展論壇上,華為正式發布AI推理創新技術UCM(推理記憶數據管理器)。該技術是一款以KV Cache為中心的推理加速套件,集成了多類型緩存加速算法工具,實現推理過程中KV Cache記憶數據的分級管理,從而擴大推理上下文窗口,提升推理效率。
UCM通過優化推理過程,可顯著改善用戶與AI交互時的體驗,包括降低回答問題的時延、提升答案準確度以及增強複雜上下文的推理能力。這一技術方案有助於實現高吞吐、低時延的推理效果,並有效降低每Token的推理成本。
HBM是解決「數據搬運」的關鍵技術。當HBM不足時,用戶使用AI推理的體驗會明顯下降,導致出現任務卡頓、響應慢等問題。華為此次技術突破有望緩解這一瓶頸。
華為數據存儲產品線副總裁樊傑在接受央廣財經記者專訪時指出,AI下一階段的突破將高度依賴高質量行業數據的釋放,而存力正是激活數據價值、賦能垂直行業的關鍵基礎設施。華為通過技術優化,推出的高性能AI存儲,能夠將小時級數據加載縮短至分鐘級,使算力集群效率從30%提升至60%。在推理環節,通過長記憶存儲能力,避免重複運算,大幅降低推理成本。
當前,AI產業發展重心已從「追求模型能力的極限」轉向「追求推理體驗的最優化」,推理體驗成為影響用戶滿意度和商業可行性的關鍵因素,也是衡量模型價值的重要標準。
據悉,華為計劃於今年9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,並共享給業內所有Share Everything(共享架構)存儲廠商和生態夥伴。