Copyright 2018-2025 汽車星 版權所有 京ICP備2019162790號
9月26日報道,螞蟻百靈團隊近日正式開源兩款全新混合線性推理模型——Ring-mini-linear-2.0與Ring-flash-linear-2.0。相比前代,這一輪升級在延續高稀疏MoE結構的基礎上,引入了混合線性注意力(Linear Attention)機制,專為長文本、低成本推理等場景提效而設計。
眼下,大模型開始真正走進應用場景,推理成本卻成了橫在企業面前的一道坎。一邊是用戶希望更快、更久地交互,另一邊卻是又貴又慢的模型部署現實。在不犧牲效果的前提下降本提效,已經成了各家模型團隊繞不開的問題。
據螞蟻團隊的實測數據,在保持SOTA精度的前提下,本輪開源的Ring-linear系列模型最大上下文長度512k,將推理成本壓縮至dense模型的1/10,相比原有Ring模型推理成本降低50%以上,并且在高并發解碼任務中吞吐量可達Qwen3-8B的12倍、Qwen3-32B的10倍以上。
此外,螞蟻團隊還引入了精細化的推理優化融合算子、RL訓練對齊機制等系統級工具,直指當前推理成本與訓練穩定性的關鍵瓶頸。
除了推理效率的顯著提升,Ring-linear系列模型在多項標準評測中的表現也不容忽視,尤其在數學推理、結構代碼生成、通用語言理解與寫作任務中,展現出與主流大模型相比具有競爭力的準確率。實測結果包括:
Ring-mini-linear-2.0:

Ring-flash-linear-2.0:

