Copyright 2018-2025 汽車星 版權所有 京ICP備2019162790號
開源炸場!Qwen3-Next 80B,每次僅激活約3B;訓練成本約1/10,32K以上長文本吞吐提升約10倍,原生256K。這才是開源最想看的答案。
AI狂飆,閉源大模型堅信「越大越強」、「大就是好」。
但一只80B的開源「小鋼炮」卻給了另一個答案:Qwen3-Next。
它用極稀疏MoE與混合注意力,把單次激活壓到≈3B,訓練成本約1/10、32K+長上下文、推理吞吐≈10×,在多項推理與長文場景逼近甚至反超閉源競品。
小體量、低成本,卻能硬剛巨頭——這才是開源最想看的答案。
80B小體量,憑什么挑戰235B巨頭?

Qwen3-Next的混合架構。采用Gated DeltaNet+Gated Attention的混合注意力與高稀疏MoE,并通過zero-centered與weight-decayed LayerNorm等穩定化手段,提升大規模訓練穩定性
極致稀疏MoE:512專家只激活3B
閉源大模型的常見邏輯是「越大越強」:參數從百億到千億一路狂飆,成本和門檻也被推到極高。
但Qwen3-Next給出了另一種答案——它只有80B總參數,卻通過極致稀疏的MoE 架構,把「小體量」貫徹到了極致。
采用極稀疏MoE(1:50):512專家中每個token僅激活10個專家+1個共享專家,激活參數≈3B(約3.75%)
這種「按需激活」的設計,不僅讓計算資源利用率最大化,也在官方評測中跑出了接近235B旗艦模型的表現。
