?智東西(公眾號(hào):zhidxcom)
作者 | 江宇
編輯 | 漠影

智東西9月26日?qǐng)?bào)道,螞蟻百靈團(tuán)隊(duì)近日正式開(kāi)源兩款全新混合線(xiàn)性推理模型——Ring-mini-linear-2.0與Ring-flash-linear-2.0。相比前代,這一輪升級(jí)在延續(xù)高稀疏MoE結(jié)構(gòu)的基礎(chǔ)上,引入了混合線(xiàn)性注意力(Linear Attention)機(jī)制,專(zhuān)為長(zhǎng)文本、低成本推理等場(chǎng)景提效而設(shè)計(jì)。

眼下,大模型開(kāi)始真正走進(jìn)應(yīng)用場(chǎng)景,推理成本卻成了橫在企業(yè)面前的一道坎。一邊是用戶(hù)希望更快、更久地交互,另一邊卻是又貴又慢的模型部署現(xiàn)實(shí)。在不犧牲效果的前提下降本提效,已經(jīng)成了各家模型團(tuán)隊(duì)繞不開(kāi)的問(wèn)題。

據(jù)螞蟻團(tuán)隊(duì)的實(shí)測(cè)數(shù)據(jù),在保持SOTA精度的前提下,本輪開(kāi)源的Ring-linear系列模型最大上下文長(zhǎng)度512k,將推理成本壓縮至dense模型的1/10,相比原有Ring模型推理成本降低50%以上,并且在高并發(fā)解碼任務(wù)中吞吐量可達(dá)Qwen3-8B的12倍、Qwen3-32B的10倍以上。

此外,螞蟻團(tuán)隊(duì)還引入了精細(xì)化的推理優(yōu)化融合算子、RL訓(xùn)練對(duì)齊機(jī)制等系統(tǒng)級(jí)工具,直指當(dāng)前推理成本與訓(xùn)練穩(wěn)定性的關(guān)鍵瓶頸。

除了推理效率的顯著提升,Ring-linear系列模型在多項(xiàng)標(biāo)準(zhǔn)評(píng)測(cè)中的表現(xiàn)也不容忽視,尤其在數(shù)學(xué)推理、結(jié)構(gòu)代碼生成、通用語(yǔ)言理解與寫(xiě)作任務(wù)中,展現(xiàn)出與主流大模型相比具有競(jìng)爭(zhēng)力的準(zhǔn)確率。實(shí)測(cè)結(jié)果包括:

Ring-mini-linear-2.0:

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

Ring-flash-linear-2.0:

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

目前,這套模型現(xiàn)已同步上線(xiàn)多平臺(tái),開(kāi)源地址如下:

魔搭社區(qū):https://modelscope.cn/models/inclusionAl/Ring-flash-linear-2.0/

GitHub:https://github.com/inclusionAI/Ring-V2/tree/main/hybrid_linear

Hugging Face:https://huggingface.co/inclusionAl/Ring-flash-linear-2.0

一、混合線(xiàn)性架構(gòu)重構(gòu)Attention計(jì)算圖,推理成本再砍一半

此次開(kāi)源的Ring-linear系列模型,構(gòu)建于螞蟻?zhàn)匝械腞ing-mini-2.0與Ring-flash-2.0 MoE基座之上,最大特點(diǎn)是將主干Attention模塊替換為自研線(xiàn)性Attention融合模塊,輔以少量標(biāo)準(zhǔn)Attention,形成高效混合注意力結(jié)構(gòu)。

以Ring-flash-linear為例,其結(jié)構(gòu)中87.5%的層采用線(xiàn)性Attention(28層線(xiàn)性+4層標(biāo)準(zhǔn)),結(jié)合旋轉(zhuǎn)位置編碼(RoPE)分組RMSNorm等訓(xùn)練優(yōu)化策略。這種高占比的線(xiàn)性架構(gòu),使得整體計(jì)算復(fù)雜度近似線(xiàn)性,在長(zhǎng)上下文條件下,顯著降低訓(xùn)練和推理的計(jì)算成本。

同時(shí),該模型保持了1/32專(zhuān)家激活率的超稀疏MoE結(jié)構(gòu),通過(guò)MTP(Mixture Token Parallel)與全局負(fù)載均衡設(shè)計(jì),實(shí)現(xiàn)“以6.1B參數(shù)模擬40B dense模型”的效果。在保持性能的前提下,大幅降低激活參數(shù)與計(jì)算需求。

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

▲Ring-linear-2.0系列模型架構(gòu)示意圖,主干結(jié)構(gòu)采用線(xiàn)性Attention與稀疏MoE混合設(shè)計(jì),最大支持512K上下文長(zhǎng)度,并引入MTP多token預(yù)測(cè)訓(xùn)練目標(biāo)。

在真實(shí)業(yè)務(wù)場(chǎng)景中,長(zhǎng)文本處理、多輪交互頻繁,大模型推理速度慢、成本高成為了其上線(xiàn)部署應(yīng)用的最大阻礙。正因如此,如何在不犧牲效果的前提下降本提效,成了螞蟻團(tuán)隊(duì)重點(diǎn)探索的方向,而線(xiàn)性Attention與稀疏MoE結(jié)合,正是他們給出的答案之一。

二、推理吞吐大幅領(lǐng)先,Prefill、Decode雙線(xiàn)提速

當(dāng)大模型真正部署起來(lái)之后,推理吞吐才是決定體驗(yàn)和成本的“臨門(mén)一腳”。尤其在大模型進(jìn)入多輪交互、長(zhǎng)上下文等復(fù)雜場(chǎng)景后,單純追求更大的參數(shù)規(guī)模,未必能換來(lái)更好的效果,反而可能因吞吐不足拖慢響應(yīng)、推高成本。因此,Ring-linear系列在推理性能上的表現(xiàn),成為其能否落地的重要指標(biāo)。

在推理性能方面,螞蟻團(tuán)隊(duì)提供了詳盡實(shí)測(cè)結(jié)果,Ring-linear系列模型在長(zhǎng)上下文與高并發(fā)生成場(chǎng)景中具備明顯優(yōu)勢(shì):

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

▲Ring-mini-linear-2.0 Prefill吞吐(batch size = 1)

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

▲Ring-mini-linear-2.0 Decode吞吐(batch size = 64)

Ring-mini-linear-2.0在Prefill階段(上下文256k+)吞吐量為Qwen3-8B的12倍以上;在Decode階段,生成長(zhǎng)度32k+時(shí)吞吐量同樣為Qwen3-8B的12倍以上。

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

▲Ring-flash-linear-2.0 Prefill吞吐(batch size = 1)

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

▲Ring-flash-linear-2.0 Decode吞吐?(batch size = 64)

Ring-flash-linear-2.0則在對(duì)比Qwen3-32B時(shí)展現(xiàn)出突出優(yōu)勢(shì)——上下文32k以上,Prefill階段吞吐量近5倍;生成長(zhǎng)度64k時(shí),Decode階段逼近10倍吞吐優(yōu)勢(shì)。這些優(yōu)化均得益于螞蟻團(tuán)隊(duì)對(duì)推理框架(SGLang/vLLM v1)的深度適配與線(xiàn)性算子的定制化加速。

測(cè)試顯示,優(yōu)化后的triton kernel最高加速比可達(dá)2.73倍(prefill單樣本任務(wù)),在典型decode場(chǎng)景中也能夠達(dá)到2.57倍,并支持批量prefill與混合推理模式,有效應(yīng)對(duì)真實(shí)部署場(chǎng)景中的多并發(fā)挑戰(zhàn)。

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

▲Ring-linear系列在線(xiàn)性Attention算子推理任務(wù)中的加速表現(xiàn)

這些優(yōu)化奠定了Ring-linear系列模型在推理層面的基礎(chǔ)。而要將模型真正推進(jìn)RL訓(xùn)練、提升長(zhǎng)期表現(xiàn),還得解決另一個(gè)關(guān)鍵問(wèn)題:訓(xùn)推一致性。

三、訓(xùn)推一致性修復(fù)RL瓶頸,支持長(zhǎng)輸出下的直接采樣

強(qiáng)化學(xué)習(xí)(RL)階段的穩(wěn)定性問(wèn)題,常常來(lái)源于訓(xùn)練-推理(訓(xùn)推)實(shí)現(xiàn)不一致。尤其在MoE模型中,組件如RMSNorm、RoPE、Attention、KVCache、softmax等在不同框架間存在精度/順序/后處理差異,會(huì)嚴(yán)重干擾on-policy策略更新,導(dǎo)致reward波動(dòng)大、訓(xùn)練上限低。

為此,螞蟻團(tuán)隊(duì)從框架底層修正訓(xùn)推邏輯差異,提出三項(xiàng)改進(jìn):

1、算子級(jí)一致性:訓(xùn)練與推理采用相同模塊實(shí)現(xiàn);

2、精度統(tǒng)一:重要模塊如KVCache與lm_head統(tǒng)一采用fp32;

3、確定性保障:MOE專(zhuān)家選擇、token加和順序引入穩(wěn)定排序與固定順序。

實(shí)測(cè)顯示,修復(fù)關(guān)鍵模塊后RL reward顯著提升,并首次實(shí)現(xiàn)RL階段直接使用rollout probs而非training probs,不僅節(jié)省重前向計(jì)算時(shí)間,還提升了訓(xùn)練效率與最終回報(bào)。

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

▲對(duì)比使用rollout probs與 raining probs 進(jìn)行PPO clip訓(xùn)練的效果。左圖為訓(xùn)練獎(jiǎng)勵(lì)(Reward)變化趨勢(shì),右圖為訓(xùn)推概率差異絕對(duì)值大于0.8的token占比,對(duì)齊后訓(xùn)推差異顯著降低。

這一系列修復(fù),為MoE模型走向強(qiáng)化學(xué)習(xí)階段掃清了落地障礙,也讓長(zhǎng)輸出任務(wù)具備了穩(wěn)定訓(xùn)練和高質(zhì)量采樣的基礎(chǔ)能力。簡(jiǎn)單來(lái)說(shuō),就是模型在訓(xùn)練時(shí)學(xué)會(huì)的“策略”,能夠在推理時(shí)原樣執(zhí)行出來(lái)。一旦訓(xùn)推一致,模型就真的學(xué)會(huì)了“決策”。

四、實(shí)測(cè):結(jié)構(gòu)代碼生成清晰完整,動(dòng)畫(huà)邏輯具備通用性

螞蟻團(tuán)隊(duì)也圍繞Ring-linear系列模型進(jìn)行了多組結(jié)構(gòu)化代碼生成的實(shí)測(cè),任務(wù)涵蓋圖形動(dòng)畫(huà)控制、規(guī)則邏輯實(shí)現(xiàn)與游戲基礎(chǔ)玩法復(fù)現(xiàn)。Ring-linear系列模型均可根據(jù)自然語(yǔ)言指令輸出結(jié)構(gòu)清晰、可直接運(yùn)行的Python代碼,展示出良好的代碼理解與生成能力。

實(shí)測(cè)任務(wù)包括:

1、數(shù)獨(dú)游戲web代碼生成

指令:“編寫(xiě)一個(gè)數(shù)獨(dú)游戲的web應(yīng)用”

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

模型生成代碼能夠快速實(shí)現(xiàn)一個(gè)bug free的數(shù)獨(dú)游戲應(yīng)用,包括正確數(shù)字初始化、難易程度選擇、數(shù)字填寫(xiě)是否正確提示等核心功能。

2、坦克大戰(zhàn)

指令:“Use Python to create a simplified tank battle game. Users use the up, down, left, and right keys on the keyboard to control the free movement of a tank. The spacebar fires bullets to defeat enemy tanks in the game scene. The scene contains five freely moving enemy tanks, which fire bull

ets in the direction of the current tank’s movement. Each time an enemy tank is defeated, one point is awarded, and a new enemy tank is randomly generated. The game ends when the user’s tank is hit by an enemy tank.”

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

輸出Python代碼覆蓋坦克位置的初始化、方向自動(dòng)控制、積分更新等完整邏輯模塊,能夠自主指揮坦克運(yùn)動(dòng)和射擊。

3、股票系統(tǒng)應(yīng)用

指令:“請(qǐng)生成一個(gè)模擬股票交易軟件的頁(yè)面,數(shù)據(jù)可以是隨機(jī)生成的,頁(yè)面包含了五部分部分:

1. 日內(nèi)的秒級(jí)數(shù)據(jù),這部分需要一秒更新一次,按照線(xiàn)的方式進(jìn)行展示。
2. 日k線(xiàn),這部分可以展示最近60天的ohlc的數(shù)據(jù),使用蠟燭圖進(jìn)行展示,漲了的是紅色,跌了的是綠色。
3. 實(shí)時(shí)的成交量,也是一秒更新一次,現(xiàn)實(shí)數(shù)字即可。
4. 日線(xiàn)的成交量數(shù)據(jù),用柱狀圖表示。
5. 公司的介紹,可以隨機(jī)生成一些。

需要注意的點(diǎn):
1. 請(qǐng)使用canvas繪制各種曲線(xiàn)和蠟燭圖, 但是需要注意繪制圖像的清晰度,需要為高清設(shè)備進(jìn)行準(zhǔn)備;
2. 需要可以根據(jù)窗口的大小自行調(diào)整canvas窗口的大??;
3. 使用原生的js和html5屬性不要使用額外的庫(kù);
4. 請(qǐng)保證隨機(jī)生成的價(jià)格數(shù)據(jù)都是可以使用的?!?/p>

螞蟻百靈開(kāi)卷模型性?xún)r(jià)比!長(zhǎng)文本推理只要1/10成本,6.1B激活撬動(dòng)40B性能

模型可生成完整的模擬股票交易軟件,涵蓋交易價(jià)格、數(shù)量展示、趨勢(shì)分析等核心功能。同時(shí)生成頁(yè)面展示精美,有較強(qiáng)的指令遵循能力。

整體來(lái)看,Ring-linear系列模型在結(jié)構(gòu)化代碼生成任務(wù)中的表現(xiàn)穩(wěn)定,具備良好的語(yǔ)義解析與邏輯組織能力,能夠覆蓋多類(lèi)Python、Web編程指令,適用于可視化交互、小型邏輯游戲等場(chǎng)景的快速原型生成。

結(jié)語(yǔ):混合線(xiàn)性架構(gòu)成大模型新風(fēng)口,百靈團(tuán)隊(duì)再打開(kāi)一扇門(mén)

隨著推理大模型越來(lái)越卷“長(zhǎng)推理”“低成本”,Test Time Scaling正在變成新一輪技術(shù)追求的焦點(diǎn)。

螞蟻百靈團(tuán)隊(duì)這輪開(kāi)源的Ring-linear系列模型,結(jié)構(gòu)上“做減法”,用混合線(xiàn)性機(jī)制精簡(jiǎn)計(jì)算路徑;推理上“做乘法”,依靠稀疏MoE和系統(tǒng)級(jí)加速,把效率拉滿(mǎn)。不只是跑得快、用得省,更在RL訓(xùn)練這塊最難啃的骨頭上,給出了全新解法。

隨著更多推理場(chǎng)景開(kāi)始關(guān)注高并發(fā)生成與超長(zhǎng)上下文,這一輪開(kāi)源有望推動(dòng)混合線(xiàn)性架構(gòu)成為下一階段主流落地的關(guān)鍵方向之一。