機(jī)器人前瞻(公眾號(hào):robot_pro)
作者|葛文婷
編輯|漠影

機(jī)器人前瞻4月27日?qǐng)?bào)道,今天,小米正式發(fā)布Xiaomi-Robotics-0真機(jī)后訓(xùn)練(Post-training)全流程并開(kāi)源。

Xiaomi-Robotics-0是小米于2026年2月發(fā)布的VLA模型,發(fā)布首月便登上HuggingFace全球VLA模型下載榜第六名。該模型包含4.7B參數(shù),旨在解決機(jī)器人在實(shí)時(shí)作業(yè)場(chǎng)景下推理延遲、動(dòng)作連貫性不足、能力遺忘等問(wèn)題。

小米表示,真機(jī)后訓(xùn)練是打通VLA模型(視覺(jué)-語(yǔ)言-動(dòng)作模型)邁向落地“最后一公里”的關(guān)鍵。團(tuán)隊(duì)全面公布整套訓(xùn)練流程,旨在降低機(jī)器人智能化技術(shù)門(mén)檻,加速具身智能產(chǎn)業(yè)落地。

在本次真機(jī)后訓(xùn)練中,小米團(tuán)隊(duì)引入的自適應(yīng)加權(quán)機(jī)制(Adaptive Loss Re-weighting)、Λ型掩碼(Λ-Shape Attention Mask)和前綴動(dòng)作隨機(jī)遮蔽(Random Masking)三項(xiàng)技術(shù),有效破解了業(yè)內(nèi)普遍存在的“偷懶效應(yīng)”問(wèn)題。Xiaomi-Robotics-0僅需20小時(shí)任務(wù)數(shù)據(jù)即可連續(xù)完成多組耳機(jī)收納任務(wù)。

以下是Xiaomi-Robotics-0的相關(guān)技術(shù)、開(kāi)源鏈接:

  • 技術(shù)官網(wǎng):https://robotics.xiaomi.com
  • 技術(shù)報(bào)告:https://arxiv.org/abs/2602.12684
  • 項(xiàng)目網(wǎng)站:https://robotics.xiaomi.com/xiaomi-robotics-0.html
  • 模型權(quán)重:https://huggingface.co/XiaomiRobotics
  • 開(kāi)源代碼:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

一、基于預(yù)訓(xùn)練基座,僅需20小時(shí)任務(wù)數(shù)據(jù)就能學(xué)會(huì)精細(xì)操作

在收納耳機(jī)任務(wù)中,Xiaomi-Robotics-0面臨著兩項(xiàng)核心挑戰(zhàn)

1、耳機(jī)與收納槽位尺寸匹配精密、公差小,模型必須達(dá)到亞毫米級(jí)的空間感知精度,才能把耳機(jī)精準(zhǔn)地放回耳機(jī)槽中。

2、耳機(jī)與盒體表面粗糙度最低至Ra0.03μm(堪比高品質(zhì)單反鏡頭鏡片),機(jī)器人在收納耳機(jī)時(shí)極易出現(xiàn)位置偏移,模型必須能快速修正動(dòng)作偏差,避免裝配失敗。

針對(duì)以上挑戰(zhàn),該團(tuán)隊(duì)依托包含約2億步機(jī)器人運(yùn)動(dòng)軌跡數(shù)據(jù)超8000萬(wàn)條視覺(jué)及語(yǔ)言樣本的預(yù)訓(xùn)練基座,僅通過(guò)20小時(shí)任務(wù)數(shù)據(jù)完成真機(jī)后訓(xùn)練,便能讓Xiaomi-Robotics-0掌握收納耳機(jī)的精細(xì)操作,并連續(xù)完成多組耳機(jī)收納任務(wù)。

小米開(kāi)源,讓機(jī)器人不再偷懶!

二、三項(xiàng)技術(shù)攻克“偷懶效應(yīng)”,打造機(jī)器人的通用能力

此外,小米表示,為了實(shí)現(xiàn)機(jī)器人動(dòng)作的無(wú)縫銜接,該團(tuán)隊(duì)在部署階段采用了異步推理(Asynchronous Execution)方案,即讓機(jī)器人在執(zhí)行當(dāng)前動(dòng)作時(shí),同步推理下一步動(dòng)作。

同時(shí),為了確保模型前后兩次推理生成的動(dòng)作軌跡不發(fā)生突變,該團(tuán)隊(duì)在訓(xùn)練中引入了動(dòng)作前綴(Action Prefixing),它能夠讓機(jī)器人基于已有動(dòng)作軌跡衍生全新動(dòng)作,實(shí)現(xiàn)多類(lèi)動(dòng)作之間的無(wú)縫銜接、絲滑切換。

不過(guò),在引入動(dòng)作前綴(Action Prefixing)之后,一個(gè)業(yè)內(nèi)通病——“偷懶效應(yīng)”也隨之而來(lái)。

偷懶效應(yīng)指的是模型容易過(guò)度依賴動(dòng)作慣性而選擇性地忽視實(shí)時(shí)視覺(jué)反饋。

為了解決這個(gè)通病,小米團(tuán)隊(duì)引入了自適應(yīng)加權(quán)機(jī)制(Adaptive Loss Re-weighting)、Λ型掩碼(Λ-Shape Attention Mask)前綴動(dòng)作隨機(jī)遮蔽(Random Masking)三項(xiàng)技術(shù),以此來(lái)平衡機(jī)器人的動(dòng)作連貫性與響應(yīng)靈敏度:

  • 自適應(yīng)加權(quán)機(jī)制(Adaptive Loss Re-weighting):根據(jù)模型預(yù)測(cè)值與真實(shí)軌跡的偏差,動(dòng)態(tài)調(diào)整Loss權(quán)重(誤差的懲罰力度),引導(dǎo)模型針對(duì)性修正關(guān)鍵誤差、補(bǔ)齊能力短板。

小米開(kāi)源,讓機(jī)器人不再偷懶!

  • Λ型掩碼(Λ-Shape Attention Mask):通過(guò)特殊的注意力機(jī)制,確保模型在參考前段動(dòng)作末尾的同時(shí),保持對(duì)當(dāng)前視覺(jué)信號(hào)的高度專(zhuān)注,防止陷入單純的“路徑依賴”。

小米開(kāi)源,讓機(jī)器人不再偷懶!

  • 前綴動(dòng)作隨機(jī)遮蔽(Random Masking):在訓(xùn)練中對(duì)既有的動(dòng)作前綴進(jìn)行隨機(jī)Dropout(即隨機(jī)、不定時(shí)地讓機(jī)器人運(yùn)動(dòng)控制網(wǎng)絡(luò)中的部分神經(jīng)元失效,不參與計(jì)算和更新),倒逼模型深入挖掘攝像頭畫(huà)面與傳感器信號(hào),學(xué)會(huì)通用能力,而非盲目跟從動(dòng)作慣性。

小米開(kāi)源,讓機(jī)器人不再偷懶!

結(jié)語(yǔ):降低訓(xùn)練成本,為解決“偷懶效應(yīng)”提供了新的技術(shù)方案

小米發(fā)布Xiaomi-Robotics-0真機(jī)后訓(xùn)練全流程并開(kāi)源,不僅有助于開(kāi)發(fā)者們利用Xiaomi-Robotics-0在各式各樣的場(chǎng)景中,通過(guò)極低的真機(jī)后訓(xùn)練成本,訓(xùn)練出屬于自己的 “專(zhuān)屬機(jī)器人”,還為業(yè)內(nèi)解決機(jī)器人的“偷懶效應(yīng)”提供了新的技術(shù)方案。

小米透露,其將在多樣化的硬件本體上持續(xù)開(kāi)展跨本體通用能力的部署、測(cè)試與驗(yàn)證,并不斷迭代模型,全面強(qiáng)化具身智能的泛化能力與落地效果。