機(jī)器人前瞻(公眾號(hào):robot_pro)
作者|葛文婷
編輯|漠影

機(jī)器人前瞻4月24日?qǐng)?bào)道,今天,騰訊Robotics X實(shí)驗(yàn)室聯(lián)合混元團(tuán)隊(duì)發(fā)布并開源一款面向具身任務(wù)落地的多模態(tài)大模型——HY-Embodied-0.5-X。

HY-Embodied-0.5-X依托HY-Embodied-0.5-MoT-2B架構(gòu)研發(fā),聚焦機(jī)器人在真實(shí)環(huán)境中的感知、決策與執(zhí)行能力進(jìn)行了專項(xiàng)優(yōu)化。在覆蓋規(guī)劃、空間推理、具身問答、視覺指代與軌跡理解等方向的10個(gè)benchmark評(píng)測(cè)中,取得了6項(xiàng)第一、3項(xiàng)第二的成績(jī)。

屠榜多個(gè)主流測(cè)評(píng)集!騰訊Robotics X最新具身模型發(fā)布并開源

開源模型地址:
1、Github:https://github.com/Tencent-Hunyuan/HY-Embodied-0.5-X
2、Hugging face:https://huggingface.co/tencent/HY-Embodied-0.5-X

一、訓(xùn)練數(shù)據(jù)覆蓋多個(gè)核心場(chǎng)景,采用分階段迭代訓(xùn)練策略

HY-Embodied-0.5-X能詳細(xì)標(biāo)注推理步驟,自動(dòng)檢查和優(yōu)化數(shù)據(jù)質(zhì)量。其訓(xùn)練數(shù)據(jù)覆蓋了操作理解、第一人稱任務(wù)推理、多模態(tài)交互指代理解等核心場(chǎng)景,由以下三部分構(gòu)成:

1、團(tuán)隊(duì)采集機(jī)器人收集到的第一視角操作數(shù)據(jù);

2、機(jī)械臂操作數(shù)據(jù);

3、開源具身數(shù)據(jù)。

以下是團(tuán)隊(duì)的詳細(xì)構(gòu)建方式:

屠榜多個(gè)主流測(cè)評(píng)集!騰訊Robotics X最新具身模型發(fā)布并開源

面向開放世界泛化能力,團(tuán)隊(duì)還進(jìn)一步將具身、互聯(lián)網(wǎng)及3D數(shù)據(jù)納入統(tǒng)一體系,構(gòu)建了標(biāo)準(zhǔn)化的數(shù)據(jù)重構(gòu)流水線,將異構(gòu)源數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的高質(zhì)量具身推理數(shù)據(jù)。

在訓(xùn)練上,HY-Embodied-0.5-X采用“驗(yàn)證—擴(kuò)展—全量”分階段迭代策略,即先通過精選小規(guī)模高質(zhì)量數(shù)據(jù)快速驗(yàn)證訓(xùn)練配置和數(shù)據(jù)清洗效果,再逐步擴(kuò)大訓(xùn)練規(guī)模,最終在確認(rèn)最優(yōu)數(shù)據(jù)組合和訓(xùn)練策略后啟動(dòng)全量訓(xùn)練。

此外,團(tuán)隊(duì)建立了從“生成—校驗(yàn)—修正”到“評(píng)測(cè)反跑驗(yàn)證”的完整流程,對(duì)結(jié)構(gòu)化字段完整性、視覺有效性、多樣性分布和模型增益效果進(jìn)行端到端度量。

該模型既可以用于機(jī)器人在真實(shí)環(huán)境中的空間推理、精細(xì)操作推理、任務(wù)理解和失敗反思,也可用于仿真環(huán)境中的規(guī)劃評(píng)測(cè)、多模態(tài)交互研究,以及本地部署場(chǎng)景下的具身能力驗(yàn)證與開發(fā),適用于家庭服務(wù)、桌面操作、任務(wù)規(guī)劃與仿真評(píng)測(cè)等場(chǎng)景。

二、在真實(shí)具身任務(wù)中,展現(xiàn)空間、長(zhǎng)程規(guī)劃及具身交互能力

在真實(shí)的具身任務(wù)中,HY-Embodied-0.5-X主要展現(xiàn)出三方面特點(diǎn):

1、強(qiáng)空間理解能力:模型能準(zhǔn)確理解物體位置、場(chǎng)景布局、相對(duì)空間關(guān)系和操作狀態(tài),為動(dòng)作決策和任務(wù)執(zhí)行提供可靠的感知基礎(chǔ);

2、強(qiáng)長(zhǎng)程規(guī)劃能力:模型能處理多步驟、強(qiáng)依賴的復(fù)雜任務(wù),在連續(xù)交互中完成穩(wěn)定的任務(wù)拆解、動(dòng)作規(guī)劃與執(zhí)行決策;

3、強(qiáng)具身交互能力:模型具備視覺理解與對(duì)話能力,能夠進(jìn)行任務(wù)解析、指代消解、動(dòng)作決策、風(fēng)險(xiǎn)判斷和失敗反思,貼近真實(shí)機(jī)器人交互閉環(huán)。

三、在包含1011道任務(wù)的基準(zhǔn)測(cè)試中綜合得分第一,完成了仿真架構(gòu)接入驗(yàn)證

騰訊Robotics X實(shí)驗(yàn)室介紹,和類似尺寸的模型相比,HY-Embodied-0.5-X在其自建的一套基于AI2Thor仿真環(huán)境的具身規(guī)劃基準(zhǔn)測(cè)試中取得了綜合得分第一的成績(jī)。

據(jù)悉,該基準(zhǔn)共包含1011道任務(wù),覆蓋廚房、臥室、客廳、浴室四個(gè)家居場(chǎng)景,涉及導(dǎo)航、抓取、放置、開關(guān)、切割等操作。

團(tuán)隊(duì)稱,雖然HY-Embodied-0.5-X只有20億參數(shù),但是在長(zhǎng)程操作任務(wù)上,該模型超過了尺寸更大的Claude-4.0-Sonnet和GPT-5.4,僅次于其去年發(fā)布的32B的TAIROS-Planning和138B的Gemini3.0 Pro,排名第三。

屠榜多個(gè)主流測(cè)評(píng)集!騰訊Robotics X最新具身模型發(fā)布并開源

此外,HY-Embodied-0.5-X還完成了一項(xiàng)接入驗(yàn)證,這項(xiàng)驗(yàn)證是在Tairos平臺(tái)的PlaygroundX仿真架構(gòu)上進(jìn)行的。

接入驗(yàn)證后,HY-Embodied-0.5-X不僅能夠在“把土豆扔到垃圾桶里”“把西紅柿放進(jìn)冰箱”等居家任務(wù)中生成完整規(guī)劃,還能在執(zhí)行過程中結(jié)合環(huán)境反饋進(jìn)行調(diào)整。

以“把西紅柿放進(jìn)冰箱”任務(wù)為例,模型在初始規(guī)劃中并不知道冰箱門已經(jīng)關(guān)閉,但是它在在執(zhí)行受阻后,可依托失敗反饋快速重規(guī)劃,自主補(bǔ)充開門、放置等關(guān)鍵動(dòng)作,完整實(shí)現(xiàn)“推理決策—?jiǎng)幼鲌?zhí)行—感知異?!匾?guī)劃”的ReAct閉環(huán)。

最后,團(tuán)隊(duì)表示,希望通過開源HY-Embodied-0.5-X,為具身智能領(lǐng)域提供更貼合落地場(chǎng)景的基礎(chǔ)模型,同時(shí)助力模型從通用認(rèn)知能力升級(jí)至實(shí)景實(shí)操能力,加速空間理解、長(zhǎng)程規(guī)劃、交互閉環(huán)、具身推理等核心技術(shù)的迭代突破。