智東西(公眾號:zhidxcom)
作者 | 許麗思
編輯 | 漠影

33天后,你的家里或許就要迎來一位硅基新成員了!

它要面對的,可能是隨處散落的衣服、小孩隨手扔在地上的玩具、桌邊快要掉下去的杯子、剛被貓弄亂的客廳……這些你每天都要做、似乎永遠(yuǎn)做不完的瑣碎家務(wù)。關(guān)鍵是,它還能24小時全天在線,把家務(wù)活越干越明白!

4月21日,自變量機(jī)器人在北京舉行發(fā)布會,宣布將于5月25日,讓搭載新一代自研具身智能基礎(chǔ)模型WALL-B的機(jī)器人入駐真實(shí)家庭。

WALL-B是全球首個基于世界統(tǒng)一模型(World Unified Model,WUM)架構(gòu)的具身基礎(chǔ)模型,把視覺、聽覺、語言、觸覺、動作乃至物理預(yù)測放進(jìn)同一個網(wǎng)絡(luò)里從零聯(lián)合訓(xùn)練,讓機(jī)器人第一次有機(jī)會同時形成對環(huán)境、自身和任務(wù)的整體理解。

機(jī)器人這回真要進(jìn)家當(dāng)保姆了!世界統(tǒng)一模型登場,有世界觀、能自我進(jìn)化

更重要的是,WALL-B突破了VLA只會模仿的天花板,開始具備對物理世界規(guī)律的認(rèn)知,并能在真實(shí)交互中持續(xù)學(xué)習(xí)和自我進(jìn)化,標(biāo)志著具身基礎(chǔ)模型從VLA架構(gòu)向原生多模態(tài)融合架構(gòu)的重大跨越。

一、從WALL-A到WALL-B,機(jī)器人大腦從模塊拼裝進(jìn)化成原生統(tǒng)一

最近,北京人形機(jī)器人馬拉松火爆全網(wǎng),機(jī)器人在硬件本體、運(yùn)動控制上進(jìn)步飛速。但是熱鬧之外,人形機(jī)器人靈巧操作、泛化性等方面,卻存在不少困境,這也是機(jī)器人一直沒辦法進(jìn)入真實(shí)場景干活的關(guān)鍵。

目前的具身大模型大都基于VLA架構(gòu),自變量早期也推出了基于VLA架構(gòu)的第一代具身模型WALL-A,但把機(jī)器人送進(jìn)家庭后,團(tuán)隊(duì)漸漸看清了VLA的天花板。

VLA技術(shù)生態(tài)雖然比較成熟,但本質(zhì)上是多個獨(dú)立模塊的拼接。信息就像流水線一樣逐級往下傳,每傳一次信息就損耗一次,最后機(jī)器人真正要執(zhí)行的時候接收到的信息就不完整了。

這其實(shí)很像在蘋果M1芯片出現(xiàn)之前,Mac上各自獨(dú)立的CPU、GPU、內(nèi)存一樣,信息在這三個芯片之間每搬運(yùn)一次就會產(chǎn)生損耗、出現(xiàn)延遲。

另外,VLA能夠讓機(jī)器人模仿訓(xùn)練數(shù)據(jù)的軌跡,但沒法搞懂物理世界規(guī)律。機(jī)器人只會死記硬背但沒掌握底層規(guī)律、不會變通,真干活了就會暴露出各種不足。自變量機(jī)器人CTO王昊總結(jié)道,“模仿是VLA的天花板”。

比如,當(dāng)看到一個盤子懸在桌邊,機(jī)器人無法理解它會在重力作用下往下掉,自然也就不知道需要把它往回推。

機(jī)器人這回真要進(jìn)家當(dāng)保姆了!世界統(tǒng)一模型登場,有世界觀、能自我進(jìn)化

從WALL-B到WALL-B,自變量實(shí)現(xiàn)了從VLA到WUM的架構(gòu)革命,本質(zhì)不是做一次普通迭代,而是把機(jī)器人大腦從模塊拼裝改成原生統(tǒng)一。

WALL-B就像蘋果M1芯片統(tǒng)一了內(nèi)存架構(gòu)一樣,將視覺、語言、動作、物理預(yù)測等所有能力,放在同一個網(wǎng)絡(luò)中從零開始聯(lián)合訓(xùn)練,打通模塊之間壁壘,讓各個模塊從過去的分頭行動走向協(xié)同運(yùn)轉(zhuǎn)。

機(jī)器人之前就像“傳話式”地處理任務(wù),而從現(xiàn)在開始,模塊間的邊界和數(shù)據(jù)搬運(yùn)損耗被消除了,它就能夠整體性地對環(huán)境、身體、任務(wù)等進(jìn)行思考,像人類一樣去理解世界。

這種整體性性思考的能力,就像我們看到一個杯子快從桌邊掉下去的時候,往往腦子還沒完全反應(yīng)完,手就已經(jīng)先伸出去接了。因?yàn)槿嗽谀莻€瞬間,對環(huán)境、物體狀態(tài)、身體動作和接下來可能發(fā)生的后果,擁有一種整體性的理解。

二、基于世界統(tǒng)一模型架構(gòu),WALL-B讓機(jī)器人有世界觀、能自我進(jìn)化

基于世界統(tǒng)一模型(WUM)架構(gòu),WALL-B實(shí)現(xiàn)了三項(xiàng)區(qū)別于行業(yè)現(xiàn)有模型的核心技術(shù)特征:

1、原生多模態(tài)

WALL-B從訓(xùn)練第一天開始,就對視覺、聽覺、語言、觸覺、動作等多模態(tài)數(shù)據(jù)進(jìn)行同步標(biāo)注與聯(lián)合訓(xùn)練。

機(jī)器人看到一個杯子快要從桌子掉下去的同時,它的手就伸了過去,一邊還調(diào)整力度把杯子穩(wěn)妥放好。模型不再需要再像流水線一樣等不同模塊轉(zhuǎn)譯、傳話,才能進(jìn)行下一步。

機(jī)器人這回真要進(jìn)家當(dāng)保姆了!世界統(tǒng)一模型登場,有世界觀、能自我進(jìn)化

這種架構(gòu)讓模型第一次擁有了原生本體感,讓機(jī)器人能感知自身尺寸與空間位置,判斷自身在環(huán)境中的狀態(tài)。

遇到狹窄的過道、半開的門、高處的物品時,機(jī)器人能清楚地判斷能不能通過、能不能夠得著東西、夠到了會發(fā)生什么。而很多掃地機(jī)器人甚至都不具備這個能力,它連自己鉆進(jìn)去沙發(fā)底、桌底會不會被卡住可能都不太清楚。

WALL-B還讓機(jī)器人擁有了部件級理解能力,在看到一個杯子的時候,機(jī)器人能像人一樣感知到杯子把手朝向哪里、是什么材質(zhì)、杯身有什么圖案、杯子里有沒有水、怎么拿握更合適。在一個家庭中認(rèn)識了一個杯子后,換一個地方它還能認(rèn)得,即便外形完全不同。

2、物理世界的“世界觀”

WALL-B讓機(jī)器人不止看見世界,還能讀懂世界,感知并預(yù)測重力、慣性、摩擦力、速度等基本物理規(guī)律。

機(jī)器人端起了一個裝滿水的杯子,能感知杯子里有水、重量會隨著液體晃動發(fā)生變化,手上的力度太小可能打滑,太大又可能把杯子捏翻,移動過快還會因?yàn)閼T性把水灑出來。所以它會一邊拿、一邊動態(tài)調(diào)整手部力度和移動速度。

真正支撐零樣本泛化的,不是模型記住了多少任務(wù),而是它開始理解這個世界的基本運(yùn)行規(guī)律。今天能在一個家庭里判斷裝滿水的杯子該怎么端,明天就能在另一個完全陌生的環(huán)境里,處理材質(zhì)不同、重量不同、形狀不同的容器。

機(jī)器人掌握的不再只是某一個動作模板,而是一套可以遷移到更多場景中的底層常識。

3、與世界交互并自我進(jìn)化

目前,基于VLA模型的機(jī)器人在任務(wù)失敗后通常直接停止,返回錯誤信息,沒法從失敗中學(xué)習(xí)。而WALL-B的行為模式則完全不同:它在失敗后會調(diào)整策略再次嘗試,如果成功,則將這次成功的經(jīng)驗(yàn)直接更新到模型參數(shù)中。這是WUM架構(gòu)區(qū)別于所有現(xiàn)有VLA模型的最根本特征。

機(jī)器人的學(xué)習(xí)方式從等人喂數(shù)據(jù)、等工程師重新訓(xùn)練,變成了在真實(shí)世界里邊做邊學(xué),越來越聰明。

王昊比喻,這就像人類學(xué)習(xí)如何用筷子一樣,會在實(shí)踐過程中不斷調(diào)整角度、力度,最后內(nèi)化為自身的技能。

機(jī)器人這回真要進(jìn)家當(dāng)保姆了!世界統(tǒng)一模型登場,有世界觀、能自我進(jìn)化

過去,我們看到許多會后空翻、跳街舞、寫毛筆字的機(jī)器人表現(xiàn)驚艷,但本質(zhì)上仍是預(yù)設(shè)軌跡的“命令行機(jī)器人”,每一個動作都經(jīng)過預(yù)先編程或遙控操作。

而家庭場景沒有人能提前把所有情況教完、預(yù)設(shè)好軌跡,機(jī)器人只有理解更底層的物理規(guī)律和空間關(guān)系,并能夠在持續(xù)的實(shí)踐中不斷進(jìn)化,才可能真正落地在千變?nèi)f化的家庭場景中。

三、從糖水?dāng)?shù)據(jù)到牛奶數(shù)據(jù),自變量靠真實(shí)家庭場景轉(zhuǎn)動數(shù)據(jù)飛輪

高質(zhì)量真實(shí)數(shù)據(jù)的缺失,正是制約具身智能技術(shù)落地的核心一環(huán)。王昊認(rèn)為,具身智能行業(yè)最大的秘密不是算法,不是架構(gòu),不是硬件,而是數(shù)據(jù)。

規(guī)?;?、流水線式生產(chǎn)數(shù)據(jù)的數(shù)采工廠,雖然效率高,但依賴于預(yù)設(shè)場景、標(biāo)準(zhǔn)化任務(wù),無法覆蓋真實(shí)世界中各種非標(biāo)準(zhǔn)、非重復(fù)、瑣碎的操作場景。

王昊把這類數(shù)據(jù)比喻為“糖水?dāng)?shù)據(jù)”,就像糖水除了甜之外對身體沒什么好處,這類數(shù)據(jù)雖然干凈、可控、量大,但和真實(shí)家庭里的復(fù)雜環(huán)境之間仍然隔著一道很深的鴻溝,基于這種數(shù)據(jù)訓(xùn)出來的模型,在真實(shí)環(huán)境中會迅速失效。

這是因?yàn)?,真?shí)家庭不是一個標(biāo)準(zhǔn)化的實(shí)驗(yàn)場,而是由雜亂物品、不同燈光、寵物穿行、孩子打斷和臨時任務(wù)等組成的生活現(xiàn)場。

與之相對的,王昊比喻為“牛奶數(shù)據(jù)”,牛奶是能夠給身體帶來實(shí)打?qū)嵉臓I養(yǎng)的,真實(shí)家庭環(huán)境中采集的嘈雜、多變、充滿隨機(jī)性的數(shù)據(jù),訓(xùn)練價(jià)值更高,這也是自變量選擇的數(shù)據(jù)道路。

為了拿到這類數(shù)據(jù),自變量團(tuán)隊(duì)進(jìn)入了數(shù)百個志愿者的真實(shí)家庭做模型訓(xùn)練。每一戶的布局、燈光和混亂程度都不一樣。

真實(shí)家庭之所以重要,不只是因?yàn)楦鼜?fù)雜,而是因?yàn)樗?strong>讓任務(wù)規(guī)劃這件事本身也變得不可預(yù)設(shè)。王昊提到,機(jī)器人呢在進(jìn)入任何一個家庭之前,很難知道具體要做什么任務(wù)、沒法提前規(guī)劃任務(wù)。

機(jī)器人這回真要進(jìn)家當(dāng)保姆了!世界統(tǒng)一模型登場,有世界觀、能自我進(jìn)化

這種耗時耗力的“笨功夫”,卻恰恰形成了自變量最關(guān)鍵的壁壘,機(jī)器人只有在這種差異里訓(xùn)練,才可能建立真正的泛化能力。

所以,自變量選擇用實(shí)驗(yàn)數(shù)據(jù)打底,真實(shí)場景提質(zhì),前者讓模型擁有基本能力,后者讓模型學(xué)會在不確定、不可預(yù)測的環(huán)境中生存。

更重要的是,WALL-B能讓機(jī)器人能夠在與真實(shí)世界的持續(xù)交互中不斷產(chǎn)生新數(shù)據(jù)、回流新經(jīng)驗(yàn),并推動模型完成自我進(jìn)化,形成“進(jìn)家庭—獲取數(shù)據(jù)—模型自我進(jìn)化—再進(jìn)更多家庭”的正向數(shù)據(jù)飛輪。

一旦這個飛輪真正轉(zhuǎn)起來,數(shù)據(jù)就會變成模型持續(xù)成長的燃料,像自變量這樣更早進(jìn)入真實(shí)場景、積累更多高質(zhì)量交互數(shù)據(jù)的企業(yè),就能夠不斷擴(kuò)大自身的領(lǐng)先優(yōu)勢。

四、機(jī)器人1個月后入駐真實(shí)家庭,在工作中越變越聰明

前陣子,自變量和58同城合作,將搭載WALL-AS模型的機(jī)器人送入真實(shí)家庭,與保潔阿姨協(xié)同作業(yè),在全球首次機(jī)器人進(jìn)入家庭作業(yè)。

這次,王潛明確表示,將在5月25日,讓搭載WALL-B模型的機(jī)器人進(jìn)入真實(shí)家庭干活。

對于機(jī)器人進(jìn)入家庭后可能會帶來的隱私問題,王潛提到,自變量會采用視覺脫敏、透明授權(quán)、用途限定的方案來保證用戶的隱私安全。

機(jī)器人這回真要進(jìn)家當(dāng)保姆了!世界統(tǒng)一模型登場,有世界觀、能自我進(jìn)化

機(jī)器人進(jìn)家庭這件事的想象空間顯然不止賣一臺機(jī)器人,因?yàn)楫?dāng)機(jī)器人開始在家庭中長期駐留,它就不只是一個消費(fèi)電子產(chǎn)品,更像是一個可持續(xù)更新的服務(wù)系統(tǒng),可以通過服務(wù)訂閱、功能更新和模型升級,不斷提升它的能力。

對企業(yè)來說,這門生意不再是一次性賣機(jī)器,而是憑借持續(xù)服務(wù)和持續(xù)升級,與客戶形成長期付費(fèi)關(guān)系。

王潛也承認(rèn),當(dāng)前模型仍處于“實(shí)習(xí)生”階段,會犯錯,需要遠(yuǎn)程協(xié)助,有時可能把拖鞋放到廚房、擦桌子擦到一半停下來思考。但其能夠?qū)崿F(xiàn)24小時不間斷工作,且每工作一天都會因新數(shù)據(jù)的產(chǎn)生而變得更“聰明”。

結(jié)語:家庭這道終極考題,正成為機(jī)器人真正長大的地方

家庭既是具身智能最復(fù)雜、最瑣碎、最難標(biāo)準(zhǔn)化的地方,也是最能檢驗(yàn)機(jī)器人是否真正具備通用能力的終極目標(biāo)場景。

今天的機(jī)器人也許還走得慢、做得笨,還經(jīng)常犯錯,但真正重要的變化是,它已經(jīng)開始走進(jìn)家庭,在這個充滿隨機(jī)性和不確定性的真實(shí)世界里,一邊干活、一邊學(xué)習(xí),持續(xù)進(jìn)化。

對于具身智能而言,這不只是一次場景落地,更像是一場真正意義上的啟程:機(jī)器人已經(jīng)在最復(fù)雜的地方,開始了自己的成長。