智東西(公眾號:zhidxcom)
作者|三北
編輯|漠影

2026年開年,開源AI Agent框架OpenClaw火遍全球。它像一只不知疲倦的“龍蝦”——有記憶、能動手、低門檻,讓無數(shù)人第一次直觀感受到AI真的能干活。

然而,當(dāng)企業(yè)從“請幾只試試”到“入職幾萬只”,畫風(fēng)突變。這些能力強但沒受過規(guī)訓(xùn)的Agent,在共享的企業(yè)基礎(chǔ)設(shè)施上7×24小時自主行動,帶來的是失控的恐懼:升級失憶、密鑰泄露、腳本失控、預(yù)算超限……

用馬斯克的話來說,這就好比把上膛的槍交給了一只猴子去用。

護航MiniMax、馴服小龍蝦,騰訊云的AI Agent“數(shù)字總部”亮了
▲馬斯克X發(fā)文截圖

面對龍蝦“橫爬”的難題,騰訊云提供了新解法——為Agent打造專屬“數(shù)字辦公環(huán)境”——Agent Runtime沙箱方案,試圖為每只“龍蝦”裝上“防爆箱”和“交通規(guī)則”,讓企業(yè)能夠在不削弱龍蝦能力的前提下,實現(xiàn)安全可控的大規(guī)模部署。

該技術(shù)目前已在多家頭部企業(yè)落地,比如其已在知名大模型公司MiniMax的強化學(xué)習(xí)訓(xùn)練等場景驗證,支持十萬級并發(fā)、百萬級吞吐零事故訓(xùn)練。

其助力MiniMax的強化學(xué)習(xí)框架Forge,在大規(guī)模Agent訓(xùn)練場景下做到“環(huán)境秒開、用完即刪”,讓訓(xùn)練更快、更穩(wěn)、成本更低,為“龍蝦軍團”的企業(yè)級落地,寫下了堅實的技術(shù)注腳。

騰訊云已宣布將Agent Runtime底層沙箱技術(shù)Cube開源,為企業(yè)提供更靈活的部署服務(wù)。

一、打通三道坎,讓企業(yè)真正接得住、管得好AI員工

OpenClaw這類AI Agent正快速被員工自發(fā)用起來,企業(yè)也看到了規(guī)?;蛟臁癆I員工”的契機。但真要讓幾萬只“龍蝦”安全上崗,迎面就是三道躲不開的課題。

第一,現(xiàn)有基礎(chǔ)設(shè)施敢不敢接?Agent有狀態(tài)、能動手、7×24小時自主行動,幾萬個實例跑在共享環(huán)境里,狀態(tài)怎么管?行為怎么控?出了事怎么溯源?密鑰和高危權(quán)限散落各處,風(fēng)險誰來兜?

第二,跑了半年對企業(yè)有什么沉淀?技能、記憶、協(xié)作關(guān)系都鎖在個人實例里,人走茶涼,Agent之間互不認(rèn)識,沒法協(xié)同。企業(yè)投入了算力,最后什么都沒留下。

第三,組織真能用起來嗎?哪些操作要審批、流程怎么改、Token花了多少值不值、Agent 之間怎么協(xié)作——這些問題不解決,AI就永遠是“玩具”。

騰訊云Agent Runtime的企業(yè)級Agent治理方案,正是為了打通這三道坎,讓企業(yè)真正接得住、管得好AI員工。

1、讓基礎(chǔ)設(shè)施扛得住

這里解決的是“敢不敢接”的問題,核心是兩件事Agent狀態(tài)管理行為治理。

狀態(tài)管理方面,Agent不是無狀態(tài)服務(wù),它會積累依賴、緩存、上下文。一直跑著成本太高,銷毀又丟狀態(tài)。Agent Runtime把狀態(tài)和算力拆開。空閑時釋放算力,請求來時原地恢復(fù)整個文件系統(tǒng),不需要預(yù)設(shè) Agent 把東西寫在哪。再加上任意時刻可做快照,一個調(diào)教好的 Agent能隨時克隆成一百個,經(jīng)驗可復(fù)制、可繼承。

行為治理方面,每個Agent跑在獨立VM沙箱里,彼此隔離,一個出問題不影響其他。憑證從不落地,由網(wǎng)關(guān)按需注入、用完即銷毀;所有外部訪問統(tǒng)一過網(wǎng)關(guān),高危操作可配置審批或攔截。全鏈路審計記錄每一步誰調(diào)了什么模型、花了多少Token。這樣一來,Agent的能力不削弱,但每一步都運行在可控、可追溯的邊界里。

2、數(shù)據(jù)資產(chǎn)留得下

人走了,經(jīng)驗不能丟;框架換了,積累不能廢。

Agent Runtime讓技能(Skill)、記憶(Memory)、協(xié)作關(guān)系這三類資產(chǎn)從第一天起就獨立于框架存儲:技能以制品形式入庫,版本管理、權(quán)限可控,任意實例可引用;記憶從本地同步上云,跨實例共享,新Agent能繼承老員工的積累;協(xié)作關(guān)系通過 Gateway做服務(wù)發(fā)現(xiàn)和路由,不依賴框架私有協(xié)議。

老張離職了,他調(diào)教好的合同審核技能和行業(yè)經(jīng)驗還在,新人入職直接繼承。知識和能力跟著企業(yè)走,不跟著個人或某個開源項目走。

3、組織接得住用得好

技術(shù)能跑通是一回事,組織真能用起來是另一回事。

Agent Runtime為企業(yè)提供了全局管控的能力。平臺團隊可以把Agent的初始化腳本、鏡像、配置封裝成模板,統(tǒng)一管理版本變更;通過策略控制所有Agent的工具調(diào)用、數(shù)據(jù)訪問、LLM調(diào)用等行為邊界;按實例、用戶、組織三層設(shè)置Token額度,成本一目了然。

但這只是起點,Agent之間怎么協(xié)同、工作流程怎么改、考核和預(yù)算怎么跟上,不同行業(yè)還在探索。Runtime先把底座搭好,讓組織先“接得住”,后續(xù)才能“用得好”。

有了這三大特性,企業(yè)才敢讓幾萬只“龍蝦”安心上崗——不是削掉它們的能力,而是讓每一步都運行在可管、可控、可繼承的底座上。

二、百萬級吞吐、十萬級并發(fā),MiniMax“嘗鮮”實證

騰訊云Agent Runtime沙箱產(chǎn)品早已獲得外部頭部廠商認(rèn)可,比如已率先在MiniMax等知名大模型廠商的核心訓(xùn)練場景中成功落地。

自2022年初成立起,MiniMax自研了MiniMax M2.7、Hailuo 2.3等多模態(tài)大模型,并推出Forge智能體強化學(xué)習(xí)框架,提升模型復(fù)雜任務(wù)能力。AGI發(fā)展關(guān)鍵期,Agentic RL需海量交互試錯,對計算資源的安全沙箱、彈性調(diào)度與并發(fā)能力提出極高要求。

為此,MiniMax與騰訊云深度合作,基于騰訊云Agent Runtime沙箱搭建Agent Infra,實現(xiàn)大規(guī)模交互環(huán)境高效調(diào)度與安全隔離,顯著提升Forge訓(xùn)練效率與穩(wěn)定性。

護航MiniMax、馴服小龍蝦,騰訊云的AI Agent“數(shù)字總部”亮了

▲Forge: 大規(guī)模原生Agent RL系統(tǒng)-MiniMax News

從場景痛點來看,Agent強化學(xué)習(xí)訓(xùn)練面臨極致挑戰(zhàn):MiniMax的“Forge” Agentic RL框架進行大規(guī)模強化學(xué)習(xí)訓(xùn)練時,需要模擬海量并發(fā)交互環(huán)境,讓Agent在真實、可交互的執(zhí)行環(huán)境中進行探索、試錯與交互。這種高強度的智能體自主進化,要求底層計算資源必須具備高并發(fā)、絕對安全隔離的沙箱環(huán)境,這對基礎(chǔ)設(shè)施的彈性調(diào)度、安全隔離與大規(guī)模并發(fā)性能提出了前所未有的要求。

護航MiniMax、馴服小龍蝦,騰訊云的AI Agent“數(shù)字總部”亮了
▲Agentic RL對Infra的四大核心訴求

之所以被MiniMax選中,騰訊云Agent沙箱在此場景中展現(xiàn)出突出的優(yōu)勢:

1、毫秒級啟動:80ms極速啟動,P99延遲<1秒,讓訓(xùn)練流程永不卡頓。通過資源池化、鏡像預(yù)熱及快照技術(shù),確保毫秒級交付可用實例。

護航MiniMax、馴服小龍蝦,騰訊云的AI Agent“數(shù)字總部”亮了

▲ 資源池化與快照恢復(fù):80ms交付可用沙箱

2、百萬級吞吐、十萬級并發(fā):每分鐘可并發(fā)創(chuàng)建六十萬沙箱實例,成功率高達99.99%,完美承載Agentic RL的海量試錯需求。依托騰訊云百萬核資源池,系統(tǒng)可每分鐘擴容超十萬實例,從容應(yīng)對高并發(fā)挑戰(zhàn)。

護航MiniMax、馴服小龍蝦,騰訊云的AI Agent“數(shù)字總部”亮了

護航MiniMax、馴服小龍蝦,騰訊云的AI Agent“數(shù)字總部”亮了
▲騰訊云Agent Runtime支持每分鐘60W沙箱創(chuàng)建

3、復(fù)雜環(huán)境模擬:支持代碼、瀏覽器甚至OSWorld等全場景沙箱,為模型訓(xùn)練提供媲美真實世界的“練兵場”。無論是Browser Use Agent的網(wǎng)頁操作,還是Computer Use Agent的桌面辦公,都能在安全隔離的環(huán)境中模擬。

4、Agent First工具鏈:提供對外開源的SDK、API、CLI、Cookbook,兼容E2B協(xié)議,并深度集成主流訓(xùn)練框架,讓MiniMax團隊能無縫對接。

MiniMax Agent首席架構(gòu)師阿島提到:“騰訊云的沙箱產(chǎn)品,一開始就是面向我們這樣的場景去設(shè)計的?!?/p>

“一開始我們在K8s上跑,發(fā)現(xiàn)真的不行,并發(fā)完全起不來。后來我們和騰訊云走到一起,有了沙箱方案。這就是產(chǎn)業(yè)、行業(yè)在最前沿的AI技術(shù)上,需要的基礎(chǔ)設(shè)施和能力。”阿島稱,“在M2.7開始,我們已經(jīng)能讓Agent自主驅(qū)動絕大部分Agentic RL過程。這里面任何一個環(huán)節(jié)卡住,最有可能卡住的就是沙箱環(huán)節(jié),它就會極大的影響我的模型的迭代。騰訊云的沙箱高性能、高穩(wěn)定性、低延遲,對我們的訓(xùn)練迭代速度至關(guān)重要?!?/p>

MiniMax的案例證明,騰訊云Agent Runtime一方面是支持Agent運行的“數(shù)字總部”,更深層次,其是支持最前沿AI技術(shù)訓(xùn)練的生產(chǎn)級基礎(chǔ)設(shè)施。

護航MiniMax、馴服小龍蝦,騰訊云的AI Agent“數(shù)字總部”亮了
▲四類沙箱×多種交互方式,覆蓋主流Agentic RL場景

無論是企業(yè)里成千上萬只OpenClaw的日常上崗,還是Agentic RL場景下百萬級吞吐、十萬級并發(fā)的極限訓(xùn)練,其實都在驗證同一件事,Agent時代需要一種不同于傳統(tǒng)云計算的新型運行底座。

結(jié)語:AI Agent加速普及,可控、可用是關(guān)鍵

OpenClaw的爆火,證明了AI Agent的生產(chǎn)力價值,也提醒我們安全可控的重要性。讓每一只龍蝦都在“跑得穩(wěn)、管得住、看得清、養(yǎng)得起”的規(guī)矩下安全運行,企業(yè)才能真正從“試用AI”走向“與AI協(xié)同工作”。

從護航MiniMax模型訓(xùn)練,到給OpenClaw龍蝦上規(guī)矩,騰訊云正以扎實的底層能力,為智能體時代鋪就安全可控的基礎(chǔ)設(shè)施。當(dāng)每一只AI龍蝦都能在“防爆箱”中安心工作,企業(yè)大規(guī)模擁抱AI的爆發(fā)時刻,才真正到來。