智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西12月18日報(bào)道,火山引擎今日宣布豆包大模型家族全面升級,推出視頻理解模型、3D生成模型,升級文生圖模型、音樂模型、通用模型pro等,還預(yù)告將在2025年春季推出具備更長視頻生成能力的豆包視頻生成模型1.5版,豆包端到端實(shí)時(shí)語音模型也將很快上線。

其中,豆包·視頻理解模型的輸入價(jià)格定為0.003元/千Tokens,比行業(yè)價(jià)格降低85%,相當(dāng)于1塊錢能同時(shí)處理284張720P圖片。該模型已經(jīng)接入豆包App和PC端產(chǎn)品。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

豆包·3D生成模型也正式發(fā)布,與火山引擎數(shù)字孿生平臺(tái)veOmniverse結(jié)合使用可高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,成為一套支持AIGC創(chuàng)作的物理世界仿真模擬器。

其它多款豆包模型均迎來升級:通用模型pro已全面對齊GPT-4o,使用價(jià)格僅為后者的1/8;音樂模型升級到生成3分鐘的完整作品;文生圖模型2.1版本在業(yè)界首次實(shí)現(xiàn)精準(zhǔn)生成漢字一句話P圖的產(chǎn)品化能力,該模型已接入即夢AI和豆包App。

同時(shí),火山引擎升級了火山方舟、扣子、HiAgent三款平臺(tái)產(chǎn)品。

火山方舟發(fā)布大模型記憶方案、Prefix Cache和Session Cache API全域AI搜索,以幫助企業(yè)構(gòu)建好自身的AI能力中心,高效開發(fā)AI應(yīng)用。

扣子1.5版本提供全新AI應(yīng)用開發(fā)環(huán)境、更強(qiáng)的多模態(tài)能力,推出精品模版商店,降低構(gòu)建AI應(yīng)用的難度;HiAgent 1.5版本提供100+個(gè)行業(yè)應(yīng)用模版,提供全新GraphRAG能力,可視化更清晰。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

火山引擎總裁譚待還公布了豆包大模型的最新成績單:日均tokens增長使用量已超過4萬億,較7個(gè)月前首次發(fā)布時(shí)增長了33倍。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

大模型應(yīng)用正加速向行業(yè)滲透。據(jù)悉,豆包大模型已與八成主流汽車品牌合作,過去7個(gè)月汽車行業(yè)日均Tokens消耗增長了50倍;并接入到多家手機(jī)、PC等智能終端,覆蓋終端設(shè)備約3億臺(tái),來自智能終端的豆包大模型調(diào)用量在半年時(shí)間內(nèi)增長100倍

豆包大模型也獲得了眾多企業(yè)客戶青睞:最近3個(gè)月,在信息處理場景的調(diào)用量增長了39倍,客服與銷售場景增長16倍,硬件終端場景增長13倍,AI工具場景增長9倍,學(xué)習(xí)教育等場景也有大幅增長。

一、視頻理解模型搞定復(fù)雜邏輯推理,3D生成模型1分鐘生成高質(zhì)量資產(chǎn)

豆包·視頻理解模型支持輸入文本和圖像問題,不僅能精準(zhǔn)識別和理解視覺內(nèi)容,還具備推理能力,可根據(jù)圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算,完成分析圖表、處理代碼、解答學(xué)科問題等任務(wù)。

火山引擎Force大會(huì)開場就播放了一段展示其視頻理解能力的視頻:對手機(jī)攝像頭掃過的場景,實(shí)時(shí)提問“這是什么”、“為什么”、“在哪里能買到”,豆包不僅能識物解答,還能讀報(bào)告、讀代碼、解讀畫作、幫你在屋子里找物品、推薦穿搭,以及根據(jù)場景進(jìn)行聯(lián)想推理。在識別代碼時(shí),你可以圈出問題區(qū)域,讓豆包做針對性分析。

具體而言,豆包·視頻理解模型有如下特點(diǎn):

1)更強(qiáng)視覺內(nèi)容理解能力:一眼識別小動(dòng)物的影子并推斷出這是什么動(dòng)物,識別丁達(dá)爾效應(yīng)等自然知識并解釋背后原理,識別地標(biāo)建筑、生活中不太熟悉的物品并給出科普信息。

2)更強(qiáng)理解和推理能力:擅長圖表、數(shù)學(xué)、邏輯、代碼推理。

3)更細(xì)膩的視覺描述和創(chuàng)作能力:描述圖像細(xì)節(jié),進(jìn)行圖像故事創(chuàng)作、詩歌創(chuàng)作;可遵循指令對細(xì)節(jié)進(jìn)行描述,例如能識別出被全選位置的物體是孔明燈。

據(jù)火山引擎總裁譚待分享,火山引擎已邀請數(shù)百家企業(yè)測試該模型,并發(fā)現(xiàn)了一些有價(jià)值的場景,比如教育場景的判卷指導(dǎo)、作文批改、兒童陪伴等,旅游場景的目的地推薦、外文菜單識別、著名建筑識別及講解;電商營銷場景的拍照找同款、商品搭配建議、廣告種草文案等。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

豆包·3D生成模型與火山引擎數(shù)字孿生平臺(tái)veOmniverse結(jié)合,成為一款支持AIGC創(chuàng)作的物理世界仿真模擬器。

大會(huì)現(xiàn)場演示了通過veOmniverse編輯器和文生3D快速搭建工廠車間場景,用戶輸入文本就能實(shí)時(shí)生成3D場景和模型。兩者可實(shí)現(xiàn)云上協(xié)同,模型師通過文生3D快速批量生成模型并上傳至云空間,布局師即可實(shí)時(shí)調(diào)用并完成場景設(shè)計(jì),顯著提升創(chuàng)作效率與協(xié)作體驗(yàn)。

該模型可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,支持文生3D、圖生3D、多模態(tài)生成,1分鐘即可生成高保真高質(zhì)量3D資產(chǎn),可實(shí)現(xiàn)復(fù)雜物品、物品組合大規(guī)模場景生成,并支持多模態(tài)3D資產(chǎn)編輯。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

二、一句話輕松P圖&生成海報(bào),音樂模型已落地vivo相冊一鍵成片

會(huì)上,火山引擎宣布升級文生圖模型、音樂模型、通用模型pro等模型。

文生圖模型現(xiàn)支持一鍵P圖一鍵海報(bào)。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

特別是“一句話輕松生成海報(bào)”功能,首次實(shí)現(xiàn)精準(zhǔn)中文文字生成,并能夠?qū)崿F(xiàn)更全面的描述和更精美的畫面和排版。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

用戶可以涂抹海報(bào)中的文字,輸入新文字即可作文字修改。涂改前后,整張海報(bào)能夠保持很好的一致性,不會(huì)影響原畫面。

一鍵P圖是指用戶只需輸入簡單的自然語言,就能對圖像進(jìn)行換裝、美化、涂抹、風(fēng)格轉(zhuǎn)化等修圖工作,可以用語言精準(zhǔn)控制目標(biāo),避免誤傷,還能一次執(zhí)行多個(gè)P圖任務(wù)。

借助視頻生成模型,還能將靜態(tài)海報(bào)變成動(dòng)態(tài)海報(bào),讓海報(bào)中的主體動(dòng)起來,更具生命力。

新升級的豆包·音樂生成模型支持輸入歌詞生成音樂,從1分鐘創(chuàng)作升級為包括前奏、主歌、副歌、間奏、過渡段等完整的3分鐘全曲創(chuàng)作。

新模型能合理運(yùn)用旋律、節(jié)奏、和聲等信息,使全曲保持連貫性。如果用戶對生成的歌詞不滿意,還能進(jìn)行局部修改。

vivo手機(jī)2024年10月發(fā)布的OriginOS 5就采用了豆包音樂模型,來為相冊“一鍵成片”提供音樂創(chuàng)作能力。模型可根據(jù)用戶提供的素材進(jìn)行AI詞曲創(chuàng)作。

豆包通用模型pro也進(jìn)一步升級,全面對齊GPT-4o的能力,甚至在部分復(fù)雜場景任務(wù)中效果更好,而使用價(jià)格只有GPT-4o的1/8。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

在專業(yè)知識領(lǐng)域,豆包Pro相比五月版本提升了54個(gè)百分點(diǎn),略微領(lǐng)先于gpt-4o;在綜合任務(wù)處理能力上提升32個(gè)百分點(diǎn),和GPT-4o持平;在指令遵循提升9%,在推理上提升13%,在數(shù)學(xué)上則提升43%。

中手游、深維智信、威科、賽力斯汽車、叫叫等企業(yè)都使用該模型實(shí)現(xiàn)了大幅降本增效。例如中手游打造了眾多游戲智能NPC,模型調(diào)用量半年內(nèi)上漲了400倍;威科在法務(wù)領(lǐng)域使用豆包根據(jù)指令精準(zhǔn)地實(shí)現(xiàn)各種判定結(jié)果信息抽取,抽取精度達(dá)到95%以上,調(diào)用量上漲800倍。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

三、火山方舟、扣子、HiAgent上新,再降A(chǔ)I開發(fā)門檻

火山引擎升級了火山方舟、扣子HiAgent三款平臺(tái)產(chǎn)品,包括發(fā)布大模型記憶方案、Prefix Cache和Session Cache API,以降低延遲和成本,還有全域AI搜索。

火山方舟平臺(tái)提供全棧MaaS能力,支持模型精調(diào)、推理、評測等全方位功能,也提供了豐富的插件能力、擴(kuò)展API和高代碼解決方案。其大模型記憶方案能讓大模型更懂用戶,具有三大特點(diǎn):精準(zhǔn)效果,超大規(guī)模億級記憶片段,更快響應(yīng)速度&更低使用成本。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

上下文緩存是兼顧推理成本和響應(yīng)速度的關(guān)鍵。新發(fā)布的Prefix Cache和Session Cache API,創(chuàng)國內(nèi)云廠商首例,無需重復(fù)傳輸對話就能達(dá)到多輪上下文的效果,將用戶體驗(yàn)延遲減少50%,并給出了很有競爭力的緩存命中定價(jià),可將企業(yè)使用緩存成本降低80%。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

全域AI搜索具備場景化搜索推薦一體化、企業(yè)私域信息整合等服務(wù)。

火山引擎AI搜索推薦引擎的特點(diǎn)包括:1)有著強(qiáng)大的模型基礎(chǔ)能力支撐,根植于火山方舟的系統(tǒng)能力;2)從第一天開始就在強(qiáng)調(diào)搜索推薦一體化,來幫助客戶實(shí)現(xiàn)更更精準(zhǔn)、更深度的個(gè)性化體驗(yàn);3)多模態(tài),支持文本、圖像、視頻、音頻等多模態(tài)的對話式輸入輸出;4)百億庫容量、超大規(guī)模吞吐毫秒級檢索延遲、更多產(chǎn)品覆蓋;5)適用于電商、信息檢索、娛樂等全場景。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

例如該引擎可用于電商營銷場景,支持個(gè)性化推薦商品頁面鏈接、指示AI下單;也可以用在企業(yè)信息檢索場景中,改進(jìn)企業(yè)內(nèi)部的信息效率流轉(zhuǎn)和生產(chǎn)力。

完整的AI搜索和推薦能力將在未來幾個(gè)月陸續(xù)在火山引擎公開使用。

火山引擎還進(jìn)一步升級了基于互聯(lián)網(wǎng)搜索的AI增強(qiáng)插件,可一鍵觸達(dá)全域信息,在極短時(shí)間內(nèi)總結(jié)呈現(xiàn)搜索結(jié)果,支持多模態(tài)內(nèi)容和豐富的呈現(xiàn)方式,以幫助企業(yè)做出更有吸引力的多模態(tài)交互。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

扣子已成為中國最具活力的智能體開發(fā)社區(qū)之一,有超過100萬的活躍開發(fā)者,創(chuàng)建了200萬+各具特色的智能體。

今天,火山引擎正式發(fā)布扣子1.5版本,提供全新的應(yīng)用開發(fā)環(huán)境,支持GUI搭建界面,并可一鍵發(fā)布為小程序、H5、API等多種應(yīng)用形態(tài),還增強(qiáng)了多模態(tài)能力,全面升級語音識別和合成能力,并與火山引擎視頻云的RTC集成,提供了高質(zhì)量的實(shí)時(shí)語音通話能力。

此外,扣子1.5推出了模板商店,提供了大量可一鍵復(fù)制的精品模板,進(jìn)一步降低了構(gòu)建AI應(yīng)用的難度。比如和府撈面的產(chǎn)品經(jīng)理通過扣子完成了顧客點(diǎn)評分析智能體,蘇泊爾通過扣子將智能體引入到用戶的食譜創(chuàng)作和居家養(yǎng)生過程中,天文學(xué)界的科研工作者們用扣子搭建智能體來輔助科研。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

企業(yè)構(gòu)建自身的AI能力中心,需要解決好安全監(jiān)管、數(shù)據(jù)治理、應(yīng)用落地、系統(tǒng)集成等問題?;鹕揭鍴iAgent支持企業(yè)私有部署和混合部署模式,能夠滿足復(fù)雜的監(jiān)管合規(guī)要求。

HiAgent可以與企業(yè)現(xiàn)有系統(tǒng)打通,把企業(yè)內(nèi)部或外部的系統(tǒng)接口、工具等封裝為插件,以插件中心形式提供調(diào)用,實(shí)現(xiàn)智能體和現(xiàn)有業(yè)務(wù)系統(tǒng)的集成。

新發(fā)布的HiAgent 1.5版本,依靠過往一年的實(shí)踐,從企業(yè)級真實(shí)應(yīng)用場景中,沉淀出100+行業(yè)應(yīng)用模板,供企業(yè)開箱即用,敏捷落地;提供全新的GraphRAG能力,通過更強(qiáng)的知識融合效果,幫助企業(yè)打造AI知識助手,讓知識檢索更精準(zhǔn)、知識回答更豐富、可視化更加清晰。

豆包視頻理解模型發(fā)布,一塊錢可處理284張高清圖!3D生成模型首披露

HiAgent已為華泰證券、飛鶴集團(tuán)、浙江大學(xué)、寧德時(shí)代、國家管網(wǎng)等眾多企業(yè)和高校提供了服務(wù)。

結(jié)語:下一個(gè)十年,計(jì)算范式將進(jìn)入到AI云原生的新時(shí)代

“今年是大模型高速發(fā)展的一年。當(dāng)你看到一列高速行駛的列車,最重要的事就是確保自己要登上這趟列車。通過AI云原生和豆包大模型家族,火山引擎希望幫助企業(yè)做好AI創(chuàng)新,駛向更美好的未來?!弊T待說。

他談道,豆包大模型雖然發(fā)布較晚,但一直在快速迭代進(jìn)化,目前已成為國內(nèi)最全面、技術(shù)最領(lǐng)先的大模型之一。

火山引擎團(tuán)隊(duì)認(rèn)為下一個(gè)十年,計(jì)算范式應(yīng)該從云原生,進(jìn)入到AI云原生的新時(shí)代。基于AI云原生的理念,火山引擎推出新一代計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)和和安全產(chǎn)品。

在計(jì)算層面,火山引擎GPU實(shí)例,通過vRDMA網(wǎng)絡(luò),支持大規(guī)模并行計(jì)算和P/D分離推理架構(gòu),顯著提升訓(xùn)練和推理效率,降低成本;在存儲(chǔ)層面,新推出的EIC彈性極速緩存,能夠?qū)崿F(xiàn)GPU直連,使大模型推理時(shí)延降低至1/50、成本降低20%;在安全層面,火山將推出PCC私密云服務(wù),構(gòu)建大模型的可信應(yīng)用體系?;赑CC,企業(yè)能夠?qū)崿F(xiàn)用戶數(shù)據(jù)在云上推理的端到端加密,而且性能很好,推理時(shí)延比明文模式的差異在5%以內(nèi)。

在譚待看來,豆包大模型市場份額的爆發(fā),得益于火山引擎“更強(qiáng)模型、更低成本、更易落地”的發(fā)展理念,讓AI成為每一家企業(yè)都能用得起、用得好的普惠科技。