大屁股潮喷在线播放,欧美一级片日韩一级片bbbbb,91久久久久久综合

智東西（公眾號(hào)：zhidxcom）
作者 | 陳佳
編輯 | 程茜

智東西4月15日?qǐng)?bào)道，今日，百度文心大模型團(tuán)隊(duì)正式開(kāi)源文生圖模型ERNIE-Image，其參數(shù)規(guī)模僅8B，可在顯存24GB的消費(fèi)級(jí)GPU上運(yùn)行。該模型在GenEval、OneIG等多項(xiàng)國(guó)際基準(zhǔn)上綜合得分位居開(kāi)源模型第一，尤其在文字渲染能力上，與Nano Banana等商業(yè)閉源模型同處第一梯隊(duì)。

同步開(kāi)源的還有ERNIE-Image-Turbo版本，其推理步數(shù)從標(biāo)準(zhǔn)版的50步壓縮至8步。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana

兩款模型的權(quán)重與推理代碼已全部上傳至Hugging Face，遵循Apache 2.0協(xié)議，ComfyUI工作流模板也已同步上線，開(kāi)源量化方案由模型加速工具鏈Unsloth合作提供GGUF格式支持。

ERNIE-Image采用單流DiT架構(gòu)，并內(nèi)置提示詞增強(qiáng)（Prompt Enhancer）模塊，可將簡(jiǎn)短輸入自動(dòng)擴(kuò)展為結(jié)構(gòu)化描述再進(jìn)行生成，提升指令理解與細(xì)節(jié)控制能力。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana

▲百度ERNIE-Image開(kāi)源代碼倉(cāng)庫(kù)頁(yè)面，并已獲得78顆星（圖源：GitHub）

智東西用六組提示詞對(duì)該模型Turbo版本進(jìn)行了實(shí)測(cè)，從實(shí)際體驗(yàn)來(lái)看，ERNIE-Image-Turbo在處理復(fù)雜畫(huà)面時(shí)表現(xiàn)穩(wěn)定，比如多物體按照提示詞要求擺放、圖表生成、光影效果這些的任務(wù)基本都能做到位，但涉及復(fù)雜文字、多語(yǔ)言內(nèi)容或人物關(guān)系這種更精細(xì)的要求，就容易出現(xiàn)寫(xiě)錯(cuò)字或理解偏差的問(wèn)題。

技術(shù)Blog：https://ernie.baidu.com/blog/zh/posts/ernie-image/

體驗(yàn)平臺(tái)：https://aistudio.baidu.com/ernieimage

Hugging Face：
https://huggingface.co/baidu/ERNIE-Image
https://huggingface.co/baidu/ERNIE-Image-Turbo

一、六組高難Prompt實(shí)測(cè)，多主體與圖表生成表現(xiàn)良好

我們用六組提示詞對(duì)ERNIE-Image-Turbo做了測(cè)試，覆蓋高密度多語(yǔ)言文字渲染、多語(yǔ)言混排、漫畫(huà)分鏡敘事、數(shù)據(jù)圖表生成、多主體空間控制和光影人像六個(gè)維度。六組全部單次生成，未經(jīng)重試篩選，所有圖均為原圖直出。

整體感受是，該模型多主體空間關(guān)系控制、數(shù)據(jù)圖表生成和光影細(xì)節(jié)還原這幾項(xiàng)能力表現(xiàn)不錯(cuò)，但碰到高復(fù)雜度文字渲染，踩坑比預(yù)期要明顯。

1、生僻漢字渲染，“鬱”字沒(méi)能過(guò)關(guān)

第一組想看的是，這個(gè)模型能不能在圖像里準(zhǔn)確寫(xiě)出筆畫(huà)復(fù)雜的生僻字，尤其是形近字。

該模型在宣紙水墨背景、楷體風(fēng)格與紅色 “文心” 印章這些視覺(jué)氛圍營(yíng)造上均還原到位。

但在文字精確生成上存在明顯失誤，我們指定的第一行是“鬱鬱蔥蔥”（yù yù cōng cōng），生成出來(lái)變成了“糲糲萬(wàn)蕙”，完全不是同一個(gè)字。第三行的生僻字“贏麟龑靐”（yíng lín yǎn bìng），生成結(jié)果是“贏麟頃?”，“龑”和“靐”這兩個(gè)高復(fù)雜度字直接被換掉了。三行里只有第二行“薛蟠賈雨村”字形結(jié)構(gòu)沒(méi)有問(wèn)題。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana

2、中英日韓四語(yǔ)混排，英文丟了個(gè)字母

中英日韓四語(yǔ)混排測(cè)試?yán)?，整體呈現(xiàn)和提示詞要求基本對(duì)得上，版式、風(fēng)格沒(méi)什么大問(wèn)題。但仔細(xì)看會(huì)發(fā)現(xiàn)，第二行的“Knowledge”明顯少寫(xiě)了一個(gè)字母“e”，第四行的韓文也和指定的“???? ??? ??”有出入。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana

我們隨后加大了難度，要求該模型把四種語(yǔ)言以極小字號(hào)清晰呈現(xiàn)、筆畫(huà)無(wú)鋸齒、嚴(yán)格網(wǎng)格對(duì)齊。結(jié)果圖里出現(xiàn)了亂碼、字符變形和內(nèi)容篡改，多處文字直接無(wú)法識(shí)別，指定的技術(shù)參數(shù)和評(píng)測(cè)數(shù)據(jù)沒(méi)有一個(gè)完整還原出來(lái)。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana

3、漫畫(huà)分鏡實(shí)測(cè)，角色搞反了

這一組測(cè)試同時(shí)考三件事：多面板布局、角色跨格一致性、氣泡里的文字渲染。

生成圖片的布局和風(fēng)格表現(xiàn)不錯(cuò)，兩行三列的均等分鏡結(jié)構(gòu)完整，格間分隔清晰，角色外觀在六格之間保持了一致性。但劇情出了岔子，第二格設(shè)定的是學(xué)生舉手提問(wèn)，氣泡內(nèi)容是“老師，這是什么意思？”，生成出來(lái)變成了教授舉手，氣泡也跟著配在了教授身上，互動(dòng)主體完全反了。該模型在語(yǔ)義上出了理解偏差。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana

4、生成數(shù)據(jù)圖表，細(xì)節(jié)基本準(zhǔn)確到位

這一組測(cè)的是能不能該模型按指令生成結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)谋砀窈涂梢暬瘓D，數(shù)字和標(biāo)簽準(zhǔn)不準(zhǔn)。

這組表現(xiàn)比預(yù)期好。表頭“模型名稱”“參數(shù)量”“GenEval得分”清晰無(wú)誤，填入的模型名稱、8B參數(shù)量，以及0.8856、0.8667等具體得分都沒(méi)有遺漏或改錯(cuò)。右欄條形圖的配色規(guī)則也嚴(yán)格執(zhí)行了，橙色高亮ERNIE-Image (w/o PE)，藍(lán)色呈現(xiàn)其余模型，Y軸的0.75到0.95區(qū)間準(zhǔn)確，條形頂部數(shù)值標(biāo)注和表格完全一致。唯一的小瑕疵是X軸第二個(gè)模型名稱漏掉了“Turbo”。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana

5、七件物品測(cè)多主體空間控制，位置關(guān)系對(duì)得很準(zhǔn)

這組測(cè)試要求該模型嚴(yán)格控制七個(gè)物品的位置、尺寸、遮擋關(guān)系，在一張寫(xiě)實(shí)俯拍桌面照里把它們放對(duì)地方。

這是六組里最讓人滿意的一組，七個(gè)指定物品全部按要求出現(xiàn)，且核心位置關(guān)系沒(méi)有亂：翻開(kāi)的精裝書(shū)在畫(huà)面正中，左頁(yè)手寫(xiě)批注“此處存疑”、右頁(yè)英文印刷句都清晰可讀；黑色細(xì)框眼鏡壓在書(shū)本左上角；白色陶瓷咖啡杯在書(shū)本右側(cè)，心形拉花形態(tài)自然；一元人民幣硬幣在咖啡杯右側(cè)；黃色便利貼貼于書(shū)本正下方，手寫(xiě)“deadline:4月20日”內(nèi)容準(zhǔn)確；鋼筆放在桌面左下角，筆尖朝向書(shū)本，全程無(wú)人物入鏡?？臻g邏輯自洽，沒(méi)有出現(xiàn)物品疊錯(cuò)或位置串行的情況。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana

6、倫勃朗布光，光影執(zhí)行到位

最后一組想測(cè)的是，在給出高度具體的光影、材質(zhì)和色彩指令后，該模型會(huì)不會(huì)自行簡(jiǎn)化內(nèi)容。

結(jié)果是，該模型嚴(yán)格執(zhí)行了指令：畫(huà)面采用倫勃朗布光，主光來(lái)自左上方45度角，右側(cè)臉頰的三角形光斑清晰可辨，輪廓規(guī)整；右側(cè)完全無(wú)補(bǔ)光，僅靠少量環(huán)境反光勾出輪廓；背景純黑，無(wú)紋理；膚質(zhì)寫(xiě)實(shí)，毛孔可見(jiàn)，無(wú)磨皮痕跡；深色高領(lǐng)毛衣領(lǐng)口處的編織紋理也還原出來(lái)了。百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana

二、國(guó)際基準(zhǔn)評(píng)測(cè)成績(jī)單，文字渲染在開(kāi)源模型里拿第一

百度在三個(gè)國(guó)際公開(kāi)基準(zhǔn)上對(duì)ERNIE-Image進(jìn)行了系統(tǒng)評(píng)測(cè)，分別是衡量通用圖像生成能力的GenEval、覆蓋中英文雙語(yǔ)場(chǎng)景的OneIG，以及專門(mén)測(cè)試高密度文字渲染的LongText-Bench。

在衡量通用圖像生成能力的GenEval測(cè)試中，ERNIE-Image（不啟用PE）綜合得分為0.8856，在所有參測(cè)模型中排名第一，超過(guò)Qwen-Image（0.8683）和FLUX.2-klein-9B（0.8481）。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana ?▲GenEval專業(yè)文生圖模型評(píng)測(cè)基準(zhǔn)（圖源：百度ERNIE-Image技術(shù)報(bào)告）

OneIG英文榜上，ERNIE-Image開(kāi)啟PE后綜合得分0.5750，僅次于Nano Banana 2.0（0.5780）和Seedream 4.5（0.5760），位列第三，同時(shí)在推理維度單項(xiàng)排名第一（0.3566）。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana ▲OneIG-EN，評(píng)估文生圖模型在英文提示詞場(chǎng)景下綜合生成能力的量化評(píng)測(cè)體系（圖源：百度ERNIE-Image技術(shù)報(bào)告）

中文榜上，ERNIE-Image開(kāi)啟PE的綜合得分為0.5543，同樣位列前兩名僅次于Nano Banana 2.0，還在多樣性維度上跑出了0.2478的最高分。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana ▲OneIG-ZW，評(píng)估文生圖模型在中文提示詞場(chǎng)景下綜合生成能力的量化評(píng)測(cè)體系（圖源：百度ERNIE-Image技術(shù)報(bào)告）

文字渲染專項(xiàng)LongText-Bench是最能體現(xiàn)ERNIE-Image差異化能力的榜單。英文維度上，ERNIE-Image開(kāi)啟PE得分0.9804，中文維度0.9661，綜合均分0.9733，在所有開(kāi)源模型中排名第一。對(duì)比來(lái)看，Nano Banana 2.0綜合均分0.9650，Qwen-Image為0.9445，Z-Image為0.9355。

百度又開(kāi)源！消費(fèi)級(jí)GPU可跑，文字渲染能力對(duì)標(biāo)Nano Banana

▲LongText-Bench，專業(yè)文生圖長(zhǎng)文本評(píng)測(cè)基準(zhǔn)（圖源：百度ERNIE-Image技術(shù)報(bào)告）

三、架構(gòu)輕量、部署門(mén)檻低，8B參數(shù)跑進(jìn)商用模型射程

ERNIE-Image的核心架構(gòu)是單流Diffusion Transformer（DiT），并內(nèi)置一個(gè)輕量級(jí)提示詞增強(qiáng)器Prompt Enhancer（PE）模塊，負(fù)責(zé)將用戶的簡(jiǎn)短文字輸入自動(dòng)擴(kuò)展為更豐富、結(jié)構(gòu)化的詳細(xì)描述，再送入DiT主干生成圖像。

該模型的參數(shù)規(guī)模僅8B，這在開(kāi)源文生圖領(lǐng)域?qū)儆谥行◇w量，但百度稱在參數(shù)效率優(yōu)化上做了大量工作，使運(yùn)行門(mén)檻降至24GB顯存的消費(fèi)級(jí)GPU，顯著低于此前同精度水平模型的部署要求。對(duì)照部分大參數(shù)開(kāi)源模型的運(yùn)行需求，ERNIE-Image這一設(shè)計(jì)的意義在于，個(gè)人創(chuàng)作者和中小團(tuán)隊(duì)無(wú)需購(gòu)置專業(yè)工作站即可本地部署。

兩個(gè)模型版本在調(diào)用方式上有所區(qū)別：標(biāo)準(zhǔn)版ERNIE-Image推理步數(shù)為50步，CFG（分類器自由引導(dǎo)）值為4.0；Turbo版由DMD和強(qiáng)化學(xué)習(xí)聯(lián)合優(yōu)化，推理步數(shù)降至8步，CFG降至1.0，犧牲少量精度換取速度提升。

在工程部署上，百度同時(shí)提供了兩種集成方案。第一種是通過(guò)Hugging Face的diffusers庫(kù)直接調(diào)用，只需幾行Python代碼即可完成推理；第二種是通過(guò)推理框架SGLang部署服務(wù)端，并支持將PE模塊單獨(dú)剝離，用vLLM單獨(dú)運(yùn)行以加快提示詞擴(kuò)展速度，DiT主干與PE各占獨(dú)立端口，適合對(duì)延遲敏感的線上場(chǎng)景。此外，AI-Toolkit已支持對(duì)ERNIE-Image進(jìn)行微調(diào)訓(xùn)練，為有個(gè)性化需求的開(kāi)發(fā)者提供了完整的訓(xùn)練-推理鏈路。

結(jié)語(yǔ)：文生圖再進(jìn)階，從“能出圖”走向“可控生成”

如果把文生圖模型的發(fā)展拆開(kāi)看，過(guò)去一段時(shí)間的進(jìn)步主要集中在“畫(huà)得更像”，但在復(fù)雜結(jié)構(gòu)控制、規(guī)則執(zhí)行和文本表達(dá)上一直不穩(wěn)定。

此次ERNIE-Image的實(shí)測(cè)結(jié)果顯示，多主體位置關(guān)系、圖表結(jié)構(gòu)、分鏡布局和光影條件這類“強(qiáng)約束任務(wù)”已經(jīng)可以較穩(wěn)定完成。未來(lái)，誰(shuí)能先解決文本與語(yǔ)義一致性問(wèn)題，誰(shuí)才更有可能真正進(jìn)入設(shè)計(jì)、內(nèi)容生產(chǎn)等高要求場(chǎng)景。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、六組高難Prompt實(shí)測(cè)，多主體與圖表生成表現(xiàn)良好

二、國(guó)際基準(zhǔn)評(píng)測(cè)成績(jī)單，文字渲染在開(kāi)源模型里拿第一

三、架構(gòu)輕量、部署門(mén)檻低，8B參數(shù)跑進(jìn)商用模型射程

結(jié)語(yǔ)：文生圖再進(jìn)階，從“能出圖”走向“可控生成”

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、六組高難Prompt實(shí)測(cè)，多主體與圖表生成表現(xiàn)良好

二、國(guó)際基準(zhǔn)評(píng)測(cè)成績(jī)單，文字渲染在開(kāi)源模型里拿第一

三、架構(gòu)輕量、部署門(mén)檻低，8B參數(shù)跑進(jìn)商用模型射程

結(jié)語(yǔ)：文生圖再進(jìn)階，從“能出圖”走向“可控生成”

相關(guān)推薦

一、六組高難Prompt實(shí)測(cè)，多主體與圖表生成表現(xiàn)良好

二、國(guó)際基準(zhǔn)評(píng)測(cè)成績(jī)單，文字渲染在開(kāi)源模型里拿第一

三、架構(gòu)輕量、部署門(mén)檻低，8B參數(shù)跑進(jìn)商用模型射程

結(jié)語(yǔ)：文生圖再進(jìn)階，從“能出圖”走向“可控生成”