特级黄色片和三级黄色片,精品久久久久久中文字幕人妻日本,啪啪啪网站在线观看视频

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

綁定手機(jī)號

確認(rèn)綁定

江宇

標(biāo)簽

大眾微軟高通百度谷歌智東西 iPhone 5G 360 通用騰訊華為小米蘋果 IDx 英特爾三星

今天，姚順雨在DeepSeek V4前交卷了

智東西（公眾號：zhidxcom）
作者 | 江宇
編輯 | 心緣

姚順雨第一場“大考”交卷！

智東西4月23日報道，今日，騰訊發(fā)布并開源新一代大模型混元Hy3 preview，這是混元體系重建后的首個旗艦版本，也是姚順雨掌舵混元后首次對外亮相的模型成果。

今天，姚順雨在DeepSeek V4前交卷了

新一代Hy3 preview是混元迄今最智能的模型，該模型采用快慢思考融合的混合專家架構(gòu)，總參數(shù)295B，激活參數(shù)21B，支持最長256K上下文。

從測評結(jié)果來看，Hy3 preview在復(fù)雜推理、指令遵循、代碼與智能體能力等關(guān)鍵維度實(shí)現(xiàn)整體提升。在復(fù)雜推理任務(wù)中，其在FrontierScience-Olympiad拿下70.0分、IMO Answer Bench達(dá)到84.3分，整體表現(xiàn)已超過GLM-5、Kimi-K2.5，接近Gemini 3.1 Pro與GPT-5.4，并在清華求真書院數(shù)學(xué)博士資格考試中取得88.4分的國內(nèi)最高成績。

在代碼與搜索能力上，其在SWE-Bench Verified達(dá)到74.4%，已逼近GLM-5與Kimi-K2.5，在Terminal-Bench 2.0、BrowseComp、WideSearch等基準(zhǔn)中也進(jìn)入第一梯隊，但與Claude Opus-4.6等頂級閉源模型仍有差距。

在ClawEval、WildClawBench等Agent評測中，Hy3 preview的綜合執(zhí)行能力明顯提升。在涵蓋16項基準(zhǔn)的綜合評測中，其平均得分約56分，顯著高于上一代Hy2（約35分），并進(jìn)入當(dāng)前主流Agent模型的競爭區(qū)。

目前，Hy3 preview已率先接入騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ等多條核心產(chǎn)品線。另外，Hy3 preview還支持接入流行的開源智能體產(chǎn)品，如OpenClaw、OpenCode、KiloCode等，并已上架騰訊云大模型服務(wù)平臺TokenHub。

今天，姚順雨在DeepSeek V4前交卷了

在推理效率與成本層面，其首token延遲降低54%、端到端時長下降47%，整體推理效率提升40%；API價格進(jìn)一步下探至輸入最低1.2元/百萬tokens、輸出最低4元/百萬tokens，并提供最低28元/月的Token套餐，主打一個“高性價比”。

而近期，國內(nèi)外大模型賽道可謂是“動作頻頻”。

上周五，Anthropic發(fā)布了新一代旗艦?zāi)Ｐ虲laude Opus 4.7；4月20日，阿里發(fā)布了其下一代旗艦?zāi)Ｐ偷脑缙陬A(yù)覽版Qwen3.6-Max-Preview；4月21日，Kimi正式發(fā)布并開源旗艦?zāi)Ｐ蚄2.6；4月23日，小米MiMo大模型家族一口氣官宣4款新模型，其中旗艦推理模型MiMo-V2.5也開啟公測。

而行業(yè)最期待的“開源猛獸” DeepSeek V4也有望在本周內(nèi)降臨。這一波國內(nèi)外旗艦?zāi)Ｐ偷募w“上桌”，或意味著大模型格局的洗牌時刻即將到來。

面對如此激烈的神仙打架局面，定位“全面實(shí)用性”的Hy3 preview究竟具備怎樣的真實(shí)戰(zhàn)斗力？我們第一時間對其進(jìn)行了實(shí)測。

開源地址：https://github.com/Tencent-Hunyuan/Hy3-preview

一、挑戰(zhàn)復(fù)雜SVG與互動HTML，代碼與邏輯能力一手實(shí)測

為了全面驗(yàn)證其能力，我們從邏輯推理、前端代碼生成以及多模態(tài)表現(xiàn)等維度，對Hy3 preview進(jìn)行了實(shí)測。

首先，我們拋出了兩個經(jīng)典的“陷阱題”。

提示詞：我要去洗車，洗車的地方離家就100米，我是開車去呢，還是走著去呢？

今天，姚順雨在DeepSeek V4前交卷了

提示詞：父親和母親可以結(jié)婚嗎？

今天，姚順雨在DeepSeek V4前交卷了

實(shí)測結(jié)果來看，Hy3 preview不負(fù)眾望，成功完成了測試并準(zhǔn)確繞過了文字陷阱。對于洗車問題，模型還幽默地補(bǔ)充了“代駕取車”的特殊情況。

在代碼生成維度，我們首先選擇了一個高難度的SVG繪制任務(wù)。

提示詞：生成一個Xbox 360控制器的SVG代碼。

今天，姚順雨在DeepSeek V4前交卷了

Xbox 360控制器不僅具有復(fù)雜的人體工學(xué)非對稱曲線，還包含了豐富的搖桿與按鍵布局。這能極具針對性地考驗(yàn)大模型在沒有視覺反饋的情況下，對二維空間坐標(biāo)、圖層疊加關(guān)系及幾何數(shù)學(xué)計算的精準(zhǔn)控制能力。

從實(shí)測結(jié)果來看，Hy3 preview在首次生成時遭遇了失敗，雖然系統(tǒng)很快進(jìn)行了重新生成，但最終的視覺效果并不理想。搖桿、按鍵等核心組件出現(xiàn)了明顯的坐標(biāo)錯位。

接下來，我們進(jìn)一步測試了其生成帶有交互邏輯的復(fù)雜HTML代碼的能力。

提示詞：用一個HTML代碼塊編寫一個3D精靈球，它應(yīng)該是可交互的，并且在打開時會有隨機(jī)的寶可夢從里面出來。

今天，姚順雨在DeepSeek V4前交卷了

實(shí)測發(fā)現(xiàn)，Hy3 preview輸出的精靈球并沒有達(dá)到預(yù)期的3D視覺效果，整體呈現(xiàn)依然比較粗糙。在交互體驗(yàn)層面，當(dāng)觸發(fā)召喚寶可夢的動作時，前端圖層渲染邏輯出現(xiàn)了瑕疵，導(dǎo)致精靈球的UI元素直接遮擋了內(nèi)部彈出的精靈形象。

最后一個體驗(yàn)案例是創(chuàng)建一個像素風(fēng)格的前端頁面。

提示詞：創(chuàng)建一個騎自行車的鵜鶘的3D像素藝術(shù)作品。盡可能將場景刻畫得非常細(xì)致，注意主體模型上的每一個小細(xì)節(jié)，同時也要考慮周圍環(huán)境的細(xì)節(jié)。在一個HTML代碼塊中完成制作，將代碼寫得足夠優(yōu)秀，以展示你的水平超越其他作品。我賦予你完全的創(chuàng)作自由，盡情發(fā)揮。

今天，姚順雨在DeepSeek V4前交卷了

在這一案例中，Hy3 preview在靜態(tài)結(jié)構(gòu)的理解上表現(xiàn)尚可，鵜鶘的身體結(jié)構(gòu)與自行車形態(tài)也相對完整。但遺憾的是，代碼生成的畫面中鵜鶘并沒有如預(yù)期般呈現(xiàn)出動態(tài)騎行效果，且在細(xì)節(jié)刻畫上缺失了自行車鏈條這一部件。

總體而言，Hy3 preview在代碼框架構(gòu)建和基本意圖理解上展現(xiàn)出了不錯的潛力。但在涉及復(fù)雜空間坐標(biāo)系、前端深度交互渲染時，仍需持續(xù)進(jìn)化與打磨。

除了圖形與交互測試，我們還驗(yàn)證了Hy3 preview在財務(wù)分析上的表現(xiàn)。我將騰訊2023、2024、2025年的財報輸入模型，讓它生成財報分析報告。

模型能夠準(zhǔn)確提取核心財務(wù)數(shù)據(jù)，并呈現(xiàn)三年的同比變化趨勢。同時，按年報披露的業(yè)務(wù)分部，生成收入結(jié)構(gòu)對比圖和業(yè)務(wù)板塊占比變化圖，整體分析報告清晰可讀，數(shù)據(jù)整合能力令人印象深刻。

今天，姚順雨在DeepSeek V4前交卷了

總體而言，Hy3 preview在代碼框架構(gòu)建、基本意圖理解及數(shù)據(jù)分析上展現(xiàn)出了不錯的潛力。但在涉及復(fù)雜空間坐標(biāo)系、前端深度交互渲染時，仍需持續(xù)進(jìn)化與打磨。

二、多項核心基準(zhǔn)躋身第一梯隊，Agent能力逼近主流旗艦?zāi)Ｐ?/strong>

從測評表現(xiàn)來看，Hy3 preview在多個關(guān)鍵能力維度上進(jìn)入第一梯隊。

以長上下文與指令遵循為例，在自建的CL-bench與CL-bench Life評測中，其得分分別達(dá)到22.8和15.7，明顯高于GLM-5、Kimi-K2.5等同類模型，但與GPT-5.4級別模型相比仍存在差距，整體處于開源陣營前列位置。

在復(fù)雜推理能力上，Hy3 preview在FrontierScience-Olympiad中取得70.0分，高于GLM-5和Kimi-K2.5，接近Gemini 3.1 Pro與GPT-5.4。

在IMO Answer Bench上達(dá)到84.3分，超過Kimi-K2.5和GLM-5，但仍低于Gemini 3.1 Pro與GPT-5.4。

在清華求真書院數(shù)學(xué)博士資格考試中，其得分為88.4，顯著高于Kimi-K2.5和GLM-5，但與頂級閉源模型仍有差距；在CHSBO 2025生物競賽中，其87.8的表現(xiàn)同樣領(lǐng)先多數(shù)開源模型，接近GPT-5.4的水平。

代碼與Agent能力是其提升最明顯的方向。

在后端工程任務(wù)集Hy-Backend上，Hy3 preview得分達(dá)到54.7，超過GLM-5和Kimi-K2.5；在更貼近用戶交互的Hy-Vibe評測中，其表現(xiàn)同樣領(lǐng)先Kimi-K2.5；在高難度軟件工程任務(wù)Hy-SWE Max上，Hy3 preview達(dá)到30，明顯高于Kimi-K2.5、接近GLM-5，但與Claude Opus-4.6仍存在差距。

這類內(nèi)部評測更強(qiáng)調(diào)“真實(shí)開發(fā)環(huán)境中的完成能力”，相比標(biāo)準(zhǔn)化榜單，更能反映模型在復(fù)雜工程任務(wù)中的實(shí)際可用性。

在SWE-Bench Verified上，Hy3 preview達(dá)到74.4%，已經(jīng)逼近GLM-5和Kimi-K2.5，但與Claude Opus-4.6仍有差距；在Terminal-Bench 2.0上，其54.4%的成績超過GLM-4.7等模型，進(jìn)入第一梯隊。

在搜索與信息整合能力上，Hy3 preview在BrowseComp上達(dá)到67.1%，接近GLM-5與Kimi-K2.5；在WideSearch上取得70.2%，超過GLM-5，但仍低于Claude Opus-4.6。

這類能力直接決定模型在開放環(huán)境中的“找信息+做判斷”能力，是Agent落地的關(guān)鍵基礎(chǔ)。

進(jìn)一步看整體Agent能力，在涵蓋16項基準(zhǔn)的綜合評測中，Hy3 preview以約56分的綜合得分，顯著高于Hy2（約35分），并與GLM-4.7、DeepSeek-V3.2等模型拉開差距，接近GLM-5與Kimi-K2.5所在區(qū)間。

在更細(xì)分的Agent專項評測中，Hy3 preview也呈現(xiàn)出類似趨勢。在WildClawBench（text-only）中，其得分為45.3，高于Kimi-K2.5、接近GLM-5；在ClawEval評測中達(dá)到55.0，超過Kimi-K2.5、接近GLM-5，但與Claude Opus-4.6同樣存在差距。

這類評測更關(guān)注模型在多步調(diào)用、工具協(xié)同與任務(wù)拆解中的穩(wěn)定性，直接對應(yīng)Agent在真實(shí)環(huán)境中的執(zhí)行能力。

在參數(shù)規(guī)模僅295B的前提下，這一表現(xiàn)也能看出其追求“性價比最優(yōu)”，成為當(dāng)前少數(shù)在成本與能力之間取得平衡的模型之一。

三、推理效率提升40%，輸入1.2元/百萬tokens起，256K長上下文成本壓低

在能力之外，Hy3 preview此次更直接的變化體現(xiàn)在推理效率與成本結(jié)構(gòu)上。

得益于模型架構(gòu)與推理框架的深度協(xié)同，以及算子優(yōu)化與量化策略的整體調(diào)整，其整體推理效率提升約40%，將單位調(diào)用成本進(jìn)一步壓縮。

從實(shí)際定價來看，在0-16K上下文范圍內(nèi)，Hy3 preview輸入價格最低為1.2元/百萬tokens，命中緩存后可降至0.4元，輸出價格為4元。

在更長上下文（最高256K）場景下，Hy3 preview輸入價格逐步提升至2元/百萬tokens，輸出價格為8元。

這意味著，在長文本、復(fù)雜Agent任務(wù)中，其成本仍處于可控范圍。

除了按量計費(fèi)，騰訊云還推出了面向開發(fā)者的Token套餐方案，將成本進(jìn)一步前置與打包。以個人版為例，Lite套餐月費(fèi)28元，對應(yīng)約3500萬tokens額度，折合單價約0.8元/百萬tokens；Standard、Pro、Max套餐則分別提供100M、320M、650M tokens，對應(yīng)單價逐步下降至0.72元/百萬tokens。

這一梯度設(shè)計，對更高頻、更長鏈路的調(diào)用場景更加友好，適用于需要持續(xù)運(yùn)行的Agent應(yīng)用。

結(jié)語：混元重建后的第一步，把重心放回真實(shí)場景

從某種意義上看，Hy3 preview是騰訊混元在團(tuán)隊、架構(gòu)與基礎(chǔ)設(shè)施全面重建之后的一個起點(diǎn)版本。它沒有繼續(xù)沿著“更大參數(shù)”的路徑走下去，而是選擇以295B的規(guī)模，注重打磨推理、代碼、Agent等能力。

這一方向也對應(yīng)姚順雨提出的“AI下半場”判斷——模型的價值，不在榜單，而在復(fù)雜場景中的可用性。從目前的落地情況來看，無論是元寶、WorkBuddy，還是QQ助手與AI客服，這一版本已經(jīng)開始在騰訊內(nèi)部多條業(yè)務(wù)線上持續(xù)“跑起來”，并通過實(shí)際反饋反向推動模型迭代。

放在更大的時間線上看，Hy3 preview或許是騰訊在這一輪大模型競爭中重新找到節(jié)奏的信號。