激情国产巨乳传媒免费区,一区二区三区视频在线在线,人妻中文字幕a∨影片

芯東西（公眾號(hào)：aichip001）
作者 |? 程茜
編輯 |? Panken

芯東西4月24日?qǐng)?bào)道，剛剛，華為昇騰直播解讀DeepSeek-V4技術(shù)，并披露昇騰950性能表現(xiàn)。截至發(fā)稿，華為昇騰、寒武紀(jì)、海光信息、摩爾線程、沐曦股份、昆侖芯、平頭哥真武、天數(shù)智芯8家國(guó)產(chǎn)AI芯片品牌和英偉達(dá)均已適配DeepSeek-V4。

8大國(guó)產(chǎn)AI芯片火速適配DeepSeek-V4！華為百度阿里全吻上來(lái)了

▲昇騰950性能表現(xiàn)（圖源：昇騰CANN直播截圖）

此外，華為云、騰訊云、PPIO、用友、聯(lián)想智能云、天翼云息壤、云工場(chǎng)科技等云服務(wù)商，寧暢、長(zhǎng)江計(jì)算、百信、昆侖技術(shù)等服務(wù)器企業(yè)，鄭州人工智能計(jì)算中心等算力服務(wù)提供商都第一時(shí)間宣布適配或上架DeepSeek-V4模型服務(wù)。網(wǎng)易智企、萬(wàn)格智元、極光、網(wǎng)易有道旗下Agent產(chǎn)品宣布接入DeepSeek-V4。

8大國(guó)產(chǎn)AI芯片火速適配DeepSeek-V4！華為百度阿里全吻上來(lái)了

▲截至發(fā)稿，官宣支持DeepSeek模型的AI芯片企業(yè)（芯東西制表）

根據(jù)DeepSeek-V4技術(shù)報(bào)告，其并細(xì)粒度專家并行（EP）方案同時(shí)在英偉達(dá)GPU和華為昇騰NPU上完成驗(yàn)證，相比非融合基線在通用推理場(chǎng)景中實(shí)現(xiàn)1.50-1.73倍加速，在對(duì)延遲敏感的強(qiáng)化學(xué)習(xí)推演和高速Agent服務(wù)場(chǎng)景中最高可達(dá)1.96倍。

8大國(guó)產(chǎn)AI芯片火速適配DeepSeek-V4！華為百度阿里全吻上來(lái)了

▲DeepSeek-V4技術(shù)報(bào)告

據(jù)DeepSeek公眾號(hào)披露，受限于高端算力，目前DeepSeek-V4-Pro的服務(wù)吞吐十分有限，預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后，其價(jià)格會(huì)大幅下調(diào)。

8大國(guó)產(chǎn)AI芯片火速適配DeepSeek-V4！華為百度阿里全吻上來(lái)了

▲DeepSeek官方文章

DeepSeek-V4模型采用FP4+FP8混合精度訓(xùn)練，在脫離英偉達(dá)生態(tài)背景下，其大概率是基于深度定制的內(nèi)部格式。網(wǎng)友猜測(cè)，該模型依托華為昇騰950超節(jié)點(diǎn)集群完成訓(xùn)練，從側(cè)面印證華為底層算力架構(gòu)與低精度混合訓(xùn)練技術(shù)，已具備支撐萬(wàn)億級(jí)大模型的能力。

8大國(guó)產(chǎn)AI芯片火速適配DeepSeek-V4！華為百度阿里全吻上來(lái)了

▲DeepSeek在Hugging Face上的模型卡

智源研究院眾智FlagOS社區(qū)在8款A(yù)I芯片上適配DeepSeek-V4時(shí)，實(shí)現(xiàn)了三大技術(shù)突破：支持8種以上芯片的全算子替代、解除張量并行最多單機(jī)8卡限制、支持從“FP4+FP8混合精度”到BF16的精度轉(zhuǎn)換。

截至今日收盤，AI算力芯片板塊股價(jià)大漲，在A股，海光信息以8.2%的增幅領(lǐng)漲、寒武紀(jì)增幅為2.23%，在港股，天數(shù)智芯的漲幅達(dá)到9.54%。

8大國(guó)產(chǎn)AI芯片火速適配DeepSeek-V4！華為百度阿里全吻上來(lái)了

▲AI芯片板塊股價(jià)變化

一、華為昇騰首發(fā)適配，支撐DeepSeek-V4毫秒級(jí)推理、超高并發(fā)推理

首發(fā)適配DeepSeek-V4后，華為昇騰今日16點(diǎn)開(kāi)啟了“基于CANN的訓(xùn)推優(yōu)化實(shí)踐”直播。在直播中，華為相關(guān)研發(fā)人員提到其基于CANN進(jìn)行了全鏈路優(yōu)化：

8大國(guó)產(chǎn)AI芯片火速適配DeepSeek-V4！華為百度阿里全吻上來(lái)了

1、昇騰950超節(jié)點(diǎn)支撐DeepSeek V4毫秒級(jí)推理，背后有三大黑科技

昇騰950超節(jié)點(diǎn)實(shí)現(xiàn)DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低時(shí)延推理。這得益于昇騰950代際底層架構(gòu)的三大升級(jí)：

首先是原生精度加速，其全面支持FP8、MXFP8、MXFP4等數(shù)據(jù)格式，在保證模型精度的同時(shí)，可實(shí)現(xiàn)內(nèi)存占用降低50%+，計(jì)算能力翻倍。

其次是稀疏訪存優(yōu)化，針對(duì)MoE模型的離散訪存特征，他們通過(guò)大幅提升硬件級(jí)稀疏訪存能力，解決了專家路由過(guò)程中的帶寬瓶頸。

最后是Vector與Cube共享Memory，其采用創(chuàng)新存儲(chǔ)架構(gòu)設(shè)計(jì)，實(shí)現(xiàn)了向量單元（Vector）與矩陣單元（Cube）的Memory共享，消除大量片上數(shù)據(jù)搬運(yùn)開(kāi)銷，降低了端到端推理時(shí)延。

根據(jù)華為官方信息，昇騰950超節(jié)點(diǎn)還從基礎(chǔ)器件、協(xié)議算法到光電互聯(lián)，實(shí)現(xiàn)了系統(tǒng)級(jí)突破，支持用戶以64卡為步長(zhǎng)按需擴(kuò)展，可實(shí)現(xiàn)8192卡無(wú)收斂全互聯(lián)，提供業(yè)界最大Scale Up能力。

華為與DeepSeek聯(lián)合定義了昇騰超節(jié)點(diǎn)架構(gòu)，專門解決大模型超長(zhǎng)上下文推理的時(shí)延高、吞吐低、成本貴三大痛點(diǎn)，同時(shí)能做到萬(wàn)卡級(jí)大規(guī)模擴(kuò)展，并靠NAND SSU做低成本大容量KV Cache，支撐4K～1M全長(zhǎng)度長(zhǎng)序列應(yīng)用。

2、昇騰同步開(kāi)源DeepSeek-V4復(fù)雜稀疏注意力+mHC續(xù)訓(xùn)實(shí)現(xiàn)

華為昇騰通過(guò)TorchTitan-NPU插件與Autofuse自動(dòng)融合技術(shù)協(xié)同，實(shí)測(cè)模型吞吐量最高達(dá)到1100 tokens/p/s，實(shí)現(xiàn)模型訓(xùn)練性能開(kāi)箱即優(yōu)。

這得益于以下三大維度的系統(tǒng)級(jí)優(yōu)化：

極簡(jiǎn)分布式并行架構(gòu)：突破傳統(tǒng)復(fù)雜的混合并行設(shè)計(jì)，采用超節(jié)點(diǎn)親和的大EP+純FSDP的極簡(jiǎn)并行切分策略。

8大國(guó)產(chǎn)AI芯片火速適配DeepSeek-V4！華為百度阿里全吻上來(lái)了

▲并行策略

原生“入圖”與自動(dòng)融合：TorchTitan-NPU深度適配torch.compile機(jī)制，使能訓(xùn)練入圖技術(shù)，依托Inductor+AutoFuse（基于Ascend C的Codegen后端）實(shí)現(xiàn)端到端的Vector算子自動(dòng)融合，為整網(wǎng)帶來(lái)高達(dá)31.8%的開(kāi)箱即用性能收益。

稀疏Attention高效融合算子：針對(duì)稀疏注意力等復(fù)雜結(jié)構(gòu)，開(kāi)發(fā)SparseAttnSharedkv、LightningIndexer?等多個(gè)高效的NPU融合算子，釋放芯片稀疏算力。

3、推昇騰PyPTO編程范式，讓大模型算子開(kāi)發(fā)輕量化

此外，昇騰CANN還推出PyPTO編程范式，解決自定義算子開(kāi)發(fā)門檻高、周期長(zhǎng)的痛點(diǎn)。該范式提供完善的Python API，使開(kāi)發(fā)者能夠以符合Python習(xí)慣的語(yǔ)法進(jìn)行算子開(kāi)發(fā)。

PyPTO編程范式有四大特點(diǎn)：

首先是高效的算子開(kāi)發(fā)，PyPTO依托內(nèi)置高級(jí)編譯優(yōu)化，可自動(dòng)完成流水編排與內(nèi)存管理，使開(kāi)發(fā)者無(wú)需關(guān)注硬件細(xì)節(jié)而專注于計(jì)算流表達(dá)，實(shí)現(xiàn)DeepSeek-V4新一代模型算子開(kāi)發(fā)周期可縮短至天級(jí)。

其次是高性能Kernel自動(dòng)生成，針對(duì)Attention、Compressor、mHC等復(fù)雜邏輯算子，PyPTO可自動(dòng)生成高度優(yōu)化的Kernel，避免開(kāi)發(fā)者手動(dòng)處理繁瑣的同步與數(shù)據(jù)搬運(yùn)，縮短從算法驗(yàn)證到部署落地的開(kāi)發(fā)周期。

8大國(guó)產(chǎn)AI芯片火速適配DeepSeek-V4！華為百度阿里全吻上來(lái)了

▲融合Kernel

第三是PTO ISA虛擬指令集跨代兼容，PyPTO基于PTO虛擬指令集（PTO ISA），實(shí)現(xiàn)了對(duì)硬件新特性的“零感適配”，針對(duì)不同代際芯片統(tǒng)一指令接口，同一套算子代碼可在不同代際芯片上的兼容實(shí)現(xiàn)。

其借助畢昇編譯器的VF（Vector Fusion）自動(dòng)融合能力，可在micro kernel級(jí)別實(shí)現(xiàn)更優(yōu)融合。

最后是TileLang社區(qū)生態(tài)，TileLang-Ascend是TileLang針對(duì)華為昇騰平臺(tái)深度優(yōu)化的實(shí)現(xiàn)，分別對(duì)應(yīng)Tilelang-Ascend的Expert和Developer開(kāi)發(fā)模式，提供AscendC基礎(chǔ)指令和PTO AS兩種對(duì)接層次，為各種編程前端語(yǔ)言和編譯器提供多層開(kāi)放接口。

DeepSeek-V4模型相關(guān)實(shí)現(xiàn)已在TileAI開(kāi)源社區(qū)正式發(fā)布，后續(xù)將持續(xù)推進(jìn)性能優(yōu)化與功能迭代。

二、4家國(guó)產(chǎn)AI芯片官宣適配DeepSeek-V4

DeepSeek-V4模型發(fā)布后，寒武紀(jì)、華為昇騰、海光信息、摩爾線程火速官宣適配，拉開(kāi)國(guó)產(chǎn)AI芯片支持DeepSeek系列模型的大幕。

1、寒武紀(jì)

寒武紀(jì)基于vLLM推理框架完成對(duì)DeepSeek最新開(kāi)源模型285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro適配，適配代碼已開(kāi)源到GitHub社區(qū)。

2、華為

華為昇騰超節(jié)點(diǎn)全系列產(chǎn)品支持DeepSeek-V4系列模型?；贒eepSeek-V4-Pro模型，在8K輸入場(chǎng)景，昇騰950超節(jié)點(diǎn)可實(shí)現(xiàn)TPOT約20ms時(shí)單卡Decode吞吐4700TPS。DeepSeek-V4-Flash模型，8K長(zhǎng)序列輸入場(chǎng)景下可實(shí)現(xiàn)TPOT約10ms時(shí)單卡Decode吞吐1600TPS（注：上述Benchmark數(shù)據(jù)均基于Offine推理模式采集，不包含Serving調(diào)度和框架負(fù)載均衡影響）。

基于昇騰A3 64卡超節(jié)點(diǎn)結(jié)合大EP模式部署，DeepSeek-V4-Flash模型，8K/1K輸入輸出場(chǎng)景，基于vLLM推理引擎可實(shí)現(xiàn)2000+TPS的單卡Decode吞吐。針對(duì)DeepSeek V4-Pro模型，昇騰A3正同步支持推理部署，性能持續(xù)優(yōu)化中。

8大國(guó)產(chǎn)AI芯片火速適配DeepSeek-V4！華為百度阿里全吻上來(lái)了

3、海光信息

海光DCU同步完成對(duì)DeepSeek-V4的Day0適配，其中，DTK（異構(gòu)計(jì)算平臺(tái)）可為DeepSeek-V4提供完整的軟件生態(tài)支撐，DAS（人工智能基礎(chǔ)軟件系統(tǒng)）集成超2000個(gè)算子，提高DeepSeek-V4微調(diào)與推理性能，DAP（人工智能應(yīng)用平臺(tái)）內(nèi)置知識(shí)庫(kù)引擎、智能體編排引擎等高階模塊，可將DeepSeek-V4便捷集成到主流AI平臺(tái)。

4、摩爾線程

摩爾線程聯(lián)手智源眾智FlagOS社區(qū)，在旗艦級(jí)AI訓(xùn)推一體全功能GPU MTT S5000上，實(shí)現(xiàn)對(duì)新一代大模型DeepSeek-V4-Flash的Day-0極速適配，并完成全量核心算子的深度優(yōu)化與部署支持。

DeepSeek-V4模型首次采用“FP4+FP8”混合精度策略，當(dāng)前國(guó)內(nèi)主流AI芯片仍普遍以BF16為主。摩爾線程具有原生FP8支持優(yōu)勢(shì)，能夠高效承載DeepSeek-V4的精度設(shè)計(jì)。摩爾線程與FlagOS社區(qū)正持續(xù)推進(jìn)擁有1.6T旗艦?zāi)Ｐ停?.86萬(wàn)億參數(shù)）的DeepSeek-V4-Pro在MTT S5000上的遷移適配工作。

三、8大芯片全量適配，拆解三大黑科技

智源研究院眾智FlagOS社區(qū)宣布將對(duì)DeepSeek-V4模型進(jìn)行全量適配，目前其已完成DeepSeek-V4-Flash在8款以上AI芯片上的全量適配與推理部署，包括海光、沐曦、華為昇騰、摩爾線程（FP8）、昆侖芯、平頭哥真武、天數(shù)、英偉達(dá)（FP8）等芯片，正在推進(jìn)DeepSeek-V4-Pro模型在多個(gè)芯片的遷移適配。

這背后，智源研究院實(shí)現(xiàn)了三大技術(shù)突破：

1、支持8種以上芯片全算子替代

本次DeepSeek-V4-Flash的適配，全球最大的Triton單一算子庫(kù)FlagGems實(shí)現(xiàn)了模型推理鏈路中全部算子的替代。在40個(gè)主流模型上，推理任務(wù)算子覆蓋度達(dá)到90%~100%，能完整支持DeepSeek-V4-Flash的全部計(jì)算需求。這意味著徹底脫離CUDA算子依賴、無(wú)需芯片廠商逐一適配、新算子即時(shí)可用。

2、獨(dú)立并行策略，解除張量并行最多單機(jī)8卡限制

FlagOS團(tuán)隊(duì)對(duì)o_group張量并行改動(dòng)有：

（1）獨(dú)立的并行策略：獨(dú)立于已有的張量并行通信組之外，為o-group單獨(dú)構(gòu)建所需要的張量并行通信組，確保其他模型結(jié)構(gòu)張量并行切分超過(guò)8的情況下，o-group的張量并行在8以內(nèi)。

（2）參數(shù)轉(zhuǎn)換調(diào)整：對(duì)o_group相關(guān)的參數(shù)進(jìn)行對(duì)應(yīng)單獨(dú)的張量并行切分處理。

（3）覆蓋面擴(kuò)展：這一優(yōu)化能夠?qū)eepSeek-V4-Flash在單獨(dú)采用張量并行策略下，把可運(yùn)行芯片范圍從”僅限單機(jī)80GB以上顯存的個(gè)別高端卡“擴(kuò)展到”多機(jī)64GB/32GB的更多主流國(guó)產(chǎn)芯片”。

3、支持“FP4+FP8混合精度”到BF16的精度轉(zhuǎn)換

DeepSeek-V4模型采用FP4+FP8混合精度訓(xùn)練，但當(dāng)前所有國(guó)內(nèi)非英偉達(dá)AI芯片都未能支持FP4+FP8混合精度，只有摩爾線程原生支持了FP8，其余依然以BF16為主。

FlagOS完成了從FP4到BF16的完整精度轉(zhuǎn)換，將FP4量化權(quán)重轉(zhuǎn)換為BF16格式；FlagOS對(duì)推理鏈路中的GEMM、Attention、MoE路由等關(guān)鍵計(jì)算節(jié)點(diǎn)逐一適配了BF16路徑；經(jīng)過(guò)標(biāo)準(zhǔn)評(píng)測(cè)集驗(yàn)證，BF16版本與FP4原生版本在核心能力指標(biāo)上保持對(duì)齊，確保精度轉(zhuǎn)換不引入業(yè)務(wù)層面的效果損失。

FlagOS推出了FP8和BF16兩種適配版本，讓DeepSeek-V4-Flash不再是“只有最新英偉達(dá)卡才能跑”的模型，而是真正可以部署在FP8及BF16生態(tài)的主流國(guó)產(chǎn)芯片上。

智源研究院公布的數(shù)據(jù)顯示，經(jīng)GPQA_Diamond、AIME等評(píng)測(cè)集驗(yàn)證，F(xiàn)lagOS適配后的DeepSeek-V4-Flash，在語(yǔ)言理解、復(fù)雜推理、代碼生成、數(shù)學(xué)計(jì)算等核心能力上，可與CUDA原生版本對(duì)齊。

8大國(guó)產(chǎn)AI芯片火速適配DeepSeek-V4！華為百度阿里全吻上來(lái)了

DeepSeek-V4-Flash安裝部署指引：GitHub：https://github.com/flagos-ai/DeepSeek-V4-FlagOS

結(jié)語(yǔ)：DeepSeek-V4的里程碑時(shí)刻，國(guó)產(chǎn)頂級(jí)大模型+國(guó)產(chǎn)高端算力深度綁定

萬(wàn)眾期待的“國(guó)產(chǎn)大模型之光”DeepSeek-V4正式亮相后，多款國(guó)產(chǎn)高端芯片率先完成適配與深度兼容。這也意味著，國(guó)產(chǎn)頂級(jí)大模型與本土高端算力矩陣實(shí)現(xiàn)了全棧深度綁定與協(xié)同。

此次華為等國(guó)產(chǎn)芯片廠商與 DeepSeek 強(qiáng)強(qiáng)聯(lián)合，在技術(shù)協(xié)同迭代、規(guī)?；a(chǎn)業(yè)落地、本土生態(tài)共建三大維度，都具有里程碑意義。此舉有望打破英偉達(dá)長(zhǎng)期主導(dǎo)的壟斷生態(tài)，推動(dòng)國(guó)內(nèi)AI國(guó)產(chǎn)軟硬一體、自主可控產(chǎn)業(yè)鏈發(fā)展。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、華為昇騰首發(fā)適配，支撐DeepSeek-V4毫秒級(jí)推理、超高并發(fā)推理

二、4家國(guó)產(chǎn)AI芯片官宣適配DeepSeek-V4

三、8大芯片全量適配，拆解三大黑科技

結(jié)語(yǔ)：DeepSeek-V4的里程碑時(shí)刻，國(guó)產(chǎn)頂級(jí)大模型+國(guó)產(chǎn)高端算力深度綁定

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、華為昇騰首發(fā)適配，支撐DeepSeek-V4毫秒級(jí)推理、超高并發(fā)推理

二、4家國(guó)產(chǎn)AI芯片官宣適配DeepSeek-V4

三、8大芯片全量適配，拆解三大黑科技

結(jié)語(yǔ)：DeepSeek-V4的里程碑時(shí)刻，國(guó)產(chǎn)頂級(jí)大模型+國(guó)產(chǎn)高端算力深度綁定

相關(guān)推薦

一、華為昇騰首發(fā)適配，支撐DeepSeek-V4毫秒級(jí)推理、超高并發(fā)推理

二、4家國(guó)產(chǎn)AI芯片官宣適配DeepSeek-V4

三、8大芯片全量適配，拆解三大黑科技

結(jié)語(yǔ)：DeepSeek-V4的里程碑時(shí)刻，國(guó)產(chǎn)頂級(jí)大模型+國(guó)產(chǎn)高端算力深度綁定