无码中文字幕av免费放

華為+DeepSeek,推理性能創(chuàng)新高!技術(shù)報(bào)告也公布出來(lái)了

部署超大規(guī)模MoE這件事,國(guó)產(chǎn)芯片的推理性能,已經(jīng)再創(chuàng)新高了——

不僅是“英偉達(dá)含量為0”這么簡(jiǎn)單,更是性能全面超越英偉達(dá)Hopper架構(gòu)!

而做到這一點(diǎn)的,正是華為昇騰;具體而言,共包含兩個(gè)產(chǎn)品:

CloudMatrix 384超節(jié)點(diǎn)

部署DeepSeek V3/R1,在50ms時(shí)延約束下單卡Decode吞吐突破1920 Tokens/s

Atlas 800I A2推理服務(wù)器

部署DeepSeek V3/R1,在100ms時(shí)延約束下單卡吞吐達(dá)到808 Tokens/s,可支持靈活的分布式部署

之所以能夠這般,是因?yàn)槿A為昇騰所采取的“以數(shù)學(xué)補(bǔ)物理”——這種通過(guò)數(shù)學(xué)理論、工具、算法和建模等方式,來(lái)彌補(bǔ)硬件和工藝的局限性,實(shí)現(xiàn)最大化發(fā)揮芯片和系統(tǒng)能力效果。

華為昇騰還不只是“官宣”一下而已,后面更會(huì)是全面開(kāi)源。

不僅已經(jīng)將昇騰在超大規(guī)模MoE模型推理部署的技術(shù)報(bào)告分享了出來(lái),在一個(gè)月時(shí)間內(nèi),還會(huì)把實(shí)現(xiàn)這些核心技術(shù)的相關(guān)代碼也都會(huì)陸續(xù)開(kāi)源出來(lái)。

那么接下來(lái),我們就來(lái)深入了解一下華為昇騰背后的技術(shù)實(shí)力。

在華為昇騰上推理DeepSeek

在深挖華為昇騰背后技術(shù)創(chuàng)新之前,我們且需了解一下為什么要這么做。

從2017年Google提出的Transformer架構(gòu),到2025年DeepSeek V3/R1的爆紅,大語(yǔ)言模型的重心正在從訓(xùn)練開(kāi)發(fā)轉(zhuǎn)向推理應(yīng)用落地。

推理能力不僅是大模型能力的“試金石”,各大企業(yè)已從 “拼模型參數(shù)” 轉(zhuǎn)向 “拼推理效率”:

誰(shuí)能讓大模型在實(shí)際應(yīng)用中跑得更快、更穩(wěn)、更省資源,誰(shuí)就能在商業(yè)化浪潮中搶占先機(jī)。

然而,以6710億參數(shù)的DeepSeek V3為例,這類超大規(guī)模MoE模型雖然強(qiáng)大,卻給硬件帶來(lái)三大 “成長(zhǎng)煩惱”:

內(nèi)存壓力山大

一個(gè)模型包含257個(gè)專家,每個(gè)專家 “體重” 2.5G,普通64GB內(nèi)存的AI硬件根本 “扛不動(dòng)”,必須依賴集群協(xié)作。

通信開(kāi)銷爆炸

專家分布在不同芯片上,數(shù)據(jù)傳輸耗時(shí)甚至超過(guò)計(jì)算時(shí)間,就像團(tuán)隊(duì)成員頻繁開(kāi)會(huì)溝通,效率大打折扣。

架構(gòu)創(chuàng)新的 “甜蜜負(fù)擔(dān)”

例如 “多頭隱式注意力機(jī)制(MLA)” 雖然壓縮了數(shù)據(jù)空間,卻導(dǎo)致中間變量激增,對(duì)芯片的計(jì)算能力提出更高要求。

面對(duì)這些挑戰(zhàn),華為團(tuán)隊(duì)從算子、模型和框架三方面入手,基于昇騰硬件特性,開(kāi)發(fā)了一整套面向集群的大規(guī)模專家并行解決方案。

在硬件部署上,華為團(tuán)隊(duì)根據(jù)不同硬件配置——CloudMatrix 384超節(jié)點(diǎn)和Atlas 800I A2推理服務(wù)器,針對(duì)性地采取了不同的部署優(yōu)化策略。為解耦Prefill和Decode階段的時(shí)延約束,昇騰采用PD分離部署方式。

在框架側(cè),昇騰基于vLLM框架,適配DP和EP等多種并行策略,通過(guò)Prefill調(diào)度分桶、靈衢互聯(lián)與分層傳輸?shù)燃夹g(shù)來(lái)降低調(diào)度開(kāi)銷,優(yōu)化請(qǐng)求下發(fā)、調(diào)度策略等環(huán)節(jié),提升系統(tǒng)性能。

在模型方面,昇騰采用A8W8C16量化策略,其中A8W8使用INT8,C16使用BF16,并針對(duì)不同機(jī)型進(jìn)行差異化部署。

針對(duì)CloudMatrix 384超節(jié)點(diǎn),其強(qiáng)大的組網(wǎng)能力大幅降低了通信耗時(shí),釋放了昇騰芯片的算力。

團(tuán)隊(duì)采用大規(guī)模EP并行部署,Prefill使用16卡,Decode使用144卡,其中128卡部署路由專家,16卡部署共享專家,MLA部分采用DP部署。

盡管存在時(shí)延約束、帶寬搶占、調(diào)度開(kāi)銷、負(fù)載不均等因素影響,最終在50ms時(shí)延下,單卡decode吞吐達(dá)到1920 Token/s。

針對(duì)機(jī)群規(guī)模較小但部署更加靈活的Atlas 800I A2服務(wù)器,華為團(tuán)隊(duì)采用多節(jié)點(diǎn)互聯(lián)的方式進(jìn)行部署。

作為示例,華為團(tuán)隊(duì)使用2機(jī)16卡進(jìn)行Prefill,4機(jī)32卡進(jìn)行Decode,每卡部署8個(gè)路由專家和1個(gè)共享專家,MLA部分采用DP并行,并針對(duì)性地使用在真實(shí)負(fù)載下性能更優(yōu)的AllGather/ReduceScatter的通信方案。

通過(guò)各種策略優(yōu)化,在100ms時(shí)延下,單卡吞吐達(dá)到808 Tokens/s。

還有更多優(yōu)化技術(shù)

推理框架優(yōu)化方面,針對(duì)高并發(fā)場(chǎng)景下單點(diǎn)API Server這一性能瓶頸,華為團(tuán)隊(duì)設(shè)計(jì)了API Server橫向擴(kuò)展方案,采用水平擴(kuò)展技術(shù)提升框架的請(qǐng)求響應(yīng)能力,顯著降低用戶請(qǐng)求延遲并提高整體服務(wù)吞吐量(QPS)。

針對(duì)MoE模型中的負(fù)載不均問(wèn)題,基于動(dòng)態(tài)調(diào)整專家部署與縮小通信域、熱專家冗余部署、實(shí)時(shí)調(diào)度與動(dòng)態(tài)監(jiān)控機(jī)制等核心技術(shù),降低顯存占用的同時(shí)實(shí)現(xiàn)動(dòng)態(tài)負(fù)載均衡。

投機(jī)推理技術(shù)的工程化應(yīng)用中,如何將其從小批量低時(shí)延場(chǎng)景擴(kuò)展至高吞吐量場(chǎng)景,是行業(yè)面臨的共性難題。

華為團(tuán)隊(duì)基于昇騰芯片高計(jì)算帶寬比的硬件特性,提出FusionSpec投機(jī)推理引擎,針對(duì)性優(yōu)化多Token預(yù)測(cè)(MTP)場(chǎng)景下的推理性能:

流程重構(gòu)

將投機(jī)模型后置於主體模型,直接復(fù)用主體模型的輸出結(jié)果與控制參數(shù),大幅減少框架耗時(shí),完美適配參數(shù)-數(shù)據(jù)分離(PD 分離)的分布式部署架構(gòu);

輕量步間優(yōu)化

對(duì)投機(jī)推理場(chǎng)景中的框架和算子優(yōu)化實(shí)現(xiàn)了輕量步間準(zhǔn)備,適配多核并行的全異步框架。

通信優(yōu)化方面,華為昇騰也有三大妙招。

首先,針對(duì)主流張量并行(TP)方案中AllReduce通信的固有缺陷(通信次數(shù)多、數(shù)據(jù)量大、冗余計(jì)算顯著),華為團(tuán)隊(duì)推出FlashComm通信方案,通過(guò)集合通信邏輯重構(gòu)與算子位置編排,實(shí)現(xiàn)低比特、低維度數(shù)據(jù)通信,在降低通信時(shí)延的同時(shí)消除冗余計(jì)算,最終實(shí)現(xiàn)25%通信量的降低和10%推理性能的提升。

其次,在FlashComm基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步提出層內(nèi)并行轉(zhuǎn)換方案,針對(duì)Prefill階段的MLA層,通過(guò)張量并行(TP)與數(shù)據(jù)并行(DP)的靈活轉(zhuǎn)換,消除節(jié)點(diǎn)內(nèi)卡間求和操作,并利用網(wǎng)絡(luò)低維特性與量化技術(shù)壓縮通信數(shù)據(jù)量,顯著降低跨卡通信時(shí)延,為大模型分布式推理提供更高效的通信支撐。

第三,通信方面的優(yōu)化還有一個(gè)并發(fā)機(jī)制的深度挖掘,包括:

計(jì)算通信并發(fā)

通過(guò)Gate函數(shù)計(jì)算與AllGather通信的解耦,結(jié)合共享專家的數(shù)據(jù)并行(DP)策略,利用昇騰多流機(jī)制實(shí)現(xiàn)計(jì)算與通信的并發(fā)執(zhí)行,最大化硬件利用率;

通信通信并發(fā)

針對(duì)DeepSeek模型的量化場(chǎng)景,將激活值與scale的傳輸任務(wù)并行處理,在不增加帶寬壓力的前提下掩蓋小數(shù)據(jù)量通信的啟動(dòng)開(kāi)銷;

通信和權(quán)重預(yù)并發(fā)

利用通信階段HBM帶寬低占用特性,提前將后續(xù)算子權(quán)重預(yù)取至緩存,降低計(jì)算階段的數(shù)據(jù)搬運(yùn)開(kāi)銷,實(shí)測(cè)MLA層計(jì)算性能提升10%。

最后,就是在算子方面的優(yōu)化了。華為團(tuán)隊(duì)通過(guò)以數(shù)學(xué)補(bǔ)物理,發(fā)展了一系列的優(yōu)化技術(shù)。

針對(duì)MLA算子中間變量膨脹與計(jì)算量激增的挑戰(zhàn),團(tuán)隊(duì)開(kāi)展硬件親和性優(yōu)化:

算法重構(gòu):提出AMLA算法,通過(guò)二進(jìn)制編碼與存內(nèi)計(jì)算,將乘性計(jì)算轉(zhuǎn)換為加性等價(jià)形式,直接在全局內(nèi)存完成輸出更新,減少數(shù)據(jù)搬運(yùn)耗時(shí);

緩存策略:通過(guò)L1/L2緩存精細(xì)化管理與K-buffer流水排布,提升緩存命中率與計(jì)算效率,實(shí)現(xiàn)張量計(jì)算與向量計(jì)算的相互掩蓋;

前序算子融合:在Prefill與Decode階段分別采用雙流并發(fā)與算子融合技術(shù),結(jié)合權(quán)重預(yù)取、分塊策略及定制指令集優(yōu)化,構(gòu)建端到端高效計(jì)算鏈路。

MoE算子方面的優(yōu)化則包括:

通算融合算子:針對(duì)EP部署模式下MoE專家的跨卡調(diào)度難題,設(shè)計(jì)MoeDistributeDispatch/Combine算子,通過(guò) Token 粒度的流水排布與內(nèi)存語(yǔ)義通信技術(shù),將通信與計(jì)算并行化,減少卡間同步開(kāi)銷;

SMTurbo-CPP技術(shù):針對(duì)小數(shù)據(jù)量通信效率問(wèn)題,通過(guò)讀寫(xiě)混合、聚合流水等硬件并發(fā)技術(shù),提升AllToAll(v)算子的吞吐能力,降低Dispatch/Combine場(chǎng)景時(shí)延;

細(xì)粒度分級(jí)流水算法:基于Atlas 800I A2組網(wǎng)特性,實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)/節(jié)點(diǎn)間的集合通信并發(fā)執(zhí)行,大幅提升集群環(huán)境下的帶寬利用率。

性能創(chuàng)新高

在Decode性能測(cè)試方面,Atlas 800I A2所采用的方式是:

序列長(zhǎng)度為2K輸入+2K輸出和1K輸入+2K輸出兩種情況

在使能MTP進(jìn)行推理加速的情況下,由于不同測(cè)試數(shù)據(jù)集和業(yè)務(wù)場(chǎng)景的MTP接受率不同,性能測(cè)試結(jié)果會(huì)有比較大的偏差。因此在計(jì)算時(shí)延和吞吐的時(shí)候默認(rèn)按照70%接受率來(lái)折算。

TPOT(Decode平均每Token時(shí)延)不超過(guò)100ms。

具體表現(xiàn)如下所示:

在Prefill上的測(cè)試方法是,單batch輸入序列長(zhǎng)度為2K/1K,通過(guò)拼batch的方式拼成一共16K序列。對(duì)于序列長(zhǎng)度是2K,共8 batch拼成一共16K序列的場(chǎng)景,端到端耗時(shí)為631ms,卡均吞吐為1622 Tokens/s。

具體表現(xiàn)如下圖所示:

在2025年4月,硅基流動(dòng)聯(lián)合華為云基于CloudMatrix 384超節(jié)點(diǎn)昇騰云服務(wù)和高性能推理框架SiliconLLM,用大規(guī)模專家并行最佳實(shí)踐正式上線DeepSeek-R1。

該服務(wù)在保證單用戶20 TPS(等效50ms時(shí)延約束) 水平前提下,單卡Decode吞吐突破1920 Tokens/s,可比肩H100部署性能。

而也正如我們剛才提到的,昇騰在超大規(guī)模MoE模型推理部署的技術(shù)報(bào)告分享了出來(lái)了,想要更深入了解的小伙伴,可以在文末鏈接中自取哦~

One More Thing

就在本周,華為昇騰還將舉辦一個(gè)技術(shù)披露周!


上一篇:美的方洪波,士為知己者死

下一篇:沒(méi)有了

相關(guān)內(nèi)容