界面新聞?dòng)浾?| 宋佳楠
2月28日,國(guó)內(nèi)AI明星公司DeepSeek為期五天的 “開(kāi)源周” 告一段落。其于2月24日正式啟動(dòng),計(jì)劃開(kāi)源5個(gè)代碼庫(kù),旨在以完全透明的方式與全球開(kāi)發(fā)者社區(qū)分享其在通用人工智能(AGI)領(lǐng)域的研究進(jìn)展。
回顧這五日,其最先開(kāi)源的是FlashMLA,這是專為英偉達(dá)Hopper GPU優(yōu)化的高效MLA解碼內(nèi)核,專為處理可變長(zhǎng)度序列設(shè)計(jì)。
在自然語(yǔ)言處理等任務(wù)里,數(shù)據(jù)序列長(zhǎng)度不一,傳統(tǒng)處理方式會(huì)造成算力浪費(fèi)。而FlashMLA如同智能交通調(diào)度員,能依據(jù)序列長(zhǎng)度動(dòng)態(tài)調(diào)配計(jì)算資源。例如在同時(shí)處理長(zhǎng)文本和短文本時(shí),它可以精準(zhǔn)地為不同長(zhǎng)度的文本分配恰當(dāng)?shù)乃懔?,避?“大馬拉小車” 或資源不足的情況。發(fā)布6小時(shí)內(nèi),GitHub上收藏量突破5000次,被認(rèn)為對(duì)國(guó)產(chǎn)GPU性能提升意義重大。
第二日開(kāi)源的是DeepEP。DeepEP是首個(gè)用于MoE(混合專家模型)訓(xùn)練和推理的開(kāi)源EP通信庫(kù)。MoE模型訓(xùn)練和推理中,不同專家模型需高效協(xié)作,這對(duì)通信效率要求極高。DeepEP支持優(yōu)化的全對(duì)全通信模式,就像構(gòu)建了一條順暢的高速公路,讓數(shù)據(jù)在各個(gè)節(jié)點(diǎn)間高效傳輸。
它還原生支持FP8低精度運(yùn)算調(diào)度,降低計(jì)算資源消耗,并且在節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間都支持NVLink和RDMA,擁有用于訓(xùn)練和推理預(yù)填充的高吞吐量?jī)?nèi)核以及用于推理解碼的低延遲內(nèi)核。簡(jiǎn)單來(lái)說(shuō),它讓MoE模型各部分間溝通更快、消耗更少,提升了整體運(yùn)行效率 。
第三日是DeepGEMM,矩陣乘法加速庫(kù),為V3/R1的訓(xùn)練和推理提供支持。通用矩陣乘法是眾多高性能計(jì)算任務(wù)的核心,其性能優(yōu)化是大模型降本增效的關(guān)鍵。DeepGEMM采用了DeepSeek-V3中提出的細(xì)粒度scaling技術(shù),僅用300行代碼就實(shí)現(xiàn)了簡(jiǎn)潔高效的FP8通用矩陣乘法。
它支持普通GEMM以及專家混合(MoE)分組GEMM,在Hopper GPU上最高可達(dá)到1350+ FP8 TFLOPS(每秒萬(wàn)億次浮點(diǎn)運(yùn)算)的計(jì)算性能,在各種矩陣形狀上的性能與專家調(diào)優(yōu)的庫(kù)相當(dāng),甚至在某些情況下更優(yōu),且安裝時(shí)無(wú)需編譯,通過(guò)輕量級(jí)JIT模塊在運(yùn)行時(shí)編譯所有內(nèi)核。
第四日開(kāi)源優(yōu)化并行策略(DualPipe和EPLB)。DualPipe是一種用于V3/R1訓(xùn)練中計(jì)算與通信重疊的雙向管道并行算法。以往的管道并行存在 “氣泡” 問(wèn)題,即計(jì)算和通信階段存在等待時(shí)間,造成資源浪費(fèi)。DualPipe通過(guò)實(shí)現(xiàn) “向前” 與 “向后” 計(jì)算通信階段的雙向重疊,將硬件資源利用率提升超30%。
EPLB則是一種針對(duì)V3/R1的專家并行負(fù)載均衡器?;诨旌蠈<遥∕oE)架構(gòu),它通過(guò)冗余專家策略復(fù)制高負(fù)載專家,并結(jié)合啟發(fā)式分配算法優(yōu)化GPU間的負(fù)載分布,減少GPU閑置現(xiàn)象。
在第五日,DeepSeep開(kāi)源了面向全數(shù)據(jù)訪問(wèn)的推進(jìn)器3FS,也就是Fire-Flyer文件系統(tǒng)。它是一個(gè)專門為了充分利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)帶寬而設(shè)計(jì)的并行文件系統(tǒng),能實(shí)現(xiàn)高速數(shù)據(jù)訪問(wèn),提升AI模型訓(xùn)練和推理的效率。
此外,DeepSeek還開(kāi)源了基于3FS的數(shù)據(jù)處理框架Smallpond,它可以進(jìn)一步優(yōu)化3FS的數(shù)據(jù)管理能力,讓數(shù)據(jù)處理更加方便、快捷。
全球開(kāi)發(fā)者可基于上述開(kāi)源項(xiàng)目進(jìn)行二次開(kāi)發(fā)與改進(jìn),有望推動(dòng)AI技術(shù)在更多領(lǐng)域的應(yīng)用。