簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

DeepSeek“開(kāi)源周”收官,連續(xù)五天到底都發(fā)布了什么?

掃一掃下載界面新聞APP

DeepSeek“開(kāi)源周”收官,連續(xù)五天到底都發(fā)布了什么?

全球開(kāi)發(fā)者可基于這些開(kāi)源項(xiàng)目進(jìn)行二次開(kāi)發(fā)與改進(jìn)。

圖片來(lái)源:視覺(jué)中國(guó)

界面新聞?dòng)浾?| 宋佳楠

2月28日,國(guó)內(nèi)AI明星公司DeepSeek為期五天的 “開(kāi)源周” 告一段落。其于2月24日正式啟動(dòng),計(jì)劃開(kāi)源5個(gè)代碼庫(kù),旨在以完全透明的方式與全球開(kāi)發(fā)者社區(qū)分享其在通用人工智能(AGI)領(lǐng)域的研究進(jìn)展。

回顧這五日,其最先開(kāi)源的是FlashMLA,這是專為英偉達(dá)Hopper GPU優(yōu)化的高效MLA解碼內(nèi)核,專為處理可變長(zhǎng)度序列設(shè)計(jì)。

在自然語(yǔ)言處理等任務(wù)里,數(shù)據(jù)序列長(zhǎng)度不一,傳統(tǒng)處理方式會(huì)造成算力浪費(fèi)。而FlashMLA如同智能交通調(diào)度員,能依據(jù)序列長(zhǎng)度動(dòng)態(tài)調(diào)配計(jì)算資源。例如在同時(shí)處理長(zhǎng)文本和短文本時(shí),它可以精準(zhǔn)地為不同長(zhǎng)度的文本分配恰當(dāng)?shù)乃懔?,避?“大馬拉小車” 或資源不足的情況。發(fā)布6小時(shí)內(nèi),GitHub上收藏量突破5000次,被認(rèn)為對(duì)國(guó)產(chǎn)GPU性能提升意義重大。

第二日開(kāi)源的是DeepEP。DeepEP是首個(gè)用于MoE(混合專家模型)訓(xùn)練和推理的開(kāi)源EP通信庫(kù)。MoE模型訓(xùn)練和推理中,不同專家模型需高效協(xié)作,這對(duì)通信效率要求極高。DeepEP支持優(yōu)化的全對(duì)全通信模式,就像構(gòu)建了一條順暢的高速公路,讓數(shù)據(jù)在各個(gè)節(jié)點(diǎn)間高效傳輸。

它還原生支持FP8低精度運(yùn)算調(diào)度,降低計(jì)算資源消耗,并且在節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間都支持NVLink和RDMA,擁有用于訓(xùn)練和推理預(yù)填充的高吞吐量?jī)?nèi)核以及用于推理解碼的低延遲內(nèi)核。簡(jiǎn)單來(lái)說(shuō),它讓MoE模型各部分間溝通更快、消耗更少,提升了整體運(yùn)行效率 。

第三日是DeepGEMM,矩陣乘法加速庫(kù),為V3/R1的訓(xùn)練和推理提供支持。通用矩陣乘法是眾多高性能計(jì)算任務(wù)的核心,其性能優(yōu)化是大模型降本增效的關(guān)鍵。DeepGEMM采用了DeepSeek-V3中提出的細(xì)粒度scaling技術(shù),僅用300行代碼就實(shí)現(xiàn)了簡(jiǎn)潔高效的FP8通用矩陣乘法。

它支持普通GEMM以及專家混合(MoE)分組GEMM,在Hopper GPU上最高可達(dá)到1350+ FP8 TFLOPS(每秒萬(wàn)億次浮點(diǎn)運(yùn)算)的計(jì)算性能,在各種矩陣形狀上的性能與專家調(diào)優(yōu)的庫(kù)相當(dāng),甚至在某些情況下更優(yōu),且安裝時(shí)無(wú)需編譯,通過(guò)輕量級(jí)JIT模塊在運(yùn)行時(shí)編譯所有內(nèi)核。

第四日開(kāi)源優(yōu)化并行策略(DualPipe和EPLB)。DualPipe是一種用于V3/R1訓(xùn)練中計(jì)算與通信重疊的雙向管道并行算法。以往的管道并行存在 “氣泡” 問(wèn)題,即計(jì)算和通信階段存在等待時(shí)間,造成資源浪費(fèi)。DualPipe通過(guò)實(shí)現(xiàn) “向前” 與 “向后” 計(jì)算通信階段的雙向重疊,將硬件資源利用率提升超30%。

EPLB則是一種針對(duì)V3/R1的專家并行負(fù)載均衡器?;诨旌蠈<遥∕oE)架構(gòu),它通過(guò)冗余專家策略復(fù)制高負(fù)載專家,并結(jié)合啟發(fā)式分配算法優(yōu)化GPU間的負(fù)載分布,減少GPU閑置現(xiàn)象。

在第五日,DeepSeep開(kāi)源了面向全數(shù)據(jù)訪問(wèn)的推進(jìn)器3FS,也就是Fire-Flyer文件系統(tǒng)。它是一個(gè)專門為了充分利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)帶寬而設(shè)計(jì)的并行文件系統(tǒng),能實(shí)現(xiàn)高速數(shù)據(jù)訪問(wèn),提升AI模型訓(xùn)練和推理的效率。

此外,DeepSeek還開(kāi)源了基于3FS的數(shù)據(jù)處理框架Smallpond,它可以進(jìn)一步優(yōu)化3FS的數(shù)據(jù)管理能力,讓數(shù)據(jù)處理更加方便、快捷。

全球開(kāi)發(fā)者可基于上述開(kāi)源項(xiàng)目進(jìn)行二次開(kāi)發(fā)與改進(jìn),有望推動(dòng)AI技術(shù)在更多領(lǐng)域的應(yīng)用。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

寶潔

3.6k
  • 亞太股份(002284.SZ):2024年年報(bào)凈利潤(rùn)為2.13億元
  • 且初背后的這家公司,有可能成為中國(guó)寶潔嗎?

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

DeepSeek“開(kāi)源周”收官,連續(xù)五天到底都發(fā)布了什么?

全球開(kāi)發(fā)者可基于這些開(kāi)源項(xiàng)目進(jìn)行二次開(kāi)發(fā)與改進(jìn)。

圖片來(lái)源:視覺(jué)中國(guó)

界面新聞?dòng)浾?| 宋佳楠

2月28日,國(guó)內(nèi)AI明星公司DeepSeek為期五天的 “開(kāi)源周” 告一段落。其于2月24日正式啟動(dòng),計(jì)劃開(kāi)源5個(gè)代碼庫(kù),旨在以完全透明的方式與全球開(kāi)發(fā)者社區(qū)分享其在通用人工智能(AGI)領(lǐng)域的研究進(jìn)展。

回顧這五日,其最先開(kāi)源的是FlashMLA,這是專為英偉達(dá)Hopper GPU優(yōu)化的高效MLA解碼內(nèi)核,專為處理可變長(zhǎng)度序列設(shè)計(jì)。

在自然語(yǔ)言處理等任務(wù)里,數(shù)據(jù)序列長(zhǎng)度不一,傳統(tǒng)處理方式會(huì)造成算力浪費(fèi)。而FlashMLA如同智能交通調(diào)度員,能依據(jù)序列長(zhǎng)度動(dòng)態(tài)調(diào)配計(jì)算資源。例如在同時(shí)處理長(zhǎng)文本和短文本時(shí),它可以精準(zhǔn)地為不同長(zhǎng)度的文本分配恰當(dāng)?shù)乃懔?,避?“大馬拉小車” 或資源不足的情況。發(fā)布6小時(shí)內(nèi),GitHub上收藏量突破5000次,被認(rèn)為對(duì)國(guó)產(chǎn)GPU性能提升意義重大。

第二日開(kāi)源的是DeepEP。DeepEP是首個(gè)用于MoE(混合專家模型)訓(xùn)練和推理的開(kāi)源EP通信庫(kù)。MoE模型訓(xùn)練和推理中,不同專家模型需高效協(xié)作,這對(duì)通信效率要求極高。DeepEP支持優(yōu)化的全對(duì)全通信模式,就像構(gòu)建了一條順暢的高速公路,讓數(shù)據(jù)在各個(gè)節(jié)點(diǎn)間高效傳輸。

它還原生支持FP8低精度運(yùn)算調(diào)度,降低計(jì)算資源消耗,并且在節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間都支持NVLink和RDMA,擁有用于訓(xùn)練和推理預(yù)填充的高吞吐量?jī)?nèi)核以及用于推理解碼的低延遲內(nèi)核。簡(jiǎn)單來(lái)說(shuō),它讓MoE模型各部分間溝通更快、消耗更少,提升了整體運(yùn)行效率 。

第三日是DeepGEMM,矩陣乘法加速庫(kù),為V3/R1的訓(xùn)練和推理提供支持。通用矩陣乘法是眾多高性能計(jì)算任務(wù)的核心,其性能優(yōu)化是大模型降本增效的關(guān)鍵。DeepGEMM采用了DeepSeek-V3中提出的細(xì)粒度scaling技術(shù),僅用300行代碼就實(shí)現(xiàn)了簡(jiǎn)潔高效的FP8通用矩陣乘法。

它支持普通GEMM以及專家混合(MoE)分組GEMM,在Hopper GPU上最高可達(dá)到1350+ FP8 TFLOPS(每秒萬(wàn)億次浮點(diǎn)運(yùn)算)的計(jì)算性能,在各種矩陣形狀上的性能與專家調(diào)優(yōu)的庫(kù)相當(dāng),甚至在某些情況下更優(yōu),且安裝時(shí)無(wú)需編譯,通過(guò)輕量級(jí)JIT模塊在運(yùn)行時(shí)編譯所有內(nèi)核。

第四日開(kāi)源優(yōu)化并行策略(DualPipe和EPLB)。DualPipe是一種用于V3/R1訓(xùn)練中計(jì)算與通信重疊的雙向管道并行算法。以往的管道并行存在 “氣泡” 問(wèn)題,即計(jì)算和通信階段存在等待時(shí)間,造成資源浪費(fèi)。DualPipe通過(guò)實(shí)現(xiàn) “向前” 與 “向后” 計(jì)算通信階段的雙向重疊,將硬件資源利用率提升超30%。

EPLB則是一種針對(duì)V3/R1的專家并行負(fù)載均衡器?;诨旌蠈<遥∕oE)架構(gòu),它通過(guò)冗余專家策略復(fù)制高負(fù)載專家,并結(jié)合啟發(fā)式分配算法優(yōu)化GPU間的負(fù)載分布,減少GPU閑置現(xiàn)象。

在第五日,DeepSeep開(kāi)源了面向全數(shù)據(jù)訪問(wèn)的推進(jìn)器3FS,也就是Fire-Flyer文件系統(tǒng)。它是一個(gè)專門為了充分利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)帶寬而設(shè)計(jì)的并行文件系統(tǒng),能實(shí)現(xiàn)高速數(shù)據(jù)訪問(wèn),提升AI模型訓(xùn)練和推理的效率。

此外,DeepSeek還開(kāi)源了基于3FS的數(shù)據(jù)處理框架Smallpond,它可以進(jìn)一步優(yōu)化3FS的數(shù)據(jù)管理能力,讓數(shù)據(jù)處理更加方便、快捷。

全球開(kāi)發(fā)者可基于上述開(kāi)源項(xiàng)目進(jìn)行二次開(kāi)發(fā)與改進(jìn),有望推動(dòng)AI技術(shù)在更多領(lǐng)域的應(yīng)用。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。
主站蜘蛛池模板: 宾川县| 柳林县| 浦城县| 普格县| 南雄市| 邯郸市| 南昌市| 西华县| 临西县| 铜陵市| 繁昌县| 正阳县| 遂平县| 青田县| 尚义县| 乌什县| 大城县| 双江| 综艺| 赫章县| 枣阳市| 芜湖县| 同心县| 临沧市| 卫辉市| 唐海县| 德江县| 桂林市| 涟水县| 庆城县| 旺苍县| 高邮市| 平罗县| 平武县| 乌兰浩特市| 南澳县| 乌鲁木齐县| 汕尾市| 方山县| 仙游县| 宜君县|