簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

從2022新公開的特斯拉機器人Dojo芯片架構解析到存算一體

掃一掃下載界面新聞APP

從2022新公開的特斯拉機器人Dojo芯片架構解析到存算一體

特斯拉即將開始Dojo超級計算機的首批組裝,特斯拉Dojo超級計算機將于明年投用。

文|半導體產業縱橫

在Hot Chips 34(2022)大會上,Emil Talpes公開了特斯拉Dojo處理器的關鍵細節。

Emil Talpes 本人在 AMD 工作了近 17 年,曾研究各種 Opteron 處理器以及 “K12”Arm服務器芯片。

D1處理器由臺積電制造,采用7納米制造工藝,擁有500億個晶體管,芯片面積為645mm2,小于英偉達的A100(826 mm2)和AMD Arcturus(750 mm2)。要知道,這個D1處理器可是特斯拉人形機器人的核心,意義重大。

千芯科技陳巍博士就D1架構、D1訓練模塊、D1訓練網格以及訓練矩陣整體架構做了解析。

D1處理器架構

D1處理器結構

每個D1處理器由 18 x 20 的D1核心構成。每個D1處理器中有354個D1核心可用。估計是出于良率和處理器核心穩定考慮,D1處理器由臺積電制造,采用7nm制造工藝,擁有500億個晶體管,芯片面積為645mm2。

這個尺寸小于英偉達的A100(826 mm2)和AMD Arcturus(750 mm2)。但是每個核心都是一個完整的帶矩陣計算能力的CPU,其計算靈活性是遠超眾核架構的GPU的,這也會帶來極高的成本。這個架構有點類似于SambaNova。

D1芯片運行在2GHz,擁有巨大的440MB SRAM,是存算一體架構(近存計算)。

D1核心的架構

D1核心結構

從18x20陣列中每個D1核心的結構上看,每個D1核心是帶有向量計算/矩陣計算能力的處理器,具有完整的取指、譯碼、執行部件。處理器運行在2GHz,具有4個8x8x4矩陣乘法計算單元。

D1處理器指令集

據稱D1以RISC-V架構ISA為基礎進行擴展。

D1核心具備FP32和FP16這兩個標準的計算格式,同時還具備更適合Inference的BFP16格式。為了達到混合精度計算提升性能的目的,D1還采用了用于較低精度和更高吞吐量的 8 位 CFP8 格式。Dojo 編譯器可以在尾數精度附近滑動,以涵蓋更廣泛的范圍和精度。在任何給定時間,最多可以使用 16 種不同的矢量格式,靈活提升算力。

D1處理器的數據格式

D1訓練塊架構

D1訓練模塊展開圖

在D1訓練模塊方面,每個D1訓練模塊由5x5的 D1芯片陣列排布而成,以二維Mesh結構互連。片上跨內核SRAM達到驚人的11GB,這也算是一個非常典型的近存計算架構了。當然耗電量也達到了15kW的驚人指標。能效比為0.6TFLOPS/W@BF16/CFP8。對于CPU架構來說,這一能效比非常不錯。顯然存算一體架構帶來的優勢非常大。外部32GB共享HBM內存。(HBM2e或HBM3)

每個訓練模塊外部邊緣的 40 個 I/O 芯片達到了 36 TB/s的聚合帶寬,或者10TB/s的橫跨帶寬。

數據傳輸方向與芯片平面平行,供電及水冷卻方向與芯片平面垂直。這是一個非常優美的結構設計,不同的訓練模塊之間還可以互連??上攵?,這是一個可以橫向擴展的超級計算機架構。

當然,一開始的那個圖是展開圖。實際的D1訓練塊像是個扁扁的披薩餅盒子。

D1訓練模塊

D1訓練網格與訓練矩陣

D1訓練網格

D1擴展的方式就好像自家鋪地磚一樣。在 D1 網格的邊緣有Dojo 接口處理器(DIP)。

每個DIP包括了32GB HBM(800GB/s存儲帶寬),以及900GB/s的對外傳輸帶寬(特斯拉自定義的TTP協議),32GB/s PCIe Gen4接口,以及50GB/s的以太網帶寬(特斯拉自定義的TTPoE協議)

Dojo V1訓練矩陣

Dojo V1 訓練矩陣由 6 個訓練塊、4 個主機服務器上(裝有20個 DIP),以及一組連接到以太網交換結構的輔助服務器構成。

這樣算下來,Dojo V1 系統有 53,100 個D1 內核,在 BF16 和 CFP8 格式下算力 1 Exaflop,1.3 TB 的SRAM 內存,以及 DIP 上的 13 TB 的 HBM內存。

與其一同被揭秘的還有特斯拉ExaPod超算。

總的來說,特斯拉D1芯片有以下幾個特點:

1)2D Mesh架構;

2)具備向量及矩陣計算加速單元的眾核架構;

3)存算一體架構(近存計算)。

據Dojo項目負責人Ganesh Venkataramanan介紹,特斯拉Dojo是史上最快的AI訓練計算機。相比于業內其他芯片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空間節省5倍。而使得Dojo完成訓練AI算法的重任,就是特斯拉自研神經網絡訓練芯片——D1芯片。

馬斯克透露,不久后,特斯拉即將開始Dojo超級計算機的首批組裝,特斯拉Dojo超級計算機將于明年投用。

本文為轉載內容,授權事宜請聯系原著作權人。

特斯拉

9.9k
  • 法國3月汽車注冊量下降14.54%,特斯拉銷量下降36.83%
  • 納斯達克綜合指數跌幅擴大至2%

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

從2022新公開的特斯拉機器人Dojo芯片架構解析到存算一體

特斯拉即將開始Dojo超級計算機的首批組裝,特斯拉Dojo超級計算機將于明年投用。

文|半導體產業縱橫

在Hot Chips 34(2022)大會上,Emil Talpes公開了特斯拉Dojo處理器的關鍵細節。

Emil Talpes 本人在 AMD 工作了近 17 年,曾研究各種 Opteron 處理器以及 “K12”Arm服務器芯片。

D1處理器由臺積電制造,采用7納米制造工藝,擁有500億個晶體管,芯片面積為645mm2,小于英偉達的A100(826 mm2)和AMD Arcturus(750 mm2)。要知道,這個D1處理器可是特斯拉人形機器人的核心,意義重大。

千芯科技陳巍博士就D1架構、D1訓練模塊、D1訓練網格以及訓練矩陣整體架構做了解析。

D1處理器架構

D1處理器結構

每個D1處理器由 18 x 20 的D1核心構成。每個D1處理器中有354個D1核心可用。估計是出于良率和處理器核心穩定考慮,D1處理器由臺積電制造,采用7nm制造工藝,擁有500億個晶體管,芯片面積為645mm2。

這個尺寸小于英偉達的A100(826 mm2)和AMD Arcturus(750 mm2)。但是每個核心都是一個完整的帶矩陣計算能力的CPU,其計算靈活性是遠超眾核架構的GPU的,這也會帶來極高的成本。這個架構有點類似于SambaNova。

D1芯片運行在2GHz,擁有巨大的440MB SRAM,是存算一體架構(近存計算)。

D1核心的架構

D1核心結構

從18x20陣列中每個D1核心的結構上看,每個D1核心是帶有向量計算/矩陣計算能力的處理器,具有完整的取指、譯碼、執行部件。處理器運行在2GHz,具有4個8x8x4矩陣乘法計算單元。

D1處理器指令集

據稱D1以RISC-V架構ISA為基礎進行擴展。

D1核心具備FP32和FP16這兩個標準的計算格式,同時還具備更適合Inference的BFP16格式。為了達到混合精度計算提升性能的目的,D1還采用了用于較低精度和更高吞吐量的 8 位 CFP8 格式。Dojo 編譯器可以在尾數精度附近滑動,以涵蓋更廣泛的范圍和精度。在任何給定時間,最多可以使用 16 種不同的矢量格式,靈活提升算力。

D1處理器的數據格式

D1訓練塊架構

D1訓練模塊展開圖

在D1訓練模塊方面,每個D1訓練模塊由5x5的 D1芯片陣列排布而成,以二維Mesh結構互連。片上跨內核SRAM達到驚人的11GB,這也算是一個非常典型的近存計算架構了。當然耗電量也達到了15kW的驚人指標。能效比為0.6TFLOPS/W@BF16/CFP8。對于CPU架構來說,這一能效比非常不錯。顯然存算一體架構帶來的優勢非常大。外部32GB共享HBM內存。(HBM2e或HBM3)

每個訓練模塊外部邊緣的 40 個 I/O 芯片達到了 36 TB/s的聚合帶寬,或者10TB/s的橫跨帶寬。

數據傳輸方向與芯片平面平行,供電及水冷卻方向與芯片平面垂直。這是一個非常優美的結構設計,不同的訓練模塊之間還可以互連。可想而知,這是一個可以橫向擴展的超級計算機架構。

當然,一開始的那個圖是展開圖。實際的D1訓練塊像是個扁扁的披薩餅盒子。

D1訓練模塊

D1訓練網格與訓練矩陣

D1訓練網格

D1擴展的方式就好像自家鋪地磚一樣。在 D1 網格的邊緣有Dojo 接口處理器(DIP)。

每個DIP包括了32GB HBM(800GB/s存儲帶寬),以及900GB/s的對外傳輸帶寬(特斯拉自定義的TTP協議),32GB/s PCIe Gen4接口,以及50GB/s的以太網帶寬(特斯拉自定義的TTPoE協議)

Dojo V1訓練矩陣

Dojo V1 訓練矩陣由 6 個訓練塊、4 個主機服務器上(裝有20個 DIP),以及一組連接到以太網交換結構的輔助服務器構成。

這樣算下來,Dojo V1 系統有 53,100 個D1 內核,在 BF16 和 CFP8 格式下算力 1 Exaflop,1.3 TB 的SRAM 內存,以及 DIP 上的 13 TB 的 HBM內存。

與其一同被揭秘的還有特斯拉ExaPod超算。

總的來說,特斯拉D1芯片有以下幾個特點:

1)2D Mesh架構;

2)具備向量及矩陣計算加速單元的眾核架構;

3)存算一體架構(近存計算)。

據Dojo項目負責人Ganesh Venkataramanan介紹,特斯拉Dojo是史上最快的AI訓練計算機。相比于業內其他芯片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空間節省5倍。而使得Dojo完成訓練AI算法的重任,就是特斯拉自研神經網絡訓練芯片——D1芯片。

馬斯克透露,不久后,特斯拉即將開始Dojo超級計算機的首批組裝,特斯拉Dojo超級計算機將于明年投用。

本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 涿州市| 商洛市| 宽城| 沁阳市| 堆龙德庆县| 勃利县| 淄博市| 龙游县| 吴江市| 正镶白旗| 东源县| 泸溪县| 南雄市| 新安县| 响水县| 锡林郭勒盟| 平遥县| 达尔| 永福县| 社旗县| 大悟县| 龙岩市| 顺义区| 榕江县| 舟山市| 绥江县| 苍山县| 安平县| 梅州市| 佳木斯市| 宁陕县| 灵璧县| 广汉市| 徐州市| 东莞市| 涞水县| 兴国县| 迭部县| 大余县| 城口县| 万荣县|