簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

AI推理芯片,最新排名

掃一掃下載界面新聞APP

AI推理芯片,最新排名

英偉達主導 MLPerf 基準測試。

編譯|半導體產業縱橫

Nvidia Blackwell在AI推理領域領先,AMD 位居第二。

在 MLCommons 發布的最新一輪機器學習基準測試結果中,基于 Nvidia 全新 Blackwell GPU 架構構建的計算機表現優于其他所有計算機。但 AMD 的最新 Instinct GPU MI325 卻與其競爭對手Nvidia H200相媲美。兩者的可比結果主要來自對較小規模大型語言模型之一Llama2 70B(700 億個參數)的測試。然而,為了跟上快速變化的人工智能格局,MLPerf增加了三個新基準測試,以更好地反映機器學習的發展方向。

MLPerf 針對機器學習系統進行基準測試,旨在提供計算機系統之間的同類比較。提交者使用自己的軟件和硬件,但底層神經網絡必須相同。目前共有 11 個服務器基準測試,今年又增加了 3 個。

MLPerf Inference 聯合主席 Miro Hodak 表示,“很難跟上該領域的快速發展”。ChatGPT直到 2022 年底才出現,OpenAI于去年 9 月推出了其首個可以推理任務的大型語言模型 (LLM),LLM 呈指數級增長——GPT3 擁有 1750 億個參數,而 GPT4 被認為擁有近 2 萬億個參數。由于這些飛速的創新,“我們加快了將新基準引入該領域的步伐,”Hodak 說。

新的基準測試包括兩個 LLM。流行且相對緊湊的 Llama2 70B 已經是成熟的 MLPerf 基準測試,但該聯盟希望能夠模仿人們今天對聊天機器人的期望的響應能力。因此,新的基準測試“Llama2-70B Interactive”收緊了要求。在任何情況下,計算機每秒必須至少產生 25 個指令,并且開始回答的時間不能超過 450 毫秒。

在看到“代理AI”的崛起——能夠處理復雜任務的神經網絡——MLPerf試圖測試一個具有所需某些特征的LLM。他們選擇了Llama3.1 405B來完成這項工作。這個LLM具有所謂的寬上下文窗口。這是衡量它一次可以吸收多少信息——文檔、代碼樣本等——的指標。對于Llama3.1 405 B來說,這是128,000個指令,是Llama2 70B的30倍以上。

最后一個新基準稱為 RGAT,即所謂的圖注意力網絡。它的作用是對網絡中的信息進行分類。例如,用于測試 RGAT 的數據集由科學論文組成,這些論文在作者、機構和研究領域之間都有關系,構成了 2TB 的數據。RGAT 必須將論文分為不到 3,000 個主題。

Blackwell,測試結果

英偉達主導 MLPerf 基準測試。其第一代和第二代 Hopper 架構 GPU——H100 和內存增強型 H200——都表現出色。英偉達加速計算產品總監戴夫·薩爾瓦托(Dave Salvator)表示,從 2022 年投入生產的 Hopper 架構 GPU 來看,“我們在過去一年中又獲得了 60% 的性能提升。在性能方面,它仍有一些提升空間。”

但是,真正占據主導地位的是英偉達的Blackwell架構GPU,即B200。“比Hopper更快的唯一東西就是Blackwell,”Salvator說。與H200相比,B200的高帶寬內存增加了36%,但更重要的是,它可以使用精度低至4位的數字執行關鍵的機器學習數學運算,而不是Hopper開創的8位精度。精度較低的計算單元更小,因此更適合GPU,從而加快了AI計算速度。

在Llama3.1 405B基準測試中,Supermicro的八臺B200系統每秒提供的指令數量幾乎是思科八臺H200系統的四倍。同樣的Supermicro系統比Llama2 70B交互版本中速度最快的H200計算機快三倍。

英偉達使用其Blackwell GPU和Grace CPU的組合,稱為GB200,展示了其NVL72數據鏈接如何能夠很好地整合機架中的多臺服務器,使它們像一臺巨大的GPU一樣運行。在一項未經驗證的結果中,該公司分享,基于GB200的完整機架在Llama2 70B上每秒提供869,200個指令。在這一輪MLPerf中報告的最快系統是英偉達的B200服務器,其每秒提供98,443個指令。

AMD將其最新的 Instinct GPUMI325X 定位為性能可與 Nvidia 的 H200 相媲美的產品。MI325X 擁有與其前身 MI300 相同的架構,但增加了更多的高帶寬內存和內存帶寬 — 256 GB 和 6 TB/秒(分別提高了 33% 和 13%)。

添加更多內存是為了處理越來越大的 LLM。“更大的模型能夠利用這些 GPU,因為模型可以裝入單個 GPU 或單個服務器中,” AMD 數據中心 GPU 營銷總監Mahesh Balasubramanian說。“因此,你不必承擔從一個 GPU 到另一個 GPU 或從一個服務器到另一個服務器的通信開銷。當你消除這些通信時,延遲會大大改善。”AMD 能夠通過軟件優化利用額外的內存,將 DeepSeek-R1 的推理速度提高八倍。

在 Llama2 70B 測試中,八 GPU MI325X 計算機的速度與同樣配置的 H200 系統相比,只相差 3% 到 7%。在圖像生成方面,MI325X 系統的速度與 Nvidia H200 計算機相比,只相差 10% 以內。

AMD 本輪另一個值得注意的成績來自其合作伙伴 Mangoboost,通過在四臺計算機上進行計算,它在 Llama2 70B 測試中表現出了近四倍的性能。

英特爾歷來在推理競賽中推出僅使用 CPU 的系統,以表明對于某些工作負載,您實際上并不需要 GPU。 這次看到了來自英特爾 Xeon 6 芯片的首批數據,該芯片以前稱為 Granite Rapids,采用英特爾的 3 納米工藝制造。 在每秒 40,285 個樣本的情況下,雙 Xeon 6 計算機的最佳圖像識別結果約為配備兩個 Nvidia H100 的思科計算機性能的三分之一。

與 2024 年 10 月的 Xeon 5 結果相比,新 CPU 在該基準測試中提升了約 80%,在物體檢測和醫學成像方面的表現更是大幅提升。自 2021 年首次提交 Xeon 結果(Xeon 3)以來,該公司在 Resnet 上的性能提升了 11 倍。

目前,英特爾似乎已經退出了 AI 加速器芯片之爭。其 Nvidia H100 的替代品Gaudi 3既未出現在新的 MLPerf 結果中,也未出現在去年 10 月發布的 4.1 版中。Gaudi 3 的發布時間晚于計劃,因為其軟件尚未準備好。在英特爾愿景 2025 (該公司僅限受邀參加的客戶會議)的開幕詞中,新任首席執行官陳立武 (Lip-Bu Tan) 似乎為英特爾在 AI 方面的努力表示歉意。他告訴與會者: “我對我們目前的狀況不滿意。你們也不滿意。我清楚地聽到了你們的聲音。我們正在努力建立一個有競爭力的系統。這不會在一夜之間發生,但我們會為你們實現目標。”

谷歌的TPU v6e 芯片也表現出色,盡管結果僅限于圖像生成任務。在 2024 年 10 月的結果中,4-TPU 系統以每秒 5.48 次查詢的速度比使用其前身 TPU v5e 的類似計算機提高了 2.5 倍。即便如此,每秒 5.48 次查詢的速度與使用 Nvidia H100 的 類似尺寸的聯想計算機大致相當。

編譯自ieee spectrum

 
本文為轉載內容,授權事宜請聯系原著作權人。

英偉達

6.7k
  • 美股科技“七姐妹”開盤總市值蒸發8400億美元
  • 美股盤前大型科技股多數走弱,蘋果跌超6%

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

AI推理芯片,最新排名

英偉達主導 MLPerf 基準測試。

編譯|半導體產業縱橫

Nvidia Blackwell在AI推理領域領先,AMD 位居第二。

在 MLCommons 發布的最新一輪機器學習基準測試結果中,基于 Nvidia 全新 Blackwell GPU 架構構建的計算機表現優于其他所有計算機。但 AMD 的最新 Instinct GPU MI325 卻與其競爭對手Nvidia H200相媲美。兩者的可比結果主要來自對較小規模大型語言模型之一Llama2 70B(700 億個參數)的測試。然而,為了跟上快速變化的人工智能格局,MLPerf增加了三個新基準測試,以更好地反映機器學習的發展方向。

MLPerf 針對機器學習系統進行基準測試,旨在提供計算機系統之間的同類比較。提交者使用自己的軟件和硬件,但底層神經網絡必須相同。目前共有 11 個服務器基準測試,今年又增加了 3 個。

MLPerf Inference 聯合主席 Miro Hodak 表示,“很難跟上該領域的快速發展”。ChatGPT直到 2022 年底才出現,OpenAI于去年 9 月推出了其首個可以推理任務的大型語言模型 (LLM),LLM 呈指數級增長——GPT3 擁有 1750 億個參數,而 GPT4 被認為擁有近 2 萬億個參數。由于這些飛速的創新,“我們加快了將新基準引入該領域的步伐,”Hodak 說。

新的基準測試包括兩個 LLM。流行且相對緊湊的 Llama2 70B 已經是成熟的 MLPerf 基準測試,但該聯盟希望能夠模仿人們今天對聊天機器人的期望的響應能力。因此,新的基準測試“Llama2-70B Interactive”收緊了要求。在任何情況下,計算機每秒必須至少產生 25 個指令,并且開始回答的時間不能超過 450 毫秒。

在看到“代理AI”的崛起——能夠處理復雜任務的神經網絡——MLPerf試圖測試一個具有所需某些特征的LLM。他們選擇了Llama3.1 405B來完成這項工作。這個LLM具有所謂的寬上下文窗口。這是衡量它一次可以吸收多少信息——文檔、代碼樣本等——的指標。對于Llama3.1 405 B來說,這是128,000個指令,是Llama2 70B的30倍以上。

最后一個新基準稱為 RGAT,即所謂的圖注意力網絡。它的作用是對網絡中的信息進行分類。例如,用于測試 RGAT 的數據集由科學論文組成,這些論文在作者、機構和研究領域之間都有關系,構成了 2TB 的數據。RGAT 必須將論文分為不到 3,000 個主題。

Blackwell,測試結果

英偉達主導 MLPerf 基準測試。其第一代和第二代 Hopper 架構 GPU——H100 和內存增強型 H200——都表現出色。英偉達加速計算產品總監戴夫·薩爾瓦托(Dave Salvator)表示,從 2022 年投入生產的 Hopper 架構 GPU 來看,“我們在過去一年中又獲得了 60% 的性能提升。在性能方面,它仍有一些提升空間。”

但是,真正占據主導地位的是英偉達的Blackwell架構GPU,即B200。“比Hopper更快的唯一東西就是Blackwell,”Salvator說。與H200相比,B200的高帶寬內存增加了36%,但更重要的是,它可以使用精度低至4位的數字執行關鍵的機器學習數學運算,而不是Hopper開創的8位精度。精度較低的計算單元更小,因此更適合GPU,從而加快了AI計算速度。

在Llama3.1 405B基準測試中,Supermicro的八臺B200系統每秒提供的指令數量幾乎是思科八臺H200系統的四倍。同樣的Supermicro系統比Llama2 70B交互版本中速度最快的H200計算機快三倍。

英偉達使用其Blackwell GPU和Grace CPU的組合,稱為GB200,展示了其NVL72數據鏈接如何能夠很好地整合機架中的多臺服務器,使它們像一臺巨大的GPU一樣運行。在一項未經驗證的結果中,該公司分享,基于GB200的完整機架在Llama2 70B上每秒提供869,200個指令。在這一輪MLPerf中報告的最快系統是英偉達的B200服務器,其每秒提供98,443個指令。

AMD將其最新的 Instinct GPUMI325X 定位為性能可與 Nvidia 的 H200 相媲美的產品。MI325X 擁有與其前身 MI300 相同的架構,但增加了更多的高帶寬內存和內存帶寬 — 256 GB 和 6 TB/秒(分別提高了 33% 和 13%)。

添加更多內存是為了處理越來越大的 LLM。“更大的模型能夠利用這些 GPU,因為模型可以裝入單個 GPU 或單個服務器中,” AMD 數據中心 GPU 營銷總監Mahesh Balasubramanian說。“因此,你不必承擔從一個 GPU 到另一個 GPU 或從一個服務器到另一個服務器的通信開銷。當你消除這些通信時,延遲會大大改善。”AMD 能夠通過軟件優化利用額外的內存,將 DeepSeek-R1 的推理速度提高八倍。

在 Llama2 70B 測試中,八 GPU MI325X 計算機的速度與同樣配置的 H200 系統相比,只相差 3% 到 7%。在圖像生成方面,MI325X 系統的速度與 Nvidia H200 計算機相比,只相差 10% 以內。

AMD 本輪另一個值得注意的成績來自其合作伙伴 Mangoboost,通過在四臺計算機上進行計算,它在 Llama2 70B 測試中表現出了近四倍的性能。

英特爾歷來在推理競賽中推出僅使用 CPU 的系統,以表明對于某些工作負載,您實際上并不需要 GPU。 這次看到了來自英特爾 Xeon 6 芯片的首批數據,該芯片以前稱為 Granite Rapids,采用英特爾的 3 納米工藝制造。 在每秒 40,285 個樣本的情況下,雙 Xeon 6 計算機的最佳圖像識別結果約為配備兩個 Nvidia H100 的思科計算機性能的三分之一。

與 2024 年 10 月的 Xeon 5 結果相比,新 CPU 在該基準測試中提升了約 80%,在物體檢測和醫學成像方面的表現更是大幅提升。自 2021 年首次提交 Xeon 結果(Xeon 3)以來,該公司在 Resnet 上的性能提升了 11 倍。

目前,英特爾似乎已經退出了 AI 加速器芯片之爭。其 Nvidia H100 的替代品Gaudi 3既未出現在新的 MLPerf 結果中,也未出現在去年 10 月發布的 4.1 版中。Gaudi 3 的發布時間晚于計劃,因為其軟件尚未準備好。在英特爾愿景 2025 (該公司僅限受邀參加的客戶會議)的開幕詞中,新任首席執行官陳立武 (Lip-Bu Tan) 似乎為英特爾在 AI 方面的努力表示歉意。他告訴與會者: “我對我們目前的狀況不滿意。你們也不滿意。我清楚地聽到了你們的聲音。我們正在努力建立一個有競爭力的系統。這不會在一夜之間發生,但我們會為你們實現目標。”

谷歌的TPU v6e 芯片也表現出色,盡管結果僅限于圖像生成任務。在 2024 年 10 月的結果中,4-TPU 系統以每秒 5.48 次查詢的速度比使用其前身 TPU v5e 的類似計算機提高了 2.5 倍。即便如此,每秒 5.48 次查詢的速度與使用 Nvidia H100 的 類似尺寸的聯想計算機大致相當。

編譯自ieee spectrum

 
本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 石柱| 农安县| 桃源县| 达尔| 武宁县| 建阳市| 会理县| 大渡口区| 怀化市| 江口县| 朔州市| 平江县| 南安市| 南昌县| 洪湖市| 株洲市| 常德市| 江源县| 乌兰察布市| 安阳市| 石狮市| 佛教| 泽普县| 天峻县| 隆德县| 康马县| 巫溪县| 醴陵市| 房山区| 永昌县| 资阳市| 安仁县| 金坛市| 吴川市| 宜城市| 庆云县| 葫芦岛市| 阿尔山市| 彰化市| 诸城市| 高州市|