簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

AMD能撼動英偉達嗎?

掃一掃下載界面新聞APP

AMD能撼動英偉達嗎?

軟件生態決定GPU產品市占率

文 | DoNews 古芯

編輯 |  李信馬

自從去年11月ChatGPT發布以來,人工智能領域對算力的需求空前提升,英偉達幾乎壟斷了人工智能訓練芯片市場,業內一直沒有新玩家或新產品對其形成有效沖擊。

直至今年6月,英偉達的老對手,超威半導體(AMD)發布下一代數據中心加速處理器(APU)AMD MI300。業內認為,AMD的MI300,比英特爾和谷歌的產品更有機會挑戰英偉達在人工智能領域的行業地位。

MI300是AMD發布的第一款數據中心、高性能計算機群(HPC)級的APU,采用與英偉達Grace Hopper相同的CPU+GPU架構,但是硬件參數更高。

MI300在CPU部分集成了24個ZEN4內核,GPU部分集成了6塊使用CDNA3架構的芯片,擁有1460億個晶體管,比英特爾GPU Ponte Vecchio多460億個晶體管,比英偉達H100多660億個晶體管,而且MI300的統一內存可降低不同內存間來回復制、同步和轉換數據所導致的編程復雜性。

封裝工藝方面,MI300使用最近爆火的3D Chiplet封裝技術,而GH200則使用CoWoS(2.5D)封裝,3D對比2.5D的優勢在于性能更高、延遲和功耗更低。

從硬件參數上來看,AMD MI300已經具備和英偉達叫板的能力,但顯卡領域完善軟件生態比堆硬件參數更難,AMD的軟件生態能否貼合人工智能行業的市場需求,是MI300能否搶走英偉達既有市場的重要影響因素。

一、軟件生態決定硬件市場規模

英偉達壟斷人工智能訓練芯片市場的主要原因是其自研的CUDA生態。所以AMD MI300想要替代英偉達,首先需要兼容英偉達的CUDA生態,AMD為此推出ROCm生態圈,并實現通過HIP完全兼容CUDA。

作為AMD的GPU軟件開發框架,HIP對應的是CUDA API,其提供的HIPify-perl和HIPify-clang工具,可用于CUDA到HIP的代碼轉換,轉碼后可在AMD GPU上編譯運行,基于HIP開發的應用也可用于AMD和英偉達的GPU上。

在此背景下,同一個數據中心內,理論上可以同時使用AMD和英偉達的GPU,但不同公司的GPU產品對數據精度的標準和計算方法及順序配置不同,混合使用GPU難免會導致計算精度缺失等問題,直接影響模型訓練效果。

而且從技術層面來看,兼容意味著被動、落后,因為CUDA每一次升級,ROCm都需要做出對應升級,技術團隊無法將所有精力用于ROCm生態圈的迭代上,應用場景和使用體驗都會落后于英偉達。

回顧二者發展歷程,英偉達2007年發布CUDA,AMD2016年才發布ROCm,前者自問世起就支持Linux、Windows多平臺,后者則長期只能支持Linux系統,且不支持部分Linux的更新,并于今年4月才登錄Windows平臺。

同樣是今年4月,AMD剛解決消費級產品與ROCm的適配,此前僅支持AMD高端GPU,限制了市場份額的提升。最后就是由于切入時間更晚,AMD開發者數量遠低于英偉達的400萬。

對比CUDA和ROCm的開發活躍度,在全球最大的開發者社區之一StackOverflow中,“CUDA”的標簽下有超過14000個問題討論,而ROCm在“amd-rocm”的標簽下只有不到100個問題討論。在Github上,貢獻CUDA軟件包倉庫的開發者超過32600位,而ROCm只有不到600個。

為改變這種被動局面,AMD也在積極豐富其軟件生態。雖然目前僅有部分SKU支持Windows系統,但主流Radeon顯卡用戶可以開始試用過去僅專業顯卡才能使用的AMD ROCm(5.6.0Alpha)。

今年1季度,AMD宣布ROCm系統融入PyTorch2.0框架,目前TensorFlow和Caffe深度學習框架也已加入第五代ROCm。

故此,從軟件生態方面來看,現有的AMD MI300還不足以威脅英偉達的市場份額,想撼動英偉達在人工智能行業的地位,AMD還需時間。

二、選擇英偉達的理由

在MI 300之前,需要訓練芯片的用戶大多數都選擇英偉達的產品,在MI 300之后,這個情況短期內也不會改變。

據華泰證券預計,擁有1600張H100芯片是AI創業公司入門水平,GPT-4級別的大模型訓練則需要1.6萬張H100GPU的算力,全球約有30家科技巨頭和300家AI初創企業進行相關投資,未來GPU市場潛在需求達到300億美元,英偉達或許會憑借新產品GH200繼續維持極高市場份額。

作為H100的升級產品,DGX GH200使用的2.5D的封裝工藝雖然較MI300落后,但是英偉達通過 NVLink 互連技術及NVLink Switch System串聯了32臺由8塊GH200超級芯片組成的服務器,可以為用戶提供1exaFLOPS的算力與144TB的內存。

對于業內企業而言, DGX GH200提供的這種大規模共享內存解決了大規模AI的關鍵瓶頸,適用于對性能要求較高且資金充沛的潛在客戶。目前市場有消息稱谷歌Google Cloud、Meta與微軟將成為DGX GH200的首批用戶。

值得注意的是,谷歌目前90%的AI工作負載都使用自研TPU,且部分性能優于英偉達產品,在谷歌今年4月發布的關于TPUv4的論文中,谷歌強調TPU v4在BERT模型上比A100快1.15倍,而在ResNet模型上比A100快1.67倍,而A100的能耗是TPUv4的1.3-1.9倍。

與微軟Azure中布置的A100相比,谷歌云的TPUv4在BERT上最多可節省35%的訓練成本,在ResNet上最多可節省50%。除AI工作負載之外,谷歌管理層此前還曾表示TPU已廣泛應用于翻譯、相冊、搜索、Google助理和Gmail等眾多Google產品。

如果谷歌今年重新成為英偉達DGX GH200的用戶,意味著DGX GH200綜合表現再次超過谷歌的自研TPU。

而且谷歌重新選擇英偉達還有一個理由,華泰證券認為,谷歌TPU專門針對谷歌開源深度學習框架TensorFlow進行全面優化,導致其他學習框架在TPU運行的效率或不及TensorFlow,潛在用戶群不如使用A100的微軟Azure。

由此可見,和使用A100的平臺相比,谷歌云TPU的最大優勢就是成本低,這也直接體現在終端用戶的使用成本上。在谷歌云上A100 80GB價格為3.93美元/芯片/小時,TPUv4價格為3.22美元/芯片/小時。

和谷歌TPU類似,AMD對MI300的定位是高性價比,試圖用和英偉達相似的性能,更低的價格打開云算力設備市場。

雖然目前谷歌、微軟等大廠都在積極布局云算力領域,但英偉達依舊是該領域最具競爭力的企業,谷歌TPU和AMD的產品同時聚焦高性價比市場,但由于后者可以全面兼容英偉達CUDA生態,對TensorFlow之外的深度學習框架包容度更高,故此在英偉達之外的玩家中,AMD的MI300或許有機會挑戰英偉達的行業地位。

結語

在全球各大企業都涌入人工智能賽道的背景下,為其提供算力支撐的GPU行業也越來越細分。

現階段,GPU行業逐漸分化為傳統GPU和GPGPU兩個細分市場,前者延續專門用于圖形圖像處理用途,內置了視頻編解碼加速引擎、2D 加速引擎、3D 加速引擎、圖像渲染等專用運算模塊。

后者作為運算協處理器,并針對不同應用領域的需求,增加了專用向量、張量、矩陣運算指令,提升了浮點運算的精度和性能,以滿足不同計算場景的需要,英偉達的GH200和AMDMI300均屬于這個領域。

作為人工智能領域最主要的協處理器解決方案,GPGPU占據人工智能90%以上的市場份額。這主要是因為GPGPU能提供的完善軟件生態系統,極大降低了各種已有應用程序的移植和新算法的開發門檻,這也是英偉達不斷升級CUDA的主要原因。

伴隨AI浪潮持續推進,各類模型訓練需求與日俱增,根據前瞻產業研究院的數據,未來幾年內,中國人工智能芯片市場規模將保持年均40%至50%的增長速度,到2024年,市場規模將達到785億元。

行業景氣度持續上升的背景下,誰能率先完成獨有的軟件生態,誰就有可能挑戰英偉達在訓練芯片行業的市場地位,目前看,最有機會的就是AMD。

本文為轉載內容,授權事宜請聯系原著作權人。

AMD

4.1k
  • 墨西哥多家行業協會聯合發聲:美征稅行為嚴重損害北美汽車工業
  • 納斯達克綜合指數跌幅擴大至1%

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

AMD能撼動英偉達嗎?

軟件生態決定GPU產品市占率

文 | DoNews 古芯

編輯 |  李信馬

自從去年11月ChatGPT發布以來,人工智能領域對算力的需求空前提升,英偉達幾乎壟斷了人工智能訓練芯片市場,業內一直沒有新玩家或新產品對其形成有效沖擊。

直至今年6月,英偉達的老對手,超威半導體(AMD)發布下一代數據中心加速處理器(APU)AMD MI300。業內認為,AMD的MI300,比英特爾和谷歌的產品更有機會挑戰英偉達在人工智能領域的行業地位。

MI300是AMD發布的第一款數據中心、高性能計算機群(HPC)級的APU,采用與英偉達Grace Hopper相同的CPU+GPU架構,但是硬件參數更高。

MI300在CPU部分集成了24個ZEN4內核,GPU部分集成了6塊使用CDNA3架構的芯片,擁有1460億個晶體管,比英特爾GPU Ponte Vecchio多460億個晶體管,比英偉達H100多660億個晶體管,而且MI300的統一內存可降低不同內存間來回復制、同步和轉換數據所導致的編程復雜性。

封裝工藝方面,MI300使用最近爆火的3D Chiplet封裝技術,而GH200則使用CoWoS(2.5D)封裝,3D對比2.5D的優勢在于性能更高、延遲和功耗更低。

從硬件參數上來看,AMD MI300已經具備和英偉達叫板的能力,但顯卡領域完善軟件生態比堆硬件參數更難,AMD的軟件生態能否貼合人工智能行業的市場需求,是MI300能否搶走英偉達既有市場的重要影響因素。

一、軟件生態決定硬件市場規模

英偉達壟斷人工智能訓練芯片市場的主要原因是其自研的CUDA生態。所以AMD MI300想要替代英偉達,首先需要兼容英偉達的CUDA生態,AMD為此推出ROCm生態圈,并實現通過HIP完全兼容CUDA。

作為AMD的GPU軟件開發框架,HIP對應的是CUDA API,其提供的HIPify-perl和HIPify-clang工具,可用于CUDA到HIP的代碼轉換,轉碼后可在AMD GPU上編譯運行,基于HIP開發的應用也可用于AMD和英偉達的GPU上。

在此背景下,同一個數據中心內,理論上可以同時使用AMD和英偉達的GPU,但不同公司的GPU產品對數據精度的標準和計算方法及順序配置不同,混合使用GPU難免會導致計算精度缺失等問題,直接影響模型訓練效果。

而且從技術層面來看,兼容意味著被動、落后,因為CUDA每一次升級,ROCm都需要做出對應升級,技術團隊無法將所有精力用于ROCm生態圈的迭代上,應用場景和使用體驗都會落后于英偉達。

回顧二者發展歷程,英偉達2007年發布CUDA,AMD2016年才發布ROCm,前者自問世起就支持Linux、Windows多平臺,后者則長期只能支持Linux系統,且不支持部分Linux的更新,并于今年4月才登錄Windows平臺。

同樣是今年4月,AMD剛解決消費級產品與ROCm的適配,此前僅支持AMD高端GPU,限制了市場份額的提升。最后就是由于切入時間更晚,AMD開發者數量遠低于英偉達的400萬。

對比CUDA和ROCm的開發活躍度,在全球最大的開發者社區之一StackOverflow中,“CUDA”的標簽下有超過14000個問題討論,而ROCm在“amd-rocm”的標簽下只有不到100個問題討論。在Github上,貢獻CUDA軟件包倉庫的開發者超過32600位,而ROCm只有不到600個。

為改變這種被動局面,AMD也在積極豐富其軟件生態。雖然目前僅有部分SKU支持Windows系統,但主流Radeon顯卡用戶可以開始試用過去僅專業顯卡才能使用的AMD ROCm(5.6.0Alpha)。

今年1季度,AMD宣布ROCm系統融入PyTorch2.0框架,目前TensorFlow和Caffe深度學習框架也已加入第五代ROCm。

故此,從軟件生態方面來看,現有的AMD MI300還不足以威脅英偉達的市場份額,想撼動英偉達在人工智能行業的地位,AMD還需時間。

二、選擇英偉達的理由

在MI 300之前,需要訓練芯片的用戶大多數都選擇英偉達的產品,在MI 300之后,這個情況短期內也不會改變。

據華泰證券預計,擁有1600張H100芯片是AI創業公司入門水平,GPT-4級別的大模型訓練則需要1.6萬張H100GPU的算力,全球約有30家科技巨頭和300家AI初創企業進行相關投資,未來GPU市場潛在需求達到300億美元,英偉達或許會憑借新產品GH200繼續維持極高市場份額。

作為H100的升級產品,DGX GH200使用的2.5D的封裝工藝雖然較MI300落后,但是英偉達通過 NVLink 互連技術及NVLink Switch System串聯了32臺由8塊GH200超級芯片組成的服務器,可以為用戶提供1exaFLOPS的算力與144TB的內存。

對于業內企業而言, DGX GH200提供的這種大規模共享內存解決了大規模AI的關鍵瓶頸,適用于對性能要求較高且資金充沛的潛在客戶。目前市場有消息稱谷歌Google Cloud、Meta與微軟將成為DGX GH200的首批用戶。

值得注意的是,谷歌目前90%的AI工作負載都使用自研TPU,且部分性能優于英偉達產品,在谷歌今年4月發布的關于TPUv4的論文中,谷歌強調TPU v4在BERT模型上比A100快1.15倍,而在ResNet模型上比A100快1.67倍,而A100的能耗是TPUv4的1.3-1.9倍。

與微軟Azure中布置的A100相比,谷歌云的TPUv4在BERT上最多可節省35%的訓練成本,在ResNet上最多可節省50%。除AI工作負載之外,谷歌管理層此前還曾表示TPU已廣泛應用于翻譯、相冊、搜索、Google助理和Gmail等眾多Google產品。

如果谷歌今年重新成為英偉達DGX GH200的用戶,意味著DGX GH200綜合表現再次超過谷歌的自研TPU。

而且谷歌重新選擇英偉達還有一個理由,華泰證券認為,谷歌TPU專門針對谷歌開源深度學習框架TensorFlow進行全面優化,導致其他學習框架在TPU運行的效率或不及TensorFlow,潛在用戶群不如使用A100的微軟Azure。

由此可見,和使用A100的平臺相比,谷歌云TPU的最大優勢就是成本低,這也直接體現在終端用戶的使用成本上。在谷歌云上A100 80GB價格為3.93美元/芯片/小時,TPUv4價格為3.22美元/芯片/小時。

和谷歌TPU類似,AMD對MI300的定位是高性價比,試圖用和英偉達相似的性能,更低的價格打開云算力設備市場。

雖然目前谷歌、微軟等大廠都在積極布局云算力領域,但英偉達依舊是該領域最具競爭力的企業,谷歌TPU和AMD的產品同時聚焦高性價比市場,但由于后者可以全面兼容英偉達CUDA生態,對TensorFlow之外的深度學習框架包容度更高,故此在英偉達之外的玩家中,AMD的MI300或許有機會挑戰英偉達的行業地位。

結語

在全球各大企業都涌入人工智能賽道的背景下,為其提供算力支撐的GPU行業也越來越細分。

現階段,GPU行業逐漸分化為傳統GPU和GPGPU兩個細分市場,前者延續專門用于圖形圖像處理用途,內置了視頻編解碼加速引擎、2D 加速引擎、3D 加速引擎、圖像渲染等專用運算模塊。

后者作為運算協處理器,并針對不同應用領域的需求,增加了專用向量、張量、矩陣運算指令,提升了浮點運算的精度和性能,以滿足不同計算場景的需要,英偉達的GH200和AMDMI300均屬于這個領域。

作為人工智能領域最主要的協處理器解決方案,GPGPU占據人工智能90%以上的市場份額。這主要是因為GPGPU能提供的完善軟件生態系統,極大降低了各種已有應用程序的移植和新算法的開發門檻,這也是英偉達不斷升級CUDA的主要原因。

伴隨AI浪潮持續推進,各類模型訓練需求與日俱增,根據前瞻產業研究院的數據,未來幾年內,中國人工智能芯片市場規模將保持年均40%至50%的增長速度,到2024年,市場規模將達到785億元。

行業景氣度持續上升的背景下,誰能率先完成獨有的軟件生態,誰就有可能挑戰英偉達在訓練芯片行業的市場地位,目前看,最有機會的就是AMD。

本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 寻甸| 祁连县| 福安市| 阿鲁科尔沁旗| 道孚县| 邢台市| 遂昌县| 黔西县| 天津市| 寻乌县| 伊金霍洛旗| 锡林浩特市| 响水县| 珲春市| 南丹县| 镇康县| 娄底市| 衡南县| 武胜县| 黔西县| 阳信县| 江门市| 泽普县| 临夏市| 墨竹工卡县| 和龙市| 马边| 碌曲县| 雷州市| 中阳县| 西盟| 贵州省| 祁阳县| 南昌市| 内丘县| 子长县| 洪泽县| 黔南| 永顺县| 邯郸市| 西安市|