簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

大模型賽道,擠滿了ASIC芯片

掃一掃下載界面新聞APP

大模型賽道,擠滿了ASIC芯片

算力走向推理。

文|半導體產業縱橫

最近,市場關注的兩家ASIC企業都發布了自家的財報。

博通2025財年第一季度財報顯示,營收149.16億美元,同比增長25%,凈利潤55.03億美元,同比增長315%。其中,第一季度與AI有關的收入同比增長77%至41億美元。

Marvell預計第一財季銷售額約為18.8億美元,同比增長27%。其中,AI業務收入達7億美元左右,主要是亞馬遜等客戶定制ASIC等產品需求增長的帶動。

01、ASIC,越發豐富

今年以來,大模型的更迭越發的激烈。DeepSeek研究團隊再放大招,公開NSA算法。同日,馬斯克發布Grok 3模型,號稱拳打DeepSeek腳踢OpenAI。

DeepSeep之風正盛,將全球科技產業的重心從訓練推向推理階段。由于DeepSeek是MOE模型,能夠實現更低的激活比。算力、內存、互聯原有平衡發生劇變,新算力架構機會再次進入同一起跑線。

這種條件下,定制化芯片ASIC似乎越來越適合AI時代。

ASIC芯片的主要根據運算類型分為了TPU、DPU和NPU芯片,分別對應了不同的基礎計算功能,也有不同的優勢。

TPU

先來看TPU。TPU的核心是矩陣乘法單元,它采用脈動陣列架構,這意味著數據以類似心臟跳動的方式在芯片內流動。這種架構允許高度并行的乘法和加法操作,使得TPU能夠在每個時鐘周期內處理大量的矩陣運算。

如果把TPU比作一個工廠,這個工廠的任務是把兩堆數字(矩陣)相乘。每個工人(脈動陣列的小格子)只需要做簡單的乘法和加法,然后把結果傳給下一個工人。這樣,整個工廠就能高效地完成任務,而且速度比普通的工廠(比如CPU或GPU)快很多。

TPU的優勢是能夠高效處理大規模矩陣運算,支持神經網絡的訓練和推理任務。所以,更加適合用在數據中心的AI訓練和推理任務,如自然語言處理、計算機視覺和語音識別。

DPU

其次來看DPU。DPU能夠處理大量的網絡數據包,包括接收、分類、轉發和過濾等。它通過硬件加速引擎(如網絡處理引擎)來加速網絡操作,減少CPU在網絡處理上的負載。

DPU就像是一個快遞中心,它負責接收包裹(數據),快速分揀,然后把包裹送到正確的地方。它有自己的小助手(加速器),這些小助手很擅長處理特定的任務,比如快速識別包裹的地址或者檢查包裹是否完好。這樣,DPU就能讓整個快遞系統(數據中心)運行得更高效。

DPU的優勢是可以卸載CPU的部分任務,減少CPU的負擔。優化了數據傳輸路徑,從而提高系統的整體效率。所以,它的應用場景是數據中心的網絡加速、存儲管理、安全處理等。

NPU

再來看NPU。NPU是專門為神經網絡計算設計的芯片,采用“數據驅動并行計算”的架構。它能夠高效執行大規模矩陣運算,特別是卷積神經網絡(CNN)中的卷積操作。

如果把NPU比作一個廚房,這個廚房有很多廚師(計算單元),每個廚師都能同時做自己的菜(處理數據)。比如,一個廚師負責切菜,一個廚師負責炒菜,另一個廚師負責擺盤。這樣,整個廚房就能同時處理很多道菜,效率非常高。NPU就是這樣,通過并行處理,讓神經網絡的計算變得更快。

NPU的優勢就是執行AI任務時功耗較低,適合邊緣設備。并且,專為神經網絡設計,適合處理深度學習任務。所以,NPU的應用場景是人臉識別、語音識別、自動駕駛、智能相機等需要進行深度學習任務的領域。

簡而言之,TPU適合深度學習、DPU適合數據中心的數據管理、NPU通過并行計算快速完成神經網絡任務,適合各種AI應用。

最近,還出現了LPU,一種專門為處理語言任務而設計的芯片。它的推出就是專門針對語言處理優化的架構和指令集,能夠更高效地處理文本、語音等數據,從而加速大語言模型的訓練和推理過程。

摩根士丹利預測AI ASIC的總可用市場將從2024年的120億美元增長到2027年的300億美元,期間英偉達的AI GPU存在強烈的競爭。

現在,在ASIC賽道上的玩家,已經越來越多。

02、擁擠的ASIC賽道

3nm ASIC芯片的賽道上擠滿了大廠。

亞馬遜一直在致力于自研芯片以降低數據中心成本。

2022年,AWS發布了Trainium 1和 Inferentia 2芯片。當時,Trainium1在訓練方面表現不是很好,更加適合AI推理工作。

之后,AWS又發布了當前的Trainium 2,采用5nm工藝。單個Trainium 2芯片提供650 TFLOP/s的BF16性能。Trn2實例的能效比同類GPU實例高出25%,Trn2 UltraServer的能效比Trn1實例高三倍。

去年12月,亞馬遜宣布要推出全新 Trainium3,采用的是3nm工藝。與上代 Trainium2 相比,計算能力增加2倍,能源效率提升40%,預計2025年底問世。

據了解,在AWS的3nm Trainium項目中,世芯電子(Alchip)和Marvell展開了激烈的競爭。

世芯電子(Alchip)是第一家宣布其3nm設計和生產生態系統準備就緒的ASIC公司,支持臺積電的N3E工藝。Marvell則在Trainium 2項目中已經取得了顯著進展,并有望繼續參與Trainium 3的設計。

當前的競爭焦點在于:后端設計服務和CoWoS產能分配上。看誰能夠在Trainium項目爭取到更多的份額。

之前我們提到的TPU,以谷歌的TPU最具有代表性。谷歌的TPU系列芯片從v1到最新的Trillium TPU。TPU為Gemini 2.0的訓練和推理提供了100%的支持。據谷歌這邊說,Trillium 的早期客戶AI21 Labs認為是有顯著改進的。AI21 Labs首席技術官Barak Lenz表示:“Trillium在規模、速度和成本效益方面的進步非常顯著。”現在谷歌的TPU v7正在開發階段,同樣采用的是3nm工藝,預計量產時間是在2026年。

據產業鏈相關人士透露,谷歌TPU芯片去年的生產量已經達到280萬到300萬片之間,成為全球第三大數據中心芯片設計廠商。

從合作對象來說,谷歌和博通始終是在深度合作的。谷歌從TPU v1開始,就和博通達成了深度合作,它與博通共同設計了迄今為止已公布的所有TPU,而博通在這方面的營收也因谷歌水漲船高。

微軟在ASIC方面也在發力。Maia 200是微軟為數據中心和AI任務定制的高性能加速器,同樣采用3nm工藝,預計在2026年進入量產階段,至于現在Maia 100,也是專為在Azure中的大規模AI工作負載而設計。支持大規模并行計算,特別適合自然語言處理(NLP)和生成式AI任務。從現在的信息來看,這款產品微軟選擇和Marvell 合作。

早在今年1月就有消息傳出,美國推理芯片公司Groq已經在自己的LPU芯片上實機運行DeepSeek,效率比最新的H100快上一個量級,達到每秒24000token。值得關注的是,Groq曾于2024 年12月在沙特阿拉伯達曼構建了中東地區最大的推理集群,該集群包括了19000個Groq LPU。

Open AI首款AI ASIC芯片即將完成,會在未來幾個月內完成其首款內部芯片的設計,并計劃送往臺積電進行制造,以完成流片(taping out)。最新消息是,OpenAI會在2026年實現在臺積電實現量產的目標。

03、ASIC真的劃算嗎?

谷歌、AWS、Open AI都在加大對自研ASIC的投入。那么,ASIC真的劃算嗎?

先從性能上來看,ASIC是為特定任務定制的芯片,其核心優勢在于高性能和低功耗。在同等預算下,AWS的Trainium 2可以比英偉達的H100 GPU更快速完成推理任務,且性價比提高了30%~40%。Trainium3計劃于2025年下半年推出,計算性能提高2 倍,能效提高40%。

并且,GPU由于架構的特性,一般會在AI計算中保留圖形渲染、視頻編解碼等功能模塊,但在AI計算中這些模塊大部分處于閑置狀態。有研究指出,英偉達H100 GPU上有大約15%的晶體管是未在AI計算過程中被使用的。

從成本上來看,ASIC在大規模量產時,單位成本顯著低于GPU。ASIC在規模量產的情況下可以降至GPU的三分之一。但一次性工程費用NRE(Non-Recurring Engineering)非常高。

以定制一款采用5nm制程的ASIC為例,NRE費用可以高達1億至2億美元。然而一旦能夠大規模出貨,NRE費用就可以很大程度上被攤薄。

此前有業內人士分析,中等復雜程度的ASIC盈虧平衡點在10萬片左右,這對于很多廠商來說已經是遙不可及。

但對于大規模部署的云計算大廠或AI應用提供商,ASIC的定制化優勢能夠顯著降低運營成本,從而更快地實現盈利。

04、算力走向推理,ASIC的需求只多不少

在溫哥華NeurIPS大會上,OpenAI聯合創始人兼前首席科學家Ilya Sutskever曾作出“AI預訓練時代將終結”的判斷。

巴克萊的一份報告預計,AI推理計算需求將快速提升,預計其將占通用人工智能總計算需求的70%以上,推理計算的需求甚至可以超過訓練計算需求,達到后者的4.5倍。

英偉達GPU目前在推理市場中市占率約80%,但隨著大型科技公司定制化ASIC芯片不斷涌現,這一比例有望在2028年下降至50%左右。

不過,在博通的觀察中,AI訓練仍然是會占據主流。博通CEO陳福陽最近表示:“公司把推理作為一個獨立的產品線,推理與訓練芯片的架構非常不同。公司預計三個客戶未來需求市場總量將達600億~900億美元,這個需求總量既包含了訓練,又包含了推理,但其中訓練的部分更大。”

對于第二季度來講,博通對于ASIC的預期仍舊保持樂觀。預計第二季度博通的AI半導體收入將繼續保持強勁增長勢頭,達到44億美元。

Marvell在電話會議上,同樣也展示了對于ASIC的信心。透露其定制的ARM CPU,將在客戶的數據中心中得到更廣泛的應用。并且定制的人工智能 XPU,其表現也非常出色,未來將有大量的量產。

 
本文為轉載內容,授權事宜請聯系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

大模型賽道,擠滿了ASIC芯片

算力走向推理。

文|半導體產業縱橫

最近,市場關注的兩家ASIC企業都發布了自家的財報。

博通2025財年第一季度財報顯示,營收149.16億美元,同比增長25%,凈利潤55.03億美元,同比增長315%。其中,第一季度與AI有關的收入同比增長77%至41億美元。

Marvell預計第一財季銷售額約為18.8億美元,同比增長27%。其中,AI業務收入達7億美元左右,主要是亞馬遜等客戶定制ASIC等產品需求增長的帶動。

01、ASIC,越發豐富

今年以來,大模型的更迭越發的激烈。DeepSeek研究團隊再放大招,公開NSA算法。同日,馬斯克發布Grok 3模型,號稱拳打DeepSeek腳踢OpenAI。

DeepSeep之風正盛,將全球科技產業的重心從訓練推向推理階段。由于DeepSeek是MOE模型,能夠實現更低的激活比。算力、內存、互聯原有平衡發生劇變,新算力架構機會再次進入同一起跑線。

這種條件下,定制化芯片ASIC似乎越來越適合AI時代。

ASIC芯片的主要根據運算類型分為了TPU、DPU和NPU芯片,分別對應了不同的基礎計算功能,也有不同的優勢。

TPU

先來看TPU。TPU的核心是矩陣乘法單元,它采用脈動陣列架構,這意味著數據以類似心臟跳動的方式在芯片內流動。這種架構允許高度并行的乘法和加法操作,使得TPU能夠在每個時鐘周期內處理大量的矩陣運算。

如果把TPU比作一個工廠,這個工廠的任務是把兩堆數字(矩陣)相乘。每個工人(脈動陣列的小格子)只需要做簡單的乘法和加法,然后把結果傳給下一個工人。這樣,整個工廠就能高效地完成任務,而且速度比普通的工廠(比如CPU或GPU)快很多。

TPU的優勢是能夠高效處理大規模矩陣運算,支持神經網絡的訓練和推理任務。所以,更加適合用在數據中心的AI訓練和推理任務,如自然語言處理、計算機視覺和語音識別。

DPU

其次來看DPU。DPU能夠處理大量的網絡數據包,包括接收、分類、轉發和過濾等。它通過硬件加速引擎(如網絡處理引擎)來加速網絡操作,減少CPU在網絡處理上的負載。

DPU就像是一個快遞中心,它負責接收包裹(數據),快速分揀,然后把包裹送到正確的地方。它有自己的小助手(加速器),這些小助手很擅長處理特定的任務,比如快速識別包裹的地址或者檢查包裹是否完好。這樣,DPU就能讓整個快遞系統(數據中心)運行得更高效。

DPU的優勢是可以卸載CPU的部分任務,減少CPU的負擔。優化了數據傳輸路徑,從而提高系統的整體效率。所以,它的應用場景是數據中心的網絡加速、存儲管理、安全處理等。

NPU

再來看NPU。NPU是專門為神經網絡計算設計的芯片,采用“數據驅動并行計算”的架構。它能夠高效執行大規模矩陣運算,特別是卷積神經網絡(CNN)中的卷積操作。

如果把NPU比作一個廚房,這個廚房有很多廚師(計算單元),每個廚師都能同時做自己的菜(處理數據)。比如,一個廚師負責切菜,一個廚師負責炒菜,另一個廚師負責擺盤。這樣,整個廚房就能同時處理很多道菜,效率非常高。NPU就是這樣,通過并行處理,讓神經網絡的計算變得更快。

NPU的優勢就是執行AI任務時功耗較低,適合邊緣設備。并且,專為神經網絡設計,適合處理深度學習任務。所以,NPU的應用場景是人臉識別、語音識別、自動駕駛、智能相機等需要進行深度學習任務的領域。

簡而言之,TPU適合深度學習、DPU適合數據中心的數據管理、NPU通過并行計算快速完成神經網絡任務,適合各種AI應用。

最近,還出現了LPU,一種專門為處理語言任務而設計的芯片。它的推出就是專門針對語言處理優化的架構和指令集,能夠更高效地處理文本、語音等數據,從而加速大語言模型的訓練和推理過程。

摩根士丹利預測AI ASIC的總可用市場將從2024年的120億美元增長到2027年的300億美元,期間英偉達的AI GPU存在強烈的競爭。

現在,在ASIC賽道上的玩家,已經越來越多。

02、擁擠的ASIC賽道

3nm ASIC芯片的賽道上擠滿了大廠。

亞馬遜一直在致力于自研芯片以降低數據中心成本。

2022年,AWS發布了Trainium 1和 Inferentia 2芯片。當時,Trainium1在訓練方面表現不是很好,更加適合AI推理工作。

之后,AWS又發布了當前的Trainium 2,采用5nm工藝。單個Trainium 2芯片提供650 TFLOP/s的BF16性能。Trn2實例的能效比同類GPU實例高出25%,Trn2 UltraServer的能效比Trn1實例高三倍。

去年12月,亞馬遜宣布要推出全新 Trainium3,采用的是3nm工藝。與上代 Trainium2 相比,計算能力增加2倍,能源效率提升40%,預計2025年底問世。

據了解,在AWS的3nm Trainium項目中,世芯電子(Alchip)和Marvell展開了激烈的競爭。

世芯電子(Alchip)是第一家宣布其3nm設計和生產生態系統準備就緒的ASIC公司,支持臺積電的N3E工藝。Marvell則在Trainium 2項目中已經取得了顯著進展,并有望繼續參與Trainium 3的設計。

當前的競爭焦點在于:后端設計服務和CoWoS產能分配上。看誰能夠在Trainium項目爭取到更多的份額。

之前我們提到的TPU,以谷歌的TPU最具有代表性。谷歌的TPU系列芯片從v1到最新的Trillium TPU。TPU為Gemini 2.0的訓練和推理提供了100%的支持。據谷歌這邊說,Trillium 的早期客戶AI21 Labs認為是有顯著改進的。AI21 Labs首席技術官Barak Lenz表示:“Trillium在規模、速度和成本效益方面的進步非常顯著。”現在谷歌的TPU v7正在開發階段,同樣采用的是3nm工藝,預計量產時間是在2026年。

據產業鏈相關人士透露,谷歌TPU芯片去年的生產量已經達到280萬到300萬片之間,成為全球第三大數據中心芯片設計廠商。

從合作對象來說,谷歌和博通始終是在深度合作的。谷歌從TPU v1開始,就和博通達成了深度合作,它與博通共同設計了迄今為止已公布的所有TPU,而博通在這方面的營收也因谷歌水漲船高。

微軟在ASIC方面也在發力。Maia 200是微軟為數據中心和AI任務定制的高性能加速器,同樣采用3nm工藝,預計在2026年進入量產階段,至于現在Maia 100,也是專為在Azure中的大規模AI工作負載而設計。支持大規模并行計算,特別適合自然語言處理(NLP)和生成式AI任務。從現在的信息來看,這款產品微軟選擇和Marvell 合作。

早在今年1月就有消息傳出,美國推理芯片公司Groq已經在自己的LPU芯片上實機運行DeepSeek,效率比最新的H100快上一個量級,達到每秒24000token。值得關注的是,Groq曾于2024 年12月在沙特阿拉伯達曼構建了中東地區最大的推理集群,該集群包括了19000個Groq LPU。

Open AI首款AI ASIC芯片即將完成,會在未來幾個月內完成其首款內部芯片的設計,并計劃送往臺積電進行制造,以完成流片(taping out)。最新消息是,OpenAI會在2026年實現在臺積電實現量產的目標。

03、ASIC真的劃算嗎?

谷歌、AWS、Open AI都在加大對自研ASIC的投入。那么,ASIC真的劃算嗎?

先從性能上來看,ASIC是為特定任務定制的芯片,其核心優勢在于高性能和低功耗。在同等預算下,AWS的Trainium 2可以比英偉達的H100 GPU更快速完成推理任務,且性價比提高了30%~40%。Trainium3計劃于2025年下半年推出,計算性能提高2 倍,能效提高40%。

并且,GPU由于架構的特性,一般會在AI計算中保留圖形渲染、視頻編解碼等功能模塊,但在AI計算中這些模塊大部分處于閑置狀態。有研究指出,英偉達H100 GPU上有大約15%的晶體管是未在AI計算過程中被使用的。

從成本上來看,ASIC在大規模量產時,單位成本顯著低于GPU。ASIC在規模量產的情況下可以降至GPU的三分之一。但一次性工程費用NRE(Non-Recurring Engineering)非常高。

以定制一款采用5nm制程的ASIC為例,NRE費用可以高達1億至2億美元。然而一旦能夠大規模出貨,NRE費用就可以很大程度上被攤薄。

此前有業內人士分析,中等復雜程度的ASIC盈虧平衡點在10萬片左右,這對于很多廠商來說已經是遙不可及。

但對于大規模部署的云計算大廠或AI應用提供商,ASIC的定制化優勢能夠顯著降低運營成本,從而更快地實現盈利。

04、算力走向推理,ASIC的需求只多不少

在溫哥華NeurIPS大會上,OpenAI聯合創始人兼前首席科學家Ilya Sutskever曾作出“AI預訓練時代將終結”的判斷。

巴克萊的一份報告預計,AI推理計算需求將快速提升,預計其將占通用人工智能總計算需求的70%以上,推理計算的需求甚至可以超過訓練計算需求,達到后者的4.5倍。

英偉達GPU目前在推理市場中市占率約80%,但隨著大型科技公司定制化ASIC芯片不斷涌現,這一比例有望在2028年下降至50%左右。

不過,在博通的觀察中,AI訓練仍然是會占據主流。博通CEO陳福陽最近表示:“公司把推理作為一個獨立的產品線,推理與訓練芯片的架構非常不同。公司預計三個客戶未來需求市場總量將達600億~900億美元,這個需求總量既包含了訓練,又包含了推理,但其中訓練的部分更大。”

對于第二季度來講,博通對于ASIC的預期仍舊保持樂觀。預計第二季度博通的AI半導體收入將繼續保持強勁增長勢頭,達到44億美元。

Marvell在電話會議上,同樣也展示了對于ASIC的信心。透露其定制的ARM CPU,將在客戶的數據中心中得到更廣泛的應用。并且定制的人工智能 XPU,其表現也非常出色,未來將有大量的量產。

 
本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 株洲县| 陇南市| 双鸭山市| 镇雄县| 嘉义市| 延寿县| 承德市| 澄迈县| 曲水县| 于都县| 永吉县| 得荣县| 扬中市| 永仁县| 个旧市| 绍兴县| 霍城县| 建阳市| 海城市| 留坝县| 呼图壁县| 清流县| 拜泉县| 六安市| 班戈县| 武定县| 呈贡县| 武强县| 德惠市| 南昌市| 图们市| 深圳市| 安龙县| 松阳县| 龙岩市| 太仆寺旗| 科尔| 江油市| 白河县| 景德镇市| 武城县|