文|劉曠
2023年伊始,資本市場的關注點明顯變了,AIGC逐漸成為這一輪大行情的全新焦點。今年以來,從國外的AUTOGPT到國內的文心一言,再到華為的盤古大模型、訊飛星火大模型等紛紛推出,呈現出一派你方唱罷我方休的姿態。
盡管參與者甚眾,但目前為止這些應用,離真正的落地還相距甚遠。實際上,不論是哪家公司訓練大模型,都離不開天文數字的海量算力支持,因此當前能夠真正從AI大模型中獲益的,更可能是為大模型訓練提供算力支持的高性能算力廠商和服務器廠商。
ChatGPT拉動算力持續飆升
在AI大模型飛速發展之下,單個大語言訓練驅動AI訓練服務器需求約2億美元,AI推理服務器方面,如ChatGPT在初期便可帶動推理服務器需求約45億美元。而各種ChatGPT的爆發,更讓它背后的AI服務器隨之水漲船高。
具體而言,算力作為大模型的核心引擎,它的計算方式既簡單又粗暴,即實際擁有多少的GPU芯片,將直接決定其算力的大小。并且ChatGPT所需要的算力不是固定的,反而是逐次遞增的,這就意味著ChatGPT越聰明,其背后所需要的算力就越多,而供需雙方存在的現實差距,則讓算力資源的“緊張問題”變得愈加嚴重起來。
從需求側來看,大模型參數量的持續增大,需要更多算力資源予以支持。從大模型自身的發展狀況來看,參數量的變化是一個非常值得關注的指標。從最早的ResNet、inception等模型,到如今的GPT模型,大模型的參數量不斷壯大。
數據顯示,2018年前后OpenAI先后推出Transformer和GPT-1模型,參數量在1億級別;隨后谷歌提出3億參數的BERT模型,參數量再次增長。2019、2020年OpenAI加速追趕,陸續迭代出GPT-2、GPT-3模型,參數量分別為15億、1750億,實現模型體量質的飛躍,而阿里達摩院旗下的多模態大模型M6的參數量,更是達到了萬億甚至10萬億的量級,數據量加速指數級攀升之下,其所需算力自然也需要指數級提升。
從供給側來看,大模型參數量不斷增大之下,參數運算需要大規模并行計算的支持,而它取決于底層GPU內存容量。OpenAI預計人工智能科學研究要想取得突破,所需要消耗的計算資源每3—4個月就要翻一倍,資金也需要通過指數級增長獲得匹配。在算力方面,GPT-3.5在微軟Azure AI超算基礎設施(由GPU組成的高帶寬集群)上進行訓練,總算力消耗約3640PF-days。
在大數據方面,GPT-2用于訓練的數據取自于Reddit上高贊的文章,數據集共有約800萬篇文章,累計體積約40G;GPT-3模型的神經網絡是在超過45TB的文本上進行訓練的,數據相當于整個維基百科英文版的160倍。就ChatGPT而言,需要TB級的運算訓練庫,甚至是P-Flops級的算力,需要7-8個投資規模30億、算力500P的數據中心才能支撐運行。總之,在大模型持續發展之下,ChatGPT的競爭焦點逐漸轉到了AI超級算力上,或者是包括GPU在內的算力資源支持上。
礦卡風口再次來臨
在行業算力需求持續飆升之下,以英偉達等為主的核心高性能芯片廠商,已經享受到了作為ChatGPT“賣鏟人”的收益,再次迎來了曾經互聯網大爆發時期的那種礦卡風口。以英偉達的旗艦芯片H100為例,其在短短一周之內,漲價近7萬元人民幣,售價普遍高達30萬左右,次旗艦A100芯片在短短三個月多時間里,從6萬元一路漲至9萬元,漲幅超過50%。盡管其產品不斷漲價,但訂單依然是供不應求。
一方面,是英偉達作為硬件霸主,不僅在消費級市場占據大部分市場,還是AI服務器芯片領域的頭號選擇,因此其成為很多“渴望”大算力企業的優先選擇。據此前公開的數據顯示,截至2022年第三季度,英偉達在獨立顯卡市場的份額或已經達到了88%,顯卡部分帶來的營收占到了其總營收的60%以上,這表明其依然是消費級顯卡市場無可爭辯的領導者。
基于其在圖像處理器領域的強勢地位和核心技術,其AI大算力芯片在大模型爆發之后,始終處于“供不應求”的狀態,特別是ChatGPT從國外蔓延到國內的過程中,越來越多的國內互聯網企業選擇跟隨,其中以BAT為首出現了超過10家企業宣布推出大模型的計劃。按照ChatGPT的水準,至少需要3000枚A100芯片,以9萬/枚的價格來算就是2.7億人民幣才能完成一個大模型部署;10個大模型就需要3萬枚A100芯片,27億人民幣,加上后續訓練成本,這將會是一個天文數字。
另一方面,由于受到政策層面的影響,高端AI芯片“斷供”的風險劇增,也可能會導致一部分大模型企業提前囤積芯片,導致相關的芯片用量激增。
國產替代跑步前進,但仍有高墻難越
從目前來看,盡管國內使用英偉達GPU服務器的占比較高,且在當前AI大模型發展勢頭之下,英偉達具有壓倒性優勢。但國產企業頂著壓力,依然跑出了幾匹黑馬。根據IDC最新發布的《中國加速計算市場(2021年下半年)跟蹤報告》,2021年全年中國AI服務器市場規模達350.3億元,同比增長68.6%。在企業級GPU芯片領域,中國廠商壁仞科技在2022年推出“BR100”芯片、天數智芯推出了“智鎧100”芯片、寒武紀推出了“思元270”芯片。
其中壁仞科技稱,BR100擁有全球最高算力,峰值算力達到了市場在售旗艦產品的三倍以上,16位浮點算力達到1000T以上、8位定點算力達到2000T以上,單芯片峰值算力達到PFLOPS級別。這些消息,對于身處美國從設備、材料到技術全面封鎖之中的中國企業而言,應該算是一個可喜的消息,但想要翻越英偉達這座高山顯然也并不容易。
首先,在AI芯片設計上,國產廠商與海外巨頭的差距雖然縮小了,但在AI大生態上的差距卻依然存在。比如,壁仞科技的芯片算力數據雖好,但缺少至關重要的處理FP64的能力,依然無法完全取代英偉達的H100、A100。并且,英偉達使用的CUDA平臺早已成為應用最為廣泛的AI開發生態系統,只支持英偉達的Tesla架構GPU,在現階段根本無法用國產芯片取代,因為它涉及到AI芯片的軟件生態建設、基礎架構等,都還掌握在巨頭手中,目前我們還沒辦法在硬件編程模型上找到替代方案。
目前來看,無論是解決生態問題,還是解決產業鏈自主問題都需要時間,后者的實現尤其需要一番功夫。
AI芯片國產化替代破局點在哪兒?
不過從解決問題的角度來說,國產替代也絕非沒有機會,至少從國內當前的信創產業基礎和數據應用來看,國內市場更有可能利用前端市場的創新來逆向底層定制,從而走出一條自己的路。即便是在當下,也有一些暫時性的替代方案和思路。
一是定向的國產扶持路徑。對于國產廠商來說,如果它不通過定向合作的方式,很難通過“單打獨斗”來做事情,因為外國企業都會有自己的軟件架構,然后整個產業都適配這個架構,從而形成一個完整的生態,這種情況下“從零做起”完全是“費力不討好”的事情。因此,要想推動國產廠商的崛起,就需要先通過與頭部國產AI芯片制造商長期綁定合作,推動自主企業軟件架構的形成,然后以該架構為主線,逐漸建立起覆蓋上下游的應用生態。
當然,這種路徑也有時間周期。據中信證券研報顯示,GPU IP自研需要36-48個月以及200個工程師,而采用外購IP的方式,則需要12-18個月開發周期,總體上時間都不算短。
二是通過兼容CUDA生態做延伸。相比自研系統,兼容CUDA系統則可以迅速切入國際主流的商業計算軟件和人工智能軟件,通過接入豐富的軟硬件生態,可廣泛應用于大數據,人工智能、商業計算等應用領域。
對比兩種方法來看,目前較為可行的方案還是第二種,但從長遠來看還是做兩手準備。這樣才能夠未雨綢繆,為將來的全面替代做鋪墊。