文|AI鯨選社 陳佳惠
編輯|楊曉鶴
“釘釘也有OpenAI的API接口,但是我們主要的合作伙伴是國內的大模型五小虎。”
在釘釘最新的AI改版采訪會上,釘釘總裁不窮說道,大家可以在釘釘上調用通義或者Kimi等很多大模型。這也意味著,五小虎在釘釘這個日活數億的平臺,不用面對最強大的對手。也不僅是在辦公平臺中,在國內諸多AI業務場景中,國產大模型都不用面對ChatGPT了。
這無疑對很多國產大模型是一個利好的消息。盡管微軟云還能提供API支持,但如今Azure也在有意減少在華業務,因此帶來的競爭壓力幾乎沒有。
更關鍵的是,ChatGPT的更新速度也明顯放緩,盡管OpenAI創始人Sam Altman在演講中表示:“Scaling laws依舊有效,GPT-5將比GPT-4聰明得多,我們還沒有到達這條曲線的頂端”。但GPT-5將會何時發布,還是個未知數。
這也意味著,過去一年半時間,國產大模型一直能狂追,ChatGPT-4o珠玉在前,國產大模型已經追趕到哪里了?
2024年主流大模型能力測評圖
差距縮短到半年,集體進化到Turbo水平
2023年大模型領域,爭吵的最大話題,是國產大模型到底距離OpenAI,還有多遠的差距。百度創始人李彥宏說只差兩個月,王小川說怎么可能,如今這一答案基本明了。
ChatGPT-4 Turbo是在2023年11月7日的OpenAI開發者大會上發布,讓當時的大模型界振聾發聵。但距離GPT上次更新已遙遙8個月,國產大模型在這期間分秒必爭,如今基本宣布自己已經達到或超過ChatGPT-4 Turbo,也即意味著差距至少在半年之久。
但也有個別領域差異化領先,全球著名開源平臺huggingface(笑臉)的聯合創始人兼首席執行官Clem在社交平臺宣布,阿里最新開源的Qwen2-72B指令微調版本,成為開源模型排行榜第一名。
這一成績振奮人心。不僅如此,根據排行榜的數據顯示,Meta開源的Llama-3-70B指令微調版本位列第2;阿里的Qwen2-72B基礎版本排名第3;第9和第10名,全部都是阿里之前開源的Qwen1.5基礎和Chat版本。
阿里的開源大模型不僅在前十名中占據了4個坑位,還超越了科技巨頭Meta的Llama-3-70B。Llama號稱是眾多國產大模型之母,不少國產大模型都辟謠過關系,這次終于實現了超越。不僅阿里通義,智譜AI也是開源路上一員猛將。智譜開源了其第四代的GLM模型—GLM-4-9B。
GLM-4-9B開源模型綜合能力相比 ChatGLM3-6B 提升 40% ,中文學科能力提升 50%,最高支持達 1 百萬 tokens 長文本,支持 26 種語言。閉源大模型的競爭更加激烈,各家最新版本紛紛稱超越ChatGPT-4 Turbo。6月21日,不走AGI、更強調行業落地路線的華為盤古大模型 5.0正式發布。盤古大模型 5.0 聲稱能夠更好地理解物理世界,包括文本、圖片、視頻、雷達、紅外、遙感等更多模態。已在30多個行業、400多個場景中落地。
接下來的6月27日,科大訊飛在北京發布訊飛星火大模型V4.0。并且,訊飛星火V4.0是基于全國首個國產萬卡算力集群“飛星一號”訓練而成。科大訊飛董事長劉慶峰稱,訊飛星火參與國內外中英文12項大模型主流測試集,其中8個測試集中排名第一,超越GPT-4 Turbo等國際大模型。其在文本生成、語言理解、知識問答、邏輯推理、數學能力等方面也實現對GPT-4 Turbo的超越。
雖然星火大模型在各種整體評分中,很多時候不在國產大模型前三甲,但有項能力國際領先,這次發布的星火語音大模型,據悉在數十個主流語種的語音識別效果層面,超過OpenAI Whisper V3,而多語種語音合成方面,星火語音大模型擬人度則已超83%。
大模型迭代熱還在繼續,緊接著的6月28日,百度在Wave Summit上直接發布了大幅強化檢索能力的文心大模型——文心大模型4.0 Turbo。文心大模型4.0 Turbo,可以通過文心一言的網頁端和APP端使用,同時面向開發者提供了API支持。
文心4.0 Turbo模型強化了檢索能力,全網搜索、分析資料、等待回復這些步驟的融合,不僅提高了回答的速度,也在一定程度上緩解了大模型回答中“幻覺”的問題。
同時,百度飛槳發布新一代飛槳框架3.0 Beta版本,具備大模型訓推一體、動靜統一自動并行、編譯器自動優化以及大模型多硬件適配等特色。訓推一體的統一有利于推理優化,也能降低大模型的開發成本,可以幫助大模型實現更快迭代。多模態領域,騰訊混元大模型的Di-T架構和階躍星辰的1T-MoE多模態的感知能力,算是領域驚喜。
騰訊混元大模型號稱全球最早的Di-T架構,雖然大模型發布的晚,但好在架構先進。當然也得感謝Sora,這個期貨產品,讓市場形成Di-T架構是多模態大模型未來的共識。
階躍星辰在7月的WAIC上發布萬億級參數MoE(混合專家)大語言模型Step-2正式版,Step-1.5V多模態大模型,以及Step-1X 圖像生成大模型。對多模態大模型的Step-2理解在行業領先,未來表現值得期待。
沉睡的CV巨頭商湯也開始發力,WAIC上發布流式原生多模態交互模型——6000億參數日日新5.5系列大模型,其中5o版本有類似ChatGPT-4o類似的交互能力。
國產大模型們逐漸走出了“不斷追趕GPT-4”的敘事線。從技術角度看,國產大模型和ChatGPT-4o的差距一直在縮小,多模態領域甚至有了并肩前行的感覺。
AI應用還未爆發,各家爭NO.1 的口徑
“沒有應用,開源閉源模型都一文不值。”李彥宏最近頻頻闡述自己的AI理念,“要跳出移動時代的思維邏輯,避免掉入“超級應用陷阱”,不是只有10億DAU的應用才叫成功。”話雖說如此,但這場AI應用的暗戰,沒有人會放松。
據量子位分析智庫顯示,豆包AI的6月份的APP端下載量位居榜首,達到了5000萬。文心一言的下載總量達到1400萬,暫時位列第三。但百度公布的另一維度數據是第一:文心一言用戶規模達到3億,日調用量超過了5億。這是百度Wave Summit 2024大會上公布的數字。文心一言曾在去年12月公開用戶規模首次破億;兩三個月前日均調用量也在2億。
時隔六個月,文心一言的用戶數量已翻了三倍,增長迅猛。現如今,文心一言達成“每5個人中就有1個人用過”的成績,百度在發展大模型的路徑上,除了全面AI化百度系應用,諸如百度文庫經過AI大模型改造后,目前付費用戶也已有2600萬。最重要的發展方向是智能體。
在WAIC上,李彥宏坦言,智能體是百度最看好的AI發展方向。智能體也是當下AI走進C端的最佳形象。李彥宏表示,制作智能體的門檻并不高:只需要對著大模型把工作流程講清楚,就可以生成一個有價值的智能體。
數據顯示,文心大模型星河共創計劃啟動一年以來,文心大模型也已經和眾多合作伙伴、開發者一起,共創了55萬個AI應用。
盡管很多AI應用不到千個使用次數,但智能體確實能實現多步復雜流程的AI調用。大模型產品化中獨樹一派的選手要屬月之暗面的Kimi和豆包App,這是少數專注To C的選手,旗下產品Kimi AI非常適合案頭等工作場景中應用,支持200萬漢字的長文本輸入,主打無損記憶以及“長文本”,被網友稱為ChatGPT中文平替。
據量子位分析智庫數據,2024年6月,Kimi智能助手月訪問總量達2200萬。Kimi智能助手APP月新增下載量超300萬,較5月增長速度提升50%。為了讓大家更方便體驗AI。7月8日,Kimi上線了瀏覽器插件,在大模型輕量應用上做出探索。
Kimi瀏覽器插件目前有“點問筆”和“總結器”兩項功能。和月之暗面不謀而合的是,字節跳動旗下AI助手豆包此前也推出了瀏覽器插件版本。劃線問和AI總結網頁,這是用戶在瀏覽網頁時的痛點需求,Monica就憑借類似的瀏覽器插件能力,獲得了幾百萬用戶。kimi和豆包瀏覽器插件,預計也能占據很大的市場。
To C賽道上,6月份最重磅的玩家,要屬騰訊旗下大模型應用“騰訊元寶”。作為多模態大模型底座上亮相的AI對話應用,還上線了深度搜索模式。在深度搜索模式下,元寶從深度和廣度兩方面對搜索內容進行拓展,并可同步至大綱、思維導圖、相關人物事件梳理等,幫助用戶掌握搜索內容。科大訊飛董事長劉慶峰表示,自去年9月全面開放以來,訊飛星火APP在安卓公開市場累計下載量達1.31億次,在國內工具類通用大模型App中排名第一。
這個口徑的第一,也讓訊飛星火大模型有底氣做發展路線的第三派,積極將大模型整合進硬件等產品中。一方面將大模型能力落地學習機、翻譯機、辦公本等自有智能硬件;另一方面,將大模型的能力深度賦能行業,正在落地汽車、家電、機器人、AI手機、AI PC等領域。
數據顯示,科大訊飛AI學習機獲得了2023年天貓&京東雙十一銷售額冠軍。其新推出的智能批閱機可以一分鐘掃描90份學生作業,平時教師一個半小時批改的工作任務批閱機5分鐘就可以完成。走進教育、醫療場景中的科大訊飛,已經找到了自己的營收場景。
大模型5小虎難存活?商業化艱難的一步
6月份,梅花創投吳世春提到,“中國大模型五虎”想要跑出來非常難。"這句暴論在大模型圈引起了不少爭論。的確,從統計到的數據看,目前大模型整體的商業化還比較基礎。據『智能超參數』公開渠道統計到的數據,6月份大模型相關中標項目75個,其中:有30個項目,未披露中標金額(為方便統計,金額以0計算),其余45個中標項目披露的金額達到了1.38億元。
大模型中標情況,來源:智能超參數
科大訊飛單月里中標的項目是8個,披露的中標金額為3895萬元,百度單月中標項目7個,披露的中標金額2831萬元。此外,商湯科技、阿里云、騰訊云、智譜AI等廠商也都有中標項目。在AI產業的浪潮中,雖然表面上看似繁榮,但商業化的挑戰和艱難卻是不容忽視的現實。
以科大訊飛和百度為例,這兩家公司在單月內中標的數量和金額相對光鮮,但與巨大的研發投入相比,卻顯得有些杯水車薪。百度2023財報顯示,百度投入研發費用為242億元,同比增加4%;2023年科大訊飛的研發費用為34.81億元,同比增長11.89%,投向星火大模型的費用規模便超20億。
且根據華為高管公布的信息,開發和一次訓練AI大模型的成本就高達1200萬美元。從中標項目中看,大模型本身商業化還比較少。2024年6月份的統計數據來看,應用類和算力類的項目占據了絕對的主導地位,這兩類的占比自2023年以來一直在90%以上,且應用類的占比還在逐漸增大。
大模型中標類別,來源:智能超參數
因此,盡管場面熱鬧,大模型應用的落地卻大多還處于嘗鮮、試點階段,同質化現象嚴重,缺乏清晰的商業路徑。更壞的消息是,盡管如此,國內大模型廠商們悄無聲息地拉開了”價格戰“的序幕。5月,字節跳動把Token的定價降低了一個數量級,從以分計價進入以厘計價時代。
業內戲言,大模型價格進入了“厘時代”。根據火山引擎公布的價格計算,1元就能買到豆包主力模型的125萬Tokens,大約是200萬個漢字。200萬字是什么概念,大概相當于10本書。阿里通義、百度文心、智譜等相繼開始跟進價格戰。
同樣的趨勢也發生在國外。自去年以來,OpenAI已經進行了4次降價,在OpenAI發布了最新發布的多模態大模型GPT-4o中,不僅大模型性能有了很大提升,價格也下調了50%。大模型廠商們試圖通過降低成本來推動大模型的普及和應用。
然而,這種策略雖然能夠吸引用戶嘗試,但能否轉化為持續的商業化成功,還有待市場的檢驗。AI大模型產業找到可行的商業模式,實現可持續的盈利,是所有AI企業需要面對的問題。