界面新聞記者 | 伍洋宇 李彪
界面新聞編輯 | 劉方遠
蛇年除夕夜那晚,硅基流動創(chuàng)始人袁進輝沒有留在飯桌上,而是在抓緊時間跟技術團隊開會,為了盡快解決DeepSeek模型在國產(chǎn)芯片上的適配問題。
經(jīng)過三天三夜的加班加點,他們聯(lián)合華為和DeepSeek,趕在2月1日上線了基于國產(chǎn)芯片服務的DeepSeek-V3和DeepSeek-R1。此時,距離DeepSeek AI智能助手同時登頂中美兩國App Store免費應用榜,還不到一周時間。

也許是巧合,最近三年,每年春節(jié)前后都會趕上一波AI熱潮。2023年,ChatGPT引爆了國內(nèi)大模型創(chuàng)業(yè)熱。2024年,視頻生成模型Sora的突然亮相震撼了所有人。
而今年,主角變成了DeepSeek。這家技術開放但行事低調(diào)的中國公司,以一己之力改變了AI大模型的世界格局。
2024年底及2025年初,DeepSeek相繼發(fā)布新一代MoE模型V3以及推理模型R1,憑借“高性能、低訓練成本”和“對齊OpenAI o1”兩項最直觀的表現(xiàn),引爆海內(nèi)外。據(jù)Xsignal數(shù)據(jù),截至2月8日,DeepSeek國內(nèi)APP端日活為3494萬,海外APP端日活達3685萬,上線不到一個月時間就超過了其他同類應用,直追ChatGPT。
最先坐不住的是硅谷科技巨頭Meta。原本Meta開發(fā)的Llama系列模型才是全球開源大模型的領頭羊。如今,DeepSeek用不到其十分之一的成本做出了性能更好的模型,還免費開源了,這讓Meta的“巨額成本開支”處境尷尬。
隨后受到?jīng)_擊的是英偉達。因為市場擔憂DeepSeek帶來的低成本模式會減少算力需求,英偉達市值一夜蒸發(fā)近6000億美元,創(chuàng)下了美股單日最大跌幅紀錄。隨即,一眾美股芯片股接連下跌。
沖擊的另一面,幾乎所有與大模型行業(yè)有關的企業(yè),都在春節(jié)忙著加入這場巨浪,渴望承接背后的流量紅利。全球范圍的主流云廠商,無一例外迅速跟進部署DeepSeek API;華為昇騰之外多家國產(chǎn)AI芯片廠商,宣布適配DeepSeek不同尺寸模型。
國內(nèi)投資者的熱情也被瞬間點燃。由AI產(chǎn)業(yè)鏈公司構(gòu)成DeepSeek概念股,包括算力基礎設施、大模型技術與算法、應用場景等相關公司,已在二級市場連續(xù)多日普漲。
而在聚光燈外,大模型“六小虎”面臨的行業(yè)質(zhì)疑再度抬頭。模型影響力,技術認可度,產(chǎn)品用戶規(guī)模,看上去他們正在這些維度全面落后。但一年之前,“六小虎”們才是被資本選中要跟OpenAI打擂臺的中國初創(chuàng)力量。
DeepSeek的此番影響就是如此之廣。它既是對手的威脅,也是行業(yè)的東風。無論如何,它已成為2025年的絕對主角。
“來自東方的神秘力量”
在今年的達沃斯論壇上,無論是否身處科技圈,許多老外都會向 Fusion Fund 創(chuàng)始合伙人張璐打聽起DeepSeek——這家他們最近剛剛聽聞的中國公司。
甚至在Fusion Fund內(nèi)部,張璐的合伙人,在AI和深度學習領域有超過20年經(jīng)驗的David Gerster,也一直在群里問她:你對這家公司了解多少?你認識這家公司的創(chuàng)始人嗎?
仿佛一夜之間,所有人都想了解DeepSeek橫空出世的背景。
不同于其他大模型公司,成立于2023年的DeepSeek脫胎于知名量化基金幻方量化,目前沒有進行任何外部融資。公司創(chuàng)始人梁文鋒1985年出生于廣東湛江,2010年從浙江大學畢業(yè),之后一直在從事量化交易相關工作,并創(chuàng)立了杭州幻方。

DeepSeek成立之后也異常低調(diào),幾乎沒有進行任何對外宣傳。但是在AI技術圈,自去年年中起,這家公司就憑借 DeepSeek-V2 在 MLA 等方面的創(chuàng)新得到了業(yè)內(nèi)認可,被硅谷視作一股“來自東方的神秘力量”。
張璐告訴界面新聞記者,半年多以前,OpenAI和Anthropic的員工就在談論這家公司。當時,主要是因為它在開源生態(tài)中十分活躍,而行業(yè)格外關注新模型在架構(gòu)層面的創(chuàng)新。
在Meta從事大模型相關工作的華人員工馬克(化名)也對界面新聞記者表示,他們?nèi)ツ昃完P注到了DeepSeek,但當時只覺得“這是中國第一梯隊的模型,還不是世界級的,比OpenAI等更是差上一截?!?/p>
但是,最近DeepSeek-V3和DeepSeek-R1的出現(xiàn)成為一個轉(zhuǎn)折點。特別是DeepSeek-R1引爆了用戶端,它是首個復現(xiàn)OpenAI o1推理模型能力的開源大模型,而且完全免費。
DeepSeek疊加的四層“Buff”也讓硅谷的華人工程師們不得不佩服:純中國團隊,算力資源有限,效果打敗或持平美國最先進模型,并且完全開源。
馬克和同事們對此討論了很多,核心觀點是:“如果DeepSeek花這么一些錢就可以訓練出這么好的模型,那我們花這么多錢在干嘛?”
Meta員工此前在美國匿名職場社區(qū)上發(fā)帖爆料稱,公司已經(jīng)成立了四個專門的研究小組分析研究DeepSeek V3模型的工作原理。內(nèi)部認為,DeepSeek V3的綜合性能已超越Llama 3,公司擔心計劃推出的下一代模型Llama 4也有“落后的可能”。
張璐推斷說,“Llama 4一定會參考DeepSeek現(xiàn)在的算法模型?!笔聦嵣?,現(xiàn)在全行業(yè)都在學習參考DeepSeek成功的秘密。
據(jù)DeepSeek開發(fā)團隊介紹,V3模型采用了模型壓縮、多頭潛在注意力機制(MLA)、混合專家模型(MoE)、FP8混合精度訓練等一系列創(chuàng)新技術降低成本,R1模型又有組相對策略優(yōu)化算法(GRPO)這一重要創(chuàng)新。
摩爾線程市場生態(tài)高級總監(jiān)呂其恒告訴界面新聞,DeepSeek的核心突破在于算法優(yōu)化和算力效率的提升,雖然模型項目開源,但公司獨有的這些技術具有相當高的壁壘,需要大量工程師團隊投入研發(fā)和工程優(yōu)化,其他公司短期內(nèi)很難直接復制,但行業(yè)依然能從DeepSeek的創(chuàng)新中獲得靈感。
張璐自己在硅谷最明顯的感受是,之前OpenAI和Anthropic在談到DeepSeek的時候,不會覺得“他們會比我們做得更好”,而現(xiàn)在,“尤其是OpenAI,可能會把DeepSeek作為一個競爭對手?!監(jiān)penAI CEO山姆·奧特曼更是在近期一場播客上直言,有計劃跟DeepSeek團隊進行一場交流。
攪動算力市場
以“鯨魚”為標志的DeepSeek,如今被視為一條攪動全球科技市場的“鯰魚”。
中信建投證券研究所所長武超則向界面新聞記者表示,DeepSeek的 “鯰魚效應” 最直觀的體現(xiàn),便是其掀起的“AI降本浪潮”——未來大家都能以更低的成本開發(fā)大模型。
據(jù)DeepSeek官方論文介紹,DeepSeek訓練V3模型使用了2048張英偉達H800 GPU,完整訓練消耗了278.8萬個GPU小時,按照租賃價格每小時2美元計算,成本約為557.6萬美元。
作為對比,Llama-3.1動用了超過1.6萬張英偉達H100GPU訓練,訓練成本高達數(shù)億美元,GPT-4o模型的訓練成本業(yè)內(nèi)估計在1億美元上下。
Anthropic創(chuàng)始人Dario Amodei在個人播客網(wǎng)站上撰文稱,雖然“用600萬美元實現(xiàn)數(shù)十億美元投入效果”的說法在傳播上被嚴重夸大,但DeepSeek所做的創(chuàng)新確實大幅降低了成本。更令硅谷震驚的是,當全球都在追求降低AI模型成本時,“第一個做到的是家中國公司?!?/p>
華爾街再次對AI算力泡沫心生恐慌。投資者們擔心,未來DeepSeek的低成本模式一旦推廣,科技公司是否還需要持續(xù)大量購入英偉達先進的AI芯片支持模型開發(fā)?
在美股市場芯片股1月27日受到的重挫中,英偉達跌超17%,臺積電跌超13%,阿斯麥跌5%。

不過,英偉達在股價暴跌隔日發(fā)給界面新聞的聲明中強調(diào), 在中國大陸AI算力資源受限的背景下,DeepSeek主要在AI模型推理階段運用了創(chuàng)新技術,但推理仍然需要大量英偉達GPU及配套的高性能網(wǎng)絡技術。DeepSeek的進步不僅不意味算力過剩,“反而證明市場需要更多AI芯片”。
市場近期正流行用一項經(jīng)濟學經(jīng)典理論“杰文斯悖論”(Jevons Paradox)來解釋算力市場的供需變化。即一項技術創(chuàng)新在降低成本、提高效率的同時,資源消耗非但不會減少,反而會因成本降低和應用范圍擴大而急劇增加。
事實上,最近微軟、亞馬遜、Meta、谷歌等巨頭都相繼在各自的財報會上表態(tài)大幅增加2025年的資本開支,重點投資數(shù)據(jù)中心等AI基建項目。四家巨頭2025年資本支出總額將超過3200億美元,總增速約為30%。
此外,OpenAI、軟銀、甲骨文等多家公司聯(lián)合發(fā)起了一項“星際之門”AI基建計劃(The Stargate Project),該計劃要在2029年之前在算力市場投資高達5000億美元,第一筆初始投資1000億美元。
英國GPU公司Imagination產(chǎn)品管理副總裁Dennis Laudick在采訪中告訴界面新聞,DeepSeek所做的創(chuàng)新屬于一種降低人工智能功耗與優(yōu)化效率的進步?!叭魏喂ぷ髫撦d的簡化都能讓算力資源得到更充分利用,未來對算力的需求將持續(xù)超過供給。”
“現(xiàn)在就連DeepSeek自己都因為服務器不夠用網(wǎng)站頻繁卡頓。事實上,算力市場相當長時間內(nèi)都處在一個高增長擴容的周期?!蔽涑瑒t說。因此無論從巨頭資本開支的基本盤,還是更多公司對推理端算力的新增投資,算力泡沫都看不到有破裂的跡象。
另外,在業(yè)內(nèi)人士看來,DeepSeek的創(chuàng)新對國產(chǎn)算力芯片也是一大利好。比如DeepSeek用到的FP8混合精度算力訓練,這種混合低精度的訓練方法在一定程度上可彌補國內(nèi)芯片硬件性能的不足,提供了更多軟件算法的創(chuàng)新空間,像摩爾線程已將相應技術引入產(chǎn)品中。
AI六小虎被“卷”到
月之暗面聯(lián)合創(chuàng)始人張予彤最近更新了一條朋友圈,她發(fā)出一張Kimi用戶量增長圖,在配文中稱“很高興Kimi新版本上線后用戶量又創(chuàng)新高”。
很多人不知道的是,月之暗面最新版大模型Kimi1.5是跟DeepSeek-R1在同一天發(fā)布的,但完全被淹沒在了鋪天蓋地的DeepSeek浪潮之中。
月之暗面的總部,離DeepSeek北京團隊所在的融科資訊中心的直線距離不足1公里。去年春節(jié),DeepSeek還默默無聞,而月之暗面因為拿下了阿里的巨額投資聲名鵲起,躋身大模型創(chuàng)業(yè)“六小虎”頭部。
如今,一年時間過去,無論是技術創(chuàng)新,產(chǎn)品認知,抑或是企業(yè)影響力,DeepSeek無可置疑已經(jīng)一飛沖天,邁入世界級的擂臺了。而“六小虎”們各有各的難題。
李揚(化名)整個蛇年春節(jié)都是在加班中度過的,他在“六小虎”其中一家從事AI infra的優(yōu)化工作。雖然在他看來,DeepSeek-V3的MFU(模型算力利用率)在其模型架構(gòu)下是合理的,但作為成本控制極為重要的一環(huán),其所在團隊的工作仍被施加了壓力。
不只是李揚,有多位“六小虎”員工告訴界面新聞,他們只在除夕和大年初一休假,其他時間照常撲在了工作上。據(jù)界面新聞記者了解,其中一家公司的算法團隊幾乎整個假期都在加速推進自己推理模型的參數(shù)scale up。
一名在“六小虎”就職的技術負責人表示,最近工作氛圍的確變緊張了,因為看到了大眾對AI的高期待。公司總體會保持原有的迭代節(jié)奏,“但有些項目的優(yōu)先級可能會有調(diào)整”。
一名大模型領域投資人對界面新聞記者表示,因為DeepSeek的爆火,“六小虎”接下來的融資和估值會全面受到影響。據(jù)其了解,現(xiàn)在參投某大模型公司的一家國資,已經(jīng)在內(nèi)部被質(zhì)疑當初為什么選擇投那家公司?“這其實也是一種問責。”
眼下,“六小虎”走出自己核心差異化路線的緊迫感,比過去任何時候都要突出:如果不繼續(xù)燒錢創(chuàng)新,它們的預訓練模型和推理模型都很難打過DeepSeek;但如果不做預訓練,又難以撐起下一次融資的估值。
而在第一條路上更艱難的是,DeepSeek還極可能沖擊了閉源生態(tài)。朱嘯虎直言,在中國,只有互聯(lián)網(wǎng)大廠有繼續(xù)卷閉源模型的意義。
事實上,就連互聯(lián)網(wǎng)大廠的閉源生態(tài)堡壘也出現(xiàn)了裂縫。一直被視為業(yè)內(nèi)最堅定走閉源路線的百度,也于2月14日正式宣布,將在未來幾個月推出文心大模型4.5系列,并從6月30日起首次開源。
去年在業(yè)內(nèi)爭論模型開源與閉源模式之爭最激烈的時候,百度創(chuàng)始人李彥宏曾在多個場合公開力挺閉源模式,直言“開源模型是智商稅”。前后一年時間不到,無論百度當下的選擇出于主動還是被動,這樣180度的大轉(zhuǎn)彎都令行業(yè)不得不重新審視開源與閉源模式的未來。
“中國閉源大模型幾乎成為一個死局了?!鼻笆鐾顿Y人也如此表示。
分一杯羹
在DeepSeek今年春節(jié)爆火的一個月之前,梁文鋒曾問過袁進輝,要不要在他們的平臺上部署DeepSeek-V3模型。袁進輝創(chuàng)辦的硅基流動主做大模型云服務平臺,為生成式AI提供基礎設施。
梁文鋒當時建議,如果要部署的話,最好要準備80臺H100服務器。袁進輝接著算了一筆賬,發(fā)現(xiàn)一個月對應需要五六百萬元成本,于是沒有下注。轉(zhuǎn)眼DeepSeek火遍全球,他頓感“決策失誤,欲哭無淚”。
看著DeepSeek不斷創(chuàng)造奇跡的時候,袁進輝內(nèi)心焦急但苦于沒有資源。一個同事突發(fā)奇想,“用國產(chǎn)卡吧!”這個想法也得到了華為昇騰云團隊的大力支持,這也就有了開頭的故事。
此后的袁進輝在社交平臺上變成一個活躍的“客服號”,不斷反饋產(chǎn)品體驗的不足,以及將要加強改善的地方。因為抓住時機而卷入DeepSeek流量漩渦,袁進輝話里話外不外乎“傳播速度太快了、用戶太多了、需求太大了”。
“參與”DeepSeek的狂歡成為一個行業(yè)共識,尤其是云廠商。在DeepSeek因為訪問量太大頻頻出現(xiàn)“服務器繁忙,請稍后再試”的時候,無處可去的流量轉(zhuǎn)向接入了DeepSeek的云平臺。
這一波外企的動作反而更加迅速。1月最后兩天,微軟Azure、亞馬遜AWS先后宣布上線DeepSeek-R1,谷歌云也隨即發(fā)布了R1部署指南。2月第一周,除硅基流動及華為昇騰云外,騰訊云、阿里云、百度智能云、火山引擎、京東云等廠商,均宣布接入R1推理模型,部分同時引入了V3。
不僅如此,此前在AI領域聲量并不突出的三大電信運營商,中國移動、中國電信、中國聯(lián)通相繼在其云服務中上線DeepSeek模型。
芯片廠商中,英偉達NVIDIA NIM引入R1,AMD則將V3集成到Instinct MI300X GPU上,并針對AI推理進行了優(yōu)化。國產(chǎn)芯片廠商摩爾線程、沐曦、壁仞、天數(shù)智芯集體宣布部署適配DeepSeek模型。
即便是其他大模型同行,也開始接入DeepSeek。昆侖萬維就是最早一批行動起來的。這家公司不僅有自己的天工大模型,也打造了推理模型。但昆侖萬維還是在其“天工AI”上線了“DeepSeekR1+聯(lián)網(wǎng)搜索”功能。

昆侖萬維CEO方漢的心態(tài)很開放,他告訴界面新聞記者,公司并不是受到?jīng)_擊而調(diào)整策略,而是確信這樣做更有利于用戶體驗。他觀察到,在加入了R1之后,用戶使用天工AI搜索的平均時長的確明顯變長了。
另外出人意料的是,騰訊元寶也在自有混元大模型的情況下接入了DeepSeek R1。這也是第一個在其C端AI助手中接入R1的互聯(lián)網(wǎng)大廠。
AI產(chǎn)業(yè)鏈的東風已至
DeepSeek突然火遍全球之后,美國政界又出現(xiàn)了更多聲音,呼吁對華進行更強力的芯片管制。但也有人反思,或許正是高端芯片管制倒逼著DeepSeek做出了這些在算法架構(gòu)和工程上的創(chuàng)新。
方漢認為,算力限制只能在短期形成一定壁壘,長期來看,當中國的算力被限制,中國研究人員優(yōu)化硬件效率的欲望只會更強?!叭f一Scaling Law最后真的是靠算法而不是算力來實現(xiàn),美國人的愿景就會落空?!狈綕h說。
受DeepSeek的啟發(fā),方漢已經(jīng)考慮在昆侖萬維后續(xù)的模型訓練中應用GPRO等算法。他甚至認為這是“T0級別”的創(chuàng)新,“未來怎么把它泛化到除了數(shù)學跟編程之外的其他的垂類領域,以及其他的模態(tài),我認為這是非常有價值的。”
除了像昆侖萬維這樣的企業(yè),更多的下游應用公司也將搭上DeepSeek的東風。
以教育公司為例,最近好未來、網(wǎng)易有道、云學堂、中公教育、猿輔導、讀書郎等一眾教育機構(gòu)密集接入DeepSeek,覆蓋從線上教育、職業(yè)培訓、個性化學習到企業(yè)員工培訓等各類業(yè)務。有行業(yè)人士甚至將之稱為“教育AI真正的諾曼底時刻”。
好未來CTO田密對界面新聞稱,團隊從最早的V1版本就在追蹤DeepSeek的進展,并應用自己的業(yè)務中?!皬慕Y(jié)果來看,他們做得很棒。”
國產(chǎn)手機廠商也在忙著加入,華為、榮耀、OPPO、vivo、魅族、紅魔、努比亞等紛紛宣布接入DeepSeek-R1。其中一家手機廠的AI負責人告訴界面新聞,DeepSeek對手機廠商最大的影響是開源,以及終于可以把高成本的推理模型布局在手機這種消費品上,未來他們會考慮蒸餾小的端側(cè)模型。
證券行業(yè)也已經(jīng)被DeepSeek席卷。截至目前,包括中金財富、國泰君安、華福證券、廣發(fā)證券、國金證券、興業(yè)證券等近20家券商宣布完成DeepSeek模型的本地化部署。應用場景主要聚焦于智能投研、客服、投顧、IT運維、風控、市場營銷等領域。
比如國金證券相關負責人就表示,其基于DeepSeek打造的“深度思考”產(chǎn)業(yè)鏈智能挖掘系統(tǒng)已投入應用。
DeepSeek也給應用創(chuàng)業(yè)帶來了更多機會。盡管現(xiàn)在DeepSeek做出了全中國乃至全世界最好用的開源模型,但應用方向是龐雜的,DeepSeek無法滿足所有長尾需求。
正如梁文鋒在此前受訪時談到對于大模型終局的預期:未來會有專門提供基礎模型和服務的公司,形成一個長產(chǎn)業(yè)鏈的專業(yè)分工體系。更多公司將在這些基礎之上,為社會的多元需求提供解決方案。
過去追著投基礎大模型的投資人們,已經(jīng)開始把更多精力放在了“AI應用”上。
云啟資本合伙人陳昱判斷,2025年可能會涌現(xiàn)大批ISV公司利用開源大模型以低成本服務市場,這背后會滋生大量獨立小廠的機會。
在模型能力提升之后,完全自動化而非co-pilot模式的應用場景潛力更加突出?!熬拖褡詣玉{駛一樣,在技術不夠好的時候,L2就可以滿足需求,但技術足夠好的話,大家還是更想要L4?!?/p>
最近,市場已經(jīng)傳出DeepSeek正在以80億美元估值融資的消息。陳昱認為,當下VC再去圍追堵截DeepSeek沒有任何意義,眼下更重要的是將目光轉(zhuǎn)向AI產(chǎn)業(yè)鏈的其他變革機會上,例如具身智能、邊緣計算、智能硬件,還有眾多獨立應用的機會。
“投不到大模型本身,你還可以提前布局它的周邊。”他說,“這里是更百花齊放的?!?/p>
(界面新聞記者查沁君、陸柯言、孫藝真對本文亦有貢獻)