文|新媒科技評論
這個春節,人工智能無疑成為了社交話題的C位,前有人形機器人在春晚跳扭秧歌而出圈,后有“Deepseek”的強勢崛起。
網友們瘋狂涌入Deepseek,有人找Deepseek算命,有人問Deepseek怎樣才能暴富,還有科技金融行業的打工人,年還沒有過完,就得忙著加班寫研報、測試模型。
但海外市場對此卻態度微妙,OpenAI一度宣稱Deepseek“偷竊”了其“技術成果”,但一轉頭,微軟、英偉達等大廠都宣布在自家產品中接入Deepseek,OpenAI CEO山姆·奧特曼更表示Deepseek的R1模型“令人印象深刻”。
國內的互聯網巨頭們也沒有錯失這波Deepseek的熱度,2月6日,有道正式宣布全面擁抱DeepSeek-R1。此外,Hi Echo、有道智云、QAnything等產品也將全面接入DeepSeek的推理能力,并于近日陸續升級。
一時之間,這場AI大模型的技術迭代,不知不覺就演變成全球科技行業的現象級事件,Deepseek也被視為引領大模型行業從“大而全”到“小而美”的全新變量。
但熱鬧過后,Deepseek還需要回答更多的新問題,全球大模型行業該如何抓住“變革的火花”,或許才是接下來的關鍵。
三大變量引爆Deepseek
在普通用戶看來,Deepseek是在此次中美大模型技術之爭中“一戰成名”,但更早之前,Deepseek便已經因為“價格便宜”而被AI圈廣泛關注。
去年中,國內大模型行業大打“價格戰”,但第一個“挑起戰火”的并非阿里、百度等大廠,而是Deepseek,彼時其新推出的DeepSeek-V2價格僅為 GPT-4-Turbo 的百分之一左右。
此次“降價”也讓Deepseek被冠以“AI界拼多多”之稱,但相較于大廠們的“以價換市場”的慣常做法,Deepseek對于“降價”并沒有太多壓力,因為其降價之后也仍有利潤。
事實上,這才是Deepseek能夠震驚全球科技界的主要原因,其能夠以更低的成本換來更高的性能,顛覆了過去大模型行業依靠堆顯卡、堆資本來發展AI的“Scaling law”。
這是因為Deepseek的模型訓練路徑不同于傳統通用大模型,以ChatGPT為代表的傳統AI,主要采用監督微調(簡稱 SFT)作為大模型訓練的核心環節,即通過人工標注數據進行監督訓練,再結合強化學習進行優化,本質上大模型并不會思考,只是通過模仿人類思維方式來提升推理能力。
但在1月底發布的Deepseek-R1-Zero卻顛覆了這一規則,其對模型架構進行了全方位創新,通過單純的強化學習(RL)訓練實現推理能力。簡單來說,SFT是人類生成數據,機器學習;而RL是機器生成數據,機器學習。
除此以外,據每日財經新聞報道,DeepSeek創新性地同時使用了FP8、MLA(多頭潛在注意力)和MoE(利用混合專家架構)三種技術。
其中,相較于其他模型使用的MoE架構,DeepSeek-V3的更為精簡有效,其就像是醫院的“分診制度”,可以將大模型拆分成多個“專家”,訓練時分工協作,推理時根據任務分配給最適合的專家模塊。據悉,Deepseek能夠將無效訓練從傳統模型的90%降低至60%。
在Deepseek-R1發布后,一位Meta員工在美國匿名職場社區teamblind上留言,稱Deepseek最近的一系列動作讓Meta的生成式AI團隊陷入了恐慌。
據這位員工爆料,“Meta一個負責AI項目的高管年薪拿出來,就足夠訓練Deepseek了”。據每日經濟新聞報道,Deepseek R1的預訓練費用只有557.6萬美元,還不到OpenAI GPT-4o模型訓練成本的十分之一。
但從實際性能來看,Deepseek-R1已經能夠比肩OpenAI-o1正式版,特別是在數學、代碼、自然語言推理等任務上。
在美國數學競賽(AMC)以及全球頂級編程競賽(codeforces)等權威評測中,DeepSeek-R1-Lite-Preview 模型已經大幅超越了 GPT-4o 等頂尖模型,有三項成績還領先于 OpenAI o1-preview。
除了“低成本、高算力”這一突破之外,Deepseek之所以在這個春節“燃起來”,還因為其竟然不是出自傳統的大廠,而是一家量化基金公司。
Deepseek成立于2023年12月,在此之前,其創始人梁文鋒于2015年便成立了名為“幻方量化”的量化對沖基金,可以說Deepseek的前身其實是服務于量化交易的。
這樣的背景也為Deepseek增添了更多“看點”,比如梁文鋒之所以不差錢,是因為其在量化交易上賺得風生水起,網友甚至戲稱Deepseek的訓練成本是來自于造空英偉達。
還有背靠千億量化基金的梁文鋒,明明可以選擇輕松躺賺,卻選擇投身到全球創新的浪潮里,他坦言“對AGI的好奇與探索比商業回報更具驅動力”,這種一往無前的“理想主義”,想讓也讓Deepseek的“故事”變得更加動人。
大廠打不過就加入
不過,技術上的逆襲,尚不足以徹底震驚科技界,真正引爆Deepseek的變量,其實是“開源”。據悉,Deepseek已經把模型架構和參數開源,在大模型公司普遍選擇閉源的當下,訓練數據的開源在業界少有先例。
梁文鋒曾在媒體采訪中表示,“過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這并非是一種理所當然。我們的出發點不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。”
從商業角度來看,“開源”是不是一個更佳的策略,尚難以下定論。畢竟訓練模型需要成本,招攬用戶也需要推廣費用,從此前字節豆包大規模投放廣告、kimi多次接受融資就可以看出,大模型公司有自己的難處。
但對于中國大模型行業來說,或許正是梁文鋒的“理想主義”,才讓Deepseek能夠成為顛覆行業格局的“變量”。
一方面,開源將能吸引更多大廠和技術人才加入,通過共建共創讓Deepseek變得更加強大,從而推動整個人工智能大模型生態的發展,形成一個全新的生態。
梁文鋒曾對媒體表示,公司未來不會像OpenAI一樣選擇從開源走向閉源,“我們認為先有一個強大的技術生態更重要” 。
另一方面,對于以OpenAI為代表的競爭對手來說,這也是一個致命的打擊。畢竟,當一個旗鼓相當的,還是免費的產品出現在消費者面前,大家難免就會進行比較,誰的性價比更高,誰的性能更優秀,都需要實打實的使用效果來驗證,而不僅僅只是“吹泡沫”。
而率先作出選擇的,便是一眾海外大廠,目前包括英偉達、英特爾、亞馬遜、微軟、AMD、等海外科技大廠,均宣布在自家產品中接入Deepseek。
值得一提的是,歐美多國對于Deepseek的安全性、隱私問題依然存在質疑。美國多位官員表示正在對Deepseek開展國家安全調查,包括國防部、國會和NASA等部門均被要求禁用Deepseek。
此外,據彭博社等媒體報道,微軟還曾調查 OpenAI 技術輸出的數據是否被中國的Deepseek團隊以未經授權的方式獲取,比如通過“蒸餾技術”非法獲取其模型輸出數據。
但在這些爭議尚未解決之前,大廠們顯然已經迫不及待想要加入Deepseek生態,本質上還是基于“利益至上”的原則。
據斯坦福大學計算機科學系和電子工程系副教授吳恩達表示,OpenAI - o1模型每百萬輸出token 的成本為60美元,而Deepseek-R1 則僅需 2.19 美元,這接近30倍的成本差距,相信大廠們也會算賬。
其次則是生態效應,吳恩達認為,“降價”+“開源”正在將基礎模型層商品化,為應用開發者創造了巨大的機遇。盡早加入這一生態,讓自家大模型與之相結合,也有望帶來更多創新體驗,“收攏”部分DeepSeek用戶的需求。
因此,除了海外大廠之外,諸如阿里云、百度云等國內大廠也開始集中接入Deepseek,在各自平臺提供的適配服務,打不過就加入,才能共享創新紅利。
乘上Deepseek的東風
事實上,在開春爆火的Deepseek,不僅為大模型行業帶來了一陣“春風”,對于普通用戶來說,也帶來了更多新機會。
第一批利用Deepseek搞錢的人已經出現了,跟彼時橫空出世的ChatGPT一樣,面對更加智能、更加高效的大模型,AI取代人類的焦慮感,再次成為收割用戶的“武器”。
社交平臺上已經出現了不少“如何使用Deepseek進行XXX”的課程,面向社交媒體、電商、廣告等不同行業的應用和變現。
當然,學習新知識肯定是沒錯的,但相較于被焦慮感“收割”,并淪為大V私域流量中的一員,大家不妨根據自己的實際工作和擅長內容,先上手試用一下Deepseek。
目前來看,Deepseek在技術上確實有意想不到的突破,對于普通用戶來說,其能夠展示思維鏈全過程,更方便人類與AI交流,業內人士甚至稱之為當前最好用的開源模型,但也不需要過度“神化”Deepseek。
首先,從使用體驗來看,Deepseek尚無法承受蜂擁而至的流量。其實,Deepseek在年前便已經小范圍的“爆火”,其當時尚能同時使用深度思考和聯網功能,輸出的文章框架和成文確實比較驚艷。
但隨著使用者不斷增多,目前Deepseek已經關閉了聯網功能,整理輸出質量有較大的下降,且大部分時間Deepseek都呈現“服務繁忙”的狀態。
雖然梁文鋒曾表示“商業化”不是當前首要考慮的問題,但按私募基金的體量來推算“幻方”的資金規模,千億規模不等于千億資金體量,“幻方”只是在千億規模上收取管理費,其跟大廠之間的資金差距還是很大的。
但要繼續維持C端的使用體驗,Deepseek必然需要燒錢,后續如何補充資金,還是調整使用模式,梁文鋒都需要提出更明確的打法。
其次,目前Deepseek在圖文、視頻方面的能力是缺失的,現階段要說Deepseek能夠與頭部閉源模型直接打擂臺,恐怕還為時尚早。
不過,其發展也給Open AI,以及更多垂直模型帶來了壓力,相信將能在一定程度上推動整個大模型生態的發展。
最后,Deepseek依然面臨著政策、數據安全等爭議,要走向全球依然是漫漫長路;此外,其在計算資源與算力方面依然受限,這意味著國產硬件還需要繼續努力,才能支撐軟件的不斷創新。
當然,對于全球大模型行業來說,有競爭才有動力,就像智能手機行業一樣,參與者多了,行業盤子就會越來越多,也才有機會爆發出更多的機會。
Deepseek的出現就像是國內大模型行業的一點“火花”,既是思維碰撞的突破,也是靈感乍現的瞬間。接下來,相信還需要國內大模型行業在軟硬件方面的持續創新,才能抓住這一機遇,讓中國科技行業能夠從“跟隨者”向“引領者”進發。