文|經緯創投
開源大模型的王座又要換人了。
當地時間4月18日,Meta發布了其最新開源模型Llama 3,提供8B和70B的預訓練和指令微調版本,號稱是最強大的開源大語言模型。
與此同時,扎克伯格宣布:基于最新的 Llama 3 模型,Meta 的 AI 助手現在已經覆蓋 Instagram、WhatsApp、Facebook 等全系應用,并單獨開啟了網站。另外還有一個圖像生成器,可根據自然語言提示詞生成圖片。
該消息一經發出瞬間引起熱議。英偉達高級科學家Jim Fan認為,之后可能會發布的Llama 3-400B以上的版本,將成為某種“分水嶺”,開源社區或將能用上GPT-4級別的模型。
同時,扎克伯格表示,“我們的目標不是與開源模型競爭,而是要超過所有人,打造最領先的人工智能。”未來,Meta團隊將會公布Llama 3的技術報告,披露模型更多的細節。
那么,作為以開源特性聞名的語言模型,Llama 3和其他模型有哪些不一樣?在過往的基礎上有哪些更新?開源和閉源之爭,什么才是背后的決定因素?以下,Enjoy:
01 新一代Llama3模型,有哪些亮點?
當地時間4月18日,Meta不負眾望發布了兩款開源Llama 3 8B與Llama 3 70B模型。并稱這是同等體量下,性能最好的開源模型。
號稱一代更比一代強的Llama 3 8B,在部分性能測試上甚至比Llama 2 70B還要強大。無論是預訓練還是指令微調,都展現出更靈活易用的特點。
這也受益于Meta在研發Llama 3 過程中,設計的一套更高質量的人類評估標準。1800個測試項、12個主要應用場景,囊括了角色扮演、邏輯推理、開放/封閉式問題等多項標準。
基于這一評估標準,相較于Claude Sonnet、Mistral Medium 以及 GPT-3.5 模型,Meta Llama3的提升可見一斑。
備受矚目的Meta Llama3,將精力集中在四大核心要素:模型架構、預訓練數據、預訓練規模、指令微調。
模型架構:
與前一代Llama2相比,Llama3進行了關鍵性能改進。首先,Llama3采用128K token的分詞器,以提高編碼語言效率;其次,8B和70B規模模型采用GQA技術,最多可以處理8192個Token序列,并且通過掩碼技術規范模型的自注意力機制,以防跨越不同文檔界限。
訓練數據:
與前一代Llama2相比,Llama3的訓練集規模擴大了7倍、代碼數據量增加了4倍,在預訓練數據投入了更多資源,基于超過15T 的 Token,覆蓋了超30種語言。并且,訓練過程中,為保障優質數據,還打造了包含應用啟發式過濾器、NSFW 內容過濾、語義去重技術和文本質量分類器等一系列高效數據過濾流程。
訓練規模:
訓練數據的提升使訓練規模也需要跟上節奏。為挑選出最佳的數據處理方案,Llama 3 制定了一套詳盡的 Scaling Laws以確保多場景下的能力表現。
為訓練目前為止最大規格的Llama 3 模型,Meta采用了三種并行技術:數據并行、模型并行和流水線并行。以此達到在16K的GPU上同時訓練,最高效可以實現每個GPU超400TFLOPS的計算利用率。
總體而言,相較Llama 2 ,Llama 3 的訓練效率提升了大約三倍。
指令微調:
為了提高聊天應用場景的效能,Llama 3 還通過指令微調的辦法完成創新性改進。關于Llama 3的訓練策略融合了監督式微調、拒絕抽樣、近端策略優化和直接策略優化等多種技術,以此提升 Llama 3 在邏輯推理和編程任務上的表現。
針對“瘋狂”的Llama 3,科技大佬紛紛現身,發表意見。 在Yann LeCun 為 Llama 3 的發布搖旗吶喊的帖子下,馬斯克現身該評論區,留下一句「Not bad 」,表達認可和期待。
英偉達高級科學家Jim Fan稱,“ Llama-3-400B+ 將標志著社區獲得 GPT-4 級模型的開放權重訪問權的分水嶺時刻。它將改變許多研究工作和草根初創公司的計算方式。我在 Claude 3 Opus、GPT-4-2024-04-09 和 Gemini 上拉了數據,Llama-3-400B仍在訓練中,希望在接下來的幾個月里會變得更好。有如此多的研究潛力可以通過如此強大的能力釋放,期待整個生態系統的建設者能量激增!”
傳奇研究員,AI開源倡導者吳恩達表示:“Llama 3的發布是自己這輩子收到過的最好的禮物,謝謝你Meta!”
小扎則表示,“我們的目標不僅僅是與開源模型競爭,而是要超過所有人,打造最領先的人工智能。”
根據Meta AI的工程師Aston Zhang透露,未來Llama 3還會解鎖新的能力,比如多模態、以及性能更強的400B版本。
Meta自己也放了隱藏小彩蛋:“您很快就可以在我們的 Ray-Ban Meta 智能眼鏡上測試多模式 Meta AI。一如既往,我們期待看到您使用 Meta Llama 3 構建的所有令人驚嘆的產品和體驗。”
“通過 Llama 3,我們著手構建與當今最好的專有模型相媲美的最佳開放模型,”Meta強調,“我們致力于開放 AI 生態系統的持續增長和發展,以負責任地發布我們的模型。我們長期以來一直相信,開放可以帶來更好、更安全的產品、更快的創新以及更健康的整體市場。這對 Meta 有利,對社會也有利。”
02 從“開源先鋒”到商業版圖,Meta在走什么樣的路?
比起過往兩款產品,Llama3模型顯然更走心。但回顧過去,Meta其實一直在擁抱開源文化——技術的開放性,不僅激發了學術界的熱情,研究人員得以快速迭代和創新,共同推動AI技術的快速進步,更開拓了商品化的可能,讓AI從一個單獨的技術,變成一種生態。
2023年2月,人們對于AI語言模型的想象還沒有那么豐富時,Meta就發布了首個開源大型語言模型Llama 1,參數規模從7B到65B不等。作為是第一個向學術界開源的模型,Meta在訓練這些模型使用了數萬億個token,并且證明了完全可以只使用公開可得的數據集來訓練最先進的模型,而無需使用專有和不可獲取的數據集。
Llama 1時代,推理速度和性能,是Meta的第一追求。在訓練模型時,為滿足模型在推理部署時的性能和要求,推理速度和推理性能變得至關重要。因此,LLaMA選擇用更小的模型,以及更多的數據集來進行預訓練。
有意思的是,通過使用更小的模型和更多的數據集進行訓練,Meta的科學家和工程師們同樣實現了幾乎最先進的性能。這意味著,在不犧牲性能的情況下,降低訓練成本和時間,反而能更快推動AI技術的發展。
這樣的發現顯然也為AI領域的研究人員和開發者提供了新可能。過去,人們普遍認為只有通過不斷增加模型的大小才能獲得更好的性能,然而,Llama第一代的問世,不僅兼顧了推理性能的需求,更證明了這種觀點并不完全正確——在追求更高、更快、更強的AI技術時成本可以更低,結果可能更好。
但對于Meta的開源之路來說,這只是一個開始。
發布Llama不到半年后,Meta很快做出了一個新決定:商業化。
2023年7月,Meta決定將LLMs推向更廣泛的商業應用場景。在新一代Llama2模型中,上下文窗口得到擴大,參數規模和訓練數據量大幅提升,同時針對聊天場景的能力得到了優化——這些能力的提升,共同為免費可商用的創業和企業界應用提供了可能。
為了讓商業化的場景更多元,Llama 2還著重布局了產品的社區力量。通過打造社區合作和衍生產品,開發者和研究人員共同協作,在GitHub和其他平臺上交流,并為Llama 2提供了無數的衍生產品和優化,這樣的合作式開發模式,不僅加速了模型的改進,還激發了更多關于安全性、可控性和道德性的探討,更重要的是,讓開源大模型的商業化,變得有更多途徑和應用。
而走到第三代開源模型產品,Meta的目標是打造一款完美的類“GPT”產品,但又要比GPT更加開放、有效。在新模型發布的前幾個月,Meta 內部的生成式 AI 部門的員工一直在努力使 Llama 3 在回答有爭議的問題上更開放,此前 Meta 的領導就曾認為 Llama 2 在其回答中過于保守。
此外,在算力的投入上,Meta也一直在AI基礎設施上有所布局,據悉,目前只有微軟擁有與之相當的計算能力儲備。根據,Meta發布的一篇技術博客,到2024年底,該公司將再購350000個英偉達H100 GPU,算上其他GPU,其算力相當于近600000個H100。
從最初有關“開源”的先鋒暢想,到今天第三代的開放社區和多元嘗試,Meta在走的是不是一條成功的路,無法斷言,但可以確定的是,有關大語言模型的商業化嘗試,也許能給AI世界,開啟一個更接近生活的未來。
03 “開源”VS“閉源”,市場怎么看?
此次Meta發布的Llama3,延續了Meta一貫堅持的開源路線。
目前,開源模型界的競爭正在變得愈發激烈,開源大模型也已成為多家爭做的關鍵。目前,除了Meta的Llama3外,谷歌的Gemma、馬斯克旗下的xAI、Mistral AI、StabilityAI等產品,共同構成了開源模型的廣闊市場。
就在Llama3發布的幾個月前,2 月 21 日,谷歌推出了全新的開源模型系列「Gemma」。相比 Gemini,Gemma 更加輕量,可以視作 Gemini 的技術下放,同時保持免費可用,模型權重也一并開源且允許商用,更可以在筆記本電腦、臺式機、物聯網、移動設備和云端等多個主流設備類型上運行。
而一直愛好“追逐潮流”的馬斯克,當然也沒有放過開源的風口。xAI推出的開源模型,專注于實現高效的機器學習算法。其大模型致力于提供更快速、節能的AI解決方案,以適應不斷增長的計算需求和環境友好性的挑戰。在應用方面,其也旨在通過優化算法和模型設計來降低大型語言模型的訓練成本,從而推動更廣泛的研究和應用。
同樣作為致力于創建對話式人工智能模型的公司,Mistral AI的開源模型通常專注于自然語言處理(NLP)任務,如文本生成、情感分析和語言理解。他們提供的模型往往強調多語言支持和跨域功能,使它們能夠在全球范圍內的不同應用場景中發揮作用。Mistral AI的模型旨在通過高度的定制能力和可擴展性,幫助企業解決復雜的NLP問題。
在圖像生成方面,StabilityAI因為其開源的穩定擴散模型而聞名。這些模型使用概率性方法來生成數據分布,特別適用于圖像生成、藝術創作和數據增強等任務,通過提供易于使用的開源工具,讓更多創作者和開發者參與到生成性AI領域的創新中來。
可以看到的是,多家科技巨頭入局開源模型,意味著更多人愿意為構建一個更加智能、互聯的世界貢獻力量。然而,盡管開源模型帶來的開放性、協同性,讓大語言模型的發展不斷加速,但與此同時,有關AI技術安全性和可控性的探討,也比以往更加激烈。
對開源模型的爭議,AI三巨頭之一的楊立昆Yann LeCun給予了有理有據的回應,科學論文、代碼的自由交換以及AI訓練模型的公開共享使美國在科學技術領域保持領先地位。這個理念并非新穎,很久以前就有了。所以,開源技術推動了我們現在視為基礎設施的系統,例如互聯網和移動通信網絡,取得了快速進步。
這并不意味著每個模型都可以或應該開放。專有模型和開源模型都有其作用,但開源基礎模型應該是構建活力四射的生態系統的基石。開源模型創建了行業標準,就像90年代中期的互聯網模型一樣。通過這種協作努力,AI技術將更快地發展,變得更加可靠、更加安全。
同時,開源還為企業和研究人員提供了他們無法自行構建的工具,這有助于創造大量的社會和經濟機會。換句話說,開源實現了對訪問的民主化。它讓更多的人和企業有能力利用最先進的技術,并彌補潛在的弱點。這也有助于促進民主價值觀和制度,減少社會差距并改善競爭。
而反對開源的一派認為,開源AI會被不良行為者操縱。來自麻省理工學院和劍橋大學的科學家們曾發表過一篇論文,他們通過實驗研究了持續模型權重的擴散是否會幫助惡意者利用更強大的未來模型來造成大規模傷害,結果發現,開源大模型的確可能存在風險。Anthropic 公司研究人員也曾發表論文警告稱,AI中毒可能導致開源大模型變成潛伏的間諜。
開源和閉源之爭,漸漸演變成一場宗教般的信仰之爭,很難有人保持中立。可是,未來真如游戲《賽博朋克2077》那般,超級科技巨頭荒坂集團掌控著大部分國家的政府及經濟命脈,滲透進所有人生活的每個角落。那么,如果AI只掌控在幾家科技公司手中,什么才是正確的答案?
對今天的世界來說,AI的技術發展是變革性的。一次次對于創新、商業化的“見證”,可能才是市場最需要的東西。
此次,Meta新一代Llama3模型發布,讓大語言模型的多模態能力、生態化,有了更進一步的革新。
更重要的是在一次次的更迭中,我們站在科技變革的門檻上,得以窺見AI技術已經不再是冰冷的算法和數據的堆砌,而是擁有了更多元的感知能力和更為精準的社會理解。它預示著,未來的人工智能將更深入地融入我們的生活。這樣的融入,也許在開源與閉源的辯論聲中,顯得有些暗淡,但在此刻,聽到不同的聲音和立場,感受技術進步帶來的激烈碰撞,也許才是科技本身的意義。
參考資料:
1.Llama生態系統:過去、現在和未來 by Web3天空之城
2.LLaMA 1 模型架構、預訓練、部署優化特點總結 by NewBee NLP 3.Llama 2 技術細節,來自Meta的最強可商用開源大模型 by 子非AI
4.Meta確認開源大模型LLaMA 3下個月登場,年底還將建成等同于60萬個H100 GPU的“超級算力庫” by 每日經濟新聞
5.李彥宏給開源大模型潑冷水,他們卻有不同看法 by 第一財經
6.ChatGPT vs LLaMa 2 差異性對比 by twt企業AI社區
7.Llama 3 發布!目前最強開源大模型,全面登陸 Meta 系產品,即將推出 4000 億模型 by Founder Park