簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

算力不足,小模型成AI模型發(fā)展下個(gè)方向?

掃一掃下載界面新聞APP

算力不足,小模型成AI模型發(fā)展下個(gè)方向?

大力出奇跡不是唯一方法,把大模型做小才是本事。

圖片來(lái)源:界面新聞 匡達(dá)

文|新火種 一號(hào)

編輯|美美

大模型不是AI的唯一出路,把模型做小也是本事。

這段時(shí)間,AI模型界是真的熱鬧,新的模型不斷涌現(xiàn),不管是開(kāi)源還是閉源,都在刷新成績(jī)。就在前幾天,Meta就上演了一出“重奪開(kāi)源鐵王座”的好戲。發(fā)布了Llama 3 8B和70B兩個(gè)版本,在多項(xiàng)指標(biāo)上都超越了此前開(kāi)源的Grok-1和DBRX,成為了新的開(kāi)源大模型王者。

并且Meta還透露,之后還將推出400B版本的Llama 3,它的測(cè)試成績(jī)可是在很多方面上都追上了OpenAI閉源的GPT-4,讓很多人都直呼,開(kāi)源版的GPT-4就要來(lái)了。盡管在參數(shù)量上來(lái)看,相比Llama 2,Llama 3并沒(méi)有特別大的提升,但是在某些表現(xiàn)上,Llama 3最小的8B版本都比Llama 2 70B要好。可見(jiàn),模型性能的提升,并非只有堆參數(shù)這一種做法。

Llama 3重回開(kāi)源之王

當(dāng)?shù)貢r(shí)間4月18日,“真·OpenAI”——Meta跑出了目前最強(qiáng)的開(kāi)源大模型Llama 3。本次Meta共發(fā)布了兩款開(kāi)源的Llama 3 8B和Llama 3 70B模型。根據(jù)Meta的說(shuō)法,這兩個(gè)版本的Llama 3是目前同體量下,性能最好的開(kāi)源模型。并且在某些數(shù)據(jù)集上,Llama 3 8B的性能比Llama 2 70B還要強(qiáng),要知道,這兩者的參數(shù)可是相差了一個(gè)數(shù)量級(jí)。

能夠做到這點(diǎn),可能是因?yàn)長(zhǎng)lama 3的訓(xùn)練效率要高3倍,它基于超過(guò)15T token訓(xùn)練,這比Llama 2數(shù)據(jù)集的7倍還多。在MMLU、ARC、DROP等基準(zhǔn)測(cè)試中,Llama 3 8B在九項(xiàng)測(cè)試中領(lǐng)先于同行,Llama 3 70B也同樣擊敗了Gemini 1.5 Pro和Claude 3 Sonnet。

盡管在參數(shù)量上并沒(méi)有特別大的提升,但毫無(wú)疑問(wèn),Llama 3的性能已經(jīng)得到了很大的進(jìn)步,可以說(shuō)是用相近的參數(shù)量獲得了更好的性能,這可能是在算力資源短期內(nèi)無(wú)法滿足更大規(guī)模運(yùn)算的情況下所作出的選擇,但這體現(xiàn)了AI模型的研發(fā)并非只有堆砌參數(shù)這一條“大力出奇跡”的道路。

把大模型做小正成業(yè)內(nèi)共識(shí)

實(shí)際上,在Llama 3之間的兩位開(kāi)源王者,Grok-1和DBRX也致力于把模型做小。和以往的大模型,使用一個(gè)模型解決一切問(wèn)題的方式不同,Grok-1和DBRX都采用了MoE架構(gòu)(專家模型架構(gòu)),在面對(duì)不同問(wèn)題的時(shí)候,調(diào)用不同的小模型來(lái)解決,實(shí)現(xiàn)在節(jié)省算力的情況下,保證回答的質(zhì)量。

而微軟也在Llama 3發(fā)布后沒(méi)幾天,就出手截胡,展示了Phi-3系列小模型的技術(shù)報(bào)告。在這份報(bào)告中,僅3.8B參數(shù)的Phi-3-mini在多項(xiàng)基準(zhǔn)測(cè)試中都超過(guò)了Llama 3 8B,并且為了方便開(kāi)源社區(qū)使用,還特意把它設(shè)計(jì)成了與Llama系列兼容的結(jié)構(gòu)。更夸張的是,微軟的這個(gè)模型,在手機(jī)上也能直接跑,經(jīng)4bit量化后的phi-3-mini在iPhone 14 pro和iPhone 15使用的蘋(píng)果A16芯片上能夠跑到每秒12 token,這也就意味著,現(xiàn)在手機(jī)上能本地運(yùn)行的最佳開(kāi)源模型,已經(jīng)做到了ChatGPT水平。

而除了mini杯外,微軟也一并發(fā)布了小杯和中杯,7B參數(shù)的Phi-3-small和14B參數(shù)的Phi-3-medium。在技術(shù)報(bào)告中,微軟也說(shuō)了,去年研究團(tuán)隊(duì)就發(fā)現(xiàn),單純堆砌參數(shù)量并非提升模型性能的唯一路徑,反而是精心設(shè)計(jì)訓(xùn)練的數(shù)據(jù),尤其是利用大模型本身去生成合成數(shù)據(jù),并配合嚴(yán)格過(guò)濾的高質(zhì)量數(shù)據(jù),能夠讓中小模型的能力大幅躍升,所以他們也說(shuō),Textbooks are all you need,教科書(shū)級(jí)別的高質(zhì)量數(shù)據(jù)才是重要的。

AI模型發(fā)展正著力于擺脫限制

自英偉達(dá)乘著AI的東風(fēng),成為行業(yè)內(nèi)說(shuō)一不二,當(dāng)之無(wú)愧的“賣(mài)鏟子的人”,各家AI公司都將英偉達(dá)的GPU視為“硬通貨”,以致于誰(shuí)囤有更多的英偉達(dá)的GPU,誰(shuí)的AI實(shí)力就強(qiáng)。但英偉達(dá)的GPU的交付并未能始終跟上市場(chǎng)的需求。

因此,很多AI公司開(kāi)始另謀出路,要么找其他的GPU生產(chǎn)商,要么決定自己研發(fā)AI芯片。即使你囤夠了英偉達(dá)的GPU,也還有其他限制,OpenAI在前段時(shí)間就被爆出,因?yàn)橛?xùn)練GPT-6,差點(diǎn)把微軟的電網(wǎng)搞癱瘓。馬斯克也曾說(shuō)過(guò),當(dāng)前限制AI發(fā)展的主要因素是算力資源,但在未來(lái),電力會(huì)成為限制AI發(fā)展的另一阻礙。

顯然,如果持續(xù)“大力出奇跡”,通過(guò)堆砌參數(shù)量來(lái)實(shí)現(xiàn)AI性能的提升,那么以上這些問(wèn)題遲早會(huì)遇到,但是如果把大模型做小,使用較小的參數(shù)量,實(shí)現(xiàn)同樣或者更好的性能,那么將可以顯著減少對(duì)算力資源的需求,進(jìn)而減少對(duì)電力資源的消耗,從而讓AI在有限資源的情況下,得到更好的發(fā)展。

因此,接下來(lái),誰(shuí)能在將模型做小的同時(shí),還能實(shí)現(xiàn)性能的增長(zhǎng),也是實(shí)力的體現(xiàn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

发布评论

您至少需输入5个字

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!
新火种
界面财经号
IP属地:广西
AI遥不可及,AI触手可及

下載界面新聞

算力不足,小模型成AI模型發(fā)展下個(gè)方向?

大力出奇跡不是唯一方法,把大模型做小才是本事。

圖片來(lái)源:界面新聞 匡達(dá)

文|新火種 一號(hào)

編輯|美美

大模型不是AI的唯一出路,把模型做小也是本事。

這段時(shí)間,AI模型界是真的熱鬧,新的模型不斷涌現(xiàn),不管是開(kāi)源還是閉源,都在刷新成績(jī)。就在前幾天,Meta就上演了一出“重奪開(kāi)源鐵王座”的好戲。發(fā)布了Llama 3 8B和70B兩個(gè)版本,在多項(xiàng)指標(biāo)上都超越了此前開(kāi)源的Grok-1和DBRX,成為了新的開(kāi)源大模型王者。

并且Meta還透露,之后還將推出400B版本的Llama 3,它的測(cè)試成績(jī)可是在很多方面上都追上了OpenAI閉源的GPT-4,讓很多人都直呼,開(kāi)源版的GPT-4就要來(lái)了。盡管在參數(shù)量上來(lái)看,相比Llama 2,Llama 3并沒(méi)有特別大的提升,但是在某些表現(xiàn)上,Llama 3最小的8B版本都比Llama 2 70B要好??梢?jiàn),模型性能的提升,并非只有堆參數(shù)這一種做法。

Llama 3重回開(kāi)源之王

當(dāng)?shù)貢r(shí)間4月18日,“真·OpenAI”——Meta跑出了目前最強(qiáng)的開(kāi)源大模型Llama 3。本次Meta共發(fā)布了兩款開(kāi)源的Llama 3 8B和Llama 3 70B模型。根據(jù)Meta的說(shuō)法,這兩個(gè)版本的Llama 3是目前同體量下,性能最好的開(kāi)源模型。并且在某些數(shù)據(jù)集上,Llama 3 8B的性能比Llama 2 70B還要強(qiáng),要知道,這兩者的參數(shù)可是相差了一個(gè)數(shù)量級(jí)。

能夠做到這點(diǎn),可能是因?yàn)長(zhǎng)lama 3的訓(xùn)練效率要高3倍,它基于超過(guò)15T token訓(xùn)練,這比Llama 2數(shù)據(jù)集的7倍還多。在MMLU、ARC、DROP等基準(zhǔn)測(cè)試中,Llama 3 8B在九項(xiàng)測(cè)試中領(lǐng)先于同行,Llama 3 70B也同樣擊敗了Gemini 1.5 Pro和Claude 3 Sonnet。

盡管在參數(shù)量上并沒(méi)有特別大的提升,但毫無(wú)疑問(wèn),Llama 3的性能已經(jīng)得到了很大的進(jìn)步,可以說(shuō)是用相近的參數(shù)量獲得了更好的性能,這可能是在算力資源短期內(nèi)無(wú)法滿足更大規(guī)模運(yùn)算的情況下所作出的選擇,但這體現(xiàn)了AI模型的研發(fā)并非只有堆砌參數(shù)這一條“大力出奇跡”的道路。

把大模型做小正成業(yè)內(nèi)共識(shí)

實(shí)際上,在Llama 3之間的兩位開(kāi)源王者,Grok-1和DBRX也致力于把模型做小。和以往的大模型,使用一個(gè)模型解決一切問(wèn)題的方式不同,Grok-1和DBRX都采用了MoE架構(gòu)(專家模型架構(gòu)),在面對(duì)不同問(wèn)題的時(shí)候,調(diào)用不同的小模型來(lái)解決,實(shí)現(xiàn)在節(jié)省算力的情況下,保證回答的質(zhì)量。

而微軟也在Llama 3發(fā)布后沒(méi)幾天,就出手截胡,展示了Phi-3系列小模型的技術(shù)報(bào)告。在這份報(bào)告中,僅3.8B參數(shù)的Phi-3-mini在多項(xiàng)基準(zhǔn)測(cè)試中都超過(guò)了Llama 3 8B,并且為了方便開(kāi)源社區(qū)使用,還特意把它設(shè)計(jì)成了與Llama系列兼容的結(jié)構(gòu)。更夸張的是,微軟的這個(gè)模型,在手機(jī)上也能直接跑,經(jīng)4bit量化后的phi-3-mini在iPhone 14 pro和iPhone 15使用的蘋(píng)果A16芯片上能夠跑到每秒12 token,這也就意味著,現(xiàn)在手機(jī)上能本地運(yùn)行的最佳開(kāi)源模型,已經(jīng)做到了ChatGPT水平。

而除了mini杯外,微軟也一并發(fā)布了小杯和中杯,7B參數(shù)的Phi-3-small和14B參數(shù)的Phi-3-medium。在技術(shù)報(bào)告中,微軟也說(shuō)了,去年研究團(tuán)隊(duì)就發(fā)現(xiàn),單純堆砌參數(shù)量并非提升模型性能的唯一路徑,反而是精心設(shè)計(jì)訓(xùn)練的數(shù)據(jù),尤其是利用大模型本身去生成合成數(shù)據(jù),并配合嚴(yán)格過(guò)濾的高質(zhì)量數(shù)據(jù),能夠讓中小模型的能力大幅躍升,所以他們也說(shuō),Textbooks are all you need,教科書(shū)級(jí)別的高質(zhì)量數(shù)據(jù)才是重要的。

AI模型發(fā)展正著力于擺脫限制

自英偉達(dá)乘著AI的東風(fēng),成為行業(yè)內(nèi)說(shuō)一不二,當(dāng)之無(wú)愧的“賣(mài)鏟子的人”,各家AI公司都將英偉達(dá)的GPU視為“硬通貨”,以致于誰(shuí)囤有更多的英偉達(dá)的GPU,誰(shuí)的AI實(shí)力就強(qiáng)。但英偉達(dá)的GPU的交付并未能始終跟上市場(chǎng)的需求。

因此,很多AI公司開(kāi)始另謀出路,要么找其他的GPU生產(chǎn)商,要么決定自己研發(fā)AI芯片。即使你囤夠了英偉達(dá)的GPU,也還有其他限制,OpenAI在前段時(shí)間就被爆出,因?yàn)橛?xùn)練GPT-6,差點(diǎn)把微軟的電網(wǎng)搞癱瘓。馬斯克也曾說(shuō)過(guò),當(dāng)前限制AI發(fā)展的主要因素是算力資源,但在未來(lái),電力會(huì)成為限制AI發(fā)展的另一阻礙。

顯然,如果持續(xù)“大力出奇跡”,通過(guò)堆砌參數(shù)量來(lái)實(shí)現(xiàn)AI性能的提升,那么以上這些問(wèn)題遲早會(huì)遇到,但是如果把大模型做小,使用較小的參數(shù)量,實(shí)現(xiàn)同樣或者更好的性能,那么將可以顯著減少對(duì)算力資源的需求,進(jìn)而減少對(duì)電力資源的消耗,從而讓AI在有限資源的情況下,得到更好的發(fā)展。

因此,接下來(lái),誰(shuí)能在將模型做小的同時(shí),還能實(shí)現(xiàn)性能的增長(zhǎng),也是實(shí)力的體現(xiàn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。
主站蜘蛛池模板: 宁明县| 旺苍县| 宁都县| 林西县| 老河口市| 闵行区| 尤溪县| 萝北县| 台中市| 界首市| 定州市| 江华| 蓝田县| 兴义市| 江川县| 任丘市| 平顺县| 东乡| 陇西县| 略阳县| 通江县| 德庆县| 修水县| 牙克石市| 田阳县| 崇义县| 灌云县| 永和县| 蚌埠市| 蒙山县| 张家界市| 基隆市| 商丘市| 湘乡市| 祁连县| 康乐县| 化州市| 大宁县| 榆中县| 栾城县| 博罗县|

下载界面新闻

微信公众号

微博