簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

大模型價格“卷”起來了:幻方、字節和智譜紛紛下場,GPT4一年降價超80%

掃一掃下載界面新聞APP

大模型價格“卷”起來了:幻方、字節和智譜紛紛下場,GPT4一年降價超80%

驅動這輪大模型推理成本下降的邏輯是什么?我們又應該如何理解推理成本下降對產業的意義?

圖片來源:界面新聞| 匡達

文|烏鴉智能說

不少人有這樣一個判斷:2024會是推理的元年。據英偉達2023年財報電話會議披露,公司全年數據中心里已經有40%的收入來自推理業務,超出了絕大部分人預期。

讓人沒想到的是,推理端的爆發率先在大模型價格上卷了起來。今年5月,幻方、字節先后發布新模型,價格動輒市面上原有模型的1%。同時,智譜也官宣了新的價格體系,將入門級產品GLM-3 Turbo模型的價格下調了80%。

這樣的趨勢,同樣也在國外發生。自去年以來,OpenAI已經進行了4次降價。在剛剛結束的春季功能更新會上,OpenAI宣布了其最新模型GPT-4o,不僅性能有大幅提升,價格也下調了50%。

那么,驅動這輪大模型推理成本下降的邏輯是什么?我們又應該如何理解推理成本下降對產業的意義?

/ 01 / 降本超預期!GPT4一年降價超80%

從5月召開的發布會來看,各家在大模型價格上卷得越來越厲害了。

5月6日,幻方量化旗下DeepSeek(深度求索)發布第二代MoE模型DeepSeek-V2,該模型API定價為每百萬Tokens輸入1元、輸出2元(32K上下文),價格為GPT-4 Turbo的近百分之一。

5月11日,智譜大模型官宣新的價格體系,新注冊用戶可以獲得額度從500萬 tokens 提升至2500萬 tokens,并且入門級產品GLM-3 Turbo模型調用價格從5元/百萬Tokens降至1元/百萬Tokens,降幅高達80%。

5月13日,OpenAI發布GPT-4o,不僅在功能上大幅超越GPT-4 Turbo,價格只有一半。

5月15日,豆包主力模型為0.0008元/千Tokens,即0.8厘就能處理1500多個漢字,宣稱比行業便宜了99.3%。在32K(千字節)以下主力模型中,每1000 Tokens(大模型文本中的一個最小單位)的企業市場使用價格,GPT-4(美國AI研究公司OpenAI旗下的大模型)為0.42元,百度文心一言和阿里通義千問為0.12元。

可以看到,大模型降價既有GLM-3 Turbo這樣的入門模型,也有像性能接近GPT-4 Turbo的主力模型。而從OpenAI過去一年的動作看,降價也一直其升級的主線。

算上此次GPT-4o的發布,2023年年初以來,OpenAI已經進行了4次降價。去年3月,OpenAI開放了gpt-3.5-turbo,每1000個token的成本為0.002美元,價格比此前的GPT-3.5模型下降了90%。

到去年11月,OpenAI發布了GPT-4 Turbo的同時,也對整個平臺的價格做出了調整。其中,GPT-4 Turbo輸入tokens價格是GPT-4的1/3,為0.01美元/1k tokens(折合人民幣約0.07元),輸出tokens價格是其1/2,為,折合人民幣約0.22元)。

今年1月,OpenAI推出了新版的GPT-3.5-Turbo,型號為gpt-3.5-turbo-0125,gpt-3.5-turbo-0125輸入的價格降低了50%,為0.0005美元/1000 tokens,輸出價格也降低了25%,為0.0015美元/1000 tokens。

此外,OpenAI還推出餓了兩個新一代embedding模型:text-embedding-3-small和text-embedding-3-large。其中,text-embedding-3-small遠比OpenAI之前的text-embedding-ada-002模型效率高,因此價格也大幅降低了5倍,從每千token的0.0001美元降至0.00002美元。

從去年3月OpenAI發布GPT4到現在,其產品從GPT4升級到GPT-4o,輸入價格從0.03美元/1k tokens下降到0.005美元/1k tokens,降幅為83%;輸出價格從0.06美元/1k tokens下降到0.015美元/1k tokens,降幅為75%。

根據此前預期,大模型大致將按照每年50-75%幅度降本,也就是說,現在大模型的降本速度遠超預期。

/ 02 / 模型優化驅動下的成本下降

過去,大模型推理成本下降,很大程度要依賴于算力的升級。但縱觀過去一年,推理成本的下降,是在算力沒有升級的情況完成的,包括架構創新、推理優化、系統升級、甚至推理集群計算架構方面等等。

這意味著,除了算力升級外,模型優化本身也有著很大的空間。從目前看,算法框架革新主要有兩條思路:輕量化和線性化。

其中,輕量化以Mixtral 8*7B模型為代表,其核心思路是采用混合專家模型MoE,架構中基于多個專家并行機制,推理時只激活部分專家,以稀疏性壓縮了參數數量和推理成本。

MoE架構主要由兩個關鍵部分組成:專家網絡和門控機制。所謂的“專家網絡”,就是傳統Tranformer架構的FFN(前饋網絡)層是一個完全連接的神經網絡,MoE架構的FFN層則劃分成稀疏性的神經網絡,這些被稱之為“專家”的小FFN,每個都有自己的權重和激活函數,它們并行工作、專注于處理特定類型的信息。而門控機制則用來決定每個token被發送到哪個專家網絡的調配器。

MoE架構強調“術業有專攻”,把不同的問題交給相應領域的專家來解決,就好比一家公司有多個部門,在做決策的時候,公司的CEO會把具體的問題分配到相關的部門進行討論,最終產生最優的決策。

與輕量化不同,線性化更注重對信息的壓縮。Transformer架構模型在推理時與上下文內容進行逐字對比,而線性化模型對前文信息進行了壓縮,實現了復雜度線性化,意味著更快的推理速度和更低的計算成本。

此次DeepSeek-V2的降價,就是其通過架構創新,實現了大模型成本尤其是推理成本下降的結果。具體來說,DeepSeek-V2在注意力機制和稀疏層方面做出了創新性的設計。

一方面,其稀疏MoE架構進行了共享專家等改進,相比V1的稠密模型,節約了42.5%的訓練成本。另一方面,DeepSeek-V2也創新性地運用先進的注意力機制MLA,壓縮token生成中對key value的緩存,極大降低了推理成本。

長期來看,在算力升級以及架構優化等一系列因素的推動下,模型推理成本下降的速度很有可能超出大家預期,并加速應用層的不斷創新和生態繁榮。

/ 03 / 一場成本驅動型生產力革命

從過去看,科技變革本質上都是伴隨著邊際成本的大幅下降。根據A16Z的合伙人Martin Casado的觀點,過去幾十年人類大致經歷了兩次大的科技變革,分別是芯片和互聯網。

在新一波浪潮里,芯片的誕生,將計算的邊際成本降到了趨近為零。在微芯片出現之前,計算是通過手工完成的。人們在大房間里做對數表。然后ENIAC被引入,計算速度提高了四個數量級,然后發生了計算機革命。這一時期出現了IBM、惠普等公司。

到了互聯網時代,互聯網技術將分發的邊際成本降到了零。以前無論你發送什么(一個盒子或者一封信)都需要一定的成本,互聯網出現后,每bit的價格急劇下降。順便說一下,這也是四個數量級改進。這引領了互聯網革命。這一時期出現了亞馬遜、谷歌和Meta等公司。

與上述兩個技術類似,AI也同樣是一場成本驅動型生產力革命。大模型則是將創造的邊際成本降到了零,比如創建圖像和語言理解等等。

舉個例子,以前創造一個漫畫角色可能需要一個時薪100美元平面設計師,而現在大模型只需要0.01美元,而且只需要一秒鐘。再以客服行業為例,目前普遍的AI客服定價都隱含相比人工客服接近1:10的ROI,這意味著過去在美國一位年薪5萬刀的客服人員,在應用大模型產品后成本會降低到5000刀。

目前受限于模型推理成本較高,AI應用普遍面臨較大的成本壓力。

根據無問芯穹發起人汪玉,用公開數據做了一次針對算力成本數量級的測算,假設GPT-4 Turbo每天要為10億活躍用戶提供服務,每年的算力成本可能超過兩千億,這還不包括模型訓練的投入。

絕大部分公司的收入仍然還在億的級別,因此這種成本在打造商業閉環上,顯然是不成立的。

從這個角度上說,推理成本下降將成為打開AI應用的重要“開關”。更重要的是,過去的科技發展歷史,告訴我們,如果需求具有彈性,那么隨著成本下降,使用量也會因為可及性提升而答復增加。

幾乎可以肯定的是,互聯網大幅帶動了全球經濟的增長。而人工智能大概率也將經歷同樣的故事。

本文為轉載內容,授權事宜請聯系原著作權人。

发布评论

您至少需输入5个字

評論

暫無評論哦,快來評價一下吧!
界面财经号
界面财经号
IP属地:河北
界面财经号由界面新闻JMedia联盟升级而来,集结财经、商业领域优质原创微信公众号,分享、解读最新财经热点和商业新闻。

下載界面新聞

大模型價格“卷”起來了:幻方、字節和智譜紛紛下場,GPT4一年降價超80%

驅動這輪大模型推理成本下降的邏輯是什么?我們又應該如何理解推理成本下降對產業的意義?

圖片來源:界面新聞| 匡達

文|烏鴉智能說

不少人有這樣一個判斷:2024會是推理的元年。據英偉達2023年財報電話會議披露,公司全年數據中心里已經有40%的收入來自推理業務,超出了絕大部分人預期。

讓人沒想到的是,推理端的爆發率先在大模型價格上卷了起來。今年5月,幻方、字節先后發布新模型,價格動輒市面上原有模型的1%。同時,智譜也官宣了新的價格體系,將入門級產品GLM-3 Turbo模型的價格下調了80%。

這樣的趨勢,同樣也在國外發生。自去年以來,OpenAI已經進行了4次降價。在剛剛結束的春季功能更新會上,OpenAI宣布了其最新模型GPT-4o,不僅性能有大幅提升,價格也下調了50%。

那么,驅動這輪大模型推理成本下降的邏輯是什么?我們又應該如何理解推理成本下降對產業的意義?

/ 01 / 降本超預期!GPT4一年降價超80%

從5月召開的發布會來看,各家在大模型價格上卷得越來越厲害了。

5月6日,幻方量化旗下DeepSeek(深度求索)發布第二代MoE模型DeepSeek-V2,該模型API定價為每百萬Tokens輸入1元、輸出2元(32K上下文),價格為GPT-4 Turbo的近百分之一。

5月11日,智譜大模型官宣新的價格體系,新注冊用戶可以獲得額度從500萬 tokens 提升至2500萬 tokens,并且入門級產品GLM-3 Turbo模型調用價格從5元/百萬Tokens降至1元/百萬Tokens,降幅高達80%。

5月13日,OpenAI發布GPT-4o,不僅在功能上大幅超越GPT-4 Turbo,價格只有一半。

5月15日,豆包主力模型為0.0008元/千Tokens,即0.8厘就能處理1500多個漢字,宣稱比行業便宜了99.3%。在32K(千字節)以下主力模型中,每1000 Tokens(大模型文本中的一個最小單位)的企業市場使用價格,GPT-4(美國AI研究公司OpenAI旗下的大模型)為0.42元,百度文心一言和阿里通義千問為0.12元。

可以看到,大模型降價既有GLM-3 Turbo這樣的入門模型,也有像性能接近GPT-4 Turbo的主力模型。而從OpenAI過去一年的動作看,降價也一直其升級的主線。

算上此次GPT-4o的發布,2023年年初以來,OpenAI已經進行了4次降價。去年3月,OpenAI開放了gpt-3.5-turbo,每1000個token的成本為0.002美元,價格比此前的GPT-3.5模型下降了90%。

到去年11月,OpenAI發布了GPT-4 Turbo的同時,也對整個平臺的價格做出了調整。其中,GPT-4 Turbo輸入tokens價格是GPT-4的1/3,為0.01美元/1k tokens(折合人民幣約0.07元),輸出tokens價格是其1/2,為,折合人民幣約0.22元)。

今年1月,OpenAI推出了新版的GPT-3.5-Turbo,型號為gpt-3.5-turbo-0125,gpt-3.5-turbo-0125輸入的價格降低了50%,為0.0005美元/1000 tokens,輸出價格也降低了25%,為0.0015美元/1000 tokens。

此外,OpenAI還推出餓了兩個新一代embedding模型:text-embedding-3-small和text-embedding-3-large。其中,text-embedding-3-small遠比OpenAI之前的text-embedding-ada-002模型效率高,因此價格也大幅降低了5倍,從每千token的0.0001美元降至0.00002美元。

從去年3月OpenAI發布GPT4到現在,其產品從GPT4升級到GPT-4o,輸入價格從0.03美元/1k tokens下降到0.005美元/1k tokens,降幅為83%;輸出價格從0.06美元/1k tokens下降到0.015美元/1k tokens,降幅為75%。

根據此前預期,大模型大致將按照每年50-75%幅度降本,也就是說,現在大模型的降本速度遠超預期。

/ 02 / 模型優化驅動下的成本下降

過去,大模型推理成本下降,很大程度要依賴于算力的升級。但縱觀過去一年,推理成本的下降,是在算力沒有升級的情況完成的,包括架構創新、推理優化、系統升級、甚至推理集群計算架構方面等等。

這意味著,除了算力升級外,模型優化本身也有著很大的空間。從目前看,算法框架革新主要有兩條思路:輕量化和線性化。

其中,輕量化以Mixtral 8*7B模型為代表,其核心思路是采用混合專家模型MoE,架構中基于多個專家并行機制,推理時只激活部分專家,以稀疏性壓縮了參數數量和推理成本。

MoE架構主要由兩個關鍵部分組成:專家網絡和門控機制。所謂的“專家網絡”,就是傳統Tranformer架構的FFN(前饋網絡)層是一個完全連接的神經網絡,MoE架構的FFN層則劃分成稀疏性的神經網絡,這些被稱之為“專家”的小FFN,每個都有自己的權重和激活函數,它們并行工作、專注于處理特定類型的信息。而門控機制則用來決定每個token被發送到哪個專家網絡的調配器。

MoE架構強調“術業有專攻”,把不同的問題交給相應領域的專家來解決,就好比一家公司有多個部門,在做決策的時候,公司的CEO會把具體的問題分配到相關的部門進行討論,最終產生最優的決策。

與輕量化不同,線性化更注重對信息的壓縮。Transformer架構模型在推理時與上下文內容進行逐字對比,而線性化模型對前文信息進行了壓縮,實現了復雜度線性化,意味著更快的推理速度和更低的計算成本。

此次DeepSeek-V2的降價,就是其通過架構創新,實現了大模型成本尤其是推理成本下降的結果。具體來說,DeepSeek-V2在注意力機制和稀疏層方面做出了創新性的設計。

一方面,其稀疏MoE架構進行了共享專家等改進,相比V1的稠密模型,節約了42.5%的訓練成本。另一方面,DeepSeek-V2也創新性地運用先進的注意力機制MLA,壓縮token生成中對key value的緩存,極大降低了推理成本。

長期來看,在算力升級以及架構優化等一系列因素的推動下,模型推理成本下降的速度很有可能超出大家預期,并加速應用層的不斷創新和生態繁榮。

/ 03 / 一場成本驅動型生產力革命

從過去看,科技變革本質上都是伴隨著邊際成本的大幅下降。根據A16Z的合伙人Martin Casado的觀點,過去幾十年人類大致經歷了兩次大的科技變革,分別是芯片和互聯網。

在新一波浪潮里,芯片的誕生,將計算的邊際成本降到了趨近為零。在微芯片出現之前,計算是通過手工完成的。人們在大房間里做對數表。然后ENIAC被引入,計算速度提高了四個數量級,然后發生了計算機革命。這一時期出現了IBM、惠普等公司。

到了互聯網時代,互聯網技術將分發的邊際成本降到了零。以前無論你發送什么(一個盒子或者一封信)都需要一定的成本,互聯網出現后,每bit的價格急劇下降。順便說一下,這也是四個數量級改進。這引領了互聯網革命。這一時期出現了亞馬遜、谷歌和Meta等公司。

與上述兩個技術類似,AI也同樣是一場成本驅動型生產力革命。大模型則是將創造的邊際成本降到了零,比如創建圖像和語言理解等等。

舉個例子,以前創造一個漫畫角色可能需要一個時薪100美元平面設計師,而現在大模型只需要0.01美元,而且只需要一秒鐘。再以客服行業為例,目前普遍的AI客服定價都隱含相比人工客服接近1:10的ROI,這意味著過去在美國一位年薪5萬刀的客服人員,在應用大模型產品后成本會降低到5000刀。

目前受限于模型推理成本較高,AI應用普遍面臨較大的成本壓力。

根據無問芯穹發起人汪玉,用公開數據做了一次針對算力成本數量級的測算,假設GPT-4 Turbo每天要為10億活躍用戶提供服務,每年的算力成本可能超過兩千億,這還不包括模型訓練的投入。

絕大部分公司的收入仍然還在億的級別,因此這種成本在打造商業閉環上,顯然是不成立的。

從這個角度上說,推理成本下降將成為打開AI應用的重要“開關”。更重要的是,過去的科技發展歷史,告訴我們,如果需求具有彈性,那么隨著成本下降,使用量也會因為可及性提升而答復增加。

幾乎可以肯定的是,互聯網大幅帶動了全球經濟的增長。而人工智能大概率也將經歷同樣的故事。

本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 湟中县| 浏阳市| 陇川县| 海盐县| 视频| 安远县| 富民县| 台东县| 延寿县| 中江县| 克山县| 平湖市| 来安县| 岳西县| 交城县| 桦川县| 东乌珠穆沁旗| 诸暨市| 鄂伦春自治旗| 瑞昌市| 蒲江县| 太湖县| 壶关县| 岫岩| 天峻县| 焉耆| 霍邱县| 绩溪县| 凉城县| 盱眙县| 桐柏县| 桐庐县| 柘荣县| 南康市| 河北省| 乌鲁木齐县| 开原市| 湟源县| 蓝山县| 宿州市| 湄潭县|

下载界面新闻

微信公众号

微博