簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

大模型邁入應用元年 昆侖萬維推出中國首個音樂SOTA模型

AI大模型邁入應用元年,昆侖萬維發布“天工3.0”和“天工SkyMusic”完善技術與應用的“雙輪驅動”

盡管走上行業風口不過一年多時間,但AI大模型的基礎研發和應用場景的討論熱度始終高企。到2024年,AI大模型邁入應用元年的聲音更是一時甚囂塵上,行業果真走出這一步了嗎?

事實上,鑒于“研發和應用兩手抓”需要的能力與資本都巨大,行業之中配得上這一拷問的公司并不多:百度“文心一言”、阿里“通義千問”、昆侖萬維“天工”、商湯“日日新”、科大訊飛“星火”等等企業及其大模型,都是牌桌上的有力角逐者。

真正要在其中脫穎而出,不僅需要性能超前的基礎大模型,同時也要與之相配、并有“爆品”潛質的產品應用場景。對此,昆侖萬維以“天工3.0”和“天工SkyMusic”嘗試回答。

4月17日,昆侖萬維自研四千億級大語言模型“天工3.0”正式開啟公測并同步開源。這一采用4000億級參數的MoE混合專家模型,是目前全球模型參數最大、性能最強的MoE模型之一,相較上一代在模型語義理解、邏輯推理等多個性能維度均有明顯提升。

技術層之外,這可能也是AI應用領域的潛在引領者之一。與“天工3.0”一同開啟公測的還有昆侖萬維的AI音樂生成大模型“天工SkyMusic”,該大模型在小范圍邀測時已經激起不小的音樂創作浪潮。

而不僅是音樂,“天工3.0”當前已將AI能力集成進搜索、寫作、長文本閱讀、對話、代碼等多個高頻應用場景,為大模型領域即將開啟的落地應用之戰籌備砝碼。

至此,一個完整的AI大模型技術與應用生態正在成型。這是AI大模型敘事最重要的章節之一,它可能就此建立一條行業分水嶺。

天工SkyMusic,引領AIGC音樂浪潮

自OpenAI將大模型推上行業風口以來,屬于中國市場的“百模大戰”已經拉開序幕一年有余,進入2024年,行業關注點開始從技術研發向應用落地逐漸傾斜——無可置否,大模型的落地應用才是決定其技術與價值的長尾指標。

就所有內容模態而言,音頻內容是相比文本和圖片更好理解人類情感的方式,同時,音樂也是人類情感表達最充沛且不受地域和文化限制的內容載體。因此,眾多落地場景之中,音樂創作成為普羅大眾最易上手和感受到趣味性的AIGC場景。對于AI公司而言,這是一個將自己推向C端市場、獲得大眾認知的有利機會。

天工SkyMusic正是昆侖萬維面向音樂行業發布的大模型,此前于4月2日面向社會開啟邀測,今天隨天工3.0正式發布。該大模型自邀測階段就受到行業專家及音樂從業者的廣泛關注,它不僅是國內唯一公開可用的AI音樂生成大模型,同時也是中國首款AI音樂大模型SOTA模型,更是中國的自研大模型技術第一次在AIGC領域領跑全球。

在大模型領域中,SOTA模型指的是被認為是“State of the Art”(SOTA)的模型。正如OpenAI被視為文本大模型和視頻生成大模型的SOTA,"State of the Art"這個術語通常用于描述某個特定領域或技術中當前最先進、性能最好的技術或方法。

在與海外頂尖的AI音樂大模型Suno V3的橫向測評中,天工SkyMusic在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手,并以6.65分的綜合得分超越Suno V3,成為全球AI音樂SOTA模型。

目前,AI音樂生成有兩大技術路徑,分別是符號音樂生成路線和大模型音樂音頻生成路線。前者是指先標注大量樂譜,再訓練模型,最后生成的結果也是樂譜,需要額外的算法或工具將樂譜轉換成音樂;后者則是直接學習并生成音頻波形,樂器、人聲、旋律、音量、音符等等都一體化端到端生成,但這種方式不僅艱難、成功經驗稀缺,還需要高昂的算力和資金。

天工SkyMusic選擇的是技術意義上更難的音頻生成路線。不僅如此,由于這一路線所覆蓋的Song、BGM(Background Music)、Speach三個領域中,Song領域因為包含人聲、生成技術難度更高,始終沒有出現極佳方案。對此,天工SkyMusic投入大量資源實現了一定技術突破,使得該領域的生成質量終于得到提升。

值得注意是,天工SkyMusic是音樂AIGC領域罕見公開自身技術路徑的產品。其由“Encoder-DiT-Decoder”三大核心模塊組成的技術路線圖,成為了“音頻路線+人聲Song路線”的重要技術參考。

相較于行業中的同類產品,天工大模型帶動天工SkyMusic擁有了更突出的產品優勢。

例如,其擁有獨創的參考音樂生成與方言歌曲生成的能力。參考音樂生成是指,用戶可上傳自有參考音樂,或選擇“天工SkyMusic”資料庫中現有的參考音樂,從而生成風格、唱腔類似的歌曲,這種能力能夠結合創意、技術和音樂制作技巧,讓用戶利用現有的音頻資源來創作出更加豐富多彩的音樂作品;

方言歌曲生成能力包含粵語、成都話、北京話、上海話等,這不僅能擴大其受眾范圍,還能加強音樂創作生成的多樣性。同時,基于強大的數據庫及訓練模型,天工SkyMusic還可打造出更具辨識度的自然人聲,這也將使其區別于普通音樂AIGC產品較濃的“AI人聲質感”。

此外,天工SkyMusic可通過歌詞控制情緒變化,實現如顫音、歌劇、吟唱等多種歌唱技巧,還支持創作說唱、民謠、放克、古風、電子等多種音樂風格。

這種音樂創作上的靈活性和普適性,為天工SkyMusic的創作成果帶來了更多趣味。在其公布的大量demo中,《龍行龘龘》演繹了戲曲唱腔與電子音樂如何完美融合;《悟空》從歌詞上貼合了人物本身的傳奇色彩與不羈性格,其獨特理解與領悟最終與旋律合二為一;《Pack my bags》則詮釋了歐美流行音樂的精妙之處,其女聲唱腔兼具歐美女歌手的音色與技巧。

借此,天工SkyMusic得以大幅降低音樂創作的門檻,讓每個用戶都能夠更加容易創作屬于自己的旋律和歌曲,這使其有望成為行業中最重要的全民音樂創作工具之一。而隨著該音樂大模型的不斷進化,它還有可能加入專業音樂人改善創作質量、提高創作效率的輔助進程中,逐步推動建立屬于自己的AI音樂創作者生態。

開源MoE大模型的時代來臨

事實上,天工SkyMusic只是昆侖萬維邁向AIGC大千世界的第一站。自天工3.0發布后,這一大模型將覆蓋聽、說、讀、寫、畫、唱等更多高頻AIGC應用場景,正式開啟一個多模態大模型時代。

從單一模態逐漸過渡到多模態,進而構建世界模型,是業界共識度最高的,邁向AGI的演進路徑。而在OpenAI展現GPT-4和GPT-4V的能力之后,行業便一直在等候一個更具場景覆蓋力的多模態大模型,將大模型技術的應用現實進展再往前推一把。

昆侖萬維“天工3.0”正是登場于這樣的背景之下?!疤旃?.0”采用了4000億級參數MoE混合專家模型,是全球模型參數最大、性能最強的MoE模型之一,并已同步選擇開源。相較上一代,其在模型語義理解、邏輯推理、通用性、泛化性等領域均有明顯提升。

具體而言,“天工3.0”的模型能力提升集中于邏輯推理能力、語義理解能力、專項Agent訓練和內容創作能力四大方面。邏輯推理方面,“天工3.0”數學與推理能力均提升超過30%;語義理解則能夠更好理解和處理用戶自然語言Query中的復雜語義信息,包括隱喻、多義詞等。

專項Agent訓練是此次模型能力提升的核心。當前,AI Agent(智能體)已經成為大模型技術的主流落地方向,而“天工3.0”針對模型獨立規劃、調用、組合外部工具及信息的模型Agent能力進行了專項訓練,使其能夠獨立生成并調用代碼,完成包括圖表繪制、工具調用、語義判斷等多項復雜用戶需求。

自此,“天工3.0”成為具備多個領域專業知識和能力的全能專家。它能夠對復雜任務進行拆解優化,更深入理解用戶需求,也具備實時判斷并調用專用模式擴展基座模型的能力,最大程度提升模型性能。諸如產業研究、產品橫評、信息分析、圖片生成、圖表繪制等需求場景,已經可以由“天工3.0”較為高效覆蓋。

對AI用戶而言,“天工3.0”性能升級最直觀的價值就體現在AI搜索場景上。在信息呈現方式上,天工AI的研究模式可提高問答的專業性質,圍繞用戶的某個簡單指令進行相關問題的延伸,自動生成研究大綱、圖譜、實踐總結、思維導圖,而增強模式可對模糊問題做進一步引導,幫助用戶獲取更有效的信息,提高回復質量。

同時,天工3.0展現出行業同類AI搜索引擎所不具備的差異化優勢?!粌H有文本回復能力,還有圖文并茂能力,在文本回答的同時附帶圖片或視頻,幫助用戶加強信息理解。

在內容創作層面,基于專項Agent訓練等帶來的性能提升,“天工3.0”的內容創作能力已有跨階段性發展。

在基礎推理與理解方面,天工3.在數學推理能力的提升,也讓它能夠更準確地理解用戶需求。

在上一代AI搜索、AI語音、AI對話、AI二次元漫畫生成等強大內容創作能力基礎上,“天工3.0”又發展出了更強的多模態性能,例如在對話中,結合文本需求實時生成圖片、或實時分析內容及圖表的能力,成為了集合聽、說、讀、寫、搜、畫、看、唱等能力的千億級開源MoE大模型。

至此,天工3.0得以實現多模態的深度融合與應用。對行業而言,這將帶來更高效智能的解決方案,同時降低AI技術的研發門檻和使用成本,最大化共享技術能力和經驗。

降低AIGC使用門檻,推動產業升級

從ChatGPT驚艷亮相那一天起,就持續關注AI大模型發展的用戶們,大概可以體會到“天工3.0”給行業帶來的顯著沖擊力——它不僅在技術層面提高了自身競爭力,也在實際應用層面逐步覆蓋當下高頻應用場景,同時向搭建大模型應用生態的目標大步前進。

在這一視角下,天工3.0的發布意義不只是大模型應用場景的升級,它還加速了AI應用的普及,促使更多企業和開發者參與到AI引領的科技變革中。

從天工SkyMusic到天工3.0釋放的多模態能力,行業已經可以預測到昆侖萬維意圖掀起的AIGC浪潮。

因為不僅是中國首個音樂AIGC SOTA,作為全球最大規模開源MoE大模型,天工3.0有能力帶領更多領域的創作者群體自由出入AIGC的理解與生成的通道,利用多模態的深度融合與應用,大幅降低內容生產的門檻與成本,重新定義創作效率和質量標準。這種影響力將逐步促進整個內容生產行業進化,釋放更多的創作力和內容價值。

這不僅是一家公司的使命愿景,也是一個行業實現突破的硬性階段目標。為此,昆侖萬維已付諸多年實踐。

自發布天工系列大模型以來,昆侖萬維已在AGI和AIGC兩大方向上完成自己的業務矩陣布局:從千億級大語言模型到多模態AI內容生成能力,從AI搜索、AI音樂、AI 社交等再到國內領先的AI Agent開發平臺,無論是模型技術還是工程能力,都竭力站穩國內AI企業頭部陣營,做好為產業提供支撐的準備。

在這背后,走向AGI和促進AIGC應用發展,始終是這家企業的目標與使命。如今,隨著“天工3.0”的發布與展示,昆侖萬維在“All in AGI與AIGC”這一戰略征程上再下一城,即將把大模型戰事推向新的高潮。

本文為轉載內容,授權事宜請聯系原著作權人。

昆侖萬維

3k
  • 昆侖萬維發布全球首款音樂推理大模型Mureka O1
  • 昆侖萬維開源R1V視覺思維鏈推理模型

評論

暫無評論哦,快來評價一下吧!

大模型邁入應用元年 昆侖萬維推出中國首個音樂SOTA模型

AI大模型邁入應用元年,昆侖萬維發布“天工3.0”和“天工SkyMusic”完善技術與應用的“雙輪驅動”

盡管走上行業風口不過一年多時間,但AI大模型的基礎研發和應用場景的討論熱度始終高企。到2024年,AI大模型邁入應用元年的聲音更是一時甚囂塵上,行業果真走出這一步了嗎?

事實上,鑒于“研發和應用兩手抓”需要的能力與資本都巨大,行業之中配得上這一拷問的公司并不多:百度“文心一言”、阿里“通義千問”、昆侖萬維“天工”、商湯“日日新”、科大訊飛“星火”等等企業及其大模型,都是牌桌上的有力角逐者。

真正要在其中脫穎而出,不僅需要性能超前的基礎大模型,同時也要與之相配、并有“爆品”潛質的產品應用場景。對此,昆侖萬維以“天工3.0”和“天工SkyMusic”嘗試回答。

4月17日,昆侖萬維自研四千億級大語言模型“天工3.0”正式開啟公測并同步開源。這一采用4000億級參數的MoE混合專家模型,是目前全球模型參數最大、性能最強的MoE模型之一,相較上一代在模型語義理解、邏輯推理等多個性能維度均有明顯提升。

技術層之外,這可能也是AI應用領域的潛在引領者之一。與“天工3.0”一同開啟公測的還有昆侖萬維的AI音樂生成大模型“天工SkyMusic”,該大模型在小范圍邀測時已經激起不小的音樂創作浪潮。

而不僅是音樂,“天工3.0”當前已將AI能力集成進搜索、寫作、長文本閱讀、對話、代碼等多個高頻應用場景,為大模型領域即將開啟的落地應用之戰籌備砝碼。

至此,一個完整的AI大模型技術與應用生態正在成型。這是AI大模型敘事最重要的章節之一,它可能就此建立一條行業分水嶺。

天工SkyMusic,引領AIGC音樂浪潮

自OpenAI將大模型推上行業風口以來,屬于中國市場的“百模大戰”已經拉開序幕一年有余,進入2024年,行業關注點開始從技術研發向應用落地逐漸傾斜——無可置否,大模型的落地應用才是決定其技術與價值的長尾指標。

就所有內容模態而言,音頻內容是相比文本和圖片更好理解人類情感的方式,同時,音樂也是人類情感表達最充沛且不受地域和文化限制的內容載體。因此,眾多落地場景之中,音樂創作成為普羅大眾最易上手和感受到趣味性的AIGC場景。對于AI公司而言,這是一個將自己推向C端市場、獲得大眾認知的有利機會。

天工SkyMusic正是昆侖萬維面向音樂行業發布的大模型,此前于4月2日面向社會開啟邀測,今天隨天工3.0正式發布。該大模型自邀測階段就受到行業專家及音樂從業者的廣泛關注,它不僅是國內唯一公開可用的AI音樂生成大模型,同時也是中國首款AI音樂大模型SOTA模型,更是中國的自研大模型技術第一次在AIGC領域領跑全球。

在大模型領域中,SOTA模型指的是被認為是“State of the Art”(SOTA)的模型。正如OpenAI被視為文本大模型和視頻生成大模型的SOTA,"State of the Art"這個術語通常用于描述某個特定領域或技術中當前最先進、性能最好的技術或方法。

在與海外頂尖的AI音樂大模型Suno V3的橫向測評中,天工SkyMusic在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手,并以6.65分的綜合得分超越Suno V3,成為全球AI音樂SOTA模型。

目前,AI音樂生成有兩大技術路徑,分別是符號音樂生成路線和大模型音樂音頻生成路線。前者是指先標注大量樂譜,再訓練模型,最后生成的結果也是樂譜,需要額外的算法或工具將樂譜轉換成音樂;后者則是直接學習并生成音頻波形,樂器、人聲、旋律、音量、音符等等都一體化端到端生成,但這種方式不僅艱難、成功經驗稀缺,還需要高昂的算力和資金。

天工SkyMusic選擇的是技術意義上更難的音頻生成路線。不僅如此,由于這一路線所覆蓋的Song、BGM(Background Music)、Speach三個領域中,Song領域因為包含人聲、生成技術難度更高,始終沒有出現極佳方案。對此,天工SkyMusic投入大量資源實現了一定技術突破,使得該領域的生成質量終于得到提升。

值得注意是,天工SkyMusic是音樂AIGC領域罕見公開自身技術路徑的產品。其由“Encoder-DiT-Decoder”三大核心模塊組成的技術路線圖,成為了“音頻路線+人聲Song路線”的重要技術參考。

相較于行業中的同類產品,天工大模型帶動天工SkyMusic擁有了更突出的產品優勢。

例如,其擁有獨創的參考音樂生成與方言歌曲生成的能力。參考音樂生成是指,用戶可上傳自有參考音樂,或選擇“天工SkyMusic”資料庫中現有的參考音樂,從而生成風格、唱腔類似的歌曲,這種能力能夠結合創意、技術和音樂制作技巧,讓用戶利用現有的音頻資源來創作出更加豐富多彩的音樂作品;

方言歌曲生成能力包含粵語、成都話、北京話、上海話等,這不僅能擴大其受眾范圍,還能加強音樂創作生成的多樣性。同時,基于強大的數據庫及訓練模型,天工SkyMusic還可打造出更具辨識度的自然人聲,這也將使其區別于普通音樂AIGC產品較濃的“AI人聲質感”。

此外,天工SkyMusic可通過歌詞控制情緒變化,實現如顫音、歌劇、吟唱等多種歌唱技巧,還支持創作說唱、民謠、放克、古風、電子等多種音樂風格。

這種音樂創作上的靈活性和普適性,為天工SkyMusic的創作成果帶來了更多趣味。在其公布的大量demo中,《龍行龘龘》演繹了戲曲唱腔與電子音樂如何完美融合;《悟空》從歌詞上貼合了人物本身的傳奇色彩與不羈性格,其獨特理解與領悟最終與旋律合二為一;《Pack my bags》則詮釋了歐美流行音樂的精妙之處,其女聲唱腔兼具歐美女歌手的音色與技巧。

借此,天工SkyMusic得以大幅降低音樂創作的門檻,讓每個用戶都能夠更加容易創作屬于自己的旋律和歌曲,這使其有望成為行業中最重要的全民音樂創作工具之一。而隨著該音樂大模型的不斷進化,它還有可能加入專業音樂人改善創作質量、提高創作效率的輔助進程中,逐步推動建立屬于自己的AI音樂創作者生態。

開源MoE大模型的時代來臨

事實上,天工SkyMusic只是昆侖萬維邁向AIGC大千世界的第一站。自天工3.0發布后,這一大模型將覆蓋聽、說、讀、寫、畫、唱等更多高頻AIGC應用場景,正式開啟一個多模態大模型時代。

從單一模態逐漸過渡到多模態,進而構建世界模型,是業界共識度最高的,邁向AGI的演進路徑。而在OpenAI展現GPT-4和GPT-4V的能力之后,行業便一直在等候一個更具場景覆蓋力的多模態大模型,將大模型技術的應用現實進展再往前推一把。

昆侖萬維“天工3.0”正是登場于這樣的背景之下?!疤旃?.0”采用了4000億級參數MoE混合專家模型,是全球模型參數最大、性能最強的MoE模型之一,并已同步選擇開源。相較上一代,其在模型語義理解、邏輯推理、通用性、泛化性等領域均有明顯提升。

具體而言,“天工3.0”的模型能力提升集中于邏輯推理能力、語義理解能力、專項Agent訓練和內容創作能力四大方面。邏輯推理方面,“天工3.0”數學與推理能力均提升超過30%;語義理解則能夠更好理解和處理用戶自然語言Query中的復雜語義信息,包括隱喻、多義詞等。

專項Agent訓練是此次模型能力提升的核心。當前,AI Agent(智能體)已經成為大模型技術的主流落地方向,而“天工3.0”針對模型獨立規劃、調用、組合外部工具及信息的模型Agent能力進行了專項訓練,使其能夠獨立生成并調用代碼,完成包括圖表繪制、工具調用、語義判斷等多項復雜用戶需求。

自此,“天工3.0”成為具備多個領域專業知識和能力的全能專家。它能夠對復雜任務進行拆解優化,更深入理解用戶需求,也具備實時判斷并調用專用模式擴展基座模型的能力,最大程度提升模型性能。諸如產業研究、產品橫評、信息分析、圖片生成、圖表繪制等需求場景,已經可以由“天工3.0”較為高效覆蓋。

對AI用戶而言,“天工3.0”性能升級最直觀的價值就體現在AI搜索場景上。在信息呈現方式上,天工AI的研究模式可提高問答的專業性質,圍繞用戶的某個簡單指令進行相關問題的延伸,自動生成研究大綱、圖譜、實踐總結、思維導圖,而增強模式可對模糊問題做進一步引導,幫助用戶獲取更有效的信息,提高回復質量。

同時,天工3.0展現出行業同類AI搜索引擎所不具備的差異化優勢?!粌H有文本回復能力,還有圖文并茂能力,在文本回答的同時附帶圖片或視頻,幫助用戶加強信息理解。

在內容創作層面,基于專項Agent訓練等帶來的性能提升,“天工3.0”的內容創作能力已有跨階段性發展。

在基礎推理與理解方面,天工3.在數學推理能力的提升,也讓它能夠更準確地理解用戶需求。

在上一代AI搜索、AI語音、AI對話、AI二次元漫畫生成等強大內容創作能力基礎上,“天工3.0”又發展出了更強的多模態性能,例如在對話中,結合文本需求實時生成圖片、或實時分析內容及圖表的能力,成為了集合聽、說、讀、寫、搜、畫、看、唱等能力的千億級開源MoE大模型。

至此,天工3.0得以實現多模態的深度融合與應用。對行業而言,這將帶來更高效智能的解決方案,同時降低AI技術的研發門檻和使用成本,最大化共享技術能力和經驗。

降低AIGC使用門檻,推動產業升級

從ChatGPT驚艷亮相那一天起,就持續關注AI大模型發展的用戶們,大概可以體會到“天工3.0”給行業帶來的顯著沖擊力——它不僅在技術層面提高了自身競爭力,也在實際應用層面逐步覆蓋當下高頻應用場景,同時向搭建大模型應用生態的目標大步前進。

在這一視角下,天工3.0的發布意義不只是大模型應用場景的升級,它還加速了AI應用的普及,促使更多企業和開發者參與到AI引領的科技變革中。

從天工SkyMusic到天工3.0釋放的多模態能力,行業已經可以預測到昆侖萬維意圖掀起的AIGC浪潮。

因為不僅是中國首個音樂AIGC SOTA,作為全球最大規模開源MoE大模型,天工3.0有能力帶領更多領域的創作者群體自由出入AIGC的理解與生成的通道,利用多模態的深度融合與應用,大幅降低內容生產的門檻與成本,重新定義創作效率和質量標準。這種影響力將逐步促進整個內容生產行業進化,釋放更多的創作力和內容價值。

這不僅是一家公司的使命愿景,也是一個行業實現突破的硬性階段目標。為此,昆侖萬維已付諸多年實踐。

自發布天工系列大模型以來,昆侖萬維已在AGI和AIGC兩大方向上完成自己的業務矩陣布局:從千億級大語言模型到多模態AI內容生成能力,從AI搜索、AI音樂、AI 社交等再到國內領先的AI Agent開發平臺,無論是模型技術還是工程能力,都竭力站穩國內AI企業頭部陣營,做好為產業提供支撐的準備。

在這背后,走向AGI和促進AIGC應用發展,始終是這家企業的目標與使命。如今,隨著“天工3.0”的發布與展示,昆侖萬維在“All in AGI與AIGC”這一戰略征程上再下一城,即將把大模型戰事推向新的高潮。

本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 勃利县| 新宾| 莆田市| 乌兰县| 鄂温| 会泽县| 肥西县| 新源县| 丰镇市| 南康市| 扶沟县| 枝江市| 舞钢市| 南城县| 淄博市| 内乡县| 长岛县| 克东县| 锦州市| 乐亭县| 宜兰市| 甘泉县| 柯坪县| 英吉沙县| 永靖县| 聂荣县| 望城县| 铜鼓县| 大宁县| 和政县| 绩溪县| 右玉县| 堆龙德庆县| 大关县| 仙桃市| 宜兴市| 昌吉市| 永城市| 乌鲁木齐县| 南宁市| 临潭县|