目前,人工智能正在進入加速發展階段,在眾多的細分領域中,生成式人工智能(AIGC)的發展尤為引人關注。根據各地網信辦發布的公告,目前全國范圍內已有上百個生成式人工智能服務通過網信辦備案。很多人士關心的是,這些大模型到底會如何落地,又會給音頻等行業帶來什么樣的改變呢?
走在行業前沿的喜馬拉雅給出了這些問題的答案,其打造的珠峰AI音視頻創作平臺,通過喜馬拉雅大模型,結合喜馬拉雅獨有的全品類音色庫和數字人大模型,為創作人提供高品質的AIGC和數智人服務。據了解,喜馬拉雅音頻大模型與米哈游、閱文集團的筑夢島等文本大模型,共同進入了上海網信辦發布的新一批上海市生成式大模型備案通過名單,成為全國首個通過網信辦生成式人工智能服務的音頻生成類大模型。
喜馬拉雅音頻大模型是全球首個第四代多情感演繹、超自然表達的音頻生成大模型。該模型是珠峰AI團隊基于自研文本音頻聯合建模的LLM框架,在同一空間向量表征下實現音頻與文本的聯合建模訓練。這種聯合建模的方法,充分賦予了音頻生成任務以強大的語義信息,并充分利用它們之間的內在聯系和互補信息,大幅度提高模型的性能和泛化能力,這也是第四代音頻大模型超越上一代的核心技術突破。
在訓練過程中,喜馬拉雅珠峰AI首先將音頻數據和文本數據分別進行預處理,將它們轉化為適合模型輸入的 token 形式。將音頻 token 和文本 token 映射到同一空間向量表征中,通過使用共享的嵌入層將音頻 token 和文本 token 映射到一個共同的高維向量空間中,從而使得模型能夠更好地理解和處理音頻和文本之間的關系。整體訓練流程包括預訓練(Pretraining)、有監督微調(SFT)、領域有監督微調(Domain SFT)、說話人有監督微調(Speaker SFT)、強化學習(RL)幾個主要流程。
通過這幾個流程的訓練,依托百萬小時的自有版權音頻數據進行訓練后,喜馬拉雅音頻大模型具備情感輸出、自然表達、語種互譯、超擬人、多情感、15s音色克隆能力和聲音轉換等技術能力,在音頻生成領域實現了多維度突破,有力地為眾多的創作者們賦能。