2月25日,從知情人士處獲悉,阿里巴巴將于今日晚間全面開源旗下視頻生成模型萬相2.1模型。今年1月,阿里旗下萬相剛宣布推出2.1版本模型升級,視頻生成、圖像生成兩大能力均獲得提升。在視頻生成方面,萬相2.1通過自研的高效VAE和DiT架構增強了時空上下文建模能力,支持無限長1080P視頻的高效編解碼,首次實現了中文文字視頻生成功能,登上VBench榜單第一。
【機會前瞻】
2月25日,阿里巴巴集團宣布將旗下文生視頻模型“萬相2.1”全面開源。作為全球首個支持中英雙語、首個實現無限長1080P視頻編解碼的開源模型,萬相2.1的開放不僅打破了專業(yè)視頻創(chuàng)作的技術壁壘,更可能重構全球AIGC產業(yè)的競爭格局。
萬相2.1采用最寬松的Apache2.0協議,14B和1.3B兩個參數規(guī)格的全部推理代碼和權重全部開源,全球開發(fā)者可在Github、HuggingFace和魔搭社區(qū)下載體驗。其中1.3B版本僅需8.2GB顯存就可以生成高質量視頻,適用于二次模型開發(fā)和學術研究。
今年1月,阿里旗下萬相剛宣布推出2.1版本模型升級,視頻生成、圖像生成兩大能力均獲得提升。在視頻VAE方面,萬相2.1設計了創(chuàng)新的視頻編解碼方案,通過將視頻拆分成若干塊并緩存中間特征的方式,代替直接對長視頻的E2E編解碼過程,實現顯存使用與原始視頻長度無關,支持無限長1080P視頻的高效編解碼。萬相2.1在視頻生成領域的權威評測集VBench上以總分84.7%的成績登頂,在運動幅度、多對象生成、空間關系等16個評分維度中的多個關鍵能力上拿下最高分。
萬相團隊的實驗結果顯示,在運動質量、視覺質量、風格和多目標等14個主要維度和26個子維度測試中,萬相均達到了業(yè)界領先表現,并且斬獲5項第一。尤其在復雜運動和物理規(guī)律遵循上的表現上大幅提升,萬相能夠穩(wěn)定展現各種復雜的人物肢體運動,如旋轉、跳躍、轉身、翻滾等;能夠精準還原碰撞、反彈、切割等復雜真實物理場景。
自2023年8月起,阿里云相繼開源Qwen系列大語言模型,覆蓋從0.5B到110B的全尺寸參數,形成全球最大的開源模型家族,衍生模型數量已突破10萬。此次萬相2.1的開源延續(xù)了這一戰(zhàn)略。