界面新聞記者 | 肖芳
界面新聞編輯 | 文姝琪
3月27日凌晨,阿里巴巴發布并開源首個端到端全模態大模型通義千問Qwen2.5-Omni,可同時處理文本、圖像、音頻和視頻等多種輸入,并實時生成文本與自然語音合成輸出。
目前,市場上的全模態大模型較為有限。在此之前,國內外主流科技公司只有OpenAI發布過全模態大模型GPT-4o。GPT-4o的參數規模為200B,而Qwen2.5-Omni僅為7B,這一尺寸對于端側部署特別是手機本地部署十分友好。
在一系列同等規模的單模態模型權威基準測試中,Qwen2.5-Omni展現出了全球最強的全模態優異性能。其中,Hugging Face的測試顯示,Qwen2.5-Omni在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數,均領先于專門的Qwen2-Audio以及Qwen2.5-VL模型,且語音生成測評分數(4.51)達到了與人類持平的能力。
據界面新聞了解,Qwen2.5-Omni在低參數規模情況下全模態性能表現優異的主要原因是技術的創新突破。Qwen2.5-Omni采用了通義團隊全新首創的Thinker-Talker雙核架構、Position Embedding(位置嵌入)融合音視頻技術、位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)。相比之下,GPT-4o的基礎仍然是Transformer架構,只是針對多模態數據進行了優化。
具體來講,Transformer架構是單一流式計算,采用自注意力機制,一次性處理整個輸入序列,不區分“思考”和“表達”,所有計算都在同一層次上完成,導致大模型在推理復雜問題時計算開銷較高。Thinker-Talker雙核架構區分“思考”和“表達”,Thinker負責深度推理、邏輯思維和復雜認知任,Talker負責將思考結果高效轉化為流暢的語言表達或其他輸出。Thinker進行多步推理,而Talker只需高效生成結果,從而優化計算效率。
在全新的技術架構下,這款全模態模型的交互能力又上了一個新的臺階,不僅讓阿里AI在C端(用戶)的應用多了幾分想象空間,也給智能終端行業帶來了更多的想象空間。
以接近人類的多感官方式交互,還能感知情緒
界面新聞記者在Qwen Chat中體驗到了這款模型。在對話框中,用戶可選擇語音或者視頻通過和Qwen2.5-Omni進行交互。
記者輸入語音指令,要求Qwen2.5-Omni幫忙總結一篇文章的主要內容,它能通過語音的方式進行總結,說話的聲音有語調、語氣的變化,整體的交互感受是像和屏幕之外的另一個人進行語音電話。當記者要求Qwen2.5-Omni唱一首歌時,它目前還無法實現,但它的回復并不生硬:“哎呀,我還不會唱歌呢。你可以使用QQ音樂,上面有很多人唱歌。”
在播放歌曲《老男孩》的一個片段時,Qwen2.5-Omni能夠聽出來這是一段民謠曲風的音樂,還能聽出來這是C大調。同時,它還推薦了趙雷的《成都》、周杰倫的《七里香》并詢問使用者是否喜歡。當記者用非常焦躁的語氣和它說話時,它不僅能感知到的情緒異常,還能像朋友一樣來開導稱不要把煩心事放在心上。
記者和它進行視頻通話時,它能通過視頻畫面中的窗戶和窗簾判斷使用者在室內,并以此為話題展開聊天。在多人的場景中,Qwen2.5-Omni還能夠理解不同說話人的語音和視頻的對應關系,定位到不同說話人的穿著等狀態,判斷意識流視頻里的情緒,這是以往單一模態的模型和AI應用所不具備的能力。
體驗之后,界面新聞記者整體的感覺是,Qwen2.5-Omni在多模態方面的交互能力已經非常接近人類的交互方式,說話的音色和語氣、語調也更接近真人,在實時交互的過程中的延遲較小,基本感覺不到卡頓。和幾年前的智能音箱相比,Qwen2.5-Omni不再只是單純的回復用戶給出的指令,還會主動詢問用戶問題,讓聊天變成一個可持續的過程。
除了日常的對話之外,界面新聞從一位阿里云內部人士處了解到,Qwen2.5-Omni還能處理更加復雜、專業的問題。比如,在醫療領域,診斷通常需要結合影像、病歷文本和患者的語言描述完成,Qwen2.5-Omni的多模態能力能夠滿足這些需求,相關醫療機構在使用大模型輔助診斷時,無需為不同模態任務部署獨立模型,降低開發和維護成本。
C端應用呼之欲出
Qwen2.5-Omni更接近人類的交互方式,且能感知到人的情緒,這讓此前被業界看好的AI陪伴應用有了規模化落地的空間。
據界面新聞了解,阿里AI to C的應用也在嘗試這個方向。去年12月,阿里旗下AI應用“通義”近期正式從阿里云分拆,并入阿里智能信息事業群。調整后通義PC及App團隊與智能搜索產品“夸克”平級,通義To C方向的產品經理以及相關的工程團隊,他們將一并調整至阿里智能信息事業群。
界面新聞從一位阿里智能信息事業群人士處了解到,架構調整之后,夸克和通義在定位上進行了區分,夸克主要解決用戶在學習工作場景中的問題,而通義主要解決用戶生活中的問題以及情感陪伴需求。
Qwen2.5-Omni發布之后,底層模型能力已經能夠滿足用戶各種復雜的需求,通義團隊需要把產品打磨好來搶占先機。
除此之外,Qwen2.5-Omni的小尺寸更方便智能終端行業進行部署。在GPT-4o仍然保持閉源的情況下,Qwen2.5-Omni以寬松的Apache2.0協議開源,且阿里云百煉平臺提供API服務,所有人均可下載和商用。無論是手機、智能音箱還是家電,都在尋求更好的用戶交互體驗,Qwen2.5-Omni的交互能力給了這些行業更多想象空間。
比如,目前老板電器等廚房電器企業正在探索通過大模型把菜譜推薦、智能烹飪、個性化交互整合到全流程服務中,打造更智能的廚房體驗。全模態大模型的核心優勢在于能夠理解文本、語音、圖像、視頻、傳感器數據等多種模態的數據,從而提供更加自然、精準的烹飪輔助。
Qwen2.5-Omni具備視覺、聽覺、語音等多感官交互能力,在家庭機器人領域有著較為廣闊的應用前景。它不僅能完成日常任務,還能更智能地理解用戶需求、實時適應環境,并提供更加人性化的互動。尤其在家庭陪伴和護理等場景中,識別老人摔倒等異常情況以及識別用戶低落情緒都是非常關鍵的底層能力。
此前,阿里巴巴聯合創始人、董事局主席蔡崇信已確認蘋果和阿里巴巴將合作為中國iPhone用戶開發AI功能。實際上,OPPO、vivo、榮耀、傳音等國內超90%的手機品牌都已接入千問。Qwen2.5-Omni的出現或許也會給這些品牌的手機帶來新的用戶交互體驗。
阿里在AI大模型上的布局上顯示出了非常大的決心。阿里巴巴集團CEO吳泳銘此前宣布,未來三年,阿里將投入超過3800億元,用于建設云和AI硬件基礎設施,總額超過過去十年總和。
AI也讓資本市場重估阿里的價值。2025年以來,阿里巴巴美股股價已上漲55.96%。