簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

阿里開源首個全模態大模型,將給產業帶來哪些機會?

掃一掃下載界面新聞APP

阿里開源首個全模態大模型,將給產業帶來哪些機會?

在全新的技術架構下,通義千問Qwen2.5-Omni的交互能力又上了一個新的臺階。

攝影:匡達

界面新聞記者 | 肖芳

界面新聞編輯 | 文姝琪

3月27日凌晨,阿里巴巴發布并開源首個端到端全模態大模型通義千問Qwen2.5-Omni,可同時處理文本、圖像、音頻和視頻等多種輸入,并實時生成文本與自然語音合成輸出。

目前,市場全模態大模型較為有限。在此之前,國內外主流科技公司只有OpenAI發布全模態大模型GPT-4oGPT-4o參數規模為200BQwen2.5-Omni僅為7B這一尺寸對于端側部署特別是手機本地部署十分友好

在一系列同等規模的單模態模型權威基準測試中,Qwen2.5-Omni展現出了全球最強的全模態優異性能。其中,Hugging Face測試顯示Qwen2.5-Omni在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數,均領先于專門的Qwen2-Audio以及Qwen2.5-VL模型,且語音生成測評分數(4.51)達到了與人類持平的能力。

界面新聞了解Qwen2.5-Omni參數規模情況下全模態性能表現優異主要原因技術的創新突破Qwen2.5-Omni采用了通義團隊全新首創的Thinker-Talker雙核架構、Position Embedding(位置嵌入)融合音視頻技術、位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)。相比之下GPT-4o的基礎仍然是Transformer架構只是針對多模態數據進行了優化

具體來講Transformer架構是單一流式計算采用自注意力機制,一次性處理整個輸入序列,不區分“思考”和“表達”,所有計算都在同一層次上完成,導致大模型在推理復雜問題時計算開銷較高。Thinker-Talker雙核架構區分“思考”和“表達”Thinker負責深度推理、邏輯思維和復雜認知任Talker負責將思考結果高效轉化為流暢的語言表達或其他輸出。Thinker進行多步推理,而Talker只需高效生成結果,從而優化計算效率。

全新技術架構這款全模態模型的交互能力又上了一個新的臺階,不僅讓阿里AI在C端(用戶)的應用多了幾分想象空間,也給智能終端行業帶來了更多想象空間

以接近人類的多感官方式交互,還能感知情緒

界面新聞記者在Qwen Chat體驗這款模型對話用戶選擇語音或者視頻通過Qwen2.5-Omni進行交互

記者輸入語音指令要求Qwen2.5-Omni幫忙總結文章主要內容它能通過語音方式進行總結說話聲音語調語氣變化整體交互感受屏幕之外另一個進行語音電話當記者要求Qwen2.5-Omni唱一首歌目前無法實現回復并不生硬哎呀我還不會唱歌可以使用QQ音樂上面很多唱歌

在播放歌曲《老男孩》的一個片段時Qwen2.5-Omni能夠聽出來這是一段民謠曲風音樂還能聽出來這是C大調同時推薦趙雷成都周杰倫七里香詢問使用者是否喜歡當記者非常焦躁語氣說話不僅能感知到情緒異常還能朋友一樣開導稱不要煩心事放在心上

記者和它進行視頻通話通過視頻畫面窗戶窗簾判斷使用者室內以此話題展開聊天多人場景Qwen2.5-Omni還能夠理解不同說話人的語音和視頻的對應關系,定位到不同說話人的穿著等狀態,判斷意識流視頻里的情緒,這是以往單一模態的模型和AI應用所不具備的能力。

體驗之后界面新聞記者整體感覺Qwen2.5-Omni多模態方面交互能力已經非常接近人類交互方式,說話的音色和語氣、語調也更接近真人,在實時交互過程中的延遲較小基本感覺不到卡頓幾年前智能音箱相比Qwen2.5-Omni不再只是單純回復用戶給出指令還會主動詢問用戶問題聊天變成一個可持續過程

除了日常對話之外界面新聞一位阿里云內部人士了解Qwen2.5-Omni還能處理更加復雜專業問題比如醫療領域診斷通常需要結合影像、病歷文本患者語言描述完成Qwen2.5-Omni多模態能力能夠滿足這些需求相關醫療機構使用大模型輔助診斷無需為不同模態任務部署獨立模型,降低開發和維護成本。

C端應用呼之欲出

Qwen2.5-Omni接近人類交互方式感知到情緒這讓此前業界看好AI陪伴應用有了規模化落地空間

界面新聞了解阿里AI to C應用嘗試這個方向去年12阿里旗下AI應用“通義”近期正式從阿里云分拆,并入阿里智能信息事業群。調整后通義PC及App團隊與智能搜索產品“夸克”平級通義To C方向的產品經理以及相關的工程團隊,他們將一并調整至阿里智能信息事業群。

界面新聞從一位阿里智能信息事業群人士了解架構調整之后夸克通義定位進行區分夸克主要解決用戶學習工作場景問題通義主要解決用戶生活問題以及情感陪伴需求

Qwen2.5-Omni發布之后,底層模型能力已經能夠滿足用戶各種復雜需求通義團隊需要產品打磨搶占先機

除此之外Qwen2.5-Omni小尺寸方便智能終端行業進行部署在GPT-4o仍然保持閉源的情況下,Qwen2.5-Omni以寬松的Apache2.0協議開源,且阿里云百煉平臺提供API服務,所有人均可下載和商用。無論手機智能音箱還是家電尋求更好用戶交互體驗Qwen2.5-Omni交互能力這些行業更多想象空間

比如目前老板電器等廚房電器企業正在探索通過大模型菜譜推薦、智能烹飪、個性化交互整合到全流程服務中,打造更智能的廚房體驗。全模態大模型的核心優勢在于能夠理解文本、語音、圖像、視頻、傳感器數據多種模態的數據,從而提供更加自然、精準的烹飪輔助。

Qwen2.5-Omni具備視覺、聽覺、語音等多感官交互能力,在家庭機器人領域有著較為廣闊的應用前景。它不僅能完成日常任務,還能更智能地理解用戶需求、實時適應環境,并提供更加人性化的互動。尤其家庭陪伴護理場景識別老人摔倒異常情況以及識別用戶低落情緒非常關鍵底層能力

此前阿里巴巴聯合創始人、董事局主席蔡崇信確認蘋果和阿里巴巴將合作為中國iPhone用戶開發AI功能。實際上OPPO、vivo、榮耀、傳音等國內超90%的手機品牌都已接入千問。Qwen2.5-Omni出現或許也這些品牌手機帶來新用戶交互體驗

阿里AI大模型布局顯示出非常決心阿里巴巴集團CEO吳泳銘此前宣布,未來三年,阿里將投入超過3800億元,用于建設云和AI硬件基礎設施,總額超過過去十年總和

AI資本市場重估阿里價值2025年以來,阿里巴巴美股股價已上漲55.96%。

未經正式授權嚴禁轉載本文,侵權必究。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

阿里開源首個全模態大模型,將給產業帶來哪些機會?

在全新的技術架構下,通義千問Qwen2.5-Omni的交互能力又上了一個新的臺階。

攝影:匡達

界面新聞記者 | 肖芳

界面新聞編輯 | 文姝琪

3月27日凌晨,阿里巴巴發布并開源首個端到端全模態大模型通義千問Qwen2.5-Omni,可同時處理文本、圖像、音頻和視頻等多種輸入,并實時生成文本與自然語音合成輸出。

目前,市場全模態大模型較為有限。在此之前,國內外主流科技公司只有OpenAI發布全模態大模型GPT-4oGPT-4o參數規模為200BQwen2.5-Omni僅為7B這一尺寸對于端側部署特別是手機本地部署十分友好

在一系列同等規模的單模態模型權威基準測試中,Qwen2.5-Omni展現出了全球最強的全模態優異性能。其中,Hugging Face測試顯示Qwen2.5-Omni在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數,均領先于專門的Qwen2-Audio以及Qwen2.5-VL模型,且語音生成測評分數(4.51)達到了與人類持平的能力。

界面新聞了解Qwen2.5-Omni參數規模情況下全模態性能表現優異主要原因技術的創新突破Qwen2.5-Omni采用了通義團隊全新首創的Thinker-Talker雙核架構、Position Embedding(位置嵌入)融合音視頻技術、位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)。相比之下GPT-4o的基礎仍然是Transformer架構只是針對多模態數據進行了優化

具體來講Transformer架構是單一流式計算采用自注意力機制,一次性處理整個輸入序列,不區分“思考”和“表達”,所有計算都在同一層次上完成,導致大模型在推理復雜問題時計算開銷較高。Thinker-Talker雙核架構區分“思考”和“表達”Thinker負責深度推理、邏輯思維和復雜認知任Talker負責將思考結果高效轉化為流暢的語言表達或其他輸出。Thinker進行多步推理,而Talker只需高效生成結果,從而優化計算效率。

全新技術架構這款全模態模型的交互能力又上了一個新的臺階,不僅讓阿里AI在C端(用戶)的應用多了幾分想象空間,也給智能終端行業帶來了更多想象空間

以接近人類的多感官方式交互,還能感知情緒

界面新聞記者在Qwen Chat體驗這款模型對話用戶選擇語音或者視頻通過Qwen2.5-Omni進行交互

記者輸入語音指令要求Qwen2.5-Omni幫忙總結文章主要內容它能通過語音方式進行總結說話聲音語調語氣變化整體交互感受屏幕之外另一個進行語音電話當記者要求Qwen2.5-Omni唱一首歌目前無法實現回復并不生硬哎呀我還不會唱歌可以使用QQ音樂上面很多唱歌

在播放歌曲《老男孩》的一個片段時Qwen2.5-Omni能夠聽出來這是一段民謠曲風音樂還能聽出來這是C大調同時推薦趙雷成都周杰倫七里香詢問使用者是否喜歡當記者非常焦躁語氣說話不僅能感知到情緒異常還能朋友一樣開導稱不要煩心事放在心上

記者和它進行視頻通話通過視頻畫面窗戶窗簾判斷使用者室內以此話題展開聊天多人場景Qwen2.5-Omni還能夠理解不同說話人的語音和視頻的對應關系,定位到不同說話人的穿著等狀態,判斷意識流視頻里的情緒,這是以往單一模態的模型和AI應用所不具備的能力。

體驗之后界面新聞記者整體感覺Qwen2.5-Omni多模態方面交互能力已經非常接近人類交互方式,說話的音色和語氣、語調也更接近真人,在實時交互過程中的延遲較小基本感覺不到卡頓幾年前智能音箱相比Qwen2.5-Omni不再只是單純回復用戶給出指令還會主動詢問用戶問題聊天變成一個可持續過程

除了日常對話之外界面新聞一位阿里云內部人士了解Qwen2.5-Omni還能處理更加復雜專業問題比如醫療領域診斷通常需要結合影像、病歷文本患者語言描述完成Qwen2.5-Omni多模態能力能夠滿足這些需求相關醫療機構使用大模型輔助診斷無需為不同模態任務部署獨立模型,降低開發和維護成本。

C端應用呼之欲出

Qwen2.5-Omni接近人類交互方式感知到情緒這讓此前業界看好AI陪伴應用有了規模化落地空間

界面新聞了解阿里AI to C應用嘗試這個方向去年12阿里旗下AI應用“通義”近期正式從阿里云分拆,并入阿里智能信息事業群。調整后通義PC及App團隊與智能搜索產品“夸克”平級通義To C方向的產品經理以及相關的工程團隊,他們將一并調整至阿里智能信息事業群。

界面新聞從一位阿里智能信息事業群人士了解架構調整之后夸克通義定位進行區分夸克主要解決用戶學習工作場景問題通義主要解決用戶生活問題以及情感陪伴需求

Qwen2.5-Omni發布之后,底層模型能力已經能夠滿足用戶各種復雜需求通義團隊需要產品打磨搶占先機

除此之外Qwen2.5-Omni小尺寸方便智能終端行業進行部署在GPT-4o仍然保持閉源的情況下,Qwen2.5-Omni以寬松的Apache2.0協議開源,且阿里云百煉平臺提供API服務,所有人均可下載和商用。無論手機智能音箱還是家電尋求更好用戶交互體驗Qwen2.5-Omni交互能力這些行業更多想象空間

比如目前老板電器等廚房電器企業正在探索通過大模型菜譜推薦、智能烹飪、個性化交互整合到全流程服務中,打造更智能的廚房體驗。全模態大模型的核心優勢在于能夠理解文本、語音、圖像、視頻、傳感器數據多種模態的數據,從而提供更加自然、精準的烹飪輔助。

Qwen2.5-Omni具備視覺、聽覺、語音等多感官交互能力,在家庭機器人領域有著較為廣闊的應用前景。它不僅能完成日常任務,還能更智能地理解用戶需求、實時適應環境,并提供更加人性化的互動。尤其家庭陪伴護理場景識別老人摔倒異常情況以及識別用戶低落情緒非常關鍵底層能力

此前阿里巴巴聯合創始人、董事局主席蔡崇信確認蘋果和阿里巴巴將合作為中國iPhone用戶開發AI功能。實際上OPPO、vivo、榮耀、傳音等國內超90%的手機品牌都已接入千問。Qwen2.5-Omni出現或許也這些品牌手機帶來新用戶交互體驗

阿里AI大模型布局顯示出非常決心阿里巴巴集團CEO吳泳銘此前宣布,未來三年,阿里將投入超過3800億元,用于建設云和AI硬件基礎設施,總額超過過去十年總和

AI資本市場重估阿里價值2025年以來,阿里巴巴美股股價已上漲55.96%。

未經正式授權嚴禁轉載本文,侵權必究。
主站蜘蛛池模板: 三台县| 刚察县| 聂荣县| 新龙县| 阆中市| 朝阳市| 镇原县| 蒙城县| 临江市| 焉耆| 临夏县| 自贡市| 且末县| 行唐县| 天长市| 沅江市| 桂林市| 泊头市| 金塔县| 沅陵县| 定边县| 卓尼县| 韩城市| 莎车县| 社旗县| 凉城县| 淅川县| 本溪| 始兴县| 沙湾县| 类乌齐县| 钟祥市| 化德县| 上杭县| 麟游县| 永城市| 墨脱县| 侯马市| 乐昌市| 宣威市| 南陵县|