界面新聞記者 | 于浩
美圖視覺大模型再次迭代。
10月9日,美圖發布了其自研AI視覺大模型MiracleVision3.0版,與現有工作流的結合、在應用場景的實際落地仍是美圖發力AI的重點方向。
“目前市面上的大部分視覺大模型都在卷數據量和參數量,但我們認為,衡量能力的標準并非在追求參數指標,而是要抓住應用場景的核心需求,并在商業模式上得到驗證。”美圖公司創始人、董事長兼首席執行官吳欣鴻表示。
美圖視覺大模型至今已迭代了三個版本,據美圖公司技術副總裁、美圖影像研究院負責人劉洛麒介紹,1.0的目標在于搭建大模型架構,2.0是構建高質量數據集提升美學能力,3.0則更強調模型的可控性,使大模型可以滿足用戶在細節把控、局部編輯等方面的需求。
從視覺大模型的落地現狀來看,在生成效果、結果可控性以及適用范圍方面都亟待完善。大中型企業需要考慮AI創作的不可控性所帶來的風險;中小微企業對于效果精度要求相對較低,缺少部署的技術能力;個體用戶方面也面臨著寫好提示詞等具體的使用門檻。
吳欣鴻將AI視覺大模型在生產端落地方面的待解問題歸結為:垂直領域的極致效果、工作流整合、變現能力。三者分別對應模型能力的提升、多人協作中的上下游協同以及模型對商業場景的理解。
3.0版可以視作美圖針對上述問題進行的探索。據吳欣鴻所述,MiracleVision的核心能力具備“奇思妙想”和“智能創作”兩種特性。
所謂“奇思妙想”,是指大模型可通過“提示詞智能聯想”功能降低用戶使用門檻。當用戶輸入關鍵詞后,大模型可自動補充相關表述,如光影效果、質感、風格、圖片質量等;此外,大模型可通過“提示詞精準控制”功能來滿足更加專業的設計要求,如使用“近景”、“遠景”、“順光”、“逆光”等描述控制最終生成效果。
在“智能創作”層面,MiracleVision通過“深化創作”功能,可以進一步豐富作品細節和提升表現力;“AI畫面擴展”功能則讓作品尺寸更大、細節更豐富;“局部修改”功能可對部分畫面進行精準修改與調整。此外,“分辨率提升”功能支持生成高清大圖,細節表現、色彩展示、物體辨識會更加精準和生動。
積極推動視覺大模型與生產端結合已成為美圖的發力重點,電商、廣告、游戲、動漫、影視則是其希望先期落地的五大行業。
美圖公司集團高級副總裁、影像與設計產品事業群總裁陳劍毅在接受界面新聞等媒體采訪時表示,選擇行業時會更多地考慮與互聯網的相關性,如電商就是互聯網的原生行業;其次會觀察行業內長尾效應是否明顯,長尾性強的會有更多中小玩家,這類客戶對生成效果相對不敏感,更利于快速跑通模式,產生商業價值。
在AIGC方面,美圖并不回避對商業回報的追求。吳欣鴻此前接受36氪采訪時曾表示,對于影像生產力工具而言,月活數據與付費用戶數據都重要,但非要二選一的話,付費用戶數據更重要,“我們非常需要有造血能力。”
自研大模型的研發投入、算力成本都需要收入的支撐。但以大模型為基礎的應用與傳統移動互聯網應用不同,用戶每用一次,廠商都要承擔算力成本,用的人越多,需要承擔的邊際成本也更高。
截至目前,視覺大模型的研發及相關應用的開放并未影響到美圖的利潤表現。2023年上半年,美圖研發投入占總營收比重為23.31%,低于2022年同期的27.34%,毛利率則由去年同期的51.8%增至59.8%。
這與VIP訂閱及SaaS相關業務的增長不無關系,此外美圖也在嘗試以“美豆”為代表的單購模式。與VIP訂閱模式相比,按次數付費的單購模式消費門檻更低。
吳欣鴻將單購視作對訂閱模式的補充,稱未來會以兩種模式為基礎反復進行策略驗證。“訂閱方面,未來不排除針對特定行業的專業需求增加更高級別會員的可能,”他強調,“單購模式下的一些生產力場景也可能會有更高的服務價格。”
至于目前美圖視覺大模型所處的階段,吳欣鴻坦言仍在探索期,2024年至2025年會是高速發展期,2026年至2030年為成熟期。“探索期是驗證視覺大模型在工作流里支持單任務提效的可行性,明后年效果會逐步精進,有明確的場景、為工作流帶來升級。”他相信,進入成熟期時,視覺大模型在生產端的應用會更加完善。