文|億邦動力網 胡鏷心
編輯|張睿
當主播在直播間講解沖鋒衣時,她可以瞬移般轉場到戶外、雪山、漫天風雪中,展示沖鋒衣的使用場景;當主播在在直播間賣連衣裙時,則可以自然地走進不同城市街頭咖啡館,展示日常場景中的穿著效果……
這不是魔法,也不是電影特效,而是文生視頻模型與電商直播的結合。
OpenAI發布的Sora將視頻生成能力帶到了新的高度,相應地也帶來了豐富的應用想象空間。
IDC中國研究總監盧言霞認為,視頻生成將最先應用于短視頻、廣告、互娛、影視、媒體等領域。當前Sora生成的是1分鐘的視頻,對于行業已經是重大突破,只是下一步何時能生成2分鐘5分鐘以上的視頻,不可預測。
顯然,視頻營銷的生產方式將徹底重構,無論是將主播和商品置于虛擬場景中,還是為商品創作更豐富的營銷素材,品牌方、營銷公司、視頻平臺、消費者,將欣喜地迎接抑或無奈地接受一個光怪陸離的新世界。
背后的核心問題是:基于大模型的AI電商到底長什么樣子?
最新消息,Sora已于2月26日開放對外申請。目前有兩種方式能用上官方版的Sora,第一,著名藝術從業者優先;第二,加入Red Teaming(專家社區,為OpenAI 提供風險評估)。同時,字節跳動剪映旗下的AI創作平臺DreaminaAI也即將上線視頻生成能力,目前已開始接收內測申請。
01 從視頻營銷到情感電商,Sora改變了什么?
當下的電商營銷視頻主要包括直播切片和商品展示兩類。比如極睿科技的產品iCut,可以自動從直播中識別商品賣點,剪輯片段、保留語音、生成字幕,還能自動增加配樂、轉場特效、標題、側幕、品牌Logo等元素供品牌分發。賣家可以一邊直播一邊實時獲得海量短視頻素材。
“我們的工作更多是從1到100生產素材,Sora則可以幫助我們從0到1生產素材。”極睿科技CEO武彬說。
武彬介紹,此前電商不能用視頻生成模型,主要原因有三:第一,視頻時長太短,無法進行商品講解。第二,清晰度不夠。第三,可控性較差。
從生成效果來說,Sora彌補了電商營銷素材生成的部分短板。
在Sora展示出的demo中,清晰度和完整度很好,一分鐘也是一個常見的視頻長度,適合賣家去制作并發布到淘寶逛逛、京東種草秀或抖音上。
Sora可以生成吸引眼球的空鏡,比如蝴蝶在海底飛。
來源:Sora
還可以更換商品背景,配合展示。比如,在直播間講解沖鋒衣的主播,可以流暢地轉場到戶外、雪山、漫天風雪中,展示沖鋒衣的使用場景。在直播間賣連衣裙的主播,則可以自然地走進都市街頭咖啡館,在日常場景中講解商品。
來源:Sora
極睿科技要做的則是將此前積累的商品、場景、細節等行業知識,組合成合適的Prompt,完成內容生產。
同為電商營銷的奧創光年也希望通過AIGC提升原始素材的創建速度,“因為用戶給的素材可能是不夠的,再加上平臺現在的判重機制更嚴格,內容是否起量有一定隨機性,需要我們提高視頻生成的質量和效率,加快創意方向的探索和迭代,我們也希望把原始素材生成的比例提高。”奧創光年研發負責人張紅春指出。
他指出,Sora對prompt的遵循能力與理解能力令人驚訝,視頻補全、穿插過渡都非常自然,不管是3D的、多角度的、一鏡到底的,數據cover得很全,因此可以生成更多原始素材,實現單點突破。
從成本角度,AI比攝影師和模特的成本更低。按DALL·E-3生成單張圖片的價格來初步估算(DALL·E-3生成一張1024×1024的照片收費0.04美元),Sora生成1分鐘視頻的成本大約500多元。但因Sora參數規模增大,推理效率的優化也需要時間,現階段應高于這個預估價。對于大B商家來說,找人實拍1分鐘視頻的成本在1000-2000元,隨著模型可控能力、推理能力的迭代提升,在效果滿足的情況下,成本降低至預估價范圍,AI應用可以更加普及。
但電商營銷要求“貨對版”,不管是細微的色差,還是裝飾品1厘米的誤差,對電商來說都算虛假宣傳。為此,奧創光年通過商品實拍和背景生成分開的方式來生產視頻。“一部分實拍、一部分合成。在商品已固定,展示環節已固定的情況下,圍繞商品的所有的元素都可以通過Sora生成。”張紅春說。
“Sora解決不了貨不對板的問題,意味著它并不真的理解物理世界,需要人的邏輯來彌補它的短板。”凌迪科技Style3D首席科學家王華民認為,“很多人夸大了Sora所代表的智能,它其實用海量數據,達到了很淺的智能,而且它的邏輯性和對物理世界底層的理解是有瑕疵的,最好由3D和物理仿真技術來提供整個邏輯關系,由AI來潤色。現在的AI更適合扮演Copilot的角色。”
凌迪科技Style3D的思路是,提供從產品設計到銷售展示的全鏈路3D+AI工具。
在設計階段,凌迪科技Style3D提供的Style3D iCreate,幫助設計師或建模師以AI的發散性快速獲取創意靈感;
確定款式后,使用Style3D Studio制作成精準的、可用于生產的3D虛擬樣衣;
在上身展示環節,可以調用Style3D Studio資源庫中的數字人模特,模特的表情、姿勢、發型、配飾及背景都可進行調整;
基于3D虛擬樣衣,結合AI優化,還可以一鍵生成電商上新圖及詳情頁。整個過程最快僅需24小時。
“我們更偏向于做AI Agent,輔助從業者做好每一步。至于Sora所代表的視頻生成,對我們肯定有幫助,但目前我想不出視頻生成對設計師作用有多大。”王華民莞爾。
圖片來源:Style3D
武彬認為,Sora更多是能力上的補充,并不能改變to B的產品邏輯。
電商營銷素材的制作包括三個環節:素材整理,智能生成,多渠道分發。Sora在視頻生成環節起作用,但在素材整理和渠道分發上,還是使用原有工具。“對于我們來說,模型是什么樣,智能到什么程度不重要,重要的是能夠實現目標,那就是一個好的AI。”武彬表示。
Sora剛發布了demo,硅基智能已經開始訓練demo中的數字人開口說話。
硅基智能的業務是為大V制造數字人分身直播,并且為MCN機構提供數字人主播帶貨。那么Sora將如何改變直播帶貨?
在硅基智能CEO司馬華鵬看來,下一代電商不一定是貨架電商形式,“不能因為你給馬車加了一盞電燈,就認為這是電氣化。”
他提到一家以情感、陪伴、信任為中心的AI企業——Character AI,使用方式類似于鋼鐵俠的智能助手Javis,鋼鐵俠問Javis:“今天跟女朋友第一次約會,給我推薦一套西裝。”Javis提供備選產品,確定后就安排送貨上門。在溝通中完成購買,相當于“情感電商”。
“我有一個非常中立、非常愛我、非常替我考慮的AI助理,我今天問他晚上吃什么,它會基于我的個人信息、喜好、體質進行推薦,我覺得這有可能是新的電商,每個人接下來都會有個助理,這個事情會會對所有商業產生非常大的顛覆。”司馬華鵬如是說。
而數字人就是這個AI助理的載體,目前,硅基智能不僅將數字人克隆技術從8000元降到4元,而且Sora能生成場景和數字人原型,結合硅基的數字人訓練技術,給內容產業帶來的沖擊是巨大的。此外硅基智能試水數字人短劇拍攝,通過數字人+AI工具,成本降低10倍。
02 視頻生成群雄競出,Open AI緣何一枝獨秀?
2024年的視頻生成領域熱鬧非凡。1月4日,阿里云的“全民舞王”(Animate Anyone模型)橫掃社交媒體。1月11日,字節跳動發布文生視頻模型MagicVideo-V2,支持生成4K、8K分辨率,以及不同繪畫風格的視頻。1月17日,騰訊AI實驗室發布了視頻生成模型VideoCrafter2。同一天,來自百度的團隊發布了視頻生成模型UniVG。
在技術架構上,Sora相較于當下的視頻生成模型,至少領先一代。
張紅春介紹,像Pika、Runway,animatediff系列等視頻生成模型,為充分地利用image diffusion的預訓練權重和知識,都是在單幀圖片的spatial模塊后面,加一個時序(temporal)模塊,來學習幀與幀之間的連貫性。這種通過空間和時間解耦的方式來建模,并非最優的視頻表征和建模方法。
相比之下,不論是Google的W.A.L.T和Sroa,都在整個pipeline各模塊上對空間(spatiotemporal)統一建模,同時借鑒DiT的思想,把unet替換為transformer,提升模型scaling up的能力;相對W.A.L.T,Sora在數據質量、數據多樣性、多尺寸多分辨率等方面,又做了很多工作,多因素的累加讓最終效果一騎絕塵。
來源:Sora技術文檔
從大語言模型到多模態大模型,核心難點是把各個模態轉成token喂到語言模型中去。張紅春介紹,文本天然是token化的,圖片和視頻也有壓縮方式進行token化,比如谷歌的MAGVIT;音頻領域,谷歌也推出音頻生成技術做底層的音頻token化。所以谷歌和OpenAI都儲備了音頻、視頻、圖片、文本的token化技術。
但是國內目前談論較多的是文本和圖片的token化,音頻、視頻的token化能力還不多見。
來源:Google
XR創業者謝明炫認為,Sora展示了一種實時生成數字內容和虛擬世界的可能性,這讓虛擬空間會成為新一代的大眾媒介,取代短視頻平臺。
元宇宙的難點在于數字內容的生產效率太低——先要3D建模、貼圖,再到游戲引擎中去制作,過程復雜,門檻過高。Sora的機制則是一種全新渲染引擎的可能性,以后的內容制作方式可以基于提示詞創建3D內容。基于Sora,數字內容的生產中,腳本是自然語言,而不是編程語言,大幅降低數字世界的門檻,每個人都可以去很快速的去建造一個數字世界。
至于Sora自身的發展方式,大多從業者的共識還是,Sora還會被塞到大語言模型GPT-5中,形成類似谷歌Videopoet的產品形態。“理論上Sora應該是放到上下文里面去,基于更長的上下文去做理解推理、生成和交互。語言模型最適合做基礎,也最適合做各個模型之間的大一統,放到語言模型中才能更好和人交互。”張紅春總結。
文字生成領域沒有太成熟的商業模式,以至于Open AI也不確定GPT生成的文字應該如何定價。但是視頻生成有非常成熟的商業模式,一個短視頻能賣多少錢,一部電影/電視劇多少錢,都有對應標準。“Sora開放后,如果測評好,千億美元收入是可以的。按照市銷率幾十倍來估算,很容易做到萬億市值,我覺得這個事情并不難。”司馬華鵬表示。
“視頻生成這個路徑會給OpenAI會帶來非常大的收入,我預計會超過千億美元。”司馬華鵬補充。
回到Sora背后的Open AI,為何它的模型能夠一枝獨秀?
有國內AI企業高管告訴億邦動力,2019年他試圖挖一個OpenAI員工。溝通中他介紹,我們的愿景是幫助人類從碳基走向硅基。OpenAI員工回復,我們的愿景是創造上帝。
03 技術路線見頂,AI之王的盛世隱憂?
另一方面,相當數量的AI從業者看到Sora背后的技術隱憂。
OpenA遵循“大數據、大模型、大算力”的技術路線,把Scale當作核心價值觀之一:我們相信規模——在我們的模型、系統、自身、過程以及抱負中——具有魔力。當有疑問時,就擴大規模,Sora就是這一思路的代表。
但王華民認為,很多從業者都看到了這一技術路徑的上限,震驚于對Sora一邊倒的贊美。
OpenAI的能力突破來自于率先使用了前人沒用過的數據,數據量可以很快上漲。但大模型需要的數據量呈指數級增長,而全球的高質量語言數據預計將于2024年用盡。“我們對數據量太過樂觀,全球數據上限會比算力上限更早到來。”王華民分析。
數據量達到上限,暴力美學的技術路線也將達到上限,而機器合成的數據會讓模型效果變差,我們的不少訪談對象都認同這一觀點。
高質量語言數據耗盡速度,來源:科技博主Dwarkesh Patel
Meta首席科學家楊立昆也認為,隨著數據量見頂,模型性能會趨于飽和,我們需要其他維度的突破,要依靠科學研究,而不是追求數據量的增長。“現階段沒有這種技術能讓AI像嬰兒觀察世界一樣來學習。我們正在研究這個問題,希望得到突破。”
2023年,楊立昆提出一個新構思,即根據大腦運行機制,建立一個端到端的仿生架構,包含6個核心模塊:配置器、感知模塊、世界模型、成本模塊、參與者模塊和短期記憶模塊,他基于該理念設計出V-JEPA“非生成模型”。
這至少代表暴力美學路徑之外的另一條路徑。在王華民看來,“楊立昆在做的事情,我們不敢保證他是不是能做成,但起碼他們團隊對這些事情是有認知的,知道現有的問題在哪。如果你連問題是什么都不知道,那就根本不可能去解決它。”
楊立昆的自主智能系統的架構示意圖,來源《通向自主機器智能的路徑版本0.9.2, 2022-06-27》
技術發展是非線性的,一個技術路線走到一定程度就會停止,之后會有新技術路線冒出來,超越它,達到更高的程度。“AI也是一樣,Sora這一浪目前看是到不了理解物理,實現AGI的程度,后面會有新技術出來把它覆蓋掉,最終我們是可以把AGI或者世界模型做出來的。”王華民總結。
沒人知道OpenAI在想什么,“Sora發布前,外界并不知道他們在干什么,做到什么程度。”有創業者告訴億邦動力,“OpenAI內部已經軍事化管理,OpenAI的模型不止Sora一種,但大家并不知道有什么,而且他們在深度使用這些模型。”
或許在新一輪技術浪潮到來之前,我們期待Sora能在更多的場景中落地。