文|產業家 思杭
編輯|皮爺
2024年初,國內的大模型公司還未從上一波“GPT4”的焦慮當中緩過來,Sora就已經席卷而至。緊接著,所有互聯網大廠幾乎都“停下手頭工作”,開始在新的領域做出一點成績,從而盡快在市場上發聲。
但在近期阿里蔡崇信的采訪中,他說道,“中國AI技術可能要落后美國兩年”。在這種不斷追趕的焦慮背后,一個引人思索的問題是,國內大模型公司追趕的究竟是什么?
站在更為具體的賽道上來看這一問題,作為離Sora最近的賽道——音視頻而言,這種焦慮也在不斷放大。
從GPT3.5到GPT4.0,從Runway、Pika到Sora,當大模型的價值鏈不斷升級,那些暫未爬到頂端的企業,還剩下多少‘生存空間’?
實際上,于音視頻廠商而言,當“追逐技術”變為“追逐用戶”,這種價值就變得更加具體、更加實際。從近兩年音視頻廠商的發力趨勢可以看出,AI雖然是不可錯過的大趨勢,但企業要解決的難題是,如何將技術與用戶連接在一起。讓大模型發揮想象力的同時,更要解決用戶的實際問題。
AI時代,不斷進擊的“音視頻”
2022年,先是釘釘的一套“組合拳”,緊接著,音視頻PaaS/SaaS廠商也紛紛跟進,不僅大手筆投入研發,還在AI方向補充彈藥進行長遠布局,自此,圍繞音視頻賽道的“混戰”也正式打響。
音視頻PaaS公司“拍樂云”被收購一事在2022年受到廣泛關注,收購方正是阿里釘釘。一石激起千層浪,音視頻賽道迅速成為焦點。更為炸裂的消息是,有著視頻會議開創者Webex架構師、網易云信CTO和拍樂云創始人等多個顯赫頭銜的“趙加雨”,也攜團隊空降釘釘音視頻事業部的一號位。
而跟隨趙加雨的這伙人,個個都是音視頻領域的得力干將。其中,李備是拍樂云音頻專家,曾有5年WebEx音頻專家工作經驗;章琦,拍樂云首席科學家,8年WebEx音視頻引擎架構師工作經驗。
所有信號都指向了阿里布局音視頻賽道的決心。實際上,阿里在音視頻的布局更早就開始了。2021年11月,釘釘內部成立了獨立的音視頻事業部,該事業部成立的初衷便是聚焦在“研究音頻技術及算法創新,以及探索下一代音視頻會議形態”。
釘釘這一槍打響后,長年深耕在音視頻賽道的騰訊云,以及其他PaaS和SaaS廠商,也紛紛從研發、解決方案、應用場景和AI方面增添自己的彈藥庫。
同樣身為互聯網廠商,音視頻于騰訊而言,可以算是一種“與生俱來”的基因。到2022年,騰訊云的步伐早已到了在技術側實現突破,以及在行業應用上更加細分的程度。
比如騰訊云將一種能夠遠程實時控制的音視頻技術方案,應用在煤礦、港口場景里的無人駕駛卡車運營當中。而在此之前,在傳統行業里實現遠程的音視頻連接和操作,無論是技術還是應用場景方面都遠未達到成熟。
對于其他音視頻PaaS/SaaS廠商而言,增加研發投入則是一種更為直接的方式。
在2022年,除了阿里釘釘的一套“組合拳”,音視頻賽道里的另一個重磅消息是,音視頻SaaS第一股“百家云”在納斯達克敲鐘上市。其2022上半年營收就達到了6860萬美元,實現同比增長65.5%。在2023年其更是凈利潤達480萬美元,實現扭虧為盈。而其研發費用更從2021財年的580萬美元大幅增加到2022財年的1300萬美元。
實際上,這種研發費用的驟增不僅僅是底層技術方面的發力,還有定制化和AI方面的投入。從財報中看,在2022財年的全年營收中還增加了一項“定制平臺開發服務”,全年該業務的營收達到了1030萬美元;而AI解決方案的收入也增加了760萬美元。
而與SaaS廠商不同,音視頻PaaS廠商的研發投入則更重。以聲網為例,根據其2022年的財報顯示,當年的全年總營收是1.61億美元,而單是研發費用就達到了1.1億美元。
那么,這1.1個億的費用具體體現在哪些方面?
2023年,聲網推出“鳳鳴AI引擎”,將AI降噪、AI回聲消除、空間音頻等技術進行了集成;在視頻方向,推出了超高清能力的超分、畫質提升、感知編碼、虛擬背景和AR特效等增強觀看體驗、臨場感和互動表達能力的實時AI技術;也開發了語音轉文字、內容審核等AI功能來增加信息提取、傳遞和保存的維度。
這是在AI時代、大模型時代下對智能化的一種響應。但羅馬不是一天建成的。于音視頻廠商而言,推出AI相關的技術或應用場景需要長期的投入。
無論是聲網,還是保利威、百家云等其他音視頻PaaS/SaaS廠商,對于AI的積累都要追溯到幾年前。只是從外界聲音來看,2023年是集中發力的一年。
以聲網為例,在鳳鳴AI引擎中集成的大部分技術都源于多年的積累。產業家向聲網CTO鐘聲了解到,“空間音頻”是鳳鳴AI引擎中集成的技術。利用AI算法來模擬頭部球面區域的立體聲場,在更細微處,甚至能捕捉到人的喜怒哀樂,將這種三維信息提取出來再放到AR增強的場景。從技術處理的細節便可以感知到,它是一種“厚積薄發”的產物。
實際上2023年,大模型在國內“狂飆”的同時,音視頻廠商更是不可能錯過這波風口。技術的長期投入,這一年給音視頻廠商的機會是在服務場景上更深化、更細致。
最為常見的便是AIGC解決方案的發布,這也是在市場層面能夠迅速引發關注的方式。比如聲網在去年發布RTE X AIGC 一站式產品能力解決方案;百家云發布全新AIGC產品“市場易”;騰訊云在音視頻產品矩陣上的智能化升級;保利威發布AI智能教育解決方案;即構推出AI視頻生成應用“即構數智人”等等。
而在無數的聲音背后,大模型給音視頻帶來的實際價值是什么?
技術、落地場景和“大小模型”方案
“到了今天這個時代,客戶不會關注噱頭,而是更切實地關注提高了多少效率,降低了多少成本。”這是保利威全國售前總經理王建成近兩年的感受。
技術不斷進步的同時,服務場景也正在進一步深化。
拋開底層技術,在大模型時代,如果說真正能在效率上提升,以及成本上有所降低,用戶一定會在操作體驗層面有更強的感知。
那么,更為細致的應用場景,便是結合AI大模型,來解決曾經幾乎“不可能”的事情。
以金融領域為例,其監管十分嚴格。一種常見的情況是,在直播過程中需要人為干預,進行監聽。所以這種情況下,實時生成字幕對于大部分的金融客戶就很難滿足。
王建成告訴產業家,保利威的做法是結合金融客戶的特殊需求和行業特點,做出一種專為金融行業打造的特殊模型。
這是一種將直播技術與業務結合的最佳例證。而在AI大模型時代,在技術高度不斷刷新的當下,真正去解決用戶的實際問題,對于音視頻SaaS廠商,或許是一個更為務實的答案。
為什么說焦慮與現實有時并不成正比?
一方面,技術高度的不斷刷新確實會帶給人更大的焦慮,但另一方面,從現實的角度來講,技術高度的不斷刷新卻并未真正下沉到產業,發揮真正的價值。
根據艾瑞咨詢報告顯示,在目前實時音視頻領域,領跑場景依舊停留在C端,在實際生產過程中,產業數字化的價值微乎其微。
那么,從技術的角度出發,音視頻技術現在究竟發展到什么程度了?
可以看到的是,騰訊云已經能夠實現在煤礦、港口場景里,實時控制無人駕駛卡車運營。這是近兩年較為新鮮的嘗試。在這些場景同樣有所布局的還有聲網。除了更深入產業側的工業領域 ,聲網也在IoT行業、醫療健康行業持續發力。
而在大模型未到來之前,遠程的音視頻連接和操作,無論是技術還是應用場景方面都遠未達到成熟。
站在技術的角度,更具體來講,大模型給音視頻領域帶來的是更大的想象力。
2023年,阿里云智能高級算法專家劉國棟在深圳的一席演講中提到了一種大模型與小模型結合的技術。
在大模型還未出現的時候,只有小模型。其實,大模型與小模型都有各自的局限。小模型的局限在于其泛化能力比較差。而泛化能力差,通俗來講,就是小模型的理解和生成能力不好。但其優點在于,小模型、傳統算法在算法開發、工程優化方面已相對比較成熟,小模型的訓練資源占用少且訓練速度快,部署容易,端側落地性強。
而大模型出現后,這些問題都一一被解決了。而大模型的局限性在于,細粒度的問題還不能完美處理、容易出現幻覺現象、推理訓練成本都比較高等。
因此,大小模型協同便是最好的解決方案。通過讓大模型和小模型并聯和相互引導的方式,來優化各自的問題。
而對于大模型與小模型的“協同”方面,聲網也有自己的理解。對此,鐘聲向產業家解釋道,“大模型的參數很大,需要巨量的數據包括高質量的數據來訓練。一個符合常理的邏輯是,最領先的大模型,其推理能力較強,可以通過蒸餾等方法來訓練小模型。大模型產生的結果,具備一定的質量,可以用來訓練小模型。未來,大小模型應該以‘聯合行動’的方式來共同完成任務,在算力、延時、隱私保護等方面實現一種更好的融合。”
一個更為遙遠的暢想是,隨著端上算力的增強,有著幾十億參數的大模型未來也有可能在端上運行。屆時,在各個領域實現“實時音視頻”則會成為現實。
更大的焦慮,更大的想象力
從GPT3.5到GPT4.0,從Runway、Pika到Sora,當大模型的價值鏈不斷升級,那些暫時還未爬到頂端的企業,還剩下多少“生存空間”?
這是一個引人深思的發問。
近兩年,科技界追逐技術的熱情在不斷高漲。大眾對于AI的焦慮是更為遙遠的“生存威脅”,而科技界對AI焦慮則是由所謂“參數”和“長文本”所“卷”起來的商業競爭。
如果聚焦到產業側,聚焦到更實際的賽道,不斷刷新的榜單,不斷升級的參數、上下文長度,這些對于音視頻廠商而言意味著什么?
在與鐘聲的對話中了解到,聲網所追求的是實時性。而從目前來看,如果在云端的服務器上運行,最后在傳輸到端的設備上,很難實現“實時性”。所以聲網的做法是是在端上進行計算。但客觀來講,端上運算的局限是算力不夠。
對此,鐘聲發表了一種觀點,雖然現在最前沿的技術都在追求Scaling Law(規模效應)支撐下的大模型,但對于聲網而言,追求極致的小模型意義則要更大一些。首先保證低延時、低成本,直接讓很小的AI算法在端上發力,通過極致、精準的算法來讓音視頻發揮最大的價值,低延時低成本可以為更多需要實時互動的客戶和用戶釋放出或者創造出巨大的價值;這方面業界的關注度還不夠,但終會成為焦點。聲網在這方面則做了較為專注的研發投入。
站在更實際的角度,如果在云端運算,雖然在大算力的支持下運行大模型,最終可以得到較好的效果,但現實情況是,在大多數的消費側場景,比如社交娛樂,系統響應延時過大,本身就不太像AGI,客戶或用戶也不可能花較高的費用來追求響應較慢的AGI效果。所以,在端上低延時低成本的運算更為有需求。
同時,鐘聲提出了一種暢想,在音視頻領域,AGI最終會發展成端邊云結合的方式,以平衡算力、延時、隱私和數據保護等幾個AI發展的關鍵要素。
這是大模型賦予音視頻廠商的想象力,而這種想象力也會應用到更現實的場景解決更實際的問題,比如醫療領域里會用到的遠程救治,其實時性要求極高,延遲1s都可能威脅到生命。
那么,在當下這個拼技術刷榜單的大模型時代,音視頻廠商要如何順應AI時代?
實際上,近兩年音視頻的發展趨勢已經從關注技術,走向關注更為實際的“降本增效”。以保利威為例,其SaaS訂閱收入達到90%成績背后,是結合具體的業務來解決實際用戶的問題。
如果通過大模型所提升的音視頻技術,不再止步于社交和娛樂,而是更為具體的生產環節,甚至是治病救人,那么也許實時音視頻才會實現破圈,走向大眾。