文|智能相對論 陳選濱
前不久,字節跳動旗下火山引擎組了一個局——視頻云科技原力峰會,并拉上了阿里云、騰訊云國內兩大云廠商,聯合發布了一項“超低延時直播協議信令標準”。
基于這個新標準,阿里云、騰訊云以及火山引擎共同為視頻直播行業首次定義了直播“客戶端-服務器”信令交互流程,使得傳統直播技術3至6秒的延時縮短到了1秒以內,最快可達到500毫秒。且不同技術供應商在一套標準方案下更加方便互通,行業參與者使用一套SDK(軟件開發工具包)即可無縫切換各種供應商的產品。
盡管這并非一次業務合作,而是技術共建。但,從某種程度來看,在視頻云技術領域,阿里、騰訊、字節跳動已經有意加速互聯網的“拆墻行動”,由新BAT格局引領、聚焦到視頻云,更是成為接下來互聯網發展的重磅焦點。
更低的延時、更協同的技術標準......從這一次標準發布來看,視頻云背后的技術動向已經預示了一個泛視頻時代的來臨,不惜讓阿里、騰訊以及字節跳動三大巨頭放下了“對立意識”,走向全新的競合關系。
01 越底層,越標準
“廣泛的商業場景內容正在從圖文走向視頻。”在此次"超低延時直播協議信令標準"發布上,火山引擎總經理譚待提出判斷。
而這一判斷在大數據的佐證下也更加清晰。根據QuestMobile發布的《2021中國移動互聯網年度大報告》顯示,互聯網場景中的視頻內容增長勢頭迅猛,以短視頻為代表,全網用戶11.74億,時長占比25.7%,已經成為了占據人們網絡時間最長的行業。
跳出了短視頻,還有中長視頻、直播等一系列基于視頻化的內容輸出與交互模式,都已經成為當前互聯網服務的主流形態。
艾瑞研究院副總經理徐樊磊在去年的Imagine阿里云視頻云全景創新峰會上提到一個觀點:視頻不應該被看作一個單獨的行業,就像云計算同樣不該被看作一個單獨的行業,它們都將滲透到各個行業、各個場景。
可以預見,隨著視頻化應用的滲透與擴展,未來將是一個泛視頻時代。而越是底層的支持,對于標準化的需求也就越高——當一項技術發展成為一個通用形態,用的人多,做的人也多,流程之間的標準化也就愈發關鍵。
眾所周知,當前視頻行業采用WebRTC技術是谷歌在2011年開源的一個API,但并沒有一套標準化的信令交互流程。這也就導致了不同廠商之間都有著自家的一套客戶端與服務器的交互邏輯,存在著流程上的差異。
比如,此前的信令流程就特別繁雜,標準WebRTC的信令往往需要經過SDP交換,ICE交互,DTLS握手之后才能傳輸流媒體數據,這導致了直播首幀耗時嚴重惡化,非常不流暢。
對于這個問題,各家都在提出自己的優化方案,比如騰訊云就是通過miniSDP和0-RTT的結合來大幅減少信令耗時,提升信令交互成功率。但,這種優化方案如果不能在行業內形成統一的標準,那么各家的解決方式不一樣,所帶來的優化體驗還是非常有限的。
因此,隨著視頻化應用的滲透率越來越高,對于底層技術標準化的共識也就越強烈。但,最終這種標準化能實現到什么程度,還得看未來市場的發展。當前,不管是阿里、騰訊還是字節跳動,之所以在這個節點上發布新標準,除了在技術共建方面初步達成共識之外,最多的考慮主要還是對自家技術能力和行業影響力的展示,也就是“秀肌肉”。
簡而言之,三大巨頭的“共識”不僅僅只是技術標準化,更有相互“搭臺”突顯自家技術優勢之意。
02 拼技術的周期到了?
徐樊磊認為,云服務市場的需求周期在于前期主要看成本,后期則看能力。
那么,從三大巨頭的技術共建來看,視頻云作為云服務的一個焦點領域,儼然已經進入到了看能力的后期階段。
技術以及技術帶來的突破價值也是當前各大云廠商講得最多的一個話題。
技術的標準化是一方面。就在火山引擎召開視頻云科技原力峰會的前三天,騰訊云便聯合了中國信通院發布《超低延時直播白皮書》,“搶先”為超低延時直播技術標準化奠定基礎,從技術層面拿下行業創新的話語權。
但,在拼技術的賽道上,“先人一步”還不足以說明什么,最關鍵的還得“勝人一籌”。簡單來說,技術所帶來的成果展現最為重要,也是這一周期內市場最想看到的云廠商差距與優勢。
當前視頻云技術所要為行業帶來的變革主要聚焦在兩方面:
一是“數量”問題,即解決視頻應用的規模化落地問題,比如如何降低視頻創作的門檻,保證視頻內容的大規模產出,拉動全民視頻消費等等。
從這個角度來看,快手、抖音等短視頻平臺同步推出的云端剪輯工具,如云剪、剪映等就屬于一個基礎的視頻云解決方案之一。
再深入一點,又比如冬奧會期間,央視體育新媒體和總臺技術團隊聯合阿里云視頻云、阿里巴巴達摩院打造的智能生產工具“AI云智剪”,依托AI技術的引入,能在比賽完成的第一時間實現對比賽視頻內容的多維度解析,生成精彩素材,并創作出相應的主題視頻,為人們帶來及時的視頻化內容。
二是“質量”問題,即通過技術突破開拓視頻應用邊界,帶來更多元化的視頻化體驗,比如如何創新視頻的交互模式等等。
阿里云視頻云在冬奧會上基于AliRTC(音視頻通信技術)推出的云上創新解決方案——阿里云聚“Alibaba Cloud ME”,就是視頻交互模式的一次應用試探。
呈現出來的全息形態之所以如此真實并能保證實時動態交互,就在于阿里云視頻云視頻編碼與增強技術團隊提出了一種結合可變形卷積的稠密殘差連接網絡結構,極大提升了窄帶高清產品對視頻的轉碼效果。
不可置否,在今年的冬奧會上,阿里云視頻云著實是用技術秀了一把“肌肉”。
對于整個視頻云領域而言,這也是不可避免的趨勢——拼技術,還要拼出創新度、拼出亮眼的效果,就如同視頻本身所帶給人們的視覺沖擊感一樣,都是接下來云服務廠商角力的關鍵。
03 產業的格局已經松動
站在今天的視角來看,「視頻化」的想象力是無限的。這種想象能實現多少,本身也就取決于廠商的技術能力。
但,可以確定的是,伴隨著技術的持續迭代,視頻化的一步步升級,產業的格局也在一點一點的松動,發生變革。
這種松動信號,在百度智能云的“智能視頻云3.0全景圖”中也能有所預見。
根據介紹,百度智能云基于元學習-遷移學習的視頻生成技術可根據需求快速定制不同風格的高質量視頻,并同時結合虛擬數字人形象生成與語音合成、唇動等技術,低成本制作形象豐富靈動、線上線下多端覆蓋的的數字人,由此應用到媒體主持、金融客服、文娛偶像等場景中。
同樣是在今年冬奧會上,“百度智能云曦靈”團隊打造的AI手語主播就是一個已經落地的應用。
這種「視頻化」的多元應用就已經不僅僅是對一塊屏幕表現力的改革,而是對整個產業的基礎邏輯的變革——生產力的轉變。
從這個角度來看,我們可以發現,負責內容生產、導播、交互的主體已經開始向AI中臺以及虛擬數字人轉移,視頻云技術的應用使得“它們”具備了更強的表現力和規模化落地的條件。
在本屆冬奧會上,阿里云的“AI云智剪”就已經自動化處理了200+場比賽,生產素材片段達3萬段以上。而像百度AI手語主播這樣活躍在冬奧會各個場景的虛擬數字人也多達將近30個,其中就包括了騰訊的“聆語”、科大訊飛的“愛加”、小冰公司的“夏語冰”等等。
在這些虛擬數字人的背后,正是視頻云技術的創新與應用。
不要低估了視頻云。
在《視頻云發展趨勢洞察》報告中,IDC認為,數字化時代,從商業活動到社會生活,視頻數據已經成為連接個人、家庭、社區乃至社會的重要紐帶。IDC預測,到2025年中國視頻云市場規模更將達到314億美元。
不管是從市場潛力還是應用前景來看,視頻云都充滿巨大的想象空間。
也不枉阿里云、騰訊云、火山引擎、百度智能云等各大云廠商紛紛下場,走向競合!