文|峰瑞資本
30多年前,錢學森先生提議將“Virtual Reality”翻譯為“靈境”,并預言VR技術將成為促進人機結合以及人類社會進化的一個技術路線。世紀之交上映的《黑客帝國》三部曲,向觀眾展示了Matrix虛擬空間中真假難辨的虛幻與現實。
2023年6月的WWDC(蘋果全球開發者大會)上,研發了7年之久的蘋果Vision Pro面世。
Vision Pro是一款AR(Augmented Reality,增強現實)與VR(Virtual Reality,虛擬現實)融合的混合現實設備。從人機交互、硬件規格到操作系統,它的多項指標都為近年來處于探索階段的XR行業帶來了新的產品標準。因此,Vision Pro的面世也被行業評價為“XR(XR,extended reality,擴展現實)的iPhone時刻”。
從科幻電影中真假難辨的虛擬空間,到蘋果的突破性XR設備Vision Pro,在本篇報告中,我們將層層深入,聚焦XR行業,探討如下問題:
- VR/AR/MR/XR分別是什么意思?
- XR行業是如何發展起來的?
- AI技術的引入,為什么說蘋果Vision Pro的面世被行業評價為“XR的iPhone時刻”?
- 挑選一臺XR設備,可以關注哪些技術指標?
- 我們距離理想中的XR體驗還有多遠?
- XR行業進步目前面臨的關鍵技術挑戰是什么?
- XR行業有哪些創業投資機會?
如果你也關注XR,或者在前沿科技領域創業,歡迎聯系本文作者,峰瑞資本副總裁顏黔杭(qianhang@freesvc.com)。
/ 01 / XR:從幻想走向現實
30多年前,錢學森在一封寫給時任“863計劃”智能計算機專家組組長汪成為的信中,提議將“Virtual Reality”翻譯為“靈境”,并在后續的信件中預言,VR技術將成為促進人機結合以及人類社會進化的一個技術路線。
▲圖片來源:上海交大錢學森圖書館
世紀之交上映的《黑客帝國》三部曲,向觀眾展示了Matrix虛擬空間中虛幻與現實的交織。在科幻電影中,人們通過腦后“插管”等腦機接口技術,進入完全擬真的虛擬環境,與錢老對未來“人機融合”的“靈境”暢想不謀而合。
從科幻回到現實,2012年,創業公司Oculus首次在Kickstarter完成眾籌,將VR設備帶入了大眾視野。Oculus后被Meta的前身Facebook收購。2016年,Oculus Rift發售,頭戴顯示器搭配上體感手柄的設計,成為了2016年VR元年前后業內主流的設備形態。HTC、索尼,以及國內的Pico紛紛入局推出各自的產品。
▲2016年發布的Oculus Rift CV1。圖片來源:Touchdesigner
討論虛擬現實,我們繞不開AR、VR、MR、XR這些概念,它們究竟指什么,區別在哪?
AR(Augmented Reality)通常被直譯為增強現實。與虛擬現實VR不同,AR是將虛擬內容與現實物理世界疊加的技術。Google在2012年發布了Google Glass的原型機,是消費級AR設備較為早期的商業化探索。
▲2012年Google I/O大會上,跳傘員佩戴Google Glass準備跳傘。圖片來源:愛范兒
MR(Mixed Reality)被譯為混合現實,最早由科學家Paul Milgram 和 Fumio Kishino研究引入。2015年,微軟發布HoloLens,讓MR的概念進一步具象化,強調虛擬世界與現實世界的混合以及可交互。
▲HoloLens 1。圖片來源:微軟
MR與AR和VR似乎聽起來都有類似之處,下圖能夠比較直觀的體現三者的區別。
▲圖片來源:Linkedln“The Difference between AR, VR &MR"
2017年,高通提出了XR(extended reality)擴展現實的概念,涵蓋了VR、AR、MR的范圍,成為了虛擬現實交互類技術的統稱。此后,高通還推出了XR的專用平臺和基礎硬件平臺。
▲2023年9月,高通推出第二代驍龍XR2平臺。圖片來源:高通公司
/ 02 / 蘋果Vision Pro帶來的技術和體驗
蘋果Vision Pro的面世被行業評價為“XR的iPhone時刻”。雖然目前Vision Pro尚未在市場上正式面向消費者發售,但無論是相關的媒體測評還是官方披露的技術參數,都為整個行業“打了個樣”,展現出了過硬的技術和產品水平,也吊足了人們的胃口。
▲圖片來源:蘋果
在外觀上,Vision Pro的設計酷似潛水鏡。邊框在面部周圍微微彎曲,更加貼合臉型,提升了佩戴的舒適度。此外,Vision Pro以 VST(video see through)的方式實現XR功能。用戶并非直接透過“眼鏡片”觀察外界,而是先由攝像頭采集外部環境畫面,再通過低延時把畫面顯示在眼前的屏幕上。
在系統上,Vision Pro采用的visionOS操作系統被蘋果稱為“第一個為空間計算而設計的操作系統”。visionOS與iPhone的iOS操作系統看上去有些相似。與iPhone不同的是,它的系統界面以立體空間感的形式呈現,可以實現眼睛、雙手、語音交互的空間操作。
▲空間操作系統visionOS。圖片來源:蘋果
在硬件上,Vision Pro更是被業內稱為“不計成本,極限堆料”。Vision Pro擁有12個攝像頭、一個激光雷達傳感器(LiDAR),再加一個M2芯片和一個R1芯片作為雙處理器。其中M2負責圖形計算,R1負責對周邊環境和用戶手勢的感知協助。設備采用Micro OLED顯示屏,擁有雙目2300百萬像素,這也是業內最高規格的顯示水平。
通過軟硬件的創新,Vision Pro提升了用戶的體驗,無論是在辦公室還是家里,用戶眼前的顯示面板和數字內容都能與所處環境相匹配。
▲圖片來源:蘋果
具體來說,Vision Pro從空間視聽、五感交互、空間OS及內容生態三個方面重構了以往的XR體驗。
首先,在空間視聽方面,Vision Pro的屏幕像素密度達到3386PPI,估算空間分辨率(Pixel per degree)約為35左右,即視場角中平均每1°夾角內填充的像素點的數量為35,這相當于每只眼睛分到的像素比4K電視還多。基于蘋果Airpods耳機積累的空間音頻技術,用戶可以通過Vision Pro辨別聲音從哪個位置傳來,獲得更加精準的空間視聽體驗。
▲圖片來源:蘋果
其次,在交互方式上,Vision Pro采用了“眼動焦點交互”和“手勢交互”兩種人機交互設計,無需手柄等其他外接設備。這種基于人類本能設計的交互方式被稱為五感交互,也叫自然交互。
最后,在空間OS和內容生態方面,蘋果一貫擅長將軟硬件開發相結合,用軟件系統的創新幫助打造更好的產品體驗。這一次,蘋果推出了空間操作系統visionOS。未來,或許會有更多應用接入visionOS系統,成為蘋果產品體驗的重要組成部分。
/ 03 / 理想XR體驗的關鍵技術要素
從Vision Pro公布的信息和目前媒體評測的反饋看,無論是Micro OLED帶來的視覺體驗,還是軟硬件有機整合帶來的良好交互和應用體驗,都將用戶視角下的XR體驗帶到了一個新的高度。并且,Vision Pro實現了VR與AR的無縫切換,相比于近年來的VR頭顯以及AR眼鏡,實現了突破性的創新。
當然,Vision Pro的體驗升級離不開技術上的“極致堆料”。
如果我們跳出當前現有的技術水平,滿足用戶預期的理想XR體驗應該是怎么樣的呢?
▲圖片來源:《紐約時報》中文網
VR和AR的目標體驗是有差異的。前者追求虛擬世界對真實世界的完全替代,后者追求虛擬世界與真實世界的無縫融合。
單從科學幻想的效果來看,未來的VR也許像電影《頭號玩家》,讓用戶沉浸到一個全新的世界,完全用虛擬世界替代現實世界。這需要以視覺、聽覺為主的完全擬真的感官體驗。而未來的AR也許像電影《鋼鐵俠》,在現實世界中和虛擬面板進行交互,側重于虛擬跟現實之間的無縫融合。
▲圖片來源:《中國青年報》
為了達到這樣的理想狀況,新一代的XR需要達到哪些技術指標呢?
接下來,我們基于用戶體驗,將評價XR所需的技術指標進行拆解:第一是視覺空間維度的指標,即單幀畫面質量;第二是視覺時間維度的指標,即動態響應速度;第三是交互與佩戴的體驗。
▎視覺空間維度
1. 空間分辨率
空間分辨率反映了VR畫面顯示的細膩程度。
目前,智能手機屏幕的技術發展已十分成熟,顯示效果接近于人眼視覺的極限。但VR設備與手機不同,屏幕距人眼僅在3-5厘米之內,是非常近場的顯示。因此,評價VR的單幀畫面質量時,我們通常采用的指標是空間分辨率(Pixel Per Degree,PPD)
空間分辨率指視場角中平均每1°夾角內填充的像素數量,由顯示屏分辨率和光學系統共同決定。理想情況下,每1°夾角的像素數越高越好。
▲圖片來源:泡咖AI
人眼正常視力的分辨能力極限在50PPD-60PPD,PPD小于50,就能感受到視覺上的網格感,也就是所謂的紗窗效應。目前主流的VR產品PPD大約在19-25,比如PICO 4的PPD是20.6,距離理想值還有較大差距。
蘋果Vision Pro則預估在35左右,雖然已經遠超其他廠家的產品,但它的空間分辨率還需要提高75%以上才能滿足擬真需求。目前為止,還沒有消費級產品的空間分辨率達到40以上,而達到60以上才能對應普通屏幕單眼8K、雙眼16K的分辨率。因此,顯示芯片技術還有很大提升空間。
▲左上、右上、左下、右下依次展示了空間分辨率(PPD)分別為10、20、30、40的顯示效果;圖片來源:ANSYS-HFSS
2. 渲染質量
相信游戲愛好者一定不會對“渲染質量”感到陌生,它直接影響到游戲畫面帶來的沉浸感。對于主打沉浸式體驗的XR來說,渲染質量同樣重要。
渲染的四要素包含渲染對象的材質貼圖、幾何體模型、光照、采樣精度等。這些參數越高,渲染質量越高,用戶能看到的虛擬環境就越真實,沉浸度就越高。
虛擬物體以及環境的渲染,依賴計算機圖形學中的實時渲染管線(Real-time Rendering Pipeline)。目前業內最先進的實時渲染技術是混合光線追蹤渲染管線。
與下圖Meta元宇宙公布的渲染效果相比,2020年出品的游戲《Cyberpunk 2077》中,已經用上了業內最先進的混合光線追蹤渲染管線。
▲扎克伯格在Meta元宇宙中的自拍。圖片來源:Meta
▲Cyberpunk 2077畫面效果(2020年)。圖片來源:Cyberpunk
從用戶的視角來看,畫面渲染質量如果不夠好,會使虛擬環境的體驗與現實差距過大,帶給用戶巨大的割裂感。
既然我們已經能看到十分精美的電影動畫,為什么渲染質量還會成為XR的技術難題?
電影特效采用的是離線渲染方式,每一幀都提前花費大量時間渲染完成,再呈現到熒幕上。一部電影甚至需要數月的渲染時間,花費幾億資金。而XR卻需要實時渲染,渲染后每個畫面都會直接推流到屏幕上,對圖形GPU的算力要求極高,需要極高性能的顯卡。但高規格的顯卡不僅數量較少,移動端的設備也無法支持,因此短期內,渲染質量仍然受限于算力。
▎視覺時間維度
視覺的時間維度即動態響應速度。幀率是否夠高,延時是否夠短,直接關系到設備顯示出的畫面是否流暢絲滑,用戶帶上設備會不會“頭暈眼花”。
幀率代表畫面每秒重繪的次數,以Hz為單位。幀率越高,意味著顯示內容動態越流暢清晰。目前主流VR頭顯的幀率在90Hz左右。而手機與顯示器的幀率已經向120Hz以上發展。
XR的“動作畫面響應延遲”也就是MTP(Motion To Photons),是指畫面數據在傳輸、渲染等過程中的時間差和輸入指令處理的時間差造成的延遲。
過高的延遲容易造成用戶的“3D眩暈癥”。如果用戶眼動、頭動甚至身體移動后,畫面在100毫秒之后才發生變化,用戶就會明顯感到仿佛醉酒的眩暈狀態。理想狀態下,延遲短于20毫秒才不會引起人體的敏感。
▲圖片展示了,在XR設備中,由于運算造成的延遲。圖片來源:ResearchGate
▎交互與佩戴體驗
1. 自然式交互
目前主流的XR產品仍舊依靠手柄這類外接設備作為交互方式,在操作便捷度和直覺匹配上仍有較大提升空間。比如,當用戶戴上VR或者AR眼鏡,看到眼前的物體,會本能地伸出手去抓。但受限于多數設備的技術水平,用戶經常會感覺夠不到眼前的東西,或者手直接從影像穿過去了。
自然式交互是指用戶以自然、基于直覺的方式與設備進行交互。最符合自然交互的方式是手勢結合眼動,以及語音交互,因為不需要額外配置控制器。Vision Pro走的就是自然式交互的路線。
觸覺傳感器也是一種自然交互的解決方案。但目前觸覺傳感設備相對昂貴,且不夠穩定。所以,蘋果Vision Pro在研發過程中放棄了觸覺傳感器的方案,選擇了手勢、眼動和語音結合的自然式交互。下面的圖片是visionOS支持的一些操作手勢。比如,通過放開和捏起手指,就能實現圖像的放大縮小。
▲蘋果Vision Pro的交互方式。圖片來源:蘋果
2. 設備輕量化
設備的佩戴體驗是產品綜合集成的結果,輕量化仍然是產品設計的方向。
當前VR類設備的重量平均在500g左右,盡管產品設計在人體工學上投入大量精力,佩戴時間過長仍然會造成不適。與之相對,AR眼鏡的設備重量已經能降低到200g以內。
值得注意的是,輕量化應當是在前述幾項技術指標完善之后,進一步追求的目標,如果以現有的技術水平一味追求輕量化,用戶的綜合體驗就無法得到保證了。
▲蘋果Vision Pro。圖片來源:蘋果
/ 04 / XR進步的關鍵技術挑戰
目前來看,XR行業面臨的巨大挑戰在于,用戶期待更好的產品體驗,但當下的技術暫時還滿足不了用戶的高期待。和臺式設備不同,XR設備只能借助移動端有限的算力和顯示設備,并且XR設備功耗又偏高。
站在科技創業投資的角度,峰瑞一直關注關鍵技術點的突破,及其帶來的爆發性商業機會。XR行業在2016年經歷過一波熱潮后,逐步沉淀下一些有商業化價值的B端需求,例如教育、工業巡檢。而在C端,更好的產品體驗背后,離不開關鍵技術迭代。
拆解了相關的技術指標,我們認為技術研發的關鍵挑戰在于提升XR的視覺體驗。這背后不僅涉及到硬件端的顯示模組與光學系統方案,也依賴軟件層面CG實時渲染技術的進一步發展。此外,如何改善畫面運動延遲、提升沉浸感也是目前XR設備的一大痛點。
▎下一代顯示模組:Micro LED
人們在XR設備里看到的屏幕主要是由顯示模組構成的。目前顯示模組主要有Fast-LCD、Micro OLED和Micro LED這三種技術方案。
▲圖片來源:安信證券研究中心
Fast-LCD制造成本低,已經實現大規模量產,但響應速度相對較慢。
Micro OLED具備高像素密度、高對比度的特性。但OLED是一種有機材料,容易老化,并且亮度比LED低不少。
相比于Fast-LCD和Micro OLED,Micro LED或許是下一代顯示模組更理想的方案。根據智東西報道,蘋果已投入大量資金開發Micro LED。蘋果于2014年5月收購LuxVue,該公司主營Micro LED 業務,擁有多項可用于蘋果設備的Micro LED專利。
Micro LED兼具了LCD和OLED的優勢,同樣具有擁有高像素密度,高對比度,高分辨率等多重特性。Micro LED的亮度理論上可以達到10萬尼特以上,高于Micro OLED兩個數量級。并且,由于Micro LED在生產過程中不易受到污染,因此良品率更高,壽命也更長。
目前,全彩色Micro LED還處于研究階段,沒有實現大規模量產。如果要制備全彩色Micro LED,主要有三色集成和量子點轉色兩種路徑,兩種方案都處于技術早期,存在不同程度的挑戰。
三色集成方案對微觀制造工藝的要求非常高,需要所有單色器件具備較好的一致性。三色集成方案中,紅光器件在尺寸縮小到微米級別甚至更小時,發光效率遠低于綠光和藍光器件。量子點轉色方案則可以規避三色集成方案中的工藝難點,直接使用相對較成熟的藍光器件作為光源,使用量子點材料轉色得到紅光與綠光。
然而,不吃工藝的苦,就要吃材料的苦。目前的量子點材料容易老化,使用壽命較短。另外,量子點器件的變色層有時會漏光,產生相互串擾。
由于工藝相對簡單,量子點轉色是目前大部分創業團隊的主流選擇。但從投資角度來看,兩種技術路線仍處于競爭中,還需等待一個相對更成熟的關鍵點。不管哪一種路線最終勝出,都將推動Micro LED技術的產業化。我們將持續關注Micro LED相關的工藝、材料以及設備等方向的技術創新。
▎光學設計
XR設備屏幕離人眼很近,人眼很難聚焦。所以,人們需要設計一套獨特的光學系統,讓光線在狹小的空間內多次傳導,使人眼能夠清晰聚焦顯示面板上的內容。
▲VR設備的光學設計方案。圖片來源:智東西
▲AR的衍射光波導方案。圖片來源:Digilens
目前,在VR領域,Pancake超短焦折疊光路方案已經成為新款頭戴設備的主流選擇。當前蘋果Vision Pro、字節旗下的Pico4均采用此方案。據財聯社報道,Pancake解決了VR模組過于厚重的痛點,可將機身厚度降低約50%。
而在AR領域,衍射光波導方案將成為AR主流的光學設計,整體結構輕薄,視場角FOV與分辨率高。但目前衍射光波導技術的整體成熟度還不夠高,存在色散(由于光線的折射和散射現象導致的色彩偏移現象)和光損控制(光在傳播過程中的亮度損失)的問題。
往前沿的方向看,超透鏡(Metalens)與微透鏡陣列是行業預期的下一代XR光學技術路線。超透鏡是使用超表面(一系列亞波長厚度的平面二維結構材料)聚焦光纖的平面透鏡,可以實現對入射光線振幅、相位、偏振等參量的靈活調控。
微透鏡陣列在概念上與超透鏡類似,是由一系列微米級別的微小透鏡構成的陣列,可以實現傳統單光學鏡片無法實現的復雜功能。Intel基于異構微透鏡陣列技術研發出了180°FOV的小型緊湊VR頭顯設備。
超透鏡(Metalens)與微透鏡陣列這兩個技術路徑的優勢就是集成度更高,可以用更小更輕薄的光學系統,滿足XR設備的顯示需求。盡管這兩種方案尚處于研發初期階段,但已經展示出非常強大的應用潛力。
超透鏡概念圖。圖片來源:36氪、 邁塔蘭斯
▎實時云渲染
我們在上文提到,移動端設備算力有限,XR設備難免受限。如果能將渲染挪到“云端”,也就是“實時云渲染”,可能會突破算力約束、實現高質量實時渲染。當前,實時云渲染最直觀的應用就是云游戲。
但實時云渲染的實現有兩個技術難點。
首先,實時云渲染僅局限于單GPU,暫不兼容分布式運算,這一點和AI大模型天然支持分布式計算不同。
目前,業界正在探索在XR領域實現多卡分布式渲染,提高算力,但進展較為緩慢。如果未來分布式渲染能夠實現突破,可能我們在使用VR設備時,就像我們今天能夠在手機上使用AI相關的應用,體驗到遠超移動端本身的算力性能。
實時云渲染的另一個難點在于,它增加了基于網絡的視頻推流環節,更難控制畫面延遲的問題。針對視頻的網絡延遲控制,視頻編解碼優化與端云異步渲染是當前主要的發展方向。
視頻編解碼優化是指,在視頻推流時用一套云端專用的編解碼定制芯片替代CPU和GPU,來優化延遲。它可以把整個編解碼的時間降到1毫秒以內,并盡可能壓縮各個環節的時間。
端云異步渲染是指將畫面渲染與終端顯示并行執行。云端渲染好基礎畫面,終端根據用戶位置和姿態二次計算得到實時畫面,從而減少延遲。
所以,渲染的技術進步中,不僅有移動端硬件的機會,比如在更高節點進行網絡通訊和數據通訊;在軟件層面,也有更適合云端渲染的新渲染技術的機會。
▎XR專用協處理器
從2023年上半年開始,主算力芯片加協處理芯片的雙芯片方案已經成為XR業內的主流處理器方案。通過一個XR協處理專用芯片為主芯片排憂解難,兩個芯片共同配合工作,能夠有效提升使用效果和計算效率。
▲圖片來源:蘋果
作為負責空間計算和感知的專用芯片,用于XR的協處理芯片相當于以前手機上的M系列芯片,它可以實現前端攝像頭加傳感器數據的感知合成、SLAM建圖、Mapping及手勢跟蹤等復雜功能。主處理芯片則只需進行核心邏輯運算。
蘋果Vision Pro中,R1芯片作為協處理器,負責處理來自12個視覺攝像頭,5個傳感器,6個麥克風輸入信號的數據處理工作,實現空間計算所需的姿態跟蹤、眼動跟蹤、3D環境感知以及手勢跟蹤等核心功能,動態延遲僅有12毫秒。
▲圖片來源:半導體產業縱橫(作者:千芯科技 陳巍)
目前協處理器所執行的任務仍相對簡單。未來,分區渲染、雙眼焦點的渲染等更復雜的功能或將逐步轉移到協處理器上運行,我們認為,隨著蘋果的示范效應,未來協處理器的定義和功能仍有機會拓展,并解決更多面向XR的專有需求。面向XR行業的雙芯片架構將會在未來成為主流趨勢。
/ 05 / 總結
站在科技創業投資的角度,峰瑞一直關注關鍵技術點的突破,及其帶來的爆發性商業機會。蘋果的Vision Pro既為XR行業打了個樣,也將助力XR領域吸引更多的關注與創業資源。
而XR設備想要實現更好的產品體驗,離不開關鍵技術迭代。當技術不斷成熟后,XR設備能應用到更多場景,為更多用戶帶來實打實的核心價值。
我們認為,技術研發的關鍵挑戰在于提升XR的視覺與交互體驗。這背后不僅涉及到硬件端的顯示模組、光學系統、交互模組,也依賴軟件層面CG實時渲染技術的進一步發展。此外,如何改善畫面運動延遲、提升沉浸感也是目前XR設備的一大痛點。
我們也會持續關注在MicroLED、新型光學系統,以及CG實時渲染等相關軟硬件技術的突破。這些技術革新將助力XR設備未來成為下一代移動計算設備,甚至有可能創造出類似于智能手機替代傳統PC的大變革機會。
暢想未來,可能在幾年內,用戶戴上XR設備之后,就能像鋼鐵俠那樣去體驗各種各樣XR帶來的一些有意思的新應用。這些新應用不僅是提升生產力的應用,還包括娛樂應用。也許那時候,我們無需攢人品去搶一張周杰倫的演唱會,通過XR設備,就能沉浸式地從家里的沙發,瞬移到鳥巢體育場的座位。