在硬件技術如此迅速的進步之后,元宇宙的技術路線又將朝何方發展呢?
編者按:本文來自微信公眾號PPIO(ID:PPIO_Storage),創業邦經授權發布。
(相關資料圖)
在過去的一系列文章中,我一直將元宇宙視為我們這個時代的"登月工程"。為了實現真正的全身心沉浸式體驗,未來必須有多項關鍵技術取得突破。然而就在今天,備受矚目的蘋果MR設備Apple Vision Pro,在蘋果WWDC2023的舞臺上綻放光芒。其單眼4K分辨率,2300萬像素的視覺顯示效果,搭載強大的M2主芯片,配備眼動追蹤等尖端技術,以及令人驚嘆的12ms的M2P外顯時延技術。這些創新的技術實現,都在預期之內。然而,最令人興奮的是,遠超出了我的預期,沒想到來得那么快。人類在這場偉大的"元宇宙登月工程"中,邁出了一大步。那么,在硬件技術如此迅速的進步之后,元宇宙的技術路線又將朝何方發展呢?接下來,我將分享一些個人的思考。
01介紹Apple Vision Pro在6月6日凌晨的蘋果WWDC大會上,第一次正式發布了蘋果的MR設備,Apple Vision Pro,將于明年早些時候上市;
這次Apple Vision Pro定位是進入空間計算時代,人類將從移動計算時代到空間計算時代。
Apple Vision Pro無縫地將數字內容與您的物理空間融為一體。這次最偉大的創舉是把VR和AR統一了,這是MR設備的定位(Mixed Reality,混合現實),通過超高清攝像頭把現實畫面通過12ms的延遲原封不動地展示給人眼,還能疊加想顯示的任何東西,創造出一種新的交互環境。這和之前的VR有著本質的區別,(Virtual Reality,虛擬現實)虛擬現實是一種通過計算機生成的仿真環境,讓用戶可以沉浸其中,感覺自己身臨其境。之前Facebook的Oculus quest系列,國內字節跳動的Pico系列,都屬于VR設備。
Apple Vision Pro可以簡單地通過使用您的眼睛、手和聲音來進行操作。關鍵是不再需要手柄了,操作上大大簡化。之前的VR設備,Oculus quest系列,Pico系列等,都是需要雙手拿著手柄來進行交互。
在這里,可以看出一個關鍵的區別,之前的VR設備,包括著名Oculus quest系列,Pico系列,說到底,本質上類比“游戲機”,主要用于游戲和視頻,難以用于工作和生活的方方面面,因此購買的人不少,但使用率不高,往往嘗鮮之后就不用了,所以被很多人稱為超級禮物。而這次蘋果的Apple Vision Pro,定位更像移動時代的“手機”,可以看見現實世界,可以帶著去任何地方,可以用于工作和生活的方方面面。這才可能引領人類進入一種新的生活形態。
不過,這次唯一的遺憾就是售價有點小貴,$3499美元,差不多人民幣25000。不用一般人用的,但是我相信果粉的號召力,還是不少人會購買。另外這次的產品叫Pro,按慣例,后面推測應該會推出價格更低的Air系列產品。
從官網看,蘋果依然用戶視覺優先,主打用戶體驗功能
Apps,釋放您的桌面。您的應用程序將隨之而來:您的Apps存在于您的空間中。通過Vision Pro,您擁有一個無限的畫布,可以改變您使用喜愛的應用程序的方式。將應用程序隨意排列在任何位置,并按照理想的尺寸進行縮放,使您夢寐以求的工作空間變為現實,同時保持與周圍世界的聯系。在Safari中瀏覽網頁,在Notes中創建待辦事項列表,在Messages中聊天,并通過一眼之間無縫切換它們。
娛樂,終極劇院。無論您身在何處。沉浸式的娛樂體驗方式:Vision Pro能夠將任何房間轉變為您個人的劇院。通過空間音頻,您可以將電影、節目和游戲擴展到最合適的尺寸,同時感受自己身臨其境。而且,每只眼睛比4K電視擁有更多的像素,所以無論您身處何處——無論是長途飛行還是家中的沙發上,您都可以享受令人驚嘆的內容。
照片和視頻,重新沉浸在當下的時刻中。您的記憶煥發生機:Vision Pro是蘋果的首款3D相機。您可以以3D形式捕捉神奇的空間照片和空間視頻,然后通過沉浸式的空間音頻再次體驗那些珍貴的時刻,前所未有地感受其中的魅力。您現有的照片和視頻庫以驚人的規模呈現出令人難以置信的效果。全景照片將您圍繞其中,讓您感覺自己仿佛站在拍攝時的位置上。
連接,達成共識,在同一個空間中。讓會議更有意義:Vision Pro讓您可以輕松協作和連接,無論身在何處。FaceTime視頻塊的大小與真實生活尺寸相同,當有新的人加入時,通話畫面會在您的房間中擴展。在FaceTime中,您還可以使用應用程序與同事們同時協作編輯同一份文件。
現在從設計的視角看看
Apple Vision Pro是幾十年設計高性能移動和可穿戴設備的經驗的結晶,是蘋果有史以來最具雄心的產品。Vision Pro將極其先進的技術融入優雅、緊湊的外觀中,每次戴上它都能帶來令人驚嘆的體驗。
一個獨特的三維形成的層壓玻璃作為相機和傳感器觀察世界的光學表面。它與定制的鋁合金框架無縫融合在一起,柔和地彎曲以環繞您的臉部,同時作為光密封裝置的連接點。
再說說操作系統:
VisionOS 蘋果首個空間操作系統。面向空間計算的交互設計:visionOS基于macOS、iOS和iPadOS的基礎上構建,實現了強大的空間體驗。您可以用眼睛、手和聲音來控制Vision Pro,交互感覺直觀而神奇。只需注視一個元素,用手指敲擊選擇,使用虛擬鍵盤或語音輸入進行打字。
應用程序躍入生活。在visionOS中,應用程序可以填充您周圍的空間,超越顯示屏的邊界。它們可以在任何位置移動,按照理想的尺寸進行縮放,對房間的光線做出反應,甚至投射出陰影。
與周圍的人保持聯系。Vision Pro幫助您與周圍的人保持聯系。EyeSight可以顯示您的眼睛,并讓附近的人知道您何時在使用應用程序或完全沉浸在某種體驗中。當有人靠近時,Vision Pro會同時讓您看到對方,并向他們展示您的眼睛。
02硬件配置和未來元宇宙的終極體驗現在來說說Apple Vision Pro的硬件配置(主要素材來自官網):
從內而外突破界限,在Vision Pro上的空間體驗只有通過開創性的蘋果技術才能實現。每只眼睛擁有比4K電視更多像素的郵票大小的顯示屏。空間音頻方面的令人難以置信的進步。采用了革命性的雙芯片設計,搭載了定制的蘋果芯片。擁有先進的相機和傳感器陣列。所有這些元素共同協作,創造了一種前所未有的體驗,您必須親眼見證才能相信。
每只眼睛擁有比4K電視更多像素。定制的微型OLED顯示系統擁有2300萬像素,提供令人驚嘆的分辨率和色彩。特別設計的三元素鏡頭營造出無處不在的顯示效果,讓您感受到無論往哪里看都有屏幕存在的感覺。
我們迄今最先進的空間音頻系統。每只耳朵旁邊都有雙驅動器音頻單元,提供個性化的音效,同時讓您聽到周圍的聲音。環境空間音頻使聲音感覺像來自周圍環境。通過音頻光線追蹤,Vision Pro分析您房間的聲學特性,包括物理材料,以調整和匹配聲音到您的空間。
響應迅速、精準的眼球追蹤。由LED和紅外攝像機組成的高性能眼球追蹤系統將不可見的光模式投射到每只眼睛上。這一先進系統可以提供超精確的輸入,而無需您使用任何控制器,因此您只需通過注視即可準確選擇元素。
一套復雜的傳感器陣列。一對高分辨率相機每秒傳輸超過十億個像素到顯示屏,以便您清晰地看到周圍的世界。該系統還能幫助進行精確的頭部和手部追蹤,并進行實時三維地圖繪制,同時能夠理解您在各種姿勢下的手勢。
革命性的雙芯片性能。獨特的雙芯片設計使得Vision Pro的空間體驗成為可能。強大的M2芯片同時運行visionOS,執行先進的計算機視覺算法,并以令人難以置信的效率提供驚人的圖形表現。全新的R1芯片專門負責處理來自相機、傳感器和麥克風的輸入,以每12毫秒的速度流式傳輸圖像到顯示屏上,實現幾乎無延遲的實時視圖。
激光雷達掃描儀和TrueDepth攝像頭共同工作,創建了一個融合的三維地圖,準確呈現您周圍的環境,使Vision Pro能夠在您的空間中精確渲染數字內容。
經過特別設計的熱管理系統輕柔地通過Vision Pro中的空氣流動,因此它可以在保持冷卻和安靜的同時提供卓越的性能。
紅外泛光燈與外部傳感器協同工作,在低光條件下增強手部追蹤性能。
隱私與安全:內置隱私和安全。與每個蘋果產品和服務一樣,Vision Pro旨在幫助保護您的隱私并使您對自己的數據擁有控制權。它建立在現有蘋果隱私和安全功能的基礎上,利用Optic ID等新技術,這是一種使用您的虹膜的獨特性進行安全認證的系統。
根據以上的硬件硬件配置,Apple Vision Pro帶領人類距離元宇宙又進了一步。
未來元宇宙世界的最重要體驗,第一要素是身臨其境感,即完全把人類的視聽覺包裹在沉浸世界中。元宇宙的終極體驗是,人類能在半虛擬的世界中,看到和真實世界一樣清晰的體驗,也就是類似視網膜級的體驗效果。
怎么做到,首先要理解人眼的結構。
這里有兩個重要的名字
PPD (Pixels Per Degree):每度像素數,是每度視野內所包含的像素數量。較高的PPD值意味著更高的圖像分辨率和更細膩的視覺細節。此指標是從用戶的視角來衡量的,人眼的PPD是多少呢,根據多項實驗證明,視網膜分辨率大概是60PPD,即每度60像素。
FoV (Field of View):視域/視場角,這是指用戶在VR設備中可以看到的視場角度,通常包括水平視野和垂直視野。更寬闊的FoV可以提供更廣闊的視覺體驗,使用戶更容易沉浸在虛擬環境中。
但是人類的FoV是多少呢?實驗證明,人眼有多個視域
注意力視域 (Attention Field of View):這是人眼在一次視覺經驗中真正關注和處理詳細信息的視野范圍。它對應于你在看一個物體或場景時,能夠清楚地看到和關注的區域。例如,當你閱讀這段文字時,你的注意力視野就集中在你正在閱讀的單詞上。
單眼舒適視域 (Comfortable Field of View for one eye):這是指在不移動眼球的情況下,眼睛能舒適地看到的視野范圍。
單眼通常視域 (Typical Field of View for one eye):這是指眼睛在輕微移動眼球的情況下(即不需要轉動頭部或身體)可以看到的視野范圍。
單眼最大視域 (Maximum Field of View for one eye):這是指眼睛在極限情況下,即在眼球轉動到極限位置并加上周圍的周邊視覺時,可以看到的最大視野范圍。
視域和不同人體質是不一樣的,下表是不同視域對應的分辨率和像素
通常,VR/MR設備會采用單眼通常視域來設定,如果要做完全的視網膜級體驗,差不多要做到8K多一點的分辨率。
目前蘋果公司還沒有具體公開分辨率和FoV視場角,但是公開了單眼高達4K,2300萬像素,有其他資料提到(顯示系統使用微型OLED,以便Apple可以在iPhone像素的空間中放入44個像素。每個像素寬7.5微米,有2300萬像素分布在兩個郵票大小的面板上),已經遠遠超越了單眼舒適視域,已經這遠超過了市場上大多數競品。
另外,說說眼動追蹤技術,千萬不要小看眼動追蹤技術,能做到優秀體驗還真不少。
菜單交互操作:有了眼動追蹤,可以用更加自然簡潔的方式,執行類似上下切換和選擇確定的動作。
注視點渲染:眼動追蹤能讓你所注視的畫面區域顯示清晰,弱化非注視區域的顯示清晰度。這樣可以大大降低算力的消耗,其實人眼的只有注意力視域要求是非常清晰的,其他部份還好,其實要求沒有高。其實人在精力非常集中的時候,注意力視域只有10度。
如果結合眼動追蹤技術和注意力渲染,可以大大節省渲染算力的開銷,如果采用云渲染的方案,在推流傳輸的時候可以結合分層編碼技術(類似SVC編碼)從而把視頻碼流率大大降低。
03未來“元宇宙”可能的技術變化這次Apple Vision Pro,其主機在性能上采用M2芯片,這和蘋果MacBook,ipad pro采用了同樣的計算芯片,其性能也是非常強勁。由于蘋果的M2芯片集成了圖形處理功能,無法直接將其與傳統的獨立顯卡進行直接的型號比較。蘋果的M2芯片在圖形性能方面通常表現出色,并且可以提供高效的圖形處理能力,但與傳統的獨立顯卡相比,其性能和規格可能會有所不同。但是這樣強勁的芯片,要渲染雙眼4K級游戲畫質還是存在巨大的挑戰。
從GPU顯卡的角度,NVIDIA GeForce RTX 3060是一款中高端顯卡,它具有適當的性能水平,但其支持雙4K渲染能力相對較有限。雖然RTX 3060在處理4K分辨率方面表現良好,但同時進行雙4K渲染可能會對其性能造成一定的挑戰。對于雙4K渲染,更高性能的顯卡如RTX 3080或RTX 3090等可能更為合適。
我的思考,云渲染依然是未來元宇宙終極體驗所必須的,要看具體的推演,可以看看我之前的思考文章,《探討元宇宙基礎設施建設及在云游戲的實踐和思考》。
我現在依然堅持之前的思考,即使Apple Vision Pro所帶來的強大的M2芯片算力,如果要顯示出非常極致的實時3D畫面,還是需要采用云端渲染的技術方案。基于M2的算力,可以做很大的技術優化,采用云端算力+本地算力結合的方案做到很好的搭配。
我們看看M2芯片的特性,蘋果 M2 芯片是蘋果公司的第二代自研芯片,用于 Mac 電腦,采用第二代 5 納米工藝,內部集成了 200 億個晶體管。蘋果 M2 芯片在硬件上對 AI 深度學習的支持主要體現在以下幾個方面:
M2 芯片內置了16 核神經網絡引擎,每秒可以進行最多達 15.8 萬億次運算,較 M1 芯片高出 40% 以上(。這意味著 M2 芯片可以更快地處理機器學習任務,例如語音識別、圖像處理、自然語言理解等。
M2 芯片支持高速統一內存,比 M1 芯片多出一倍。統一內存可以讓中央處理器、圖形處理器和神經網絡引擎之間更高效地共享數據,減少內存拷貝和延遲,提升 AI 深度學習的性能和效率。
在音視頻領域中,可以用M2芯片的本地計算性能,實現串流音視頻的超分辨率技術,插幀技術來。
超分辨率技術,超分辨率技術是一種通過構建和學習更高分辨率的圖像或視頻,從而改善低分辨率輸入的圖像處理技術。這個技術可以用于圖像和視頻的增強,可以從模糊、低分辨率的圖像或視頻中生成清晰、高分辨率的輸出。近年來,深度學習已被廣泛應用于超分辨率技術,也是主流的超分辨率方案。這種方法通常使用神經網絡(如卷積神經網絡)來學習低分辨率和高分辨率圖像之間的映射關系。這種方法可以生成更高質量的圖像,但需要大量的計算資源和訓練數據。未來可以根據M2芯片16核神經網絡引擎,來設計硬件加速的超分辨率算法來支持實時超分辨率。
視頻插幀技術:在原始視頻的每兩幀畫面中增加一幀或多幀,縮短幀與幀之間的顯示時間,從而提升視頻的流暢度和清晰度的技術。未來可以根據M2芯片16核神經網絡引擎,來設計硬件加速的視頻插幀算法來支持實時超分辨率。
如果充分利用本地性能,不論是實時云渲染串流,還是音視頻播放,可能做到(1080P,60幀)的云端輸出;然后在本地通過超分辨率技術和插幀技術放大稱為(4K,120幀)的效果 。這樣會大大節約云端算力和網絡喲流量。雙(1080P,60幀)的實時渲染輸出差不多3060顯卡就可以了;另外蘋果M2芯片本身就支持VVC硬件解碼(h266)。(1080P,60幀)的視頻在h266下,一般碼流率能做到2.5Mbps~5Mbps左右。如果雙眼就是5-10Mbps的碼流率,這樣會大大降低碼流率。相比(4K,120幀)的音視頻流,會大大降低音視頻傳輸帶寬。
另外,如果結合前面提到的眼動追蹤技術,注意力渲染技術,和SVC編解碼技術,可以再大大降低云端算力,和音視頻傳輸帶寬。這樣對基礎設施的要求會大大降低。
04算力和未來VR/MR設備最容易引起的問題就是眩暈,其本質是大腦感覺“被欺騙”,包括瞳距、景深等問題,但難解決的是M2P時延問題,即運動到光子的時延,當人的頭移動后,畫面是否能足夠低時延地反映效果,若是慢了,大腦會產生“被欺騙”的感覺,從而引發M2P時延。許多評測數據顯示,低運動狀態下,M2P時延不能高于20ms,高運動狀態下,M2P時延不能高于7ms。
這里注意Apple Vison Pro,采用全新的R1芯片專門負責處理來自相機、傳感器和麥克風的輸入來獲取雙眼本來看到的視頻,以每12毫秒的速度流式傳輸圖像到顯示屏上;是完全服務低運動狀態下的M2P時延的,不會造成眩暈。
但是,在云渲染的解決方案中,涉及到環節就多了,包括編碼、解碼和傳輸環節,即使做到極限,也很難達到20ms的響應值,基本在30-100ms之間。最復雜的瓶頸在網絡時延環節,因為它和基礎設施有關,和非常分散的網絡環境部署相關,不是僅僅單方面的努力就能改善的。
因此,要用邊緣云的方案來解決這樣的問題,也就是要將算力放在靠近用戶的邊緣,在這可以分布式應對高并發、大帶寬、能真正地做到低時延。
只有將云計算的算力從千里之外放到社區周邊,才可能實現超低時延。
PPIO正通過匯聚邊緣碎片化算力資源,提供超低時延的邊緣計算服務。我們要和中心云形成良好的協同,邊緣云并非中心云的替代品,而是起到補足的作用,從而更好地解決客戶需求。
我常常會思考宇宙,人類,生命,技術之間的關系,在人類文明誕生以來的5000年中,有誰想過創造宇宙(完全逼真的元宇宙世界),創造數字生命的事情(具有人類智慧的數字人),而如今這種偉大的事業很有可能在我們這代人就能實現,或許在不久的將來,我們真的能夠打造一個充滿鮮活生命的“唯心主義世界”,甚至每個人都能“所想即所得”的創造自己的世界。
當然,無論是創造宇宙還是數字生命,最基礎的設施都是算力,需要無窮無盡的算力,我們PPIO邊緣云的使命便是匯聚全球計算資源,并為全人類服務。很期待和各位元宇宙,VR/MR從業者合作,為創造未來貢獻力量。
本文(含圖片)為合作媒體授權創業邦轉載,不代表創業邦立場,轉載請聯系原作者。如有任何疑問,請聯系editor@cyzone.cn。