开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
虚拟现实技术发展历史概览及关键技术要素剖析
发布日期:2022-06-22 10:48浏览量:74次

一、虚拟现实技术发展史及趋势

1.1 信息三维化是正在进行的技术革新,而虚拟现实是重要技术载体

当下,正在发生的信息技术的底层革新是“信息三维化”,底层移动通信技术的迭代升级,是承载信息技术发展的核心驱动力。

在信息技术的发展过程中,展示信息的方式从 2G 时代的短信所代表的文字信息、转向 3G 时代的贴吧所代表的图片信息、再转变为 4G 时代火爆的视频信息;其承载的内容信息密度和可体验维度持续得到升级。到了 5G 时代,在解决了传输基建问题后,三维化的信息越来越成为主流,所谓的『全真互联网』,很大程度上也是由三维信息构成的;包括全景内容、环物内容、模型内容等,这些都属于VR内容的范畴。

因此,VR 是信息三维化的载体技术。

VR 是信息三维化的载体技术

1.2 虚拟现实技术有着清晰的发展历程

虚拟现实技术在漫长的技术成长曲线中,历经概念萌芽期、技术萌芽期、技术积累期、产品迭代期和技术爆发期五个阶段后有所发展。

1935年,一本美国科幻小说首次描述了一款特殊的“眼镜”;这副眼镜的功能,囊括了视觉、嗅觉、触觉等全方位的虚拟现实概念,被认为是虚拟现实技术的概念萌芽。

到了1962年,电影行业为一项仿真模拟器技术申请了专利,这就是虚拟现实原型机,标志着技术萌芽期的到来。

再到1973年,首款商业化的虚拟现实硬件产品 Eyephone 启动研发,并于1984年在美国发布;虽然和理想状态相去甚远,但是开启了关键的虚拟现实技术积累期。

直到1990年-2015年间,虚拟现实技术才逐渐在游戏领域中找到落地场景,标志着 VR 技术实现产品化落地;包含飞利浦、任天堂都是这个领域的先驱,直到 oculus 的出现,才真正将 VR 带入大众视野。

从2016年开始,随着更好更轻的硬件设备出现,更多内容、更强带宽等各种基础条件的完善,虚拟现实迎来了技术的爆发期。

1.3 VR、AR、全息概念厘清
提到虚拟现实,很多人会和增强现实、全息投影等概念混淆,而这三者到底有什么异同点呢?以下视频可帮助人们厘清:

 

1.4 虚拟现实技术在用户侧的核心参数

VR 技术的核心用户体验由三部分组成:沉浸感、流畅度、可交互度,且三个部分也都可以细分为多个核心参数指标:

 

▍沉浸感

沉浸感决定了用户在感官上的体验是否自然,或者说与真实世界的相似度是否可以“以假乱真”。当前虚拟现实技术对于现实的模拟还主要集中在视觉技术上,如何让用户可以在一个“全包围”的环境中,恰到好处地得到三维空间化的视觉感官,是沉浸感的关键。

沉浸感的核心参数包括:视场角(FOV),以及刷新率(FPS)。

视场角大小决定了光学仪器的视野范围,比如人类单眼 FOV 为200度,双眼的重合 FOV 是120度;那么 VR 设备的视野范围就要向这个方向去靠拢甚至超越,目的是让人感觉身处一片空间内,而非看到一块屏幕。如果视场角过小,那么用户就会感知到图片边缘的无效像素部分,进而被提醒“这只是一块离你眼睛很近的屏幕”。

刷新率是指电子束对屏幕上的图像重复扫描的次数,刷新率越高,所显示的图象(画面)稳定性就越好。过低的刷新率会导致图像闪烁和抖动,进而导致眼睛疲劳及晕眩;因此,一般在 60 FPS 及以上,感受会比较舒适。

流畅度

流畅度决定了沉浸感的持续程度如何,它的核心参数主要体现在丢包率(PLR)上。目前我们在虚拟现实设备上体验的内容有一大部分是与网络息息相关的,有些内容可直接在线上拉流体验(点直播);有些内容则需要进行云端的校验或者逻辑处理才能在客户端上体验,因此网络包的丢失率严重影响着沉浸内容的体验。若丢包率较高的情况下,会出现卡顿等严重的恶劣体验,这个时候,沉浸感就无从谈起了。

可交互度
可交互度决定了人在主动发起交互操作时,环境对于操作交互的反馈情况;越接近真实世界的物理规律,那么对于用户沉浸感就越有利。例如将篮球砸向地面,则符合真实的交互体验是篮球反射弹起,因此需在交互设计上做好预期;另外,可交互度还有一个核心参数概念:动画时延(MTP)。

动画时延指当用户发起一个交互动作,其预期反馈抵达体验者的时间。如上文举例,从用户通过 VR 硬件设备做出将篮球扔向地面的交互动作开始,到该指令抵达云端进行逻辑判断后,通过云端的反馈指令下发到客户端,继而再到客户端进行逻辑运算、渲染;最终用户看到该篮球从地上弹起,这收尾的时间就是 MTP。MTP 时间越短,可交互度越好,用户的沉浸感、真实感就会越强。

1.5 VR技术的制约因素

三大制约因素

VR 技术目前受制于电池技术、近眼显示技术、以及感知交互三重限制,其中除了电池技术是横向制约很多行业方向的底层制约外;近眼显示和感知交互两个技术对虚拟现实领域的限制都有其特殊性。
VR 技术的三大制约因素
光学技术限制展开
如上文所述,光学层面决定用户体验,包括晕眩感、视场角等体验;而光学层面的核心问题则是分辨率(清晰程度)、视场角(视野范围)、重量体积(美观舒适)存在潜在冲突。
VR 头显的光学示意图

由于 VR 设备的分屏播放以及球面渲染的实际分辨率会远远低于面板的分辨率,所以对屏幕像素密度(PPI)要求很高。

例如一般视频都有 480P、720P、1080P 等不同分辨率格式,如果要在 VR 头显的屏幕上进行像素对齐,那么就需要 VR 视频的播放率对应为 8k、12k;而当前主流的 VR 视频流还停留在 2K 和 4K 阶段。

此外,从 PPI 角度来说,普通手机屏幕在 300ppi 左右,要达到人类肉眼看手机的清晰度,就需要 VR 的近眼显示屏达到 2000ppi 左右。
因此,以上相关难题就造成了两个核心的近眼显示方向的问题:
(1)没有合适的屏幕可以承载极高的分辨率和像素密度;

(2)即使问题(1)满足,也不具备对视频进行解码和传输的算力和传输技术。

感知交互技术限制展开

虚拟现实领域的感知交互方向主要有两块技术:同步定位与建图技术(SLAM)、以及手势交互技术。

SLAM 指在陌生的环境中,能够精准建立时空对应关系;并回答“我在哪里”、“这是什么地方”、“我该怎么走”等问题,也就是定位、建图和路径规划。

目前 SLAM 的实现有多种方式,主要分为 outside-in tracking(外向内追踪),和 inside-out tracking(内向外追踪)。前者主要通过在制定空间内,部署光学定位器,例如 HTC VIVE;后者主要通过在 VR 头显上,内置若干个(一般2~4个)摄像头,基于三角定位原理计算空间位置,例如 Quest、Pico、奇遇等主流一体机。
inside-out vs outside-in
手势交互可以分为基于手柄的非裸手交互控制,以及基于摄像机视觉算法的裸手交互。裸手交互的硬件方案包括 RGB 摄像头、3D 摄像头(TOF、结构光、双目视觉)和数据手套(传感器)。

不管 SLAM 还是手势交互,当前的主要技术限制还是存在于算法精度层面。

1.6 虚拟现实技术产业链一览

对于 VR 行业的技术趋势而言,虚拟现实技术已经过了“泡沫幻灭期”,进入“缓慢爬升期”,并且相信很快就会进入“稳步增长期”。虚拟现实技术已经在国内外形成了复杂且完备的产业链,技术的价值出口已经初步打开并扩大。
当前,虚拟现实技术产业链一共分为4个分段,分别是硬件、软件、内容、以及应用(场景),而每个分段又有不同的子方向构成。
虚拟现实技术产业链一览

由此可见,虚拟现实技术已经迈入了广泛的产业化进程,这是一个不可逆的、令人兴奋的进程。

二、虚拟现实技术要素剖析

2.1 虚拟现实产业的本质是 VR 内容的生产和消费

虚拟现实产业的本质是 VR 内容的生产和消费,因为虚拟现实技术是信息三维化中的一环,而信息技术的载体则是内容。另外也可从增长飞轮的维度来看当前虚拟现实产业正在运转的模式:
首先需要生产更多适配场景的 VR 内容,进而通过满足消费场景来增加用户或者说服客户;待买家增多后就能吸引更多 VR 内容制作者,从而就拥有技术生态来支持更多基础技术及 VR 内容工具的投入,以帮助内容生产者实现降本增效,提升 VR 内容单位固定成本的盈利。收益见涨,更多 VR 内容将被生产,从而开启下一轮飞轮的运转。
VR 内容的增长飞轮
2.2 VR 内容三大核心技术:数据三维化、交互多人化、渲染云端化

围绕 VR 内容的生产和消费,共提炼了三大核心技术,分别是:

数据三维化——如何低成本地生产三维化数据,或者如何低成本地将海量现存的二维数据三维化,这个技术的作用在于降低 VR 内容的生产成本。

交互多人化——人的沉浸体验来自于两方面:对三维世界的感知,以及和世界的交互反馈。交互多人化技术基于三维数据的感知之外,能够赋予 VR 内容真实的交互反馈,乃至社交体验,该技术的作用在于提升 VR 内容的消费体验。

渲染云端化——信息密度、可交互度的提升,对应的是对终端算力、显示器件的要求提升。虚拟现实技术要成为主流的大众科技,就不能囿于高性能终端;那么基于一个集中的、云端的算力池子进行远端计算,终端渲染,则称为最佳选择,而该技术的作用在于扩展 VR 内容的消费场景。

数据三维化——数据三维化的核心要素是算法层面的,以及其上下游采集、定位、算力调度等技术,主要的技术要素包括:基于 GRB 的三维重建算法、GPU加速技术(如 CUDA)、通用背景抠除算法、采集设备光学能力、SLAM 算法。
一种基于多角度 RGB 图像进行三维重建的算法示意
交互多人化——交互多人化将虚拟现实技术的体验推向了虚拟的数字平行世界,是虚拟现实技术与元宇宙结合的天然衔接,其中的主要技术要素包括:大规模状态同步、视觉(虚拟形象)、语音语义、音视频、区块链、智能导航。
百度推出的首个国产元宇宙产品希壤
渲染云端化——渲染云端化的核心要素主要集中在大规模后台集群方向、以及音视频方向,主要包括:分布式容器、流化技术、边缘计算、音视频、5G。
百度VR推出的云渲染解决方案
三、结语

虚拟现实技术是一个典型的长期构思、长期积累,最终在各项底座依赖相对成熟后,厚积薄发的技术方向;它是信息三维化浪潮的核心载体技术,且在产业落地的道路上稳健前行,因此我们坚信该技术正在进入稳定增长区间。

近期伴随着元宇宙概念的兴起和产品技术实践的热潮,我们看到了虚拟现实技术更加广阔的未来方向是成为元宇宙领域的容器型基础技术。而百度正在这个方向躬身前行,愿为技术的进步、行业的发展而筚路蓝缕、一往无前。
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区