当前位置:首页 > 资讯 > 正文

斯坦福大学在Siggraph演示最先进AR/VR全息显示技术

VR/AR显示器的历史就是一种折衷权衡。市场中的大多数产品都属于单平面模型,无论场景中的对象有多远,用户都只能不自然地聚焦于单一的距离。对于Magic Leap等基于波导的多焦点显示器,其价格昂贵,而且视场有限,所以行业对各种替代品越发感兴趣。其中,最富前景的研究领域之一是全息显示,它承诺了一个简单的逼真裸眼结果。

遗憾的是,为全息显示器生成图像是一个复杂而耗时的过程。针对这一问题,斯坦福大学助理教授戈登·韦茨坦(Gordon Wetzstein)日前在SIGGRAPH大会发表了团队的最新研究成果——Neural Holography。除了戈登·韦茨坦之外,研究小组中还有斯坦福大学博士后Yifan Peng,斯坦福大学博士学生Suyeon Choi,斯坦福大学博士毕业生Nitish Padmanaban,以及英伟达高级研究科学家Jonghyun Kim。

相关项目:Neural Holography

“Neural Holography”使用了一个专门的神经网络,并通过所谓的Camera-in-the-Loop模拟器进行训练,从而产生高质量的结果,并且所述系统可以实时运行,目前大约为30帧/秒。

斯坦福大学在Siggraph演示最先进AR/VR全息显示技术  第1张

1. 全息显示器的工作原理

对我们中的大多数人而言,我们对全息图的第一次记忆或许是博物馆陈列柜的一幅昏暗单色图像。所以,能够投射出彩色图像是一种非常不可思议的事情。但基本原理没有改变:使用激光光源并进行准直(这样所有的光波都是平行),然后通过一个空间光调制器(SLM)进行传输。其中,调制器在每像素的基础上改变相位。

结果是一个带有干涉图案的光场,并可用于创建场景的三维图像。用户通过一个透镜浏览图像,而系统将在视网膜上产生二维投影。在最简单的应用中,SLM使用固定的变换,但为了优化结果,涉及的变换需要更复杂。例如,斯坦福大学的研究就是单独处理每一个像素。

2. Neural Holography是如何优化全息显示管道

CGH(计算机产生的全息图)是一个尝试通过显示器投射的全息图来重现场景的过程。在这种情况下,所述显示器是指一个近眼头戴式显示器。除了硬件之外,创造逼真图像的最大挑战是SLM应用的变换。要创建一个可信的全息投影,SLM只能使用通过它的光线的相位变化。

现有的变换计算算法要么是速度快但质量不好(直接方法),要么是速度太慢,不适合实时使用,但质量好(迭代方法)。在斯坦福研究小组的论文中,他们介绍了一系列的现有方法及其缺点,并同时提出了能够两者互补的创新方案。

斯坦福大学在Siggraph演示最先进AR/VR全息显示技术  第2张

斯坦福大学的实验室设置使用了RGB激光器、准直光学器件、液晶硅基SLM,并采用机器视觉摄像头进行Camera-in-the-Loop仿真

首先,他们在典型的全息模拟装置上增加了一个实际的摄像头,以增强他们校准和训练系统的能力。通过包含光学元件,所述装置比只关注SLM输出图像的传统系统更适合模拟真实的显示器和人眼。团队通过使用诸如随机梯度下降(SGD)等优化方法来训练系统学习如何为显示器的SLM创建高质量的变换,并且显示出更优的结果。摄像头仅用于校准和训练。一旦这个步骤完成,结果就可以用一个更简单的系统进行显示。

相关论文:Neural Holography

然而,研究小组建立了一个高效的神经网络HoloNet,并训练它来创建系统本身的模型,包括SLM变换和光学像差。所述模型用于显示图像,包括不在初始训练集中的图像。高性能的推断方法使其能够实时计算所需的变换,即使对于1080p的图像同样如此。所以,团队能够获得与传统迭代算法一样好或更好的直接结果,并且几乎与他们自己的CITL迭代结果一样好。

斯坦福大学在Siggraph演示最先进AR/VR全息显示技术  第3张

通过添加摄像头,CITL(camera-in-the-loop)模拟器能够更准确地反映头显光学元件的真实世界结果

3. Neural Holography显示出令人印象深刻的质量和优良的性能。

斯坦福大学在Siggraph演示最先进AR/VR全息显示技术  第4张

HoloNet(右)与DPAC(双相位振幅编码)的对比结果,后者在2017年SIGGRAPH大会中展示时属于当时最先进的技术

团队将HoloNet的结果与之前发布的领先算法进行比较,包括Wirtinger Holography、DPAC、GS(Gerchberg-Saxton),以及他们最初的CITL(camera-in-loop)成果。它不仅提供了令人印象深刻的表现,同时产生了优于其他方案的结果。

4. Holonet不仅可用于全息显示器

韦茨坦认为全息显示是AR/VR显示领域中最有趣的研究领域之一,因为它的研究程度远不及传统显示器。然而,他并不认为HoloNet的应用只能用于全息显示器,因为变焦显示器和多焦显示渲染同样面临着类似的挑战。团队正在探索将所述结果与变焦显示和多焦显示解决方案相结合的方法,并创建所述方法的全息版本,从而有助于解决一系列的常见问题,如视觉辐辏调节冲突。

————

下面是斯坦福大学计算成像实验室上传了电子工程系助理教授戈登·韦茨坦(Gordon Wetzstein)在SIGGRAPH 2020大会的15分钟演讲,中文稿由中国AI网整理:

大家好,我是斯坦福大学电子工程系的助理教授戈登·韦茨坦(Gordon Wetzstein)。我将介绍我们一份关于神经全息近眼显示器的新兴技术论文。虚拟现实和增强现实是一种将会改变我们感知世界和与其交互的方式的新兴媒体技术。在这种应用中,近眼显示器是用户和他们看到的所有数字内容之间的接口。所以,构建一种感知真实和视觉舒适的近眼显示器非常重要。

近眼显示的基本理念可以追溯到1830年使用的立体镜,但令人惊讶的是,它们的运作原理在过去的180年里几乎没有改变。今天,提升虚拟现实成为了美国国家工程院宣布的21世纪的重大挑战之一。这正是我们今天的话题。

几乎所有的近眼显示器都是基于放大镜原理。基本上,你通过微型显示器看到的虚拟2D图像是由放大透镜产生。这种固定焦平面设计并不自然。在现实世界中,取决于感知对象的距离,我们的眼睛可聚焦于任意距离或对任意距离进行视觉调节。保持视觉调节固定会导致视觉辐辏调节冲突,从而导致眼睛疲劳,眼睛不适,视觉重影,视觉清晰度下降,以及其他负面影响。

在过去的数年里出现了旨在解决所述问题的一系列计算近眼显示技术,但它们都不完美。例如,变焦显示器非常有效,并且相当简单,但它们需要显示器搭载的机械驱动组件或聚焦可调透镜,而它们在可穿戴设备的形状参数和功率范围的平衡内都非常难实现。

多平面显示器是一个非常优秀的概念,但它们要么需要极高的空间光调制器和聚焦透镜,要么需要多个显示平面,而这两个选项都显著增加了系统的复杂性。光场显示器同样是一个非常优秀的概念,但它们的空间角度分辨率从本质上受到衍射的限制。
行业存在一种实际上是利用衍射来获得极高图像分辨率、对比度、深度和其他优势的显示技术:全息显示。

在下面这个示例中,有人正拍摄一个光学记录的全息图,而这种全息图曾在麻省博物馆进行过展出。但在它们诞生60年后,以及尽管它们拥有各种各样的优点,全息显示依然没有成为主流技术。

要理解个中的原因,我们下面来讨论近眼显示器中的数字全息图。

这是菲涅耳式全息近眼显示器的插图。激光器发射相干光,由透镜准直,并传播到空间光调制器。在这里,光场相位以每像素的方式延迟,光场继续传播,而干扰会产生一个可见的强度图案,亦即用户可以通过放大透镜(通常称为目镜)感知到的图像。

相关论文:Neural Holography

如何计算SLM图案是计算全息技术的核心挑战之一,我们晚点再谈。我们在最近的Siggraph Asia论文中指出,这种显示器的可实现视场取决于SLM大小和焦距,我们同时指出视窗的大小取决于像素间距,适眼距和波长。

具体的执行摘要是,现有的SLM可以获得合理的视场,但视窗通常非常小。要计算出在SLM显示的相位图案或目标图像,我们使用计算全息(CGH)。目前主要需两种CGH算法:直接法和迭代法。直接法利用目标强度,并将相应的波场传播到SLM平面。

因为大多数现有的SLM只能调制入射光的相位,而不能调节入射光的强度。我们需要将传播的复值场转换成相位表示。自由空间传播是一个经过大量研究的课题。对于平行于SLM的目标强度,我们只需使用傅里叶变换,应用传递函数,然后应用傅里叶逆变换。

存在几种不同类型的变换函数,而每种会进行不同的近似。这里我们给出了角谱变换。以这个2D图像示例,我们可以计算这种传播O( N²logN),这通常算起来很快。n是目标图像中的像素数。有其他几种方法可以将复值场转换为纯相位场。双相位振幅编码方法是其中之一,并且它将复值域表示成只有两个交互的纯相位场的总和。注意,这是一个启发性算法,它并不总是有效。

对于三维全息图,我们可以将目标场景表示为点云,并将每个点传播到这里描述的SLM平面。但即使我们一次传播每个深度层,这种方法的计算复杂度通常过高。所以如何快速实现这一点依然是一个开放的研究挑战。

使用前述的自由空间传播模型,我们同样可以利用迭代方法。我们在SLM相位图案和目标强度之间迭代几次,它的速度要比直接方法慢,但通常能给我们一个更好的目标图像的纯相位表示。

总而言之,迭代方法通常较慢,但质量更好,而直接方法速度较快,但通常质量不太好。任何迭代方法,如经典的Gerchberg–Saxton Algorithm和最近提出的Wirtinger Holography,我们可以迭代更长时间以获得稍好的图像质量,但存在一个上限。

在我们的ETec论文中,我们展示了一个简单的随机梯度下降方法(stochastic gradient descent approach),在模拟中实现了最好的图像质量,并且我们开发了一个全新的网络架构Holo Net,而它能够实时做到几乎同样的质量。

我告诉你更多关于这种针对CGH的新方法。任何CGH方法的目标是为了求解这里所示的一个目标函数。f^是我们自由空间传播的模拟模型,a是目标振幅。注意,由于SLM的光学像差相位非线性和其他效应,显示器中的物理光传播f通常与f^略有不同。

这里是一个模拟的理想光传播模型f^。现在我们可以使用简单的梯度下降更新规则进行迭代。我们从一些SLM相位的初始猜测开始,我们模拟正向模型,我们使用一些损失函数(如均方误差)将模拟结果与我们的目标进行比较,然后我们向后传播回相位。

如果反复应用,这个简单的方法最终会获得一个优秀的分辨率。

为了测试这个算法和比较两个备选方案,我们运行模拟。所有方法看起来都非常好,不过Gerchberg–Saxton Algorithm总之会有不少的噪点。如果你仔细观察,SGD的质量最好。

这个模拟假设,我们用来优化相位图案的自由空间传播模型与用来模拟最终图像的模型一样,但我们来看看如果我们在模拟模型和物理模型之间添加少量的模型不匹配会发生什么,方法是引入一点光学像差。你可以看到,所有的方法都失败了,包括SGD。这并不奇怪,因为即便是以光波长的序列(传播),模拟光传播和物理光传播的不匹配都会导致完全不同的干扰图案。这意味着就现阶段而言,在显示器使用一个更好的物理光传播模型可能会比使用更聪明的算法要好很多,但我们很难以所需的精度校准全息显示器。

我们提出了一系列以全自动方式解决所述问题的技术组合。我们称之为Camera-in-the-loop Holograpy。这个概念十分简单,在循环中用一个相机捕捉物理显示器的图像,与目标图像进行比较,然后反向传播误差。这听起来相当容易,但实际操作并不简单。我没有足够的时间讲解技术细节,但你可以参阅我们的论文。下面我们来看看一些结果。这里直接变焦了采用了理想光传播模型的SGD和采用Camera-in-the-loop模型的SGD。

相关论文:Neural Holography

我们可以看到,我们的概念可以实现显著更好的图像质量。颜色和对比度大为改善,噪点明显降低,如背景所示。另外,图像看起来更好。我在这里不怕说,这是最先进的CGH方法。但挑战是每个目标图像都需要在循环中使用一个相机。为了克服这个限制,我们将优化分解为训练阶段和推理阶段。在训练阶段,我们使用相机来估计物理光传播的基于模型的表示,我们使用了一组训练图像。在推理阶段,我们不需要相机,只使用我们的校准模型来优化新的目标图像。我们比较了这种基于模型的方法,以及原本最好的CHG方法,结果表明我们的方法显著更优。

下面这里是对各种CHG迭代方法的整体对比,包括我们Camera-in-the-loop Holograpy的两种变体,而这两者都比现有的方法有了显著的改进,其中最右边的方法效果最好。

我们同时开发了一个神经网络。它将sRGB空间中的目标图像作为输入,并将其转换为振幅。我们使用一个unit来预测目标平面的相位。这个复值场通过我前面提到的校准模型进行调整,并在这里传播到SLM平面。

我们通过另一个unit发送光场以计算纯相位SLM图案,然后再计算其他方面。我们使用产生的SLM图案模拟正向模型,将结果与目标图像进行比较,并在训练期间将误差反向传播到我们的两个unit。

完成训练后,这个网络能够实时工作。与今天最佳的直接方法相比,HoloNet显著更好。在数量方面上,它不像我们的迭代方法那样好,但已经非常接近,而且它能够实时运行。

这里是额外的比较。

所提出的方法同样适用于三维全息图。这里是一种全息变焦距显示模式。在这种情况下,我们针对两个平面来校准模型,然后选择一个或另一个来显示一个图像。这样做的效果非常好。

我们同时探索了全息多平面显示模式。在这种模式下,我们同时优化了三个不同深度的平面。这里是相机实时捕捉到的画面。对于绿色通道,我们将相机镜头聚焦到那三个平面。

我还没有给你们看的是我们的原型装置。它看起来像这样。它包含一个激光器,准直光学元件,SLM,我们用来阻挡部分更高的衍射阶数(diffraction order)的4f系统,以及一个用来捕捉结果的相机。好,我们缩放看看。

这是一个HoloNet的实时捕捉结果。内容是实时生成并实时捕捉。白框是动态显示区域。这个框外的所有照明都不受算法的约束。尽管这些结果并不完美,但这可能是目前最好的实时方法。

我们在这帧暂停,并看看一些比较结果。

下面是一个次优的实时方法,而它的效果显然更加糟糕。然后这里是Gerchberg–Saxton的结果,你可以看到画面的噪点非常多。Wirtinger Holography的效果稍微好一点,但也不是非常好。然后是我们的Camera-in-the-loop优化方法,它依然不是最完美的方案,但在所有这些方法中,它肯定是最好的一个,而且领先一大截。

再次说明,与其他迭代方法类似,这个结果不是实时计算,而是从我们的RGB显示器原型实时捕捉。

因为其他的计算显示器使用成熟的微型显示技术,所以我们真的很难击败它们。变焦显示器已经发展到工业原型阶段。多平面显示器已经出现在市场中,例如Magic Leap ML1有两个焦平面。光场显示器是一个非常棒的主意。但它们的分辨率受到衍射的限制。另一方面,全息显示器则是通过衍射来实现,但很难获得像其他显示器一样高的图像质量。所以,光场显示和全息显示可能是这里最有趣的研究方向,而我想说的重点是,这些都是非常互补的技术。

感谢你的观看,我同时要感谢我团队的其他成员,以及我们的赞助商。谢谢。