当前位置：首页 > 资讯 > 正文

麻省理工生成3D全息图像使用人工智能实时生成具有真实感

woniu
资讯
2021-03-16
28164

【据美国麻省理工学院网站2021年3月10日报道】美国麻省理工学院（MIT）的科研人员开发了一种称为“张量全息术”的新方法，无需超级计算机即可为虚拟现实、3D打印、医学成像等应用创建全息图，并且可在智能手机等消费级硬件上运行，有望推动全息技术在虚拟现实（VR)和3D打印等领域的应用。

目前的虚拟现实技术通常使用固定距离的2D显示器来使用户产生3D观看的错觉，经常会导致用户恶心和眼睛疲劳，而有60年多历史的全息图技术可根据观看者的位置提供变化的视角，并允许眼睛调整焦深以交替聚焦在前景和背景上，可以出色地呈现观看者周围的3D世界，将会给数字世界带来更好的3D可视化解决方案。

典型的基于镜头的照片编码每个光波的亮度，这种照片可以真实地再现场景的颜色，但却是一种平面图像。全息图像由于既编码每个光波的亮度，又编码相位，因此可以更真实地描述场景的视差和深度，但其制作和共享面临挑战。

20世纪中期发展的早期全息照相方式是光学记录式的，需要将一束激光分开，一半用于照亮物体，另一半用作光波相位的参考，以产生全息图独有的深度感，其生成的图像是静态的，因此无法获取动态信息，而且那些图像只能硬拷贝，难以进行复制和共享。

长期以来，研究人员一直在寻求通过计算机生成全息图像，但该过程需要使用超级计算机来进行物理模拟，非常耗时，且所产生的结果缺乏真实感。现代计算机通过模拟光学设备生成全息图像，由于场景中的每个点都有不同的景深，这大大增加了算法的复杂性，因为无法对所有的点进行相同的操作，而且现有算法还无法对遮挡进行高逼真精度建模。因此MIT的科研人员采用了另一种方法：让计算机自己学会物理学。

他们使用深度学习来加速计算机生成的全息图，从而实现实时全息图的生成。该团队设计了一种卷积神经网络，使用一系列可训练的张量来大致模拟人类如何处理视觉信息，并建立了一个包含4000组计算机生成图像的数据，每组图片都与其对应的全息图像相匹配（包括每个像素的颜色和景深信息）。为了在新数据库中创建全息图像，研究人员使用了具有复杂且可变形状和颜色的场景，具有从背景到前景均匀分布的像素景深，并使用了一组新的基于物理的计算来处理遮挡，从而构建了高逼真度的训练数据。通过对每组训练图像的学习，张量网络逐步增强了其创建全息图像的能力。完全优化后的网络的运行速度比基于物理的计算快几个数量级。

利用由计算机生成的具有景深信息的图像，研究人员通过张量全息术可以在几毫秒内制作出全息图像，景深信息图像可通过多镜头相机或LiDAR传感器（已经是一些智能手机的标准配置）计算获得。此外，这种紧凑的张量神经网络需要的内存还不到1 MB。

该项技术为实时3D全息图像铺平了道路，可以很容易地部署在调制光波相位的显示器中，采用该项技术的3D全息显示器甚至可以根据观看者的视力情况进行定制，以矫正眼睛的像差。该技术还可以促进体积3D打印技术的发展，其比传统的逐层3D打印更快、更精确。其他的可能应用还包括显微镜、医学数据可视化、以及具有独特光学特性的表面设计等。

这项工作得到了索尼公司的部分资助，相关论文《Towards real-time photorealistic 3D holography with deep neural networks》已在Nature期刊上发表。

来源：美国麻省理工学院网站