当前位置:首页 > 资讯 > 正文

麻省理工生成3D全息图像 使用人工智能实时生成 具有真实感

麻省理工生成3D全息图像 使用人工智能实时生成 具有真实感  第1张

【据美国麻省理工学院网站2021年3月10日报道】美国麻省理工学院(MIT)的科研人员开发了一种称为“张量全息术”的新方法,无需超级计算机即可为虚拟现实、3D打印、医学成像等应用创建全息图,并且可在智能手机等消费级硬件上运行,有望推动全息技术在虚拟现实(VR)和3D打印等领域的应用。

目前的虚拟现实技术通常使用固定距离的2D显示器来使用户产生3D观看的错觉,经常会导致用户恶心和眼睛疲劳,而有60年多历史的全息图技术可根据观看者的位置提供变化的视角,并允许眼睛调整焦深以交替聚焦在前景和背景上,可以出色地呈现观看者周围的3D世界,将会给数字世界带来更好的3D可视化解决方案。

典型的基于镜头的照片编码每个光波的亮度,这种照片可以真实地再现场景的颜色,但却是一种平面图像。全息图像由于既编码每个光波的亮度,又编码相位,因此可以更真实地描述场景的视差和深度,但其制作和共享面临挑战。

20世纪中期发展的早期全息照相方式是光学记录式的,需要将一束激光分开,一半用于照亮物体,另一半用作光波相位的参考,以产生全息图独有的深度感,其生成的图像是静态的,因此无法获取动态信息,而且那些图像只能硬拷贝,难以进行复制和共享。

长期以来,研究人员一直在寻求通过计算机生成全息图像,但该过程需要使用超级计算机来进行物理模拟,非常耗时,且所产生的结果缺乏真实感。现代计算机通过模拟光学设备生成全息图像,由于场景中的每个点都有不同的景深,这大大增加了算法的复杂性,因为无法对所有的点进行相同的操作,而且现有算法还无法对遮挡进行高逼真精度建模。因此MIT的科研人员采用了另一种方法:让计算机自己学会物理学。

他们使用深度学习来加速计算机生成的全息图,从而实现实时全息图的生成。该团队设计了一种卷积神经网络,使用一系列可训练的张量来大致模拟人类如何处理视觉信息,并建立了一个包含4000组计算机生成图像的数据,每组图片都与其对应的全息图像相匹配(包括每个像素的颜色和景深信息)。为了在新数据库中创建全息图像,研究人员使用了具有复杂且可变形状和颜色的场景,具有从背景到前景均匀分布的像素景深,并使用了一组新的基于物理的计算来处理遮挡,从而构建了高逼真度的训练数据。通过对每组训练图像的学习,张量网络逐步增强了其创建全息图像的能力。完全优化后的网络的运行速度比基于物理的计算快几个数量级。

利用由计算机生成的具有景深信息的图像,研究人员通过张量全息术可以在几毫秒内制作出全息图像,景深信息图像可通过多镜头相机或LiDAR传感器(已经是一些智能手机的标准配置)计算获得。此外,这种紧凑的张量神经网络需要的内存还不到1 MB。

该项技术为实时3D全息图像铺平了道路,可以很容易地部署在调制光波相位的显示器中,采用该项技术的3D全息显示器甚至可以根据观看者的视力情况进行定制,以矫正眼睛的像差。该技术还可以促进体积3D打印技术的发展,其比传统的逐层3D打印更快、更精确。其他的可能应用还包括显微镜、医学数据可视化、以及具有独特光学特性的表面设计等。

这项工作得到了索尼公司的部分资助,相关论文《Towards real-time photorealistic 3D holography with deep neural networks》已在Nature期刊上发表。

来源:美国麻省理工学院网站