编 者 按
近日,清华大学精密仪器系杨原牧副教授课题组提出了一种新型拓展单目三维(Extended Monocular 3D, EM3D)成像框架。该框架使用单目折衍混合相机,通过衍射和偏振两种深度线索的融合,在弱纹理、高反射等极具挑战的场景下,实验实现了无需先验数据的快照式、高分辨率、高精度三维点云获取。该成果以“Extended monocular 3D imaging via the fusion of diffraction- and polarization-based depth cues”为题发表在期刊Optica上。
研究背景与成果
三维视觉对于机器和人工智能对世界的感知与交互十分关键。尽管近年来进展显著,主流三维成像技术路线,包括结构光、飞行时间法和双/多目立体视觉,仍普遍具有远超二维相机的体积、成本、功耗以及有限的三维点云分辨率。近年来受到广泛关注的单目三维视觉虽可以部分解决上述问题,却仍具有易在弱纹理场景失效、难以重建复杂三维面型等问题。此外,现有的三维成像方案还具有共性的易失效场景,包括近乎透明、高度镜面反射等场景。
针对以上难题,清华大学精密仪器系杨原牧副教授课题组提出利用使用配备易于量产的折衍混合透镜及商用分焦面偏振CMOS的紧凑单目相机,快照式地同时获取衍射和偏振两种深度线索,结合多阶段融合两种深度线索的计算成像算法,实现了对传统挑战性场景(包括弱纹理、高复杂度、高反射或近乎透明的场景)的百万像素级精确三维点云快照式采集,且无需先验数据。此外,通过深度与偏振信息的结合可以通过材料属性实现进一步的物体辨识,这可能进一步扩展机器视觉在目标识别、活体检测等应用中的能力。
图1. 拓展单目三维成像系统框架
EM3D的系统框架如图1所示。基于衍射(点扩散函数工程)的深度线索的优点为具备较高精度绝对深度,无需主动激光照明;缺点为依赖物体纹理计算深度,难以重建三维形貌细节。基于偏振物体法线测量的深度线索优点为不需要物体纹理,可获取三维形貌的细节信息;缺点为其获取的物体表面法线方向存在歧义和材料误差,且无法获取绝对深度信息。两种深度线索的优缺点具有高度互补性。EM3D框架中的单目相机配备了点扩散函数调制衍射光学元件 (DOE) 与分焦面偏振CMOS,可以快照式同时获取两种深度线索,从而可以在后续算法中结合两种深度线索的优点。
成果优势
图2. 传统易失效场景的三维成像结果
EM3D系统对多种传统易失效场景的三维成像结果图2所示。这些场景包括弱纹理的纸箱、高度反光的金属罐、近乎透明的玻璃烧杯、具备复杂面型的活体人脸以及多个复杂物体。结果显示单一基于衍射或偏振深度线索获取的三维结果是不准确而粗糙的,而EM3D系统融合获得了精细的(百万像素)三维点云,所有场景的绝对深度误差均在0.2%以内。
图3. 基于材料特性实现物体辨识
除获取高质量三维点云之外,EM3D系统还具备超出传统二维或偏振成像系统的物体辨识能力。如图3所示,当机器人需要从桌上的三个不同材料的物体中抓取其中一个时,使用传统的彩色成像、近红外成像或偏振成像均难以分辨三个物体;而EM3D系统不仅可以提供准确的三维点云以帮助空间定位,还能通过偏振与三维信息结合获得的材料参数清晰辨识不同材料的物体。这一集成于单目相机中的多模态成像功能有望显著拓展空间受限机器视觉系统的能力。
该相机采用可大规模生产的DOE结合单个折射透镜进行成像,通过多片衍射折射混合透镜优化,可以进一步提高图像质量。通过增加成像透镜的孔径,深度测量范围可以扩展到百米范围。通过标准镜头模组工艺或晶圆级封装,可以大幅缩小相机的外形尺寸。
本工作的完成单位为清华大学精密仪器系、精密测试技术与仪器全国重点实验室。清华大学精密仪器系2021级博士研究生沈子程和博士后赵峰为共同第一作者。共同通讯作者为清华大学精密仪器系杨原牧副教授和赵峰博士。清华大学精密仪器系博士毕业生倪一博为本工作作出了重要贡献。本研究得到了北京市科技计划、国家重点研发计划、国家自然科学基金、博士后面上基金的资助。
论文链接:
https://opg.optica.org/optica/fulltext.cfm?uri=optica-12-6-872&id=572942