深度学习技术在条纹投影三维成像中的应用

冯世杰; 左超; 尹维; 陈钱

doi:10.3788/IRLA202049.0303018

深度学习技术在条纹投影三维成像中的应用

doi: 10.3788/IRLA202049.0303018

南京理工大学电子工程与光电技术学院，江苏南京 210094

基金项目: 国家自然科学基金(61722506，61705105，11574152)；总装“十三五”装备预研项目(30102070102)；总装“十三五”装备预研共用技术和领域基金(61404150202)；国防科技项目基金(0106173)；江苏省杰出青年基金(BK20170034)；江苏省重点研发计划项目(BE2017162)；江苏省“333工程”科研项目(BRA2016407)；江苏省光谱成像与智能感知重点实验室开放基金（3091801410411）

详细信息

作者简介:
冯世杰（1989-），男，副教授，博士，主要从事三维成像与计算光学成像方面的研究。Email：shijiefeng@njust.edu.cn

通讯作者: 陈钱(1964-)，男，教授，博士生导师，博士，主要从事三维成像、光电成像等方面的研究。Email: chenqian@njust.edu.cn

中图分类号: O439

Application of deep learning technology to fringe projection 3D imaging

School of Electronic and Optical Engineering, Nanjing University of Science and Technology, Nanjing 210094, China

摘要: 条纹投影（结构光）三维成像是一种广泛使用的三维成像手段。近年来，集成式的三维传感器发展迅速，特别是基于结构光原理的三维传感器件已逐渐成为高端智能手机必不可少的一个重要传感单元。然而随着应用需求的不断增多，人们对条纹投影三维成像这项技术的效率、精度、稳定性等方面的要求也越来越高。同时近年来，深度学习技术的飞速发展已经为光学成像技术的发展开启了一扇新的大门，并且从这扇大门中人们注意到伴随着人工智能概念的引入，条纹投影技术的发展也正在经历着新的突破。首先简要介绍了条纹投影三维成像的基本理论。随后举例分析通过运用深度学习技术，起初基于物理模型的条纹投影技术也可成为一种在“数据”驱动下实现的技术，而且在这种情况下，它展现出了超越传统算法的潜力。最后从神经网络模型、训练数据、训练方法等方面，讨论该领域面临的挑战与未来的研究方向。
- 条纹投影 /
- 三维成像 /
- 深度学习 /
- 相位恢复
Abstract: Fringe projection(structured light) 3D imaging is a widely used 3D imaging method. In recent years, the integrated three-dimensional sensor has developed rapidly, especially the three-dimensional sensor based on the principle of structured light has gradually become an essential sensor unit for high-end smart phones. However, with the increasing requirements from applications, people have higher and higher requirements on the efficiency, accuracy, stability and other aspects for the fringe projection technique. At the same time, the rapid development of deep learning technology has opened a new door for the development of optical imaging technology, and from this door we notice that with the introduction of the concept of artificial intelligence, the development of fringe projection technology is also experiencing a new breakthrough. In this paper, the basic theory of fringe projection 3D imaging was introduced. Then, by using the deep learning technology, the fringe projection technology based on the physical model can become a technology driven by "data", and in this case, it showed the potential to surpass the traditional algorithm. Finally, the challenges and future research directions in this field from the aspects of neural network model, training data, training methods and so on were discussed.
- fringe projection /
- 3D imaging /
- deep learning /
- phase retrieval
图 1 条纹投影三维成像原理图

Figure 1. Diagram of fringe projection 3D imaging

下载: 全尺寸图片幻灯片

图 2 利用深度神经网络解调单幅条纹图像中的相位信息流程图^[40]

Figure 2. Flowchart of phase calculation from a single fringe image using deep neural network^[40]

下载: 全尺寸图片幻灯片

图 3 三维重建结果对比^[40]。（a）傅立叶变换法^[30]，（b）加窗傅立叶变换法^[38]，（c）基于深度学习的条纹分析法，（d）12步相移法

Figure 3. Comparison of 3D reconstruction results^[40]. (a) Fourier transform profilometry, (b) windowed Fourier transform profilometry, (c) fringe analysis based on deep learning, and (d) 12-step phase-shifting profilometry

下载: 全尺寸图片幻灯片

图 4 基于标签增强与区域分块的深度学习条纹分析的相位反演流程图^[41]

Figure 4. Flowchart of label enhanced and patch based deep learning fringe analysis for phase retrieval^[41]

下载: 全尺寸图片幻灯片

图 5 用FT法和DNN法对六个不同时刻的运动手掌进行了相位测量^[41]

Figure 5. Phase measurement of hand movement at six different moments by FT and DNN methods^[41]

下载: 全尺寸图片幻灯片

图 6 基于深度学习的条纹图像去噪方法原理图^[42]

Figure 6. Diagram of fringe image denoising using deep learning^[42]

下载: 全尺寸图片幻灯片

图 7 神经网络的测试结果^[42]。（a1）、（a2）带有噪声的仿真条纹图；（b1）、（b2）不含噪声的条纹图；（c1）、（c2）用深度学习去噪后的结果

Figure 7. Test results^[42]. (a1), (a2) Simulation fringe pattern with noise; (b1), (b2) fringe pattern without noise; (c1), (c2) denoised results with deep learning

下载: 全尺寸图片幻灯片

图 8 基于PhaseNet的相位展开原理图^[43]

Figure 8. Schematic of phase unwrapping using PhaseNet^[43]

下载: 全尺寸图片幻灯片

图 9 利用PhaseNet展开不同形状包裹相位得到的结果^[43]。（a）包裹相位；（b）展开相位；（c）PhaseNet输出的条纹级次

Figure 9. Results of different wrapped shapes using PhaseNet^[43]. (a) Wrapped phase; (b) unwrapped phase; (c) fringe order with PhaseNet

下载: 全尺寸图片幻灯片

图 10 神经网络的训练与测试^[44]。（a）训练；（b）测试

Figure 10. Schematics of the training and testing of the neural network^[44]. (a) training; (b) testing

下载: 全尺寸图片幻灯片

图 11 动态蜡烛火焰的包裹相位展开结果对比^[44]。Wrap表示包裹相位；CNN表示该方法获得的展开相位；LS表示最小二乘法获得的展开相位；Diff为CNN法与LS法计算结果之间的差异

Figure 11. Comparison of results of phase unwrapping of dynamic candle flame^[44]. Wrap represents the wrapped phase; CNN represents the phase unwrapped by this method; LS represents the phase unwrapped by the least square method; Diff represents the difference between the results of CNN and LS methods

下载: 全尺寸图片幻灯片

图 12 基于深度学习的时域相位展开方法的示意图^[45]

Figure 12. Schematic of temporal phase unwrapping using deep learning^[45]

下载: 全尺寸图片幻灯片

图 13 针对不同的高频光栅包裹相位（例如频率分别为8、16、32、48和64），比较多频相位展开方法（图中MF-TPU）和基于深度学习的时域相位展开方法（图中Our method）的相位展开结果^[45]

Figure 13. Comparison between traditional MF-TPU and the deep learning based method for high-frequency phase unwrapping (for example, the frequencies are 8, 16, 32, 48 and 64 respectively) ^[45]

下载: 全尺寸图片幻灯片

图 14 从单幅条纹图解调高度信息的神经网络结构图^[46]

Figure 14. Neural network structure diagram of height estimation from a single fringe image^[46]

下载: 全尺寸图片幻灯片

图 15 针对球面、三角斜面和人脸头像光栅图的实验结果图^[46]。第一列为输入神经网络的条纹图；第二列为真实的高度分布；第三列为神经网络输出的高度分布；最后一列为根据第二列与第三列得出的误差分布图

Figure 15. Experimental results of spherical, triangular bevel and face image grating^[46]. The first column is the fringe image of the input neural network; the second column is the true simulated height distribution; the third column is the height distribution of the output of the neural network; the last column is the error distribution map based on the second column and the third column

下载: 全尺寸图片幻灯片

图 16 基于深度学习的投影仪畸变矫正流程图^[47]

Figure 16. Flowchart for projector distortion correction with deep learning^[47]

下载: 全尺寸图片幻灯片

图 17 测试数据结果^[47]。（a）原始数据的三维形状；（b）原始数据的误差分布；（c）校正后的数据三维形状；（d）校正后数据的误差分布

Figure 17. Test results^[47]. (a) 3D shape of the original data; (b) error distribution of the original data; (c) 3D shape of the corrected data; (d) error distribution of the corrected data

下载: 全尺寸图片幻灯片

图 18 微频移深度学习轮廓术原理图^[49]

Figure 18. Diagram of micro deep learning profilometry^[49]

下载: 全尺寸图片幻灯片

图 19 针对下落的乒乓球和静态石膏像进行的高速三维成像，速度为20 000 帧/s^[49]

Figure 19. High speed 3D imaging of a falling table tennis and static plaster at speed of 20 000 frame/s^[49]

下载: 全尺寸图片幻灯片

[1]	Harding K. Industrial metrology: engineering precision [J]. Nature Photonics, 2008, 2(11): 667. doi: 10.1038/nphoton.2008.218
[2]	Luhmann T. Close range photogrammetry for industrial applications [J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2010, 65(6): 558−569. doi: 10.1016/j.isprsjprs.2010.06.003
[3]	Ma Y, Soatto S, Koseck J, et al. An Invitation to 3-D Vision: from Images to Geometric Models[M]. New York: Springer Science & Business Media, 2012, 26.
[4]	Jiang H, Zhao H, Li X. High dynamic range fringe acquisition: A novel 3-D scanning technique for high-reflective surfaces [J]. Optics and Lasers in Engineering, 2012, 50(10): 1484−1493. doi: 10.1016/j.optlaseng.2011.11.021
[5]	Salvi J, Fernandez S, Pribanic T, et al. A state of the art in structured light patterns for surface profilometry [J]. Pattern Recognition, 2010, 43(8): 2666−2680. doi: 10.1016/j.patcog.2010.03.004
[6]	Feng S, Zuo C, Tao T, et al. Robust dynamic 3-D measurements with motion-compensated phase-shifting profilometry [J]. Optics and Lasers in Engineering, 2018, 103: 127−138.
[7]	Zhang Z H. Review of single-shot 3D shape measurement by phase calculation-based fringe projection techniques [J]. Optics and Lasers in Engineering, 2012, 50(8): 1097−1106. doi: 10.1016/j.optlaseng.2012.01.007
[8]	Su X, Zhang Q. Dynamic 3-D shape measurement method: a review [J]. Optics and Lasers in Engineering, 2010, 48(2): 191−204. doi: 10.1016/j.optlaseng.2009.03.012
[9]	Wang Y, Liu Z, Jiang C, et al. Motion induced phase error reduction using a Hilbert transform [J]. Optics Express, 2018, 26(26): 34224. doi: 10.1364/OE.26.034224
[10]	Feng S, Chen Q, Zuo C, et al. Fast three-dimensional measurements for dynamic scenes with shiny surfaces [J]. Optics Communications, 2017, 382: 18−27. doi: 10.1016/j.optcom.2016.07.057
[11]	Heist S, Lutzke P, Schmidt I, et al. High-speed three-dimensional shape measurement using GOBO projection [J]. Optics and Lasers in Engineering, 2016, 87: 90−96. doi: 10.1016/j.optlaseng.2016.02.017
[12]	Borowiec S. AlphaGo seals 4-1 victory over Go grandmaster Lee Sedol [J]. The Guardian, 2016: 15.
[13]	ZˇBONTAR J, Lecun Y. Stereo matching by training a convolutional neural network to compare image patches[J]. The Journal of Machine Learning Research, 2016, 17(1): 2287-2318.
[14]	Luo W, Schwing A G, Urtasun R. Efficient deep learning for stereo matching[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 5695−5703.
[15]	Li S, Deng M, Lee J, et al. Imaging through glass diffusers using densely connected convolutional networks[J]. arXiv: 1711.06810[physics], 2017.
[16]	Moriya T, Roth H R, Nakamura S, et al. Unsupervised segmentation of 3D medical images based on clustering and deep representation learning[J]. arXiv: 1804.03830[cs], 2018: 71.
[17]	Li H, Wei T, Ren A, et al. Deep reinforcement learning: framework, applications, and embedded implementations[J]. arXiv: 1710.03792[cs], 2017.
[18]	Kuznietsov Y, Stuckler J, Leibe B. Semi-supervised deep learning for monocular depth map prediction[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI: IEEE, 2017: 2215-2223.
[19]	Kendall A, Grimes M, Cipolla R. PoseNet: A convolutional network for real-time 6-DOF camera relocalization[C]//2015 IEEE International Conference on Computer Vision (ICCV), 2015: 2938−2946.
[20]	Wang H, Rivenson Y, Jin Y, et al. Deep learning enables cross-modality super-resolution in fluorescence microscopy [J]. Nature Methods, 2019, 16(1): 103−110. doi: 10.1038/s41592-018-0239-0
[21]	Rivenson Y, Zhang Y, GÜNAYDIN H, et al. Phase recovery and holographic image reconstruction using deep learning in neural networks [J]. Light: Science & Applications, 2018, 7(2): 17141.
[22]	Nguyen T, Xue Y, Li Y, et al. Deep learning approach for Fourier ptychography microscopy [J]. Optics Express, 2018, 26(20): 26470. doi: 10.1364/OE.26.026470
[23]	Horisaki R, Takagi R, Tanida J. Learning-based imaging through scattering media [J]. Optics Express, 2016, 24(13): 13738. doi: 10.1364/OE.24.013738
[24]	Lyu M, Wang W, Wang H, et al. Deep-learning-based ghost imaging [J]. Scientific Reports, 2017, 7(1): 17865. doi: 10.1038/s41598-017-18171-7
[25]	Nehme E, Weiss L E, Michaeli T, et al. Deep-STORM: super-resolution single-molecule microscopy by deep learning [J]. Optica, 2018, 5(4): 458−464. doi: 10.1364/OPTICA.5.000458
[26]	Fang L, Cunefar D, Wang C, et al. Automatic segmentation of nine retinal layer boundaries in OCT images of non-exudative AMD patients using deep learning and graph search [J]. Biomedical Optics Express, 2017, 8(5): 2732−2744. doi: 10.1364/BOE.8.002732
[27]	Li Y, Xue Y, Tian L. Deep speckle correlation: a deep learning approach toward scalable imaging through scattering media [J]. Optica, 2018, 5(10): 1181−1190. doi: 10.1364/OPTICA.5.001181
[28]	Zhang S, Huang P S. Novel method for structured light system calibration [J]. Optical Engineering, 2006, 45(8): 083601. doi: 10.1117/1.2336196
[29]	Yin Y, Peng X, Li A, et al. Calibration of fringe projection profilometry with bundle adjustment strategy [J]. Optics Letters, 2012, 37(4): 542−544. doi: 10.1364/OL.37.000542
[30]	Takeda M, Mutoh K. Fourier transform profilometry for the automatic measurement of 3-D object shapes [J]. Applied Optics, 1983, 22(24): 3977−3982. doi: 10.1364/AO.22.003977
[31]	Zuo C, Feng S, Huang L, et al. Phase shifting algorithms for fringe projection profilometry: A review [J]. Optics and Lasers in Engineering, 2018, 109: 23−59. doi: 10.1016/j.optlaseng.2018.04.019
[32]	Malacara D. Optical Shop Testing[M]. Hoboken, New Jersey: John Wiley & Sons, 2007, 59.
[33]	Hoang T, Pan B, Nguyen D, et al. Generic gamma correction for accuracy enhancement in fringe-projection profilometry [J]. Optics Letters, 2010, 35(12): 1992−1994. doi: 10.1364/OL.35.001992
[34]	Feng S, Zhang L, Zuo C, et al. High dynamic range 3D measurements with fringe projection profilometry: a review [J]. Measurement Science and Technology, 2018, 29(12): 122001. doi: 10.1088/1361-6501/aae4fb
[35]	Su X, Chen W. Reliability-guided phase unwrapping algorithm: a review [J]. Optics and Lasers in Engineering, 2004, 42(3): 245−261. doi: 10.1016/j.optlaseng.2003.11.002
[36]	Zuo C, Huang L, Zhang M, et al. Temporal phase unwrapping algorithms for fringe projection profilometry: A comparative review [J]. Optics and Lasers in Engineering, 2016, 85: 84−103. doi: 10.1016/j.optlaseng.2016.04.022
[37]	Hartley R, Zisserman A. Multiple View Geometry in Computer Vision[M]. Cambridge: Cambridge University Press, 2004: 673.
[38]	Kemao Q. Two-dimensional windowed Fourier transform for fringe pattern analysis: principles, applications and implementations [J]. Optics and Lasers in Engineering, 2007, 45(2): 304−317. doi: 10.1016/j.optlaseng.2005.10.012
[39]	Zhong J, Weng J. Spatial carrier-fringe pattern analysis by means of wavelet transform: wavelet transform profilometry [J]. Applied Optics, 2004, 43(26): 4993−4998. doi: 10.1364/AO.43.004993
[40]	Feng S, Chen Q, Gu G, et al. Fringe pattern analysis using deep learning [J]. Advanced Photonics, 2019, 1(2): 1.
[41]	Shi J, Zhu X, Wang H, et al. Label enhanced and patch based deep learning for phase retrieval from single frame fringe pattern in fringe projection 3D measurement [J]. Optics Express, 2019, 27(20): 28929. doi: 10.1364/OE.27.028929
[42]	Yan K, Yu Y, Hu C, et al. Fringe pattern denoising based on deep learning [J]. Optics Communications, 2019, 437: 148−152. doi: 10.1016/j.optcom.2018.12.058
[43]	Spoorthi G E, Gorthi S, Gorthi R K S S. PhaseNet: A deep convolutional neural network for two-dimensional phase unwrapping [J]. IEEE Signal Processing Letters, 2019, 26(1): 54−58. doi: 10.1109/LSP.2018.2879184
[44]	Wang K, Li Y, Kemao Q, et al. One-step robust deep learning phase unwrapping [J]. Optics Express, 2019, 27(10): 15100. doi: 10.1364/OE.27.015100
[45]	Yin W, Chen Q, Feng S, et al. Temporal phase unwrapping using deep learning [J]. Scientific Reports, 2019, 9(1): 20175. doi: 10.1038/s41598-019-56222-3
[46]	Van Der Jeught S, Dirckx J J J. Deep neural networks for single shot structured light profilometry [J]. Optics Express, 2019, 27(12): 17091. doi: 10.1364/OE.27.017091
[47]	Lv S, Sun Q, Zhang Y, et al. Projector distortion correction in 3D shape measurement using a structured-light system by deep neural networks [J]. Optics Letters, 2020, 45(1): 204−207. doi: 10.1364/OL.45.000204
[48]	Zuo C, Tao T, Feng S, et al. Micro Fourier Transform Profilometry (μ FTP): 3D shape measurement at 10,000 frames per second [J]. Optics and Lasers in Engineering, 2018, 102: 70−91. doi: 10.1016/j.optlaseng.2017.10.013
[49]	Feng S, Zuo C, Yin W, et al. Micro deep learning profilometry for high-speed 3D surface imaging [J]. Optics and Lasers in Engineering, 2019, 121: 416−427. doi: 10.1016/j.optlaseng.2019.04.020
[50]	Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[J]. arXiv: 1311.2901[cs], 2013.
[51]	Bergstra J, Bengio Y. Random search for hyper-parameter optimization [J]. Journal of Machine Learning Research, 2012, 13(2): 281−305.
[52]	Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 1126−1135.
[53]	Zoph B, Le Q V. Neural architecture search with reinforcement learning[J]. arXiv preprint arXiv: 1611.01578, 2016.
[54]	Tan C, Sun F, Kong T, et al. A survey on deep transfer learning[C]//International Conference on Artificial Neural Networks, 2018: 270−279.

[1]	胡浩丰, 黄一钊, 朱震, 马千文, 翟京生, 李校博. 基于深度学习复杂环境的偏振成像技术研究进展（特邀） . 红外与激光工程, 2024, 53(3): 20240057-1-20240057-18. doi: 10.3788/IRLA20240057
[2]	刘禹彤, 李妍, 金璐, 汤化旭, 王舜, 吴雨聪, 冯悦姝. 基于深度学习的多分辨显微关联成像系统设计 . 红外与激光工程, 2023, 52(4): 20220461-1-20220461-8. doi: 10.3788/IRLA20220461
[3]	张宗华, 李雁玲, 高峰, 高楠, 孟召宗, 蒋向前. 面向结构光三维测量的相位展开技术综述（特邀） . 红外与激光工程, 2023, 52(8): 20230126-1-20230126-23. doi: 10.3788/IRLA20230126
[4]	杨静雯, 张宗华, 付莉娜, 李雁玲, 高楠, 高峰. 利用抖动算法扩展深度范围的三维形貌测量术 . 红外与激光工程, 2023, 52(8): 20230059-1-20230059-10. doi: 10.3788/IRLA20230059
[5]	王张颖, 张宁宁, 高楠, 李奎, 孟召宗, 张宗华. 基于单色条纹投影的高动态范围物体表面形貌三维测量 . 红外与激光工程, 2023, 52(8): 20230327-1-20230327-9. doi: 10.3788/IRLA20230327
[6]	郭恩来, 师瑛杰, 朱硕, 程倩倩, 韦一, 苗金烨, 韩静. 深度学习下的散射成像：物理与数据联合建模优化（特邀） . 红外与激光工程, 2022, 51(8): 20220563-1-20220563-13. doi: 10.3788/IRLA20220563
[7]	卞殷旭, 邢涛, 邓伟杰, 鲜勤, 乔洪磊, 于钱, 彭吉龙, 杨晓飞, 蒋燕男, 王家雄, 杨慎敏, 沈韧斌, 沈华, 匡翠方. 基于深度学习的色彩迁移生物医学成像技术 . 红外与激光工程, 2022, 51(2): 20210891-1-20210891-18. doi: 10.3788/IRLA20210891
[8]	和河向, 黎永耀, 黄锦圣. 基于相位共轭实现散射成像及光学幻像的双功能散射光调控方法（特邀） . 红外与激光工程, 2022, 51(8): 20220266-1-20220266-12. doi: 10.3788/IRLA20220266
[9]	王嘉业, 李艺璇, 张玉珍. 基于学习的光栅图像噪声抑制方法 . 红外与激光工程, 2022, 51(2): 20220006-1-20220006-10. doi: 10.3788/IRLA20220006
[10]	吴荣, 赵世丽, 赵洋, 谢锋云. 条纹投影用于不同景深物体的三维测量 . 红外与激光工程, 2022, 51(11): 20220088-1-20220088-10. doi: 10.3788/IRLA20220088
[11]	朱硕, 郭恩来, 柏连发, 韩静. 高效学习的透过未知散射介质的相位恢复方法 . 红外与激光工程, 2022, 51(2): 20210889-1-20210889-9. doi: 10.3788/IRLA20210889
[12]	殷永凯, 张宗华, 刘晓利, 彭翔. 条纹投影轮廓术系统模型与标定综述 . 红外与激光工程, 2020, 49(3): 0303008-0303008-18. doi: 10.3788/IRLA202049.0303008
[13]	钟锦鑫, 尹维, 冯世杰, 陈钱, 左超. 基于深度学习的散斑投影轮廓术 . 红外与激光工程, 2020, 49(6): 20200011-1-20200011-11. doi: 10.3788/IRLA20200011
[14]	张启灿, 吴周杰. 基于格雷码图案投影的结构光三维成像技术 . 红外与激光工程, 2020, 49(3): 0303004-0303004-13. doi: 10.3788/IRLA202049.0303004
[15]	张钊, 韩博文, 于浩天, 张毅, 郑东亮, 韩静. 多阶段深度学习单帧条纹投影三维测量方法 . 红外与激光工程, 2020, 49(6): 20200023-1-20200023-8. doi: 10.3788/IRLA20200023
[16]	赵洋, 傅佳安, 于浩天, 韩静, 郑东亮. 深度学习精确相位获取的离焦投影三维测量 . 红外与激光工程, 2020, 49(7): 20200012-1-20200012-8. doi: 10.3788/IRLA20200012
[17]	赵楠翔, 胡以华. 激光反射层析成像相位恢复算法研究 . 红外与激光工程, 2019, 48(10): 1005005-1005005(7). doi: 10.3788/IRLA201948.1005005
[18]	陈妮, 左超, Byoungho Lee. 基于深度测量的三维成像技术 . 红外与激光工程, 2019, 48(6): 603013-0603013(25). doi: 10.3788/IRLA201948.0603013
[19]	刘正君, 郭澄, 谭久彬. 基于多距离相位恢复的无透镜计算成像技术 . 红外与激光工程, 2018, 47(10): 1002002-1002002(16). doi: 10.3788/IRLA201847.1002002
[20]	陈超, 於燕琴, 黄淑君, 刘晓利, 徐静, 张宗华. 三维小视场成像系统 . 红外与激光工程, 2016, 45(8): 824002-0824002(6). doi: 10.3788/IRLA201645.0824002

点击查看大图

计量

文章访问数: 5501
HTML全文浏览量: 1065
被引次数: 0

全文HTML

0. 引　言

人类所处的物理世界空间是三维的，对三维信息的获取和处理技术体现了人类对客观世界的把握能力，因而从某种程度上来说它是体现人类智慧的一个重要标志。传统光探测器仅对被测场景的二维强度敏感而无法感知其三维形貌与深度信息。人类虽可通过自己的双眼来感知三维的世界，但无法对客观事物的三维形貌进行准确量化的描述。三维成像与传感技术作为感知真实三维世界的重要信息获取手段，为重构物体真实几何形貌及后续的三维建模、检测、识别等方面提供数据基础。近年来，随着计算机技术、光学和光电技术的发展，以光信号为载体的光学三维传感技术，融合光电子学、图像处理、计算机视觉与现代信号处理等多学科为一体，已发展成为光学计量和信息光学的最重要的研究领域和研究方向之一。

三维信息获取与处理技术以各种不同的风貌与特色渗透到我们身边的众多领域之中^[1–4]。在工业设计中，基于三维数字化模型的逆向设计方法可快速获得现有成熟产品的准确和完整的计算机模型，大大缩短产品或模具的研发周期。在虚拟现实领域，大量景物的三维彩色模型化数据已被以用于国防、模拟训练、科学试验、3D动画的建构。在医学整形领域，三维数字化技术已广泛用于面部软组织形态修复、外科检测、假牙假肢的量身定做。文物保护领域中，三维彩色数字化技术能以不损伤物体的手段，获得文物的三维信息和表面色彩、纹理，便于长期保存与再现。但在某些领域，如三维测量加工、机器人导航、快速逆向成型、自动化生产线控制、产品质量监控等，仅仅捕获待测物体的三维信息是不够的，三维数据获取的速度与效率直接关系到制造系统的响应能力、产品研制生产能力、以及产品质量保证能力。此外诸如在压模件尺寸监测、冲压板几何形状和形变检测、机车冲撞试验、压力波传播、不连续边界的应力集中、汽车制导中障碍检测、流体力学、流程可视化、运动力学、高速旋转等，这些高速瞬态过程的三维数据快速记录与准确定量再现将有助于描绘和分析动态过程中物体表面三维形态的变化，并为进一步提取与被测物体相关的结构、形变、应力等物理参量提供数据基础。

条纹投影三维成像因其非接触、高精度、全场测量、点云重建效率高等优点，已成为目前三维传感技术中的主流光学方法^[5–7]。然而现有研究工作大多集中在静态物体或缓变场景的形貌测量上，通过投影多组光栅条纹并结合格雷码/时间相位展开方法以获取绝对相位信息。这不可避免地延长了数据获取的时间，使其难以对动态物体或者变化场景达到快速响应。如何快速、准确、无歧义地获取目标，特别是运动目标的三维形貌信息是当前条纹投影轮廓术领域的一个亟待解决的问题。该问题直接制约着数字光栅投影技术的适用对象与应用范围，也逐渐成为该领域的研究热点之一^[8–11]。

2016年，以围棋界AlphaGo击败李世石开始^[12]，以深度学习为代表的人工智能（AI）技术全面进入了大众的视野，对于它的讨论变得更为火热起来；整个业界普遍认为，它很可能带来下一次科技革命，并且在未来可预见的10多年里，将深刻地改变人们的生活。正如当时的预测，目前人工智能已经在计算机视觉、图像语音处理等多个领域的技术上取得了全面的突破^[13–19]。与此同时，深度学习技术也在光学成像、计算成像、全息显微等领域逐步渗透^[20–27]，且展现出巨大的潜力。对基于条纹投影的三维成像而言，深度学习技术已成功应用于条纹图像的包裹相位求解、空域/时域包裹相位展开、条纹去噪、超快三维测量等方面。这些应用向大众展现了在人工智能的辅助下，条纹投影技术在效率、精度等方面取得的新突破。

文中首先将回顾条纹投影三维成像的基本原理。随后将列举深度学习技术在条纹投影三维成像中的典型应用。最后，从神经网络的可解释性、神经网络结构设计、神经网络训练数据获取等五个方面，分析与总结利用深度学习技术实现条纹投影成像面临的挑战和未来的走向。

6. 挑战与未来的方向

6.1. 深度学习到底学到了什么？

如第一章基本原理所介绍，条纹投影技术的三维成像部分主要包括条纹分析、相位展开、相位深度映射这几个方面。通过第二章至第五章的介绍，笔者发现当前研究人员正尝试着用深度学习技术替代传统方法以实现上述几个方面中的某一项内容，或者全部内容（端对端的策略）。然而对于大多数研究人员而言，深度学习方法预测最终结果的过程仍是一个“黑箱子”——只能通过最终的测试结果来判断神经网络的优劣。由于难以把握神经网络的推演机理，使得优化和提升神经网络性能的目标沦为了大量的试错。尤其是对于大规模的神经网络，巨量的参数使得完成一次训练通常需要数个昼夜甚至更久。多次且无明确方向的试错易造成时间的大量浪费。

近年来越来越多的研究人员意识这个问题的重要性，为了解神经网络的学习过程，Zeiler等^[50]提出了一种针对卷积神经网络的可视化方法。该方法通过对神经网络学习的特征进行可视化，为优化网络结构、提升预测的准确性提供了思路。

6.2. 深度神经网络的架构设计与优化

针对具体的条纹投影应用（如计算包裹相位、相位展开、高动态范围成像等），到底什么样的神经网络合适？尽管从前人相似工作中能找到网络结构设计的灵感，但是在神经网络后期的调试与优化过程中，如何调整超参数（如神经网络的类型，卷积神经网络中滤波器的尺寸，抽取特征的数量等）使得能够在自己的应用上表现出色仍是一个难以回答的问题。通过试错法进行超参的调整尽管有一定效果，但时间成本过高。此外，当神经网络的规模足够大时，想要快速地输出结果对计算平台的硬件也是一种考验。对于固定的服务器而言，这种影响相对较小。但是对于移动终端或者穿戴设备，如手机、平板、智能手表等，通常难以将规模过大的神经网络部署到这些设备上，而这时需要考虑对网络结构进行压缩。

令人欣喜的是，近年来自动化机器学习（AutoML）成为深度学习技术领域的一个研究热点。自动机器学习的目标就是使计算机自动地做出上述的决策。自动机器学习采用：超参数优化^[51]（Hyper-parameter Optimization）、元学习^[52]（Meta Learning）、神经网络架构搜索^[53]（Neural Architecture Search）等方式自动搜索理想网络结构与超参数。使用者只需提供训练数据，自动机器学习系统就能自动地决定最佳的训练方案。让不同领域的研究人员不必苦恼于学习各种机器学习的算法。

6.3. 训练数据的获取与标注成本高

神经网络并非一个新概念，它实际上已具有几十年的历史。但是由于它是一种数据驱动的计算方法，几十年前的数据规模并未像今天一样地井喷式增长。因此当前迅速发展的互联网时代积累下的数据与算力释放了深度学习神经网络的潜力。

但就当前而言，对于条纹投影技术领域，训练数据的大规模获取与正确标注仍需要耗费大量的人力和物力成本。加之公开的数据集稀少，这都增加了深度学习技术的实施难度。尽管采用仿真的方式获取数据集可在一定程度上降低训练数据采集过程中的成本。但是仿真数据受制于有限的预设参数，它并不能完全等于真实数据。而深度学习的强大能力就在于学习与发掘输入数据与输出数据之间的潜在联系。因此，如何快速获得准确可靠的训练数据是提高深度学习技术在条纹投影技术领域应用效率的一个重要问题。值得注意的是迁移学习将是解决这一问题的一个潜在方案。迁移学习^[54]的初衷是节省人工标注样本的时间，让模型可以通过已有的标记数据向未标记数据迁移，从而训练出适用于未标记数据的运算模型。

6.4. 深度神经网络泛化能力的思考

泛化能力评价的是一个神经网络在完成训练后，在处理“从未遇见过”的输入数据时的表现。对于传统的条纹投影方法而已，得益于构建的数学模型普适通用，对于满足朗伯体假设条件的所有测量对象，均可获得较为理想的三维成像。但是如前所述，深度学习技术是以数据为导向的算法，它依赖于大量的训练数据为其良好的表现提供基础。因此当训练数据的类型较少时，深度神经网络往往难以抽取以及学习有效的图像特征映射。为了提升神经网络在处理全新场景的能力，大规模的训练数据通常是必不可少的。

但是，笔者认为关于神经网络的泛化能力应该能够一分为二的看待。这就像是“通才”与“专才”。“通才”掌握知识全面，但深度有所不足，且往往需要大量的时间累积以获得丰富的知识储备。而“专才”尽管只专注于部分领域，但能够做到精益求精。其实“通才”与“专才”都是社会发展或不可或缺的。

因此，对于条纹投影的应用而言，如果拟研制系统设计的潜在对象类型本身就较为单一，通过单方面地增加相同类型的训练数据就应该能对其性能提高发挥积极的效用。同时还能节省设备的开发周期，有利于专用系统的快速研发。笔者认为一切从实际出发，具体问题具体分析，才能最大限度地发挥深度学习技术的特长。

6.5. “数据驱动”与“物理驱动”双引擎并存

深度学习的强大能力源于大量的训练数据支撑与驱动。因此本质上来说，这样的人工智能只能机械式的学习而缺乏推理能力。图灵奖得主、贝叶斯网络之父Judea Pearl曾指出当前的深度学习“不过只是曲线拟合”。以条纹投影中的条纹分析为例，根据第二节中所述方法，目前基本的策略是两步走：先利用深度学习技术学习求解某项中间变量（比如条纹的实部信息与虚部信息），然后再将中间变量代入反正切函数计算最终的包裹相位。由于缺乏推理能力，神经网络不知道包裹相位具有不连续空间跳变性质的先验知识，难以训练神经网络直接计算包裹相位。

基于物理模型的算法仍是当今世界科技的核心。尽管在许多任务中，数据驱动模型算法表现已优于物理驱动模型算法，但“数据驱动”的可解释性仍是个挑战。对于条纹投影的应用，我们认为需要向当前以“数据驱动”的神经网络引入“物理模型”。只有把数据和物理结合起来，综合运用数据与物理两个世界的优势，才能更全面地揭示出问题的本质。

7. 结　论

文中回顾并讨论了近年来基于深度学习的条纹投影三维成像技术的研究现状。尽管这一研究方向才刚起步，但对于已经经历了几十年发展历程的条纹投影技术而言，这无疑是一个具有强大潜力的新增长点。总的来说，在深度学习技术的辅助下，将条纹投影技术放在以“数据驱动”的神经网络模型中重新考虑后，笔者发现的优势包括：

（1）相位测量效率的提升当前面向运动物体的快速三维成像是条纹投影技术的一个热点研究方向。尽管通过补偿的方式可有效去除由物体运动引起的运动误差，但当物体运动过快时，这类补偿算法仍难以发挥期待的效果。而深度学习技术仅采用单幅光栅图像即可准确恢复物体的相位信息，从而减少了三维图像重建所需的条纹图像数量，提高了成像的效率。结合多视角几何理论，该方法有望成为快速三维成像的一种理想手段。

（2）相位测量精度的提高作为条纹投影技术而言，三维成像质量的优劣直接取决于相位质量的好坏。对于用于求解相位信息的神经网络，当其经过适当的训练，其计算得到的包裹相位比传统的单幅条纹分析方法获得的相位信息更加准确，有效降低相位误差，相位解调精度已接近相移法。

（3）成像稳定性的提升将深度学习应用于相位展开，无论是空域展开还是时域展开，经过深度神经网络的处理，原始包裹相位中的噪声均得到了较好的抑制。这使得即使在信噪比不理想的情况下，依然能获得准确的去包裹相位。此外，将深度学习技术直接应用于条纹图像的去噪，也能较好地去除图像中的噪声。

尽管在深度学习的辅助下，条纹投影三维成像取得新的研究进展。但是人们依然需要意识到，深度学习技术目前还无法做到真正的人工智能，这其中还有很长的路要走。为了能够更好地将深度学习技术应用于条纹投影三维成像技术的研究之中，首先需要明白“深度学习到底学到了什么？”。由于难以把握神经网络的推演机理，为了提升神经网络的性能，大部分人能做的只有试错。因此急需理解神经网络到底是如何思考我们为其布置的任务，进而找到优化神经网络的有效线索，避免无明确方向的试错造成的时间浪费。

在不久的将来，借助于自动机器学习，人们完全可以期待深度神经网络根据自己部署的需求，通过自身的迭代优化，自动地给出最佳的网络架构设计与优化。自动的机器学习将进一步降低深度技术应用的门槛，为条纹投影技术研究与应用的深度定制提供高效可靠的方案。

对于基于深度学习的条纹投影技术研究而言，目前的训练数据基本都需要实地采集与标注，这需要耗费大量的人力和物力成本。在仿真数据尚不能完全代替实拍数据的前提下，基于少量样本的迁移学习将是提高研究效率的一个有效手段。同时，为了保障训练的神经网络能够处理各种不同类型的物体，需要在训练过程中尽可能多的让神经网络接触不同的物体，以提升其泛化能力。但是对于某些专用设备的研制，我们也许能够反向运用这种泛化能力，利用少量的同类样本训练研究针对特定样本的专用算法。最后，为进一步提升神经网络的性能，可在神经网络模型的构建或者迭代过程中加入“物理驱动”的引擎，这样有利于神经网络更为全面地认识问题的本质。

综上所述，条纹投影三维成像技术是一个极具发展前景的三维图像获取技术。在人工智能的辅助下，基于深度学习的条纹投影三维成像在相位测量效率、相位测量精度与三维成像稳定性等方面得到显著提升。这将推动条纹投影技术的进一步快速发展，以及带动该技术在更多领域的深入应用。

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

深度学习技术在条纹投影三维成像中的应用

doi: 10.3788/IRLA202049.0303018

作者简介:
冯世杰（1989-），男，副教授，博士，主要从事三维成像与计算光学成像方面的研究。Email：shijiefeng@njust.edu.cn

通讯作者: 陈钱(1964-)，男，教授，博士生导师，博士，主要从事三维成像、光电成像等方面的研究。Email: chenqian@njust.edu.cn

Application of deep learning technology to fringe projection 3D imaging

计量

深度学习技术在条纹投影三维成像中的应用

doi: 10.3788/IRLA202049.0303018

南京理工大学电子工程与光电技术学院，江苏南京 210094

作者简介:
冯世杰（1989-），男，副教授，博士，主要从事三维成像与计算光学成像方面的研究。Email：shijiefeng@njust.edu.cn

通讯作者: 陈钱(1964-)，男，教授，博士生导师，博士，主要从事三维成像、光电成像等方面的研究。Email: chenqian@njust.edu.cn

English Abstract

Application of deep learning technology to fringe projection 3D imaging

School of Electronic and Optical Engineering, Nanjing University of Science and Technology, Nanjing 210094, China

全文HTML

1.1. 条纹分析

1.2. 相位展开

1.3. 相位与三维坐标转换

2.1. 基于深度学习的单幅光栅条纹分析

2.2. 基于标签增强与区域分块的深度学习条纹分析

2.3. 基于深度学习的条纹图像去噪

3.1. 基于深度学习的空域相位展开

3.1.1. 相位神经网络PhaseNet

3.1.2. 一步相位去包裹法

3.2. 基于深度学习的时域相位展开

4.1. 基于深度学习的深度计算

4.2. 基于深度学习的系统误差标定

6.1. 深度学习到底学到了什么？

6.2. 深度神经网络的架构设计与优化

6.3. 训练数据的获取与标注成本高

6.4. 深度神经网络泛化能力的思考

6.5. “数据驱动”与“物理驱动”双引擎并存

目录

留言板

深度学习技术在条纹投影三维成像中的应用

doi: 10.3788/IRLA202049.0303018

作者简介: 冯世杰（1989-），男，副教授，博士，主要从事三维成像与计算光学成像方面的研究。Email：shijiefeng@njust.edu.cn

通讯作者: 陈钱(1964-)，男，教授，博士生导师，博士，主要从事三维成像、光电成像等方面的研究。Email: chenqian@njust.edu.cn

Application of deep learning technology to fringe projection 3D imaging

计量

出版历程

深度学习技术在条纹投影三维成像中的应用

doi: 10.3788/IRLA202049.0303018

南京理工大学 电子工程与光电技术学院，江苏 南京 210094

作者简介: 冯世杰（1989-），男，副教授，博士，主要从事三维成像与计算光学成像方面的研究。Email：shijiefeng@njust.edu.cn

通讯作者: 陈钱(1964-)，男，教授，博士生导师，博士，主要从事三维成像、光电成像等方面的研究。Email: chenqian@njust.edu.cn

English Abstract

Application of deep learning technology to fringe projection 3D imaging

School of Electronic and Optical Engineering, Nanjing University of Science and Technology, Nanjing 210094, China

全文HTML

1.1. 条纹分析

1.2. 相位展开

1.3. 相位与三维坐标转换

2.1. 基于深度学习的单幅光栅条纹分析

2.2. 基于标签增强与区域分块的深度学习条纹分析

2.3. 基于深度学习的条纹图像去噪

3.1. 基于深度学习的空域相位展开

3.1.1. 相位神经网络PhaseNet

3.1.2. 一步相位去包裹法

3.2. 基于深度学习的时域相位展开

4.1. 基于深度学习的深度计算

4.2. 基于深度学习的系统误差标定

6.1. 深度学习到底学到了什么？

6.2. 深度神经网络的架构设计与优化

6.3. 训练数据的获取与标注成本高

6.4. 深度神经网络泛化能力的思考

6.5. “数据驱动”与“物理驱动”双引擎并存

目录

作者简介:
冯世杰（1989-），男，副教授，博士，主要从事三维成像与计算光学成像方面的研究。Email：shijiefeng@njust.edu.cn

南京理工大学电子工程与光电技术学院，江苏南京 210094

作者简介:
冯世杰（1989-），男，副教授，博士，主要从事三维成像与计算光学成像方面的研究。Email：shijiefeng@njust.edu.cn