留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

融合一致性与差异性约束的光场深度估计

何泽阳 邓慧萍 向森 吴谨

何泽阳, 邓慧萍, 向森, 吴谨. 融合一致性与差异性约束的光场深度估计[J]. 红外与激光工程, 2021, 50(11): 20210021. doi: 10.3788/IRLA20210021
引用本文: 何泽阳, 邓慧萍, 向森, 吴谨. 融合一致性与差异性约束的光场深度估计[J]. 红外与激光工程, 2021, 50(11): 20210021. doi: 10.3788/IRLA20210021
He Zeyang, Deng Huiping, Xiang Sen, Wu Jin. Light field depth estimation of fusing consistency and difference constraints[J]. Infrared and Laser Engineering, 2021, 50(11): 20210021. doi: 10.3788/IRLA20210021
Citation: He Zeyang, Deng Huiping, Xiang Sen, Wu Jin. Light field depth estimation of fusing consistency and difference constraints[J]. Infrared and Laser Engineering, 2021, 50(11): 20210021. doi: 10.3788/IRLA20210021

融合一致性与差异性约束的光场深度估计

doi: 10.3788/IRLA20210021
基金项目: 国家自然科学基金(61702384, 61502357); 湖北省自然科学基金(2015CFB365)
详细信息
    作者简介:

    何泽阳,男,硕士生,主要从事图形图像处理方面的研究

    邓慧萍,女,副教授,主要从事3D视频处理方面的研究

  • 中图分类号: TP391

Light field depth estimation of fusing consistency and difference constraints

  • 摘要: 光场图像深度估计是光场三维重建、目标检测、跟踪等应用中十分关键的技术。虽然光场图像的重聚焦特性为深度估计提供了非常有用的信息,但是在处理遮挡区域、边缘区域、噪声干扰等情况时,光场图像深度估计仍然存在很大的挑战。因此,提出了一种基于极平面图(Epipolar plane image, EPI)斜线像素一致性和极平面图区域差异性的深度估计算法用于解决遮挡和噪声问题。EPI斜线像素的一致性采用旋转线性算子(Spinning linear operator, SLO)的颜色熵度量,能够提高深度图边缘的准确性以及抗噪能力;EPI区域的差异性采用旋转平行四边形算子(Spinning parallelogram operator, SPO)的卡方χ2度量,能够提高深度图深度渐变区域的准确性,并使用置信度加权的方法将两种度量进行融合,可以减少遮挡区域和噪声的干扰。另外,充分利用像素邻域的颜色相似性,使用引导保边滤波器和马尔科夫随机场(Markov random field, MRF)全局优化策略进行后处理,进一步减少深度图的边缘错误,得到遮挡边缘准确的深度图。在HCI光场数据集上进行了实验,并与经典光场深度估计算法进行了对比,结果表明该算法在主观质量和客观指标两方面都有明显提升。
  • 图  1  光场及EPI获取示意图(上),将光场图片叠加后剪切示意图(下)

    Figure  1.  Schematic diagram of light field and EPI acquisition (top), and diagram after overlaying light field images (bottom)

    图  2  SPO、SLO示意图

    Figure  2.  Schematic diagram of SPO and SLO

    图  3  光场深度估计流程图

    Figure  3.  The flow chart of light field depth estimation

    图  4  代价函数准确性分析

    Figure  4.  Analysis of the accuracy of the cost function

    图  5  两种代价函数的准确性对比

    Figure  5.  Comparison of the accuracy of the two cost functions

    图  6  两种代价函数的深度图实验结果比较

    Figure  6.  Comparison of experimental results of depth maps with two cost functions

    图  7  深度误点图结果比

    Figure  7.  Comparison of the results of the depth bad pixel map

    图  8  boxes, dino 深度图细节结果比较

    Figure  8.  Comparison of boxes and dino depth map detail results

    表  1  重要符号物理意义

    Table  1.   Physical significance of important symbols

    SymbolPhysical significanceSymbolPhysical significance
    R(x*N)EPI slashwθ(i,j)SPO distance weight
    E(x*+$\Delta $xN,u)EPI slash pixel coordinate informationχ2(aθ,bθ)SPO histogram χ2 distance
    tanθNEPI slopeDs(P,θN)SPO cost function
    I1I2Pixel adjacent integer pixel valuec,cs,ceAdaptive confidence weight
    w1w2Horizontal distance weightD(P,θN)One-way final cost function
    h(x,u′)Pixel value probabilityDu,v(x,y,θ)Final cost function
    Cei(P,θN)Initial single channel entropy costEunaryMRF data cost
    w(P,θN)Color similarity weightES(p,p(α))SPO data cost
    Ce(P,θN)Final single channel entropy costEe(p,p(α))SLO data cost
    De(P,θN)SLO color entropy cost functionEbinaryMRF smoothing term
    下载: 导出CSV

    表  2  BP>0.07结果对比

    Table  2.   Comparison of results of BP>0.07

    BP>0.07
    boxesCottonSideboarddino
    CAE0.187 80.038 40.120 00.068 8
    IGF0.192 40.141 80.108 30.070 5
    LF0.287 40.100 10.243 20.210 9
    LF_DC0.893 30.889 70.957 80.869 1
    LF_OOC0.405 60.365 50.436 40.252 7
    LF_PAC0.225 50.073 70.100 50.091 0
    MBM0.201 30.068 40.163 30.082 9
    POBR0.397 80.120 60.296 20.271 8
    SPO0.143 30.031 80.073 30.025 1
    Proposed0.141 10.025 50.071 90.023 7
    下载: 导出CSV

    表  3  MSE结果对比

    Table  3.   Comparison of results of MSE

    MSE
    boxesCottonSideboarddino
    CAE0.089 10.026 90.008 60.004 0
    IGF0.106 10.108 30.012 00.009 9
    LF0.162 90.141 00.039 00.017 1
    LF_DC0.121 20.061 80.575 50.030 5
    LF_OOC0.074 80.056 70.043 00.017 2
    LF_PAC0.099 20.070 50.011 00.009 2
    MBM0.101 90.067 10.029 10.013 7
    POBR0.134 80.063 50.046 80.023 4
    SPO0.108 80.041 40.009 90.003 9
    Proposed0.101 70.024 80.009 60.003 5
    下载: 导出CSV
  • [1] Ren Ng, Marc Levoy, Mathieu Brédif, et al. Light field photography with a handheld- plenoptic camera[D]. US: Stanford University, 2005.
    [2] Lytro. The lytro camera[EB/OL]. [2011-10-21] https://www.lytro.com.
    [3] Raytrix.3d light field camera technology[EB/OL]. [2013-05-05] https:// www. raytrix. de.
    [4] Wang Jiahua, Du Shaojun, Zhang Xuanzhe, et al. Design of focused light field computational imaging system with four-types focal lengths [J]. Infrared and Laser Engineering, 2019, 48(2): 0218003. (in Chinese) doi:  10.3788/IRLA201948.0218003
    [5] Zhang Xuanzhe, Wang Yan, Wang Jiahua, et al. Image clarification and point cloud calculation under turbulence by light field camera [J]. Infrared and Laser Engineering, 2020, 49(11): 20200053. (in Chinese) doi:  10.3788/IRLA20200053
    [6] Bolles R C, Baker H H, Ma- rimont D H. Epipolar-plane image analysis: An approach to determining structure from motion [J]. International Journal of Computer Vision, 1987, 1(1): 7-55.
    [7] Jeon H G, Park J, Choe G, et al. Accurate depth map estimation from a lenslet light field camera[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1547-1555.
    [8] Chen C, Lin H, Yu Z, et al. Light field stereo matching using bilateral statistics of surface cameras[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1518-1525.
    [9] Zhang S, Sheng H, Yang D, et al. Micro-lens-based matching for scene recovery in lenslet cameras [J]. IEEE Transactions on Image Processing, 2017, 27(3): 1060-1075.
    [10] Fan Xiaoting, Li Yi, Luo Xiaowei, et al. Depth estimation based on light field structure characteristic and multiview matching [J]. Infrared and Laser Engineering, 2019, 48(5): 0524001.
    [11] Tao M W, Hadap S, Malik J, et al. Depth from combining defocus and correspondence using light-field cameras[C]//Proceedings of the IEEE International Conference on Computer Vision, 2013: 673-680.
    [12] Tao M W, Srinivasan P P, Malik J, et al. Depth from shading, defocus, and correspondence using light-field angular coherence[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1940-1948.
    [13] Wang T C, Efros A A, Ramamoorthi R. Occlusion-aware depth estimation using light-field cameras[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 3487-3495.
    [14] Williem W, Park I K. Robust light field depth estimation for noisy scene with occlusion[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4396-4404.
    [15] Park I K, Lee K M. Robust light field depth estimation using occlusion-noise aware data costs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(10): 2484-2497.
    [16] Guo Z, Wu J, Chen X, et al. Accurate light field depth estimation using multi-orientation partial angular coherence [J]. IEEE Access, 2019, 7: 169123.
    [17] Sheng H, Zhang S, Cao X, et al. Geometric occlusion analysis in depth estimation using integral guided filter for light-field image [J]. IEEE Transactions on Image Processing, 2017, 26(12): 5758-5771.
    [18] Chen J, Hou J, Ni Y, et al. Accurate light field depth estimation with superpixel regularization over partially occluded regions [J]. IEEE Transactions on Image Processing, 2018, 27(10): 4889-4900.
    [19] Wanner S, Goldluecke B. Globally consistent depth labeling of 4D light fields[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition, 2012: 41-48.
    [20] Wanner S, Goldluecke B. Variational light field analysis for disparity estimation and super-resolution [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 36(3): 606-619.
    [21] Kim C, Zimmer H, Pritch Y, et al. Scene reconstruction from high spatio-angular resolution light fields [J]. ACM Trans Graph, 2013, 32(4): 1-73.
    [22] Huang Z, Lin C W, Shao H C, et al. Consistency constrained reconstruction of depth maps from epipolar plane images[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019: 2292-2296.
    [23] Zhang S, Sheng H, Li C, et al. Robust depth estimation for light field via spinning parallelogram operator [J]. Computer Vision and Image Understanding, 2016, 145: 148-159.
    [24] Sheng H, Zhao P, Zhang S, et al. Occlusion-aware depth estimation for light field using multi-orientation EPIs [J]. Pattern Recognition, 2018, 74: 587-599.
    [25] Li J, Jin X. EPI-neighborhood distribution based light field depth estimation[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020: 2003-2007.
    [26] Schilling H, Diebold M, Rother C, et al. Trust your model: Light field depth estimation with inline occlusion handling[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4530-4538.
    [27] Martin D R, Fowlkes C C, Malik J. Learning to detect natural image boundaries using local brightness, color, and texture cues [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(5): 530-549.
    [28] He K, Sun J, Tang X. Guided image filtering[C]//European Conference on Computer Vision, 2010: 1-14.
    [29] Boykov Y, Veksler O, Zabih R. Fast approximate energy minimization via graph cuts [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(11): 1222-1239.
    [30] Honauer K, Johannsen O, Kondermann D, et al. A dataset and evaluation methodology for depth estimation on 4D light fields[C]//Asian Conference on Computer Vision, 2016: 19-34.
  • [1] 曹军峰, 丁庆海, 罗海波.  基于空间非一致模糊核标定的红外图像超分辨率重建方法 . 红外与激光工程, 2024, 53(2): 20230252-1-20230252-10. doi: 10.3788/IRLA20230252
    [2] 王兆明, 栗孟娟, 于秋跃, 李春林, 赵子跃, 王经华, 吕天斌, 张兆健, 于长锁.  两面共体非球面反射镜光轴一致性高精度测量方法研究 (特邀) . 红外与激光工程, 2023, 52(9): 20230476-1-20230476-8. doi: 10.3788/IRLA20230476
    [3] 王瑞, 刘博, 李志康, 陈臻, 易皓.  光子计数激光雷达的自适应时空关联深度估计 . 红外与激光工程, 2023, 52(5): 20220682-1-20220682-9. doi: 10.3788/IRLA20220682
    [4] 邬淼, 陆俣, 冒添逸, 何伟基, 陈钱.  单光子激光雷达的时间相关多深度估计 . 红外与激光工程, 2022, 51(2): 20210885-1-20210885-9. doi: 10.3788/IRLA20210885
    [5] 李霖, 王红梅, 李辰凯.  红外与可见光图像深度学习融合方法综述 . 红外与激光工程, 2022, 51(12): 20220125-1-20220125-20. doi: 10.3788/IRLA20220125
    [6] 高琰, 肖小月, 李小虎, 朱洪, 唐琎, 郭璠.  非一致重叠率大批量航拍远红外图像拼接方法研究 . 红外与激光工程, 2022, 51(7): 20210611-1-20210611-12. doi: 10.3788/IRLA20210611
    [7] 雷韫璠, 王龙, 钟红军, 张辉, 武延鹏.  基于轨迹一致性检测的空间碎片天基识别方法 . 红外与激光工程, 2022, 51(11): 20220076-1-20220076-10. doi: 10.3788/IRLA20220076
    [8] 霍炬, 何明轩, 李云辉, 薛牧遥.  位移矢量一致下的多飞行器三维轨迹跟踪识别 . 红外与激光工程, 2020, 49(10): 20200141-1-20200141-9. doi: 10.3788/IRLA20200141
    [9] 石峰, 余大权, 林子韬, 杨书宁, 苗壮, 杨晔, 张闻文.  基于自适应对焦窗口的计算鬼成像目标深度估计方法 . 红外与激光工程, 2020, 49(3): 0303020-0303020-8. doi: 10.3378/IRLA202049.0303020
    [10] 范明明, 田少卿, 刘凯, 赵嘉鑫, 李云松.  基于梯度方向一致性和特征分解的红外小目标检测算法 . 红外与激光工程, 2020, 49(1): 0126001-0126001(12). doi: 10.3788/IRLA202049.0126001
    [11] 庄子波, 陈星, 台宏达, 宋德龙, 徐丰田, 邢志伟.  双激光雷达的水平风场估计方法 . 红外与激光工程, 2019, 48(10): 1005008-1005008(8). doi: 10.3788/IRLA201948.1005008
    [12] 梁欣凯, 宋闯, 赵佳佳.  基于深度学习的序列图像深度估计技术 . 红外与激光工程, 2019, 48(S2): 134-141. doi: 10.3788/IRLA201948.S226002
    [13] 范晓婷, 李奕, 罗晓维, 张凝, 韩梦芯, 雷建军.  基于光场结构特性与多视点匹配的深度估计 . 红外与激光工程, 2019, 48(5): 524001-0524001(8). doi: 10.3788/IRLA201948.0524001
    [14] 张秀玲, 侯代标, 张逞逞, 周凯旋, 魏其珺.  深度学习的MPCANet火灾图像识别模型设计 . 红外与激光工程, 2018, 47(2): 203006-0203006(6). doi: 10.3788/IRLA201847.0203006
    [15] 杨楠, 南琳, 张丁一, 库涛.  基于深度学习的图像描述研究 . 红外与激光工程, 2018, 47(2): 203002-0203002(8). doi: 10.3788/IRLA201847.0203002
    [16] 黄玲玲.  基于手性光场作用的超颖表面的相位调控特性及其应用 . 红外与激光工程, 2016, 45(6): 634001-0634001(8). doi: 10.3788/IRLA201645.0634001
    [17] 闫勇刚, 邓小玲, 马祥, 欧阳健飞.  人体皮肤彩色视频误差分析及一致性提高 . 红外与激光工程, 2016, 45(S1): 222-226. doi: 10.3788/IRLA201645.S126005
    [18] 王琳, 张少辉, 李霄, 邵晓鹏.  应用相位一致性评价多光谱遥感图像条带噪声 . 红外与激光工程, 2015, 44(10): 3148-3154.
    [19] 王敏, 黄成功, 郭正红, 许振领, 亓凤杰, 李华.  红外成像导引头闭环注入式仿真试验系统设计及一致性分析 . 红外与激光工程, 2014, 43(10): 3211-3216.
    [20] 孙韶媛, 李琳娜, 赵海涛.  采用KPCA和BP神经网络的单目车载红外图像深度估计 . 红外与激光工程, 2013, 42(9): 2348-2352.
  • 加载中
图(8) / 表(3)
计量
  • 文章访问数:  263
  • HTML全文浏览量:  140
  • PDF下载量:  39
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-05-25
  • 修回日期:  2021-06-20
  • 网络出版日期:  2021-12-03
  • 刊出日期:  2021-11-30

融合一致性与差异性约束的光场深度估计

doi: 10.3788/IRLA20210021
    作者简介:

    何泽阳,男,硕士生,主要从事图形图像处理方面的研究

    邓慧萍,女,副教授,主要从事3D视频处理方面的研究

基金项目:  国家自然科学基金(61702384, 61502357); 湖北省自然科学基金(2015CFB365)
  • 中图分类号: TP391

摘要: 光场图像深度估计是光场三维重建、目标检测、跟踪等应用中十分关键的技术。虽然光场图像的重聚焦特性为深度估计提供了非常有用的信息,但是在处理遮挡区域、边缘区域、噪声干扰等情况时,光场图像深度估计仍然存在很大的挑战。因此,提出了一种基于极平面图(Epipolar plane image, EPI)斜线像素一致性和极平面图区域差异性的深度估计算法用于解决遮挡和噪声问题。EPI斜线像素的一致性采用旋转线性算子(Spinning linear operator, SLO)的颜色熵度量,能够提高深度图边缘的准确性以及抗噪能力;EPI区域的差异性采用旋转平行四边形算子(Spinning parallelogram operator, SPO)的卡方χ2度量,能够提高深度图深度渐变区域的准确性,并使用置信度加权的方法将两种度量进行融合,可以减少遮挡区域和噪声的干扰。另外,充分利用像素邻域的颜色相似性,使用引导保边滤波器和马尔科夫随机场(Markov random field, MRF)全局优化策略进行后处理,进一步减少深度图的边缘错误,得到遮挡边缘准确的深度图。在HCI光场数据集上进行了实验,并与经典光场深度估计算法进行了对比,结果表明该算法在主观质量和客观指标两方面都有明显提升。

English Abstract

    • 4D光场(LF)图像[1]是一种同时记录场景中的强度信息和光线方向的图像。早些时期,人们通过密集相机阵列获取的4D光场图像,但这种方法成本较高耗时较长,图像基线较大。近年来,随着商用光场相机Lytro[2]和Raytrix[3]的出现,可以更快速便捷的得到基线较小的4D光场图像。4D光场图像与传统2D图像相比有着更加广泛的应用,光场深度估计作为光场图像处理中的关键应用,可以使用数字重聚焦[4]的结果进行处理,是图像超分辨率、三维重建、3D点云[5]中的关键技术。

      深度估计是指通过图像中的信息估计对应场景的深度信息,传统图像的深度估计通常通过立体匹配的思想计算深度,而光场图像拥有不同视角的光线方向信息,可以通过光场图像的不同特性计算场景深度。目前,光场深度估计方法一般分为以下几类:基于子孔径图像的多视角立体匹配算法、基于重聚焦图像和角度块的算法、基于极平面图(Epipolar plane image, EPI)[6] 的算法。

      EPI作为光场图像特有的一种可视化方法,同时包含空间域与角度域的信息,有利于解决深度估计的遮挡问题。文中以EPI斜线像素一致性作为EPI视差图的判断准则,建立了一种基于旋转线性算子(Spinning linear operator,SLO)的代价函数,并利用RGB颜色熵的代价函数对斜线像素的一致性进行衡量。同时,充分利用SPO的优点,采用基于代价成本置信度的融合方法,将SLO的代价成本与SPO代价成本进行加权融合。最后,利用引导保边缘滤波器和全局优化方法,进一步提高深度图准确性。提出的算法与传统光场深度估计算法在HCI数据集上进行了实验验证和比较,结果表明在边缘处理和噪声鲁棒性方面,文中算法表现出更好的性能。

      文中的主要贡献包括:

      (1)提出了一种基于颜色熵和旋转线性算子的EPI斜线像素一致性代价函数用于深度估计。该方法可以准确的计算遮挡边缘,并对噪声鲁棒性较强;

      (2)引入了一种置信度加权的融合方法,将EPI斜线像素一致性代价函数和基于SPO的EPI区域差异进行代价函数结合,形成代价互补。之后使用引导滤波和基于马尔科夫随机场(Markov random field,MRF)的全局优化策略进行后处理,得到的深度图在HCI数据集上的综合表现优于目前经典算法。

    • 传统的光场深度估计方法根据光场可视化方法的不同,主要包括基于多视角立体匹配的算法、基于重聚焦图像和角度块的算法、基于EPI的算法。

      基于多视角立体匹配的算法基本思想来自于传统2D立体匹配,通过光场子孔径图像中相邻视角图像的视差关系,进行深度估计。Jeon[7]提出了一种基于相移的亚像素多视角匹配算法用于光场深度估计。Chen[8]设计了一种基于双边统计的光场立体匹配算法。Zhang[9]提出了一种基于微透镜匹配的光场信息恢复框架,可用于深度估计。Fan[10]提出了一种基于光场结构特性优化的多视点匹配光场深度估计算法。然而基于多视角立体匹配的算法与传统的立体匹配算法类似,对遮挡区域的处理效果不好,很难处理多遮挡的场景,对噪声也比较敏感。

      基于重聚焦和角度块的深度估计算法的主要思想是利用光场图像可以先拍照再聚焦的特性,获得全聚焦图像和焦堆栈,然后匹配焦堆栈角块和子孔径图像角块寻求正确的聚焦度,最后根据聚焦度与深度的对应关系求得准确的深度。这类方法利用了光场图像的重聚焦特性,能有效的处理遮挡和噪声问题。Tao[11-12]提出了一种以融合离焦线索和匹配线索作为代价函数的算法,并在之后加以阴影约束优化代价,以获得正确的深度图。Wang[13]提出了一种基于角度块与空间块相似性的算法,对遮挡的鲁棒性十分出色,但初始结果处理较差,依赖于后处理和优化。Willem[14-15]提出了一种基于角度熵的深度估计算法,并采用了全局优化的模型,得到了很好的效果。Guo[16]设计了一种基于多方向角相干的深度估计算法,根据角相干方向与空间中遮挡方向相同的原理处理遮挡问题。Sheng[17]设计了一种基于角度块特性的积分引导滤波器,可以应用到其他光场深度估计框架中处理遮挡问题。Chen[18]提出了一种基于超像素正则化的深度估计算法,在处理部分遮挡场景时展现出杰出的效果。然而这类算法比较依赖于焦堆栈角块中的图像信息,当焦堆栈角块信息不足,例如处理完全遮挡场景和深度变化不明显区域时,表现较差。

      EPI作为光场图像的一种特殊的可视化表示方法,最早由Bolles[6]提出。基于EPI的光场深度估计将光场图像的表示形式从普通的子孔径图像转换为EPI,从而在一张图上同时获取空间坐标和角度坐标,将视差具体为EPI斜线斜率。图1为EPI的获取过程两种表示方法,上半为平面表示,下半为3D立体表示。由于这类方法不是直接从图像空间关系入手,会减少遮挡物体的影响。Wanner[19-20]提出的结构张量代价在早期研究中被广泛应用,其泛用性和基本性能很强,但也十分依赖于高分辨率光场图像,对遮挡和噪声处理的效果也不够优秀。Kim[21]提出的从细到粗的深度估计框架,以边缘点为支撑点做对应EPI线的一致性检测,以其深度值做深度扩散得到最终结果。Huang[22]在Kim的基础上更改了代价,提出了三种线索结合的代价度量斜线一致性,提高了边缘效果。Zhang[23]设计了一种旋转平行四边形算子用于EPI斜线左右区域的差异比较,以此差异为依据计算深度图。Sheng[24]在Zhang的基础上提出了基于多方向EPI的算法,进一步处理了遮挡问题。Li[25]提出了一种基于重聚焦和EPI相结合的深度估计算法,通过正确聚焦的EPI线垂直的原理计算深度,对遮挡处理较好。Schilling[26]设计了一种基于EPI线遮挡的优化算法,对SPO算法在某些边缘处处理不好的缺点进行了优化,达到了优秀的效果。其中,SPO算法是目前基于EPI的光场深度估计算法中性能最好的一种算法,其思想是从EPI斜线斜率与深度对应关系出发,通过EPI斜线两侧区域差异性作为EPI斜线选择标准,利用直方图卡方距离度量差异性,得到深度图。该算法对大多遮挡和噪声处理效果较好,但基本忽略了EPI斜线上的像素一致性,所以对某些遮挡边缘区域会产生错误估计。

      图  1  光场及EPI获取示意图(上),将光场图片叠加后剪切示意图(下)

      Figure 1.  Schematic diagram of light field and EPI acquisition (top), and diagram after overlaying light field images (bottom)

    • 4D光场图像可表示为:L(x,y,u,v), 其中xy为光场的空间坐标,uv为光场的角度坐标。EPI图像是一种包含空间域和角度域信息的光场表示形式。因此,当固定光场图像的yv,改变xu时,就可以得到以xu为长和宽的横向 EPI,表示为:

      $$ U_{y, v}(x, u)=L\left(x, y^{*}, u, v^{*}\right) $$ (1)

      同样,当假定光场图像的xu固定,只改变yv可以产生纵向的EPI,表示为:

      $$ U_{x, u}(y, v)=L\left(x^{*}, y, u^{*}, v\right) $$ (2)

      视差是真实世界中的一点在不同视角的子孔径图像中位置的差异。在EPI中,视差可以通过同一个像素点组成的EPI斜线倾斜角度来表示。如图2所示,以点P为中心包含一组旋转的EPI斜线,当倾斜角为θ的斜线L1为正确的EPI斜线(所对应的斜率为该点的深度),其深度z就可以计算为:

      图  2  SPO、SLO示意图

      Figure 2.  Schematic diagram of SPO and SLO

      $$ z=\frac{f \cdot \Delta u}{\Delta x}=-\frac{f}{\tan \theta} $$ (3)

      式中:f为相机焦距;∆u为相邻视角图像的度量距离;∆x为同一个点在两个相邻不同视角中的视差值;tanθ表示EPI中相同像素组成的斜线斜率。通过公式(3)求解真实深度的问题就被转变成了求解角θ值的问题。

      图2L1所示,组成这条斜线的每个点的像素值基本一致,所以其斜线一致性相比于错误的EPI斜线L2L3来说更大。另一方面,由L1分割的两侧区域λ1λ2的像素分布可以看出,相比于错误EPI斜线L2L3两侧区域,其区域差异性更大。

      因此,文中从EPI斜线斜率的角度出发,通过EPI斜线像素一致性性和EPI斜线两侧区域差异性两个方面的约束来确定正确的EPI斜线,提出基于SLO的EPI斜线一致性代价函数和基于SPO的EPI区域差异性代价函数来估计光场的深度图。如图3所示为整体流程:首先对子孔径图像进行剪切得到EPI,然后分别通过基于SLO的EPI斜线一致性代价函数和基于SPO的EPI区域差异性代价函数得到两种代价成本,再通过自适应置信度权值融合两种代价,并置信度融合横纵EPI代价,最后采用引导滤波器和MAP-MRF进行后处理,得到最终深度图。

      图  3  光场深度估计流程图

      Figure 3.  The flow chart of light field depth estimation

    • 为了得到EPI斜线,文中建立了新型的旋转线性算子:

      $$ R\left(x^{*}, \theta_{N}\right)=\left\{E\left(x^{*}+\Delta x_{N}, u\right) \mid u=1,2, \ldots\right\} $$ (4)
      $$ \Delta x_{N}=\left\{\left(u-u^{*}\right) ⋅\left(1 / \tan \theta_{N}\right) \mid u=1,2, \ldots\right\} $$ (5)

      式中:R(x*N)表示对应θN的假设EPI斜线;x*为中心视角中的所求像素点的水平坐标;E(x*+$\Delta $xN,u)表示在不同的角度坐标下,假设EPI线上的像素在图像中的坐标信息;tanθN表示假定EPI斜线斜率。

      特别地,为了解决半像素问题,文中采用了线性插值的方法来计算EPI斜线上每一个像素的假定像素值:

      $$ I\left(x, u^{\prime}\right)=\frac{1}{w_{1}} ⋅ I_{1}+\frac{1}{w_{2}}⋅ I_{2} $$ (6)

      式中:I(x,u′)表示E(x*+$\Delta $xN,u)坐标位置的假定像素值;I1I2表示该假定像素左右相邻的整像素值;w1w2表示该像素位置到左右两点的水平距离权值,根据该式,距离该像素近的整像素占比大,距离该像素远的整像素占比小,可以求得假定的EPI斜线像素值。

      得到斜线像素值之后,需要对这组像素值进行一致性衡量,由于信息熵这类代价函数对比于直接通过像素值进行计算的代价函数,考虑的是EPI斜线的像素复杂程度,当有噪声干扰使某个像素值变化较大时,不会对整体斜线的代价函数结果产生过大的影响,对噪声鲁棒性更强。因此文中设计了基于颜色熵的EPI斜线像素一致性代价函数:

      $$ C_{ei}\left(P, \theta_{N}\right)=-\sum_{{u}^{\prime} \in {u}} h\left(x, u^{\prime}\right) \log \left(h\left(x, u^{\prime}\right)\right) $$ (7)

      式中:h(x,u′)表示I(x,u′)的像素值概率。

      由于颜色熵基本舍弃了像素值本身的信息,只考虑了概率分布,对某些特殊像素分布会产生错误衡量。为了考虑像素值信息,文中通过计算EPI斜线上点的像素值与中心视角像素值差值的均值,设计了一种基于颜色相似性的自适应权重,并加以高斯核,从两方面约束了EPI斜线上的像素一致性,增加代价函数的鲁棒性。表示为:

      $$C_e(P,\theta _N)={\rm{e}}^{-\left( \frac{C_{ei}^{2}\left( P,\theta _N \right)}{2\sigma ^2} \right)}⋅w\left( P,\theta _N \right)$$ (8)
      $$w\left( P,\theta _N \right) =\frac{{\rm{e}}^{-\left( \frac{S_W}{2\sigma ^2} \right)}}{N}$$ (9)
      $$ S_{W}=-\left(\sum_{{u}^{\prime} \in {u}}\left(I\left(x, u^{\prime}\right)-I\left(x, u^{*}\right)\right)^{2}\right) $$ (10)

      式中:Ce(P,θN)表示最终的单通道熵代价函数;Cei(P,θN)为公式(7)计算得到的初始单通道熵代价函数;w(P,θN)表示假定EPI斜线上所有点与目标像素点的颜色相似性权重;N为像素个数;SW表示EPI斜线像素与中心视角像素的差异,具体表示为所有像素与中心视角像素的像素值差值平方和。当假定EPI斜线上像素点差异性越小,其熵值和颜色差异就越小,初始颜色熵成本值和权重值就越大,最终代价值就越大,达到了双线索互补的效果。

      最后充分利用颜色空间信息,通过RGB三通道均值求得最终的颜色熵代价函数:

      $$D_e(P,\theta _N)=\frac{C_{eR}(P,\theta _N)+C_{eG}(P,\theta _N)+C_{eB}(P,\theta _N)}{3}$$ (11)
    • 基于SPO的EPI区域差异性代价函数主要通过计算EPI斜线两侧区域直方图卡方距离作为差异度量,并依据像素点到直方图的距离加以不同的直方图权重,得到最终的代价函数。

      为了计算SPO算法的代价成本,首先设计算子和相应权重:

      $$w_{\theta}(i,j)=c\cdot d_{\theta}(i,j)\cdot {\rm{e}}^{\frac{-d_{\theta}^{2}(i,j)}{2\alpha ^2}}$$ (12)

      式中:dθ(i,j)=i−(xr+(j−ur)·tanθ)为EPI同一行中所选取的深度测量点与其左右邻域中某一点的水平距离,(xr+(j−ur)·tanθ)为假定EPI斜线与该点交点的水平位置;α为衡量SPO宽度的尺度参数;c为正则化系数。实验中,一般取SPO的大小为u*3α,即高为角度分辨率u,宽为尺度参数α的三倍。

      之后,通过直方图的卡方距离[27]衡量假定EPI斜线左右领域的颜色差异:

      $$\chi ^2\left( a_{\theta},b_{\theta} \right) =\sum_i{\frac{\left( a_{\theta}(i)-b_{\theta}(i) \right) ^2}{a_{\theta}(i)+b_{\theta}(i)}}$$ (13)

      式中:aθ(i)和bθ(i)为两侧区域的颜色直方图。如果χ2的值很大,即表示两侧区域差异大,所以选取的EPI斜线就越正确。按照该原理,可以得到代价成本最大的EPI斜线斜率,从而计算正确深度值。特别的,该算法利用卷积的计算方法计算χ2距离,提高了计算效率。最终得到了SPO算法的最终直方图卡方距离代价函数:

      $$D_s(P,\theta _N)=\chi ^2\left( a_{\theta_{_N}},b_{\theta_{_N}} \right) $$ (14)

      SLO代价函数和SPO代价函数都值分别考虑了对应的EPI斜线衡量特性,如图4为HCI数据集box的一张横向EPI对的代价成本分布,SPO求得最大标签为68,SLO求得最大标签为69,GT标签值为68.5317。可以看出两种代价函数都能分别计算出正确的EPI斜线。

      然而,由于两种代价函数都只考虑了一个方面,所以各有缺点。基于SLO的斜线一致性代价函数在深度渐变区域表现较差,会检测出错误边缘。而基于SLO的区域差异性代价函数在边缘判定和噪声鲁棒性方面表现较差,边缘不够准确噪点过多。如图5所示,一张横向EPI上SPO和SLO两种代价函数分别会在某些点计算正确或计算错误。而整体效果如图6所示,boxes、dino图像用SPO代价函数与SLO代价函数直接WTA选择和进行不做后处理的结果比较,从结果可以看出SPO代价函数在边缘处有模糊现象,而物体内部噪点也较多;而SLO代价函数在深度渐变区域分层较为严重,会检测出错误的边缘情况。从结果可以看出,SPO算法和SLO算法各有利弊。

      图  4  代价函数准确性分析

      Figure 4.  Analysis of the accuracy of the cost function

      图  5  两种代价函数的准确性对比

      Figure 5.  Comparison of the accuracy of the two cost functions

      图  6  两种代价函数的深度图实验结果比较

      Figure 6.  Comparison of experimental results of depth maps with two cost functions

      因此,文中提出了一种基于置信度权值的代价融合算法,将两种代价有机的结合在一起,从而使两种算法的形成互补,得到一种新的代价,弥补了两种算法的不足。

    • 首先,文中设计了一种基于代价成本最大值和平均值比值的置信度权值,当代价函数计算出的代价成本属于正确EPI斜线时,其分布应乘单峰形状,所以按照以下公式,其权值就会更大,从而更容易被最后的MRF函数选择:

      $$ c=\exp \left(-\frac{\bar{D} / D_{\max }}{2 \sigma^{2}}\right) $$ (15)

      式中:$ D_{\max }=\max _{D} D(P, \theta) $$ \bar{D}=\sum_{\theta} D(P, \theta) $

      之后通过置信度权值将两种代价结合:

      $$\begin{split} D(P,\theta _N)=&c_s\left( P,\theta _N \right) D_s\left( P,\theta _N \right)+\\ &c_e\left( P,\theta _N \right) D_e\left( P,\theta _N \right)\\ \end{split}$$ (16)

      特别的,EPI可以有横向和纵向两种选取方式如公式(1)、(2),所以可以将两个方向的EPI代价相结合,解决不同视角下的遮挡问题:

      $$\begin{split} D_{u,v}(x,y,\theta )=&c_{y,v^*}\left( x,u^* \right) D_{y,v^*}\left( x,u^*,\theta \right)+\\ &c_{x,u^*}\left( y,v^* \right) D_{x,v^*}\left( y,v^*,\theta \right) \end{split}$$ (17)

      然后对得到的新代价成本采用引导图为中心子孔径的引导滤波器[28]进行保边滤波,得到了初步优化的整体代价成本,文中公式物理量具体含义如表1所示。

      表 1  重要符号物理意义

      Table 1.  Physical significance of important symbols

      SymbolPhysical significanceSymbolPhysical significance
      R(x*N)EPI slashwθ(i,j)SPO distance weight
      E(x*+$\Delta $xN,u)EPI slash pixel coordinate informationχ2(aθ,bθ)SPO histogram χ2 distance
      tanθNEPI slopeDs(P,θN)SPO cost function
      I1I2Pixel adjacent integer pixel valuec,cs,ceAdaptive confidence weight
      w1w2Horizontal distance weightD(P,θN)One-way final cost function
      h(x,u′)Pixel value probabilityDu,v(x,y,θ)Final cost function
      Cei(P,θN)Initial single channel entropy costEunaryMRF data cost
      w(P,θN)Color similarity weightES(p,p(α))SPO data cost
      Ce(P,θN)Final single channel entropy costEe(p,p(α))SLO data cost
      De(P,θN)SLO color entropy cost functionEbinaryMRF smoothing term
    • 得到初步优化的整体代价成本后,需要对每个深度标签的对应代价成本进行选择,传统方法采用赢者通吃(Winner take all,WTA)的算法,直接通过代价值选择出最优结果。文中采用了一种基于马尔科夫随机场框架[29]的全局优化模型用于代价优化和选择,定义为:

      $$\begin{aligned} E=&\sum_{{p}}{E_{\mathrm{unary}}}({p},\alpha ({p}))+\\ &\lambda \sum_{{p}}{\sum_{{q}\in N({p})}{E_{\mathrm{binary}}}}({p},{q},\alpha ({p}),\alpha ({q}))\\ \end{aligned}$$ (18)

      式中:p为被测量深度的像素点;α(p)为该像素点的深度标签;Eunary为马尔科夫最小能量函数的成本项,用于衡量深度标签给予该像素的能量大小;N(p)为像素p的邻域像素;Ebinary为马尔科夫最小能量函数的平滑项,通过计算像素p与其邻域像素的强度一致性(forces consistency)得到。

      文中提出了一种全局优化模型用于优化每个深度标签代价成本,可展开为:

      $$E_{\mathrm{unary}}=c_sE_s({p},{p(}\alpha ))+c_eE_e({p},{p(\alpha ))}$$ (19)

      式中:Es(p,p(α))为基于选择平行四边形算子算法(SPO)计算得到的最终代价值;Ee(p,p(α))为基于旋转线性算子所计算得到的最终代价值;csce分别为两项数据项的置信度权值,用于增加算法的鲁棒性;csce的具体数值为自适应权值,由公式(15)计算得到。

      平滑项体现了图像局部空间内的平滑特性,可展开为:

      $$ \begin{array}{l} E_{\text {binary }}({p}, {q}, \alpha({p}), \alpha({q})=\\ \nabla I({p}, {q}) \min (|\alpha({p})-\alpha({q})|, \tau) \end{array} $$ (20)

      式中:$\nabla $I(p,q)为邻域像素p与中心像素q的强度差异;τ为截断值。将初始优化的整体代价通过MRF全局模型处理后,既能对代价进行后处理,也能通过最小能量函数选择出正确的深度标签。最终将深度标签对应的深度值映射到图中,就能够得到了文中算法的最终深度图结果。

    • 文中将所提出的算法在HCI[30]的公开4D光场数据集进行了实验验证,并与经典的光场深度估计算法CAE[15]、IGF[17]、LF[7]、LF_DC[12]、LF_OOC[13]、LF_PAC[16]、MBM[9]、POBR[18]、SPO[23]进行了比较。

      主观质量方面,采取了深度误点图和深度细节图进行对比验证,实验结果如图7所示是图片boxes,cotton,sideboard,dino测试的误点图结果。从图中可以看出,CAE算法虽然边缘计算准确,但在深度渐变及背景区域会检测出错误的边缘,LF_DC算法处理新HCI数据集会产生模糊效应,LF_OOC算法在物体内部噪点较多无法滤除,SPO算法处理某些物体边缘较差,物体内部也会有少量噪点。文中算法误点最少,边缘和背景区域计算也基本正确,对比于其他传统算法基本达到了最好的效果。

      图  7  深度误点图结果比

      Figure 7.  Comparison of the results of the depth bad pixel map

      图8所示的boxes细节部分,文中提出的算法相比于其他算法在盒子的边缘区域处理的更好,对塑料框的上沿也处理的很好;dino细节部分的橱柜和积木边缘也较其他算法更为清晰准确。

      图  8  boxes, dino 深度图细节结果比较

      Figure 8.  Comparison of boxes and dino depth map detail results

      在定量评估方面,文中采取了均方误差MSE和坏点率BP评判标准:

      $$ {\rm{M S E}}=\frac{1}{N} \sum_{{p}}\left|{{{\rm{G T}}}}({p})-\alpha^{*}({D})\right|^{2} $$ (21)
      $$ {\rm{B P}}=\frac{1}{N} \sum\limits {{p}}\left|{{{\rm{G T}}}}({p})-\alpha^{*}({p})\right|>\delta $$ (22)

      式中:α*p点计算出的深度;GT(p)为p点真值深度;N为像素点个数;δ是深度误差阈值,如果计算结果中的深度值与深度真值差距大于阈值则会将该像素点判定为坏点,此次选择BP>0.07作为评判标准。

      定量指标上,如表2表3所示,文中所提出的算法在所有图片的BP>0.07上,与其他算法相比达到了最佳,MSE也有两张图片达到最佳,综合效果也十分杰出。

      表 2  BP>0.07结果对比

      Table 2.  Comparison of results of BP>0.07

      BP>0.07
      boxesCottonSideboarddino
      CAE0.187 80.038 40.120 00.068 8
      IGF0.192 40.141 80.108 30.070 5
      LF0.287 40.100 10.243 20.210 9
      LF_DC0.893 30.889 70.957 80.869 1
      LF_OOC0.405 60.365 50.436 40.252 7
      LF_PAC0.225 50.073 70.100 50.091 0
      MBM0.201 30.068 40.163 30.082 9
      POBR0.397 80.120 60.296 20.271 8
      SPO0.143 30.031 80.073 30.025 1
      Proposed0.141 10.025 50.071 90.023 7

      表 3  MSE结果对比

      Table 3.  Comparison of results of MSE

      MSE
      boxesCottonSideboarddino
      CAE0.089 10.026 90.008 60.004 0
      IGF0.106 10.108 30.012 00.009 9
      LF0.162 90.141 00.039 00.017 1
      LF_DC0.121 20.061 80.575 50.030 5
      LF_OOC0.074 80.056 70.043 00.017 2
      LF_PAC0.099 20.070 50.011 00.009 2
      MBM0.101 90.067 10.029 10.013 7
      POBR0.134 80.063 50.046 80.023 4
      SPO0.108 80.041 40.009 90.003 9
      Proposed0.101 70.024 80.009 60.003 5
    • 文中从光场极平面图入手,根据EPI斜线斜率与深度的对应关系设计了基于旋转线性算子SLO的EPI 斜线像素一致性代价函数,并与基于SPO的EPI斜线两侧区域差异性代价函数置信度加权结合, 得到了兼顾两种特性的融合代价函数,最后使用了引导滤波和基于MRF的全局优化的后处理方法,得到最终的深度图。并将文中的结果与经典的传统光场深度估计算法进行了比较,实验结果表明,在边缘处理和噪声鲁棒性上都有很大提升,综合效果达到最佳。

参考文献 (30)

目录

    /

    返回文章
    返回