留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

边缘信息引导多级尺度特征融合的显著性目标检测方法

王向军 李名洋 王霖 刘峰 王玮

王向军, 李名洋, 王霖, 刘峰, 王玮. 边缘信息引导多级尺度特征融合的显著性目标检测方法[J]. 红外与激光工程, 2023, 52(1): 20220344. doi: 10.3788/IRLA20220344
引用本文: 王向军, 李名洋, 王霖, 刘峰, 王玮. 边缘信息引导多级尺度特征融合的显著性目标检测方法[J]. 红外与激光工程, 2023, 52(1): 20220344. doi: 10.3788/IRLA20220344
Wang Xiangjun, Li Mingyang, Wang Lin, Liu Feng, Wang Wei. Salient object detection method based on multi-scale feature-fusion guided by edge information[J]. Infrared and Laser Engineering, 2023, 52(1): 20220344. doi: 10.3788/IRLA20220344
Citation: Wang Xiangjun, Li Mingyang, Wang Lin, Liu Feng, Wang Wei. Salient object detection method based on multi-scale feature-fusion guided by edge information[J]. Infrared and Laser Engineering, 2023, 52(1): 20220344. doi: 10.3788/IRLA20220344

边缘信息引导多级尺度特征融合的显著性目标检测方法

doi: 10.3788/IRLA20220344
详细信息
    作者简介:

    王向军,男,教授,博士,主要从事光电传感与测试、计算机视觉与图像分析、微小型光机电系统及MEMS方面的研究

  • 中图分类号: TP391.4

Salient object detection method based on multi-scale feature-fusion guided by edge information

  • 摘要: 针对基于FCN和U型网络架构的深度学习显著性目标检测方法提取的显著性图存在边界不清晰和结构不完整的问题,文中提出了一种基于边缘信息引导多级尺度特征融合网络(EGMFNet)。EGMFNet使用多通道融合残差块(RCFBlock)以嵌套的U型网络架构作为主干模型。同时,在网络的较低层级引入具有边缘信息引导的全局空间注意力模块(EGSAM)以增强空间特征及边缘特征。此外,在损失函数中引入了图像边界损失,用于提升显著性图的质量并在学习过程中保留更加清晰的边界。在四个基准数据集上进行实验,实验结果表明,文中方法的F值较典型方法提升1.5%、2.7%、1.8%和1.6%,验证了EGMFNet网络模型的有效性。
  • 图  1  通道融合残差块(RCFBlock)结构示意图

    Figure  1.  Structural diagram of channel fusion residual block (RCFBlock)

    图  2  MCFUBlock的结构示意图

    Figure  2.  Structural diagram of MCFUBlock

    图  3  基于边缘信息引导的扩张空间注意力模块(EGSAM)结构示意图

    Figure  3.  Structural diagram of expanded spatial attention module guided by edge information (EGSAM)

    图  4  完整EGMFNet的结构示意图

    Figure  4.  Structure diagram of complete EGMFNet

    图  5  具有残差连接的U型块(RUBlock)结构示意图

    Figure  5.  Structure diagram of U-block with residual connection

    图  6  EGMFNet预测显著性注释效果图

    Figure  6.  EGMFNet prediction annotation rendering

    图  7  EGMFNet预测显著性注释效果图

    Figure  7.  EGMFNet prediction annotation rendering

    表  1  对比实验结果

    Table  1.   Comparison of the experimental results

    ECSSDPASCAL-SHKU-ISDUTS-TE
    ${{F} }_{{\beta } }$$ {M}{A}{E} $${{S} }_{{\alpha } }$${{F} }_{{\beta } }$$ {M}{A}{E} $${{S} }_{{\alpha } }$${{F} }_{{\beta } }$$ {M}{A}{E} $${{S} }_{{\alpha } }$${{F} }_{{\beta } }$$ {M}{A}{E} $${{S} }_{{\alpha } }$
    MDF0.8320.1050.7760.7680.1460.6920.8610.1290.8100.7300.0940.792
    PiCaNet0.8860.0450.9170.8560.0780.8480.8700.0430.9040.7590.0510.869
    AFNet0.9080.0420.9130.8210.0700.8440.8880.0360.9050.7920.0460.867
    ${ {{\rm{R}}} }^{3}{{\rm{N}}}{{\rm{e}}}{{\rm{t}}}$0.9140.0400.9100.8450.0940.8000.8930.0360.8950.7850.0570.834
    PoolNet0.9150.0390.9210.8220.0740.8450.8920.0340.9110.8090.0400.883
    BPFINet0.9280.0340.9260.8450.0650.8570.9110.0280.9180.8380.0380.882
    Proposed0.9430.0330.9260.8680.0690.8560.9280.0330.9120.8520.0370.883
    下载: 导出CSV

    表  2  EGFMNet参数量及实时性评估

    Table  2.   Parameter quantity and real-time evaluation of EGFMNet

    ${\rm{ Parameters}}$${\rm{Runtime}/s }$${\rm{Frame\;rate}/FPS }$
    R3Net56 156 1260.03033
    PoolNet71 383 5770.03330
    BPFINet68 326 8530.03330
    Proposed60 638 9280.03132
    下载: 导出CSV

    表  3  消融实验结果。其中GA为使用BCE Loss训练的基础网络,GB为使用混合损失训练的基础网络,GC为引入3阶段EGSAM模块的完整网络并使用BCE Loss进行训练,GD使用混合损失训练GC中的网络

    Table  3.   Ablation experimental results. GA is the basic network trained with BCE Loss, GB is the basic network trained with mixed loss, GC is the complete network with three-stage EGSAM module and trained with BCE Loss, and GD is the complete network with three-stage EGSAM module and trained with mixed loss

    GroupsStructureLossFβMAESα
    GABaselineBCE0.9230.0410.908
    GBBaselineBCE+BL0.9260.0400.911
    GCBaseline+EGSAM(3 stages)BCE0.9360.0360.919
    GDBaseline+EGSAM(3 stages)BCE+BL0.9430.0330.926
    下载: 导出CSV

    表  4  RCFBlock堆叠数量验证实验

    Table  4.   RCFBlock stack quantity verification experiment

    No.FβMAESαParameters
    10.8890.0890.83164 609 584
    20.9430.0330.92660 638 928
    30.9250.0400.91148 277 712
    下载: 导出CSV

    表  5  EGSAM模块层级验证实验结果

    Table  5.   Verify the experimental results at EGSAM module level

    No.Stage with EGSAMFβMAESαParametersSize/MB
    1Baseline0.9230.0410.90854 437 157207.67
    2Stage 10.9360.0380.91654 734 330208.79
    3Stage 1+20.9410.0350.92355 916 197213.30
    4Stage 1+2+30.9430.0330.92660 638 928231.32
    5Stage 1+2+3+40.9420.0330.92479 521 275303.35
    下载: 导出CSV

    表  6  EGSAM融合系数设置验证实验

    Table  6.   EGSAM fusion coefficient setting experiment

    No.αFβMAESα
    1Baseline0.9230.0410.908
    210.8420.1040.832
    30.10.9110.0520.894
    40.050.9260.0410.913
    50.010.9430.0330.926
    60.0050.9400.0370.920
    下载: 导出CSV
  • [1] Sun Zhaolei, Hui Bin, Qin Mofan, et al. Object detection method based on saliency measure for infrared radiation image [J]. Infrared and Laser Engineering, 2015, 44(9): 2633-2637. (in Chinese)
    [2] Huang Mengke, Liu Zhi, Ye Linwei, et al. Saliency detection via multi-level integration and multi-scale fusion neural networks [J]. Neurocomputing, 2019, 364(9): 310-321.
    [3] Li Tengpeng, Song Huihui, Zhang Kaihua, et al. Recurrent reverse attention guided residual learning for saliency object detection [J]. Neurocomputing, 2020, 389(3): 170-178.
    [4] Jia Fengwei, Wang Xuan, Guan Jian, et al. Bi-connect net for salient object detection [J]. Neurocomputing, 2020, 384(1): 142-155.
    [5] Ullah Inam, Jian Muwei, Hussain Sumaira, et al. Global context-aware multi-scale features aggregative network for salient object detection [J]. Neurocomputing, 2021, 455(1): 139-153.
    [6] Jiang Guoqing, Wan Lanjun. Detection of dim and small infrared targets based on the most appropriate contrast saliency analysis [J]. Infrared and Laser Engineering, 2021, 50(4): 20200377. (in Chinese) doi:  10.3788/IRLA20200377
    [7] Li Ning, Huang Jincai, Feng Yanghe. Construction of multi-channel fusion salient object detection network based on gating mechanism and pooling network [J]. Multimedia Tools and Applications, 2021, 81: 12111-12126.
    [8] Li Zun, Lang Congyan, Liew Junhao, et al. Cross-layer feature pyramid network for salient object detection [J]. IEEE Transactions on Image Processing, 2021, 30: 4587-4598.
    [9] Chen Tianyou, Hu Xiaoguang, Xiao Jin, et al. BPFINet: Boundary-aware progressive feature integration network for salient object detection [J]. Neurocomputing, 2021, 451(8): 152-166.
    [10] Yao Zhaojian, Wang Luping. ERBANet: Enhancing region and boundary awareness for salient object detection [J]. Neurocomputing, 2021, 448: 152-167.
    [11] Cui Wenzhao, Zhang Qing, Zuo Baochuan. Deep saliency detection via spatial-wise dilated convolutional attention [J]. Neurocomputing, 2021, 445(6): 35-49.
    [12] Kervadec Hoel, Bouchtiba Jihene, Desrosiers Christian, et al. Boundary loss for highly unbalanced segmentation [J]. Medical Image Analysis, 2021, 67: 101851. doi:  10.1016/j.media.2020.101851
    [13] Wang Lijun, Lu Huchuan, Wang Yifan, et al. Learning to detect salient objects with image-level supervision [C]//IEEE Conference on Computer Vision & Pattern Recognition. IEEE, 2017: 21-26.
    [14] Li Guanbin, Yu Yizhou. Visual saliency detection based on multiscale deep CNN features [J]. IEEE Transactions on Image Processing, 2016, 25(11): 5012-5024.
    [15] Yan Qiong, Li Xu, Shi Jianping, et al. Hierarchical saliency detection [C]//IEEE Conference on Computer Vision and Pattern Recognition, 2013: 23-28.
    [16] Yin Li, Hou Xiaodi, Koch Christof, et al. The secrets of salient object segmentation [C]// IEEE Conference on Computer Vision & Pattern Recognition, 2014: 23-28.
  • [1] 李鹏越, 续欣莹, 唐延东, 张朝霞, 韩晓霞, 岳海峰.  基于并行多轴自注意力的图像去高光算法 . 红外与激光工程, 2024, 53(3): 20230538-1-20230538-11. doi: 10.3788/IRLA20230538
    [2] 孙鹏, 于跃, 陈嘉欣, 秦翰林.  基于深度空时域特征融合的高动态空中多形态目标检测方法(特邀) . 红外与激光工程, 2022, 51(4): 20220167-1-20220167-8. doi: 10.3788/IRLA20220167
    [3] 贾鹏飞, 刘全周, 彭凯, 李占旗, 王启配, 华一丁.  多传感器信息融合的前方车辆检测 . 红外与激光工程, 2022, 51(6): 20210446-1-20210446-8. doi: 10.3788/IRLA20210446
    [4] 陈世琼.  基于非线性抗噪声估计的视觉显著性弱小目标检测 . 红外与激光工程, 2022, 51(9): 20210939-1-20210939-6. doi: 10.3788/IRLA20210939
    [5] 薛珊, 陈宇超, 吕琼莹, 曹国华.  基于坐标注意力机制融合的反无人机系统图像识别方法 . 红外与激光工程, 2022, 51(9): 20211101-1-20211101-11. doi: 10.3788/IRLA20211101
    [6] 张骏, 朱标, 沈玉真, 张鹏.  基于引导滤波的多分支注意力残差红外图像去噪网络 . 红外与激光工程, 2022, 51(11): 20220060-1-20220060-11. doi: 10.3788/IRLA20220060
    [7] 赵晓枫, 徐叶斌, 吴飞, 牛家辉, 蔡伟, 张志利.  基于并行注意力机制的地面红外目标检测方法(特邀) . 红外与激光工程, 2022, 51(4): 20210290-1-20210290-8. doi: 10.3788/IRLA20210290
    [8] 王向军, 欧阳文森.  多尺度循环注意力网络运动模糊图像复原方法 . 红外与激光工程, 2022, 51(6): 20210605-1-20210605-9. doi: 10.3788/IRLA20210605
    [9] 杨子龙, 朱付平, 田金文, 田甜.  基于显著性与稠密光流的红外船只烟幕检测方法研究 . 红外与激光工程, 2021, 50(7): 20200496-1-20200496-8. doi: 10.3788/IRLA20200496
    [10] Mao Yuanhong, Ma Zhong, He Zhanzhuang.  Infrared-visible image patches matching via convolutional neural networks . 红外与激光工程, 2021, 50(5): 20200364-1-20200364-9. doi: 10.3788/IRLA20200364
    [11] 蒋国清, 万烂军.  基于最恰对比度显著性分析的红外弱小目标检测方法 . 红外与激光工程, 2021, 50(4): 20200377-1-20200377-8. doi: 10.3788/IRLA20200377
    [12] 崔洲涓, 安军社, 崔天舒.  融合通道互联空间注意力的Siamese网络跟踪算法 . 红外与激光工程, 2021, 50(3): 20200148-1-20200148-13. doi: 10.3788/IRLA20200148
    [13] 刘铮, 毛宏霞, 戴聪明, 魏合理.  基于多源数据多特征融合的弱小目标关联研究 . 红外与激光工程, 2019, 48(5): 526001-0526001(6). doi: 10.3788/IRLA201948.0526001
    [14] 陆福星, 陈忻, 陈桂林, 饶鹏.  背景自适应的多特征融合的弱小目标检测 . 红外与激光工程, 2019, 48(3): 326002-0326002(7). doi: 10.3788/IRLA201948.0326002
    [15] 时东锋, 黄见, 苑克娥, 王英俭, 谢晨波, 刘东, 朱文越.  空间编码复用散斑多信息融合关联成像(特邀) . 红外与激光工程, 2018, 47(5): 502001-0502001(8). doi: 10.3788/IRLA201847.0502001
    [16] 马天义, 张会香, 宋敏敏, 钮赛赛.  引入显著特征空间的抗遮挡红外目标跟踪 . 红外与激光工程, 2017, 46(3): 304002-0304002(7). doi: 10.3788/IRLA201746.0304002
    [17] 齐楠楠, 姜鹏飞, 李彦胜, 谭毅华.  基于视觉显著性和目标置信度的红外车辆检测技术 . 红外与激光工程, 2017, 46(6): 604005-0604005(9). doi: 10.3788/IRLA201746.0604005
    [18] 张仲瑜, 焦淑红.  多特征融合的红外舰船目标检测方法 . 红外与激光工程, 2015, 44(S1): 29-34.
    [19] 童涛, 杨桄, 孟强强, 孙嘉成, 叶怡, 陈晓榕.  基于边缘特征的多传感器图像融合算法 . 红外与激光工程, 2014, 43(1): 311-317.
    [20] 彭志勇, 王向军, 卢进.  窗口热辐射下基于视觉显著性的红外目标检测方法 . 红外与激光工程, 2014, 43(6): 1772-1776.
  • 加载中
图(7) / 表(6)
计量
  • 文章访问数:  319
  • HTML全文浏览量:  93
  • PDF下载量:  106
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-05-20
  • 修回日期:  2022-08-01
  • 刊出日期:  2023-01-18

边缘信息引导多级尺度特征融合的显著性目标检测方法

doi: 10.3788/IRLA20220344
    作者简介:

    王向军,男,教授,博士,主要从事光电传感与测试、计算机视觉与图像分析、微小型光机电系统及MEMS方面的研究

  • 中图分类号: TP391.4

摘要: 针对基于FCN和U型网络架构的深度学习显著性目标检测方法提取的显著性图存在边界不清晰和结构不完整的问题,文中提出了一种基于边缘信息引导多级尺度特征融合网络(EGMFNet)。EGMFNet使用多通道融合残差块(RCFBlock)以嵌套的U型网络架构作为主干模型。同时,在网络的较低层级引入具有边缘信息引导的全局空间注意力模块(EGSAM)以增强空间特征及边缘特征。此外,在损失函数中引入了图像边界损失,用于提升显著性图的质量并在学习过程中保留更加清晰的边界。在四个基准数据集上进行实验,实验结果表明,文中方法的F值较典型方法提升1.5%、2.7%、1.8%和1.6%,验证了EGMFNet网络模型的有效性。

English Abstract

    • 人类在通过视觉系统感知外部环境时,总是有选择性的捕捉场景中关键性的信息和感兴趣的区域,并忽略不感兴趣或是无效的信息[1-2]。在计算机视觉中,研究人员开启了显著性目标检测方法的研究以尝试复现这种能力。显著性目标检测旨在检测并分割出输入图像中关键的或极具吸引力的对象或区域[3-5]。目前,显著性目标检测作为一种优秀的预处理手段,在许多计算机视觉任务中发挥着重要作用,例如目标跟踪、目标检测[6]、图像编辑等。

      近年来,U型网络(UNET)依靠其强大的特征提取能力,在图像分割领域取得了不错的成果,特别是在数据量较少时U型网络的性能表现尤为出色。此类模型巧妙地利用了编码器-解码器结构,编码器“由浅入深”的提取特征,并在解码器阶段融合多极特征信息以形成显著性图,这有效的利用了高级特征的语义信息及低级特征的空间信息以引导显著性目标的定位。

      Huang等 [3]在网络引入四个具有特定扩张率扩张卷积的并行剩余连通块细化各层级提取的特征以获取上下文信息,并在最终阶段利用上下文信息引导显著性图的预测。Ning等[7]在特征融合阶段的特定层级引入SNet以在通道层级上指导特征融合的通道信息保留,同时利用高级特种中丰富的语义信息指导特征的提取。Li等[8]利用聚合的不同层次、多尺度特征引导特征的提取及融合,通过这种方式使包含用于定位完整对象的上下文的高级特征将保留到最终输出层,而包含空间结构细节的低级特征将嵌入到每个层中以保留空间结构细节。Jia[5]等将显着对象检测中的复杂场景转换为信息溶解问题,并利用一个包含正向连接和反向连接的自网络为每一对编解码模块的输出赋予一个权值以指导显著性图的预测。Chen等[9]在网络中引入U形自细化模块生成多度特征在经过通道压缩后利用U形特征继承模块进行低级、高级特征和全局信息的融合以此增强网络所预测显著性图的细节特征。

      然而,显著性目标检测仍然面临着诸多问题:(1)现有显著性目标检测方法在面对复杂的背景信息和目标本身的多样性将影响目标定位的准确性[10]。网络中引入空间注意力模块、上下文交流模块、多尺度特征融合模块等增加计算量的同时并不能有效的解决目标定位不准确的问题[11]。(2)低级特征包含着大量空间结构细节信息以及较为清晰的边缘信息,这些信息将会随着特征层的逐渐深入而丢失,并且仅能在融合阶段的较低层级访问,这使得所提取出的显著性图具有较低质量的目标边界且可能导致图像模糊、结构不完整的情况。

      针对边缘不清晰的问题,文中提出了一种利用边缘信息引导空间特征的多级通道特征融合网络(EGMFNet)用于显著性目标检测,其中通过逐级堆叠新设计的通道特征融合模块(RCFBlock)形成三级嵌套的U型结构。提出一种新颖的基于边缘信息引导的全局空间注意力模块(EGSAM),该模块并行地提取边缘信息及全局空间特征并进行融合以强化边缘信息及空间信息,从而保证所预测的显著性图保留更多的细节信息并具有清晰的边缘。同时,在损失函数中引入边界损失函数,使网络能够从显著性真值中学习边界细节。

    • 详细介绍提出的基于边缘信息引导的多通道融合网络。网络主要包括两个重要部分:一个三级嵌套的U型主体网络;在较低层级为强化空间细节特征而引入的由边缘信息引导的扩张空间注意力模块。首先,将介绍基础的通道融合残差块以及由RCFBlock堆叠而成的次级U型块——MCFUBlock。其次,将介绍基于边缘信息引导的扩张空间注意力模块。最后,详细描述所提出的EGMFNet网络完整结构以及训练中使用的损失函数。

    • 高级特征的语义信息能够指导显著性目标的定位,而低级特征所包含的空间特征是保证预测所得显著性图结构完整的关键。随着网络加深,部分空间特征在传播过程中随着池化操作而丢失,并且网络内部缺乏多级特征信息的交流限制了网络获取上下文信息的能力。为了解决上述问题,PoolNet使用不同内核的平均池化层生成不同感受野大小的特征图并进行融合,然而分辨率较小的特征在经过大采样率的上采样操作后可能会出现特征退化的情况。此外,众多方法尝试利用扩张卷积以扩大感受野,但在输入特征上使用多个扩张卷积进行多尺度特征提取会导致内存和计算成本增加。

      为了充分发掘多尺度特征信息,提出了以通道融合残差块为基础并堆叠形成的次级U型块。图1为通道融合残差块(RCFBlock)的结构细节。对于输入图像$ {I}_{0}\in {R}^{C\times H\times W} $,首先使用两个卷积层${conv}_{{\rm{in}}}$$ {conv}_{1} $以获得特征图${I}_{{\rm{in}}}$$ {I}_{1} $,随后使用最大池化层进行尺度变换操作并输入$ {conv}_{2} $以获得特征图$ {I}_{2} $

      图  1  通道融合残差块(RCFBlock)结构示意图

      Figure 1.  Structural diagram of channel fusion residual block (RCFBlock)

      小尺寸特征图$ {I}_{2} $经上采样操作后与$ {I}_{1} $进行通道维度上的拼接并使用$ {conv}_{3} $融合,最后经过激活函数和批标准化操作得到${I}_{{\rm{out}}}$。过程可描述为公式(1)~(2):

      $$ {I}_{F}={conv}_{3}({I}_{1}\oplus U p({I}_{2}:{I}_{1}\left)\right) $$ (1)
      $$ {I}_{{\rm{out}}}={f}_{relu}\left({f}_{BN}\right({I}_{F}\left)\right) $$ (2)

      式中:卷积核大小均为3×3,步长设置为1;$\oplus$表示通道维度的拼接操作;$U p({I}_{*}:I)$表示利用双线性插值方法进行上采样操作。最终,RCFBlock的输出结果为融合后的特征图$ {I}_{F} $经过批标准化和激活操作后获得的${I}_{{\rm{out}}}$

      图2为RCFBlock堆叠形成的次级U型块MCFU3 Block的详细结构。其中,3表示堆叠的层级,因此MCFU2表示堆叠两级RCFBlock,MCFU1表示仅一级RCFBlock且不包含池化操作。以MCFU3为例叙述MCFUBlock的详细计算流程。MCFU3左侧为编码模块,右侧为解码模块。对于输入图像$ {I}_{0}\in {R}^{C\times H\times W} $,MCFU3渐进的提取三种尺度的特征并在解码阶段分别融合以获得最终的输出结果。过程如公式(3)~(5)所示:

      $$ {I}_{i+1}={F}_{{\rm{max}}}\left({F}_{RCF}\right({I}_{i}\left)\right),i=0,1 $$ (3)
      $$ {I}_{3}={f}_{relu}\left({f}_{BN}\right(conv\left({I}_{2}\right)) $$ (4)
      $$ {I}_{{\rm{out}}}={F}_{RCF}({I}_{1}\oplus U p(\tilde I:{I}_{1}\left)\right) $$ (5)

      式中:$ {F}_{RCF} $表示通过RCFBlock进行处理;${F}_{{\rm{max}}}$表示最大池化操作。

      图  2  MCFUBlock的结构示意图

      Figure 2.  Structural diagram of MCFUBlock

      对于RCFBlock,池化层、上采样层以及通道维度拼接操作使其能够提取并整合两个尺度的特征。整体上,由RCFBlock堆叠而成的MCFU-Block能够进一步的提取并整合多尺度特征信息,这样递进式的提取及整合多尺度特征信息能够帮助网络保留更多的空间特征信息。对于整个网络而言,MCFU-Block能够在不改变输入输出尺度的同时有效利用多尺度特征信息,这在一定程度上保证了网络预测的显著性图具有足够的空间细节。

    • 空间信息丢失使得网络无法预测出具有清晰边界的显著性图。文中在空间注意力模块中引入空洞卷积,这使得注意力模块在指数级扩展感受野的情况下不会丢失分辨率,并且不增加过多的计算量。

      图3所示,EGSAM由两个部分组成,包括提取并融合边缘信息的边缘信息引导模块(EGM)和具有扩张卷积的空间注意力模块(ESM)。其中,边缘信息引导模块利用Sobel卷积提取输入图像$ {I}_{0}\in {R}^{C\times H\times W} $的边缘图${I}_{{\rm{Sobel}}}$,随后进行空间全局最大池化和均值池化,将生成的二维向量${E}_{{\rm{Max}}}\in {R}^{1\times H\times W}$${E}_{{\rm{Avg}}}\in{R}^{1\times H\times W}$进行通道维度拼接后进行卷积操作,经激活得到二维边缘信息引导向量${A}_{{\rm{edge}}}\in {R}^{1\times H\times W}$。边缘信息引导模块的整体过程可以被表示为公式(6)~(7):

      $$ {I}_{{\rm{Sobel}}}={conv}_{{\rm{Sobel}}}\left({I}_{0}\right) $$ (6)
      $$ {A}_{{\rm{edge}}}={F}_{s}({conv(E}_{{\rm{Max}}}\oplus {E}_{{\rm{Avg}}})) $$ (7)

      式中:${conv}_{{\rm{Sobel}}}$表示Sobel卷积;$ {F}_{s} $表示激活函数。

      扩张的空间注意力模块(ESM)的输入为融合边缘引导信息的原始输入图像$ {I}_{EG}\in {R}^{C\times H\times W} $。为减小计算量并节约计算资源,对输入图像进行4倍下采洋操作,获得${I}_{EG_D}\in {R}^{C\times H/4 \times W/4}$。随后,引入卷积核大小为3×3,空洞率分别为2、4、6的空洞卷积。将融合后的特征图${I}_{DilatedF}\in {R}^{C\times H/4\times W/4}$按空间进行全局最大池化和均值池化,将生成的二维向量${S}_{{\rm{Max}}}\in {R}^{C\times H/4 \times W/4}$${S}_{{\rm{Avg}}}\in {R}^{C\times H/4 \times W/4}$进行通道维度拼接后进行卷积操作,经激活后得到二维边缘信息引导向量${A}_{{\rm{Spatial}}}\in {R}^{1\times H/4 \times W/4}$。扩张的空间注意力模块(ESM)的过程如公式(8)~(9):

      $$ {I}_{Di}={conv}_{Di}\left({I}_{EG\_D}\right),i= \mathrm{0,1},2 $$ (8)
      $$ {A}_{{\rm{Spatial}}}={F}_{s}({conv(S}_{{\rm{Max}}}\oplus {S}_{{\rm{Avg}}})) $$ (9)

      式中:${conv}_{Di}$表示空洞卷积。随后,对${A}_{{\rm{Spatial}}}$进行上采样操作使其恢复为${A}_{{\rm{Spatial}}}\in {R}^{1\times H\times W}$,将恢复后的${A}_{{\rm{Spatial}}}$与原始输入图像$ {I}_{0} $进行融合获得最终的输入$ {I}_{EGSAM}\in {R}^{C\times H\times W} $

      图  3  基于边缘信息引导的扩张空间注意力模块(EGSAM)结构示意图

      Figure 3.  Structural diagram of expanded spatial attention module guided by edge information (EGSAM)

    • EGMFNet的整体结构是一个标准的U型结构,如图4所示,EGMFNet共包括六个阶段。在前三个阶段中,每一个阶段包括一级编码器、一级解码器及桥接在中间的EGSAM,编解码器分别使用MCFU3、MCFU2、MCFU1。第四阶段和第五阶段由一组编解码器组成(如图5所示)。第六阶段仅由一级使用RUBlock的解码器组成。在网络的较低阶段(一至四阶段)使用具有两级嵌套的MCFU模块进行填充以在尺度较大的前提下获取更多的空间信息。在网络的较高阶段(五至六阶段)选择具有一定深度的具有残差连接的U型块(RUBlock),并且RCFBlock的堆叠数量随着层级加深和图像尺度减小而逐级递减以防止过度池化导致空间信息丢失。原因是RCFBlock及MCFUBlock中包括大量池化层,对小尺度图像做过多池化操作会造成空间特征进一步丢失同时无法获取准确的语义信息。

      第一至三阶段每一级编解码器间桥接了EGSAM模块,EGSAM的输出以加权的方式与拼接后的原始解码器输入再次进行拼接,该过程可以表示为:

      $$ {I}_{{{\rm{in}}\_E}_{i}} = \alpha {I}_{{EG}_{i}}+{I}_{{{\rm{in}}}_{i}},i= \mathrm{1,2},3 $$ (10)

      式中:${I}_{{{\rm{in}}\_E}_{i}}$表示前三阶段解码器的最终输入;$ {I}_{{EG}_{i}} $表示EGSAM模块的输出;ɑ表示权值被设定为0.01; +表示按元素加和操作。

      每一级解码器的侧边都有一个输出层用于预测显著性图,六阶段预测所获得的显著性图在上采样至相同尺度后进行第一次拼接。同时,在前三个阶段中EGSAM模块的侧边增加了输出层,并将预测的显著性图进行第二次拼接。最后,将两次拼接的结果进行拼接与融合作为网络最终的输出结果。

      图5所示,RUBlock是典型的U型结构模块。编码器阶段共包含四层:第一层作为输入层;第二层至第四层使用卷积核大小3×3且空洞率分别为2、4、8的空洞卷积。解码器阶段共包含三层:第一层与输入层相同;第二、三层使用卷积核大小3×3且空洞率分别为2、4的空洞卷积。

      图  4  完整EGMFNet的结构示意图

      Figure 4.  Structure diagram of complete EGMFNet

      图  5  具有残差连接的U型块(RUBlock)结构示意图

      Figure 5.  Structure diagram of U-block with residual connection

    • 在训练阶段,文中使用交叉熵损失(BCE Loss)和边界损失(Boundary Loss)[12]计算每一阶段预测获得显著性图的损失。损失函数的定义如公式(11)所示:

      $$\begin{split} \\ {L}_{s}={(1-\alpha )L}_{BCE}^{s}+\alpha {L}_{BL}^{s},s= 1\sim 6 \end{split} $$ (11)

      式中:$ {{L}}_{{B}{C}{E}}^{{s}} $表示交叉熵损失;$ {{L}}_{{B}{L}}^{{s}} $表示边界损失;${{{s}}}$表示每一个阶段;$ {\alpha } $为权值被设定为0.01的固定值。边界损失的定义如公式(12)所示:

      $$ {L}_{BL}={\int }_{\varOmega }^{}{\varphi }_{G}\left(p\right){s}_{G}(p){\rm{d}}p $$ (12)

      式中:$ {\varphi }_{G}\left(p\right) $表示预测显著性图的边界质量;$ {s}_{G}\left(p\right) $是显著性区域的二元指示函数。当像素点${p}$属于标注图像显著性区域时$ {s}_{G}\left(p\right)    = 1 $,否则 $ {s}_{G}\left(p\right)    = 0 $

      交叉熵损失逐像素的计算预测结果相较于标注目标的误差,训练过程尝试减小这种差别,因此交叉熵损失在图像层面引导网络获取更加准确的显著性图。但是,这种逐像素的引导方式并不能给予边界信息和结构信息足够的关注,因此可能导致预测结果边界不清晰和结构不完整的情况。

      边界损失函数以积分的方式计算预测显著性目标与标注显著性目标边界的距离,这在反向传播过程中能够引导网络,并最小化预测显著性目标与标注显著性目标中边界和结构上不匹配的部分。因此,文中在交叉熵损失的基础上以加权的方式引入边界损失函数,从理论上,这种混合损失在引导网络准确预测显著性图的同时进一步关注边界和结构信息,以保证预测显著性图具有清晰的边界和完整的结构。

      最终,文中利用深度监督的方式进行训练,用于反向传播的损失函数定义如公式(13)所示:

      $$ L=\sum _{s}^{S}{L}_{s}+{L}_{f} $$ (13)

      式中:$ {L}_{s} $表示每一阶段预测显著性图的混合损失值;$ {L}_{f} $表示最终融合阶段的混合损失值。

    • 常用的显著性目标检测数据集包括:DUTS[13]、HKU-IS[14]、ECSSD[15]、PASCAL-S[16]。利用DUTS数据集中的训练集DUTS-TR训练EGMFNet,DUTS-TR数据集包含10553张图像是最大且最常用的显著性目标检测任务训练数据集。同时,文中添加包括含有机器人、透明物体、背景复杂、背景阴暗的图像以扩充数据集,扩充后的数据集包含11552张图像。此外,对图像进行了水平翻转以增强数据。

      利用DUTS-TE、HKU-IS、ECSSD、PASCAL-S作为测试集对训练的网络进行测试。

    • 文中使用F-measure ($ {{F}}_{{\beta }} $)分数、平均绝对值误差(MAE)和结构相似性指标(S-measure)作为网络性能的评价指标,以衡量网络的性能。

      F-measure是具有非负权重$ {\;{\beta }}^{2} $的精确率和召回率的加权调和平均值,通常用于综合准确率和召回率,F-measure可表示为:

      $$ {{F}}_{{\beta }}=\frac{(1+{\rm{\beta }}^{2})\times {P}{r}{e}{c}{i}{s}{i}{o}{n}\times {R}{e}{c}{a}{l}{l}}{{{\beta }}^{2}\times {P}{r}{e}{c}{i}{s}{i}{o}{n}+{R}{e}{c}{a}{l}{l}} $$ (14)

      式中: ${\;\beta }^{2}$设置为0.3。

      平均绝对值误差表示预测显著性图与显著性真值间的平均像素差异,定义如下:

      $$ {M}{A}{E}{ }=\frac{1}{{H}\times {W}}\sum _{{x}=1}^{{H}}\sum _{{y}=1}^{{W}}\left|\right|{S}({x},{y})-{G}({x},{y})\left|\right| $$ (15)

      式中:$ {S}({x},{y}) $$ {G}({x},{y}) $表示预测显著性图和显著性真值;$ ({H},{W}) $表示图像尺度即长和宽;$ ({x},{y}) $表示像素坐标。

      结构相似性指标通常被用于评估预测显著性图同显著性真值之间的结构相似性,定义是区域结构相似性和对象结构相似性的加权和:

      $$ {{S}}_{{\alpha }}={ }(1-{\alpha }){{S}}_{{r}}+{\alpha }{{S}}_{{o}} $$ (16)

      式中:$ {{S}}_{{r}} $表示区域结构相似性;$ {{S}}_{{o}} $表示对象结构相似性;权值$ {\alpha } $设置为0.5。

    • EGMFNet基于Pytorch 1.10.2框架搭建,并在一台具有AMD Ryzen 9 5950X 3.4 GHz CPU (64 GB RAM)和RTX 3090 GPU (24 GB内存)的16核32线程的台式机上进行所有的训练和测试过程。在训练的初始阶段,对数据集图像进行了拉伸、翻转和裁剪的预处理操作,批尺寸被设置为16并使用Adam优化器进行训练,Adam优化器的超参数设置为:初始学习率(learning rate)lr=1 e−3、指数衰减率β=(0.9, 0.999)、ε=1 e−8、权重衰减=0。经过48万次迭代(耗时约150 h),训练损失有效地收敛。

    • 为了对EGMFNet的性能进行评估,文中在DUTS-TE、HKU-IS、ECSSD、PASCAL-S四个常用的数据集上测试了EGMFNet的性能,并选取$ \mathrm{M}\mathrm{D}\mathrm{F} $$ \mathrm{P}\mathrm{i}\mathrm{C}\mathrm{A}\mathrm{N}\mathrm{e}\mathrm{t} $$ \mathrm{A}\mathrm{F}\mathrm{N}\mathrm{e}\mathrm{t} $$ {\mathrm{R}}^{3}\mathrm{N}\mathrm{e}\mathrm{t} $$ \mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\mathrm{N}\mathrm{e}\mathrm{t} $$ \mathrm{B}\mathrm{A}\mathrm{N}\mathrm{e}\mathrm{t}\mathrm{、}\mathrm{B}\mathrm{P}\mathrm{F}\mathrm{I}\mathrm{N}\mathrm{e}\mathrm{t} $等典型网络进行实验对比。

      实验结果如表1所示,网络在ECSSD数据集上取得了最好的结果,相较于第二名性能提升了1.5%,在HKU-IS、PASCAL-S和DUTS-TE数据集上文中的网络表现良好,F值分别提升了2.7%、1.8%和2.6%,证明文中的网络具有很好的鲁棒性。此外,选取了性能较好的$ {\mathrm{R}}^{3}\mathrm{N}\mathrm{e}\mathrm{t} $$ \mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\mathrm{N}\mathrm{e}\mathrm{t} $、BPFINet对参数量及显著性预测实时性进行了评估,实验选用20张400 pixel×267 pixel的图像进行测试,结果如表2所示。

      表 1  对比实验结果

      Table 1.  Comparison of the experimental results

      ECSSDPASCAL-SHKU-ISDUTS-TE
      ${{F} }_{{\beta } }$$ {M}{A}{E} $${{S} }_{{\alpha } }$${{F} }_{{\beta } }$$ {M}{A}{E} $${{S} }_{{\alpha } }$${{F} }_{{\beta } }$$ {M}{A}{E} $${{S} }_{{\alpha } }$${{F} }_{{\beta } }$$ {M}{A}{E} $${{S} }_{{\alpha } }$
      MDF0.8320.1050.7760.7680.1460.6920.8610.1290.8100.7300.0940.792
      PiCaNet0.8860.0450.9170.8560.0780.8480.8700.0430.9040.7590.0510.869
      AFNet0.9080.0420.9130.8210.0700.8440.8880.0360.9050.7920.0460.867
      ${ {{\rm{R}}} }^{3}{{\rm{N}}}{{\rm{e}}}{{\rm{t}}}$0.9140.0400.9100.8450.0940.8000.8930.0360.8950.7850.0570.834
      PoolNet0.9150.0390.9210.8220.0740.8450.8920.0340.9110.8090.0400.883
      BPFINet0.9280.0340.9260.8450.0650.8570.9110.0280.9180.8380.0380.882
      Proposed0.9430.0330.9260.8680.0690.8560.9280.0330.9120.8520.0370.883

      表 2  EGFMNet参数量及实时性评估

      Table 2.  Parameter quantity and real-time evaluation of EGFMNet

      ${\rm{ Parameters}}$${\rm{Runtime}/s }$${\rm{Frame\;rate}/FPS }$
      R3Net56 156 1260.03033
      PoolNet71 383 5770.03330
      BPFINet68 326 8530.03330
      Proposed60 638 9280.03132

      人眼可识别的帧率阈值为25 FPS,测试结果表明EGMFNet在保证预测显著性图质量的前提下以较少的参数保证了32 FPS的预测速度。同时相较于性能较为优秀的BPFINet和PoolNet,EGMFNet预测速度提升约6.7%,仅次于${\mathrm{{{R}}}}^{3}\mathrm{N}\mathrm{e}\mathrm{t}$,表明EGMFNet具有较为良好的实时性。

      为了更直观地展现EGMFNet的性能,展示了EGMFNet预测显著性注释图,如图6所示。文中所提出网络在复杂环境下具有较好的性能。特别是图6第二行及第三行中显著性目标物体颜色与背景颜色一致且具有灰尘及云等干扰物,EGMFNet仍能十分准确的预测显著性目标并保留了非常清晰的边缘。同时,网络在面对阴影和强光时表现欠佳,如图6第一行与第五行所示,树林中的阴影和火焰的强光影响了显著性目标边缘的提取。此外,EGMFNet在面对小目标和多目标时仍能进行有效处理,如图6第六行所示,EGMFNet能有效的提取出图像中较为明显的载具,但错误的提取了比较靠前的几名士兵。

      图  6  EGMFNet预测显著性注释效果图

      Figure 6.  EGMFNet prediction annotation rendering

      此外,展示了ECSSD数据集上的测试结果,如图7所示。面对较为突出的显著性目标,如图7第一行所示,EGMFNet表现出了良好的性能,在保证显著性目标具有完整结构的同时保留了清晰的边缘。但,面对具有争议的显著性目标时(如图7第二行),EGMFNet突出了较为明显的成年鸟类,但并未完全消除幼鸟的干扰并提取了幼鸟的虚影。面对透明物体时(图7第三行),EGMFNet较为有效地提取了完整的蜻蜓翅膀,但翅膀的部分位置出现了虚影及结构不完整的情况。在面对干扰物较多、光线阴暗以及显著性目标不明显的情况时(图7第四行),EGMFNet仍能有效定位显著性目标并保留其完整的结构以及清晰的边缘。

      总体上,EGMFNet能够有效应对复杂场景与小目标场景下的显著性目标提取,但EGMFNet仍存在着一些不足。例如,在面对争议性的显著性目标时EGMFNet并不能完全消除干扰目标,同时面对透明物体时EGMFNet的性能仍有待提升。此外,在面对强光及阴影场景时,EGMFNet的性能并不理想,可能出现显著性目标结构不完整的情况。

      图  7  EGMFNet预测显著性注释效果图

      Figure 7.  EGMFNet prediction annotation rendering

    • 为验证EGMFNet中基本网络、EGSAM模块及边界损失的有效,在保证除模块及损失函数变动外其余参数不变的前提下进行了消融实验并在ECSSD数据集上评估了各方案网络的性能。实验评估结果如表3所示。

      对比实验数据可知,在基础网络中引入EGSAM模块以及使用混合损失函数进行训练在一定程度上提升了网络的性能。对比第一组(GA)与第三组(GC)可以看出,引入了EGSAM的完整EGMFNet性能相较于基础网络有了十分明显的提升,F值提升1.4%,结构相似性指标提升S值0.8%,这表明引入三阶段EGSAM模块有助于提升预测显著性图结构的完整性并有效保留更多的空间细节。同时,为验证混合损失函数的有效性,将四组实验分成两组对比实验:第一组(GA)与第二组(GB);第三组(GC)与第四组(GD)。由对比实验数据可以看出,利用混合损失函数训练的网络性能相较于使用BCE Loss训练的网络性能有了一定的提升,第一组(GA)与第二组(GB)相比F值提升0.3%,结构相似性指标S值提升0.3%。特别是对于具有更多空间细节的网络性能提升更加明显,第三组(GC)与第四组(GD)相比F值提升0.7%,结构相似性指标S值提升1.6%。第三组(GC)与第四组(GD)的对比实验结果表明在BCE Loss的基础上引入边界损失函数能够帮助网络保留清晰的显著性目标边界,这种效果在网络所提取的特征图具有丰富的空间特征时更加有效。

      表 3  消融实验结果。其中GA为使用BCE Loss训练的基础网络,GB为使用混合损失训练的基础网络,GC为引入3阶段EGSAM模块的完整网络并使用BCE Loss进行训练,GD使用混合损失训练GC中的网络

      Table 3.  Ablation experimental results. GA is the basic network trained with BCE Loss, GB is the basic network trained with mixed loss, GC is the complete network with three-stage EGSAM module and trained with BCE Loss, and GD is the complete network with three-stage EGSAM module and trained with mixed loss

      GroupsStructureLossFβMAESα
      GABaselineBCE0.9230.0410.908
      GBBaselineBCE+BL0.9260.0400.911
      GCBaseline+EGSAM(3 stages)BCE0.9360.0360.919
      GDBaseline+EGSAM(3 stages)BCE+BL0.9430.0330.926
    • 如1.1节所示,EGMFNet主体结构由RCFBlock堆叠而成的MCFUBlock组成,此节将对RCFBlock堆叠数量对网络性能的影响进行实验测试。实验分为三组进行:第一组使用MCFU4、MCFU3、MCFU2替换原网络中的MCFU3、MCFU2、MCFU1;第二组为对照组,即为EGMFNet;第三组使用MCFU2、MCFU1、RAFBlock进行替换。实验在ECSSD数据集上对三组实验中的网络进行性能测试。

      实验结果如表4所示,第一组实验表明过多堆叠RCFBlock不仅增加了参数量,同时大量的池化操作导致空间信息丢失严重影响了网络性能。第三组实验相较于第一组实验,网络性能有了明显提升,但少量堆叠RCFBlock使得网络较浅无法有效获取空间信息及语义信息,这使得网络性能无法达到最好的效果。因此,采用MCFU3、MCFU2、MCFU1的组合形式搭建EGMFNet。

      表 4  RCFBlock堆叠数量验证实验

      Table 4.  RCFBlock stack quantity verification experiment

      No.FβMAESαParameters
      10.8890.0890.83164 609 584
      20.9430.0330.92660 638 928
      30.9250.0400.91148 277 712
    • EGMFNet网络中仅前三层添加了EGSAM模块,为验证EGSAM添加层级实验,从上至下依次增加网络添加层级,并在ECSSD数据集上进行了测试,通过显著性目标检测性能指标评估及参数量、权重文件大小等方面进行了比较。

      实验结果如表5所示,添加EGSAM模块有效提升了网络的性能。随着添加EGSAM模块的层级逐渐增多直至添加至第三阶段,网络性能有较大幅度的提升,F值提升2.1%,随之而来的参数量和模型大小也在可控范围内逐渐增大。然而,在第四阶段添加EGSAM模块使得参数量和模型大小急剧增加,这样的变化在增加GPU负担的同时对网络性能的提升并不明显甚至存在一些负面影响,因此仅在EGMFNet的前三个阶段桥接EGSAM模块以提升网络性能。

      表 5  EGSAM模块层级验证实验结果

      Table 5.  Verify the experimental results at EGSAM module level

      No.Stage with EGSAMFβMAESαParametersSize/MB
      1Baseline0.9230.0410.90854 437 157207.67
      2Stage 10.9360.0380.91654 734 330208.79
      3Stage 1+20.9410.0350.92355 916 197213.30
      4Stage 1+2+30.9430.0330.92660 638 928231.32
      5Stage 1+2+3+40.9420.0330.92479 521 275303.35
    • 如3.3节中所示,EGSAM模块的输出结果分别经过两次调用,其中包含一次与多层级融合特征的加权融合。为研究融合系数$ \mathrm{\alpha } $对网络性能的影响,设置了验证实验,并在ECSSD数据集上进行评估。

      实验结果如表6中所示,当$ {\alpha } $数值较大时,过多冗余边缘细节影响了网络性能。随着$ {\alpha } $逐渐变小(${\alpha } < 0.1$)时,添加EGSAM模块的网络性能相较于基础网络有所提升,当$ {\alpha }=0.01 $时取得最好效果,F值较基础网络提升2.1%。当$ \mathrm{\alpha } $继续减小($ {\alpha } < 0.01 $),EGSAM模块对于网络的影响弱化,使得网络性能降低,因此将EGSAM融合系数设置为$ {\alpha }=0.01 $以取得最好的效果。

      表 6  EGSAM融合系数设置验证实验

      Table 6.  EGSAM fusion coefficient setting experiment

      No.αFβMAESα
      1Baseline0.9230.0410.908
      210.8420.1040.832
      30.10.9110.0520.894
      40.050.9260.0410.913
      50.010.9430.0330.926
      60.0050.9400.0370.920
    • 文中提出了新型的EGMFNet用于显著性目标检测任务,EGMFNet的主干网络是一个具有三级嵌套的U型网络结构,网络的较低层级使用由不同数量RCFBlock填充的MCFUBlock构建。为减少高级语义信息因和全局空间特征因池化操作而丢失或被稀释,在EGMFNet的较高层级使用带有残差连接的U型块进行填充。同时,在网络的较低层级引入边缘信息引导的扩张空间注意力模块(EGSAM)进一步提取和利用边缘及空间特征信息。此外,使用融合边界损失函数的混合损失函数端到端的训练EGMFNet,在四个常用数据集上的测试结果表明,EGMFNet较典型方法F值提升了1.5%、2.7%、1.8%和1.6%,具有良好的性能。

参考文献 (16)

目录

    /

    返回文章
    返回