留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

并行多特征提取网络的红外图像增强方法

庞忠祥 刘勰 刘桂华 龚泿军 周晗 罗洪伟

庞忠祥, 刘勰, 刘桂华, 龚泿军, 周晗, 罗洪伟. 并行多特征提取网络的红外图像增强方法[J]. 红外与激光工程, 2022, 51(8): 20210957. doi: 10.3788/IRLA20210957
引用本文: 庞忠祥, 刘勰, 刘桂华, 龚泿军, 周晗, 罗洪伟. 并行多特征提取网络的红外图像增强方法[J]. 红外与激光工程, 2022, 51(8): 20210957. doi: 10.3788/IRLA20210957
Pang Zhongxiang, Liu Xie, Liu Guihua, Gong Yinjun, Zhou Han, Luo Hongwei. Parallel multifeature extracting network for infrared image enhancement[J]. Infrared and Laser Engineering, 2022, 51(8): 20210957. doi: 10.3788/IRLA20210957
Citation: Pang Zhongxiang, Liu Xie, Liu Guihua, Gong Yinjun, Zhou Han, Luo Hongwei. Parallel multifeature extracting network for infrared image enhancement[J]. Infrared and Laser Engineering, 2022, 51(8): 20210957. doi: 10.3788/IRLA20210957

并行多特征提取网络的红外图像增强方法

doi: 10.3788/IRLA20210957
基金项目: 国家自然科学基金(11602292);四川省科技支撑计划(2021YFG0380)
详细信息
    作者简介:

    庞忠祥,男,硕士生,主要从事深度学习、图像处理以及计算机视觉等方面的研究

    刘桂华,女,教授,博士生导师,博士,研究方向为机器人场景智能感知、图像处理、机器视觉以及 FPGA 集成电路设计等

  • 中图分类号: TP391

Parallel multifeature extracting network for infrared image enhancement

Funds: National Natural Science Foundation of China (11602292);Science and Technology Support Plan of Sichuan Province(2021YFG0380)
  • 摘要: 为解决低质量红外图像细节模糊、对比度低等问题,提出了并行多特征提取网络的红外图像增强方法,设计了结构特征映射网络和双尺度特征提取网络。结构特征映射网络用于建立全局结构特征权重,以保持原始图像的空间结构信息。双尺度特征提取网络采用多尺度卷积层和融合多空洞卷积的注意力,增强网络对上下文信息的关注力,提升网络对感兴趣区域的特征提取能力,同时学习不同尺度的特征信息,完成双尺度间信息的交换,生成目标增强映射,实现目标区域细节纹理自适应增强。实验证明,所提方法能有效提高对比度,避免过增强,丰富图像细节纹理,减少伪影和光晕现象,在BSD200数据集上的PSNR与SSIM较典型的传统方法和深度学习方法分别提升了约37.35%、2.1%与25.94%、3.15%,在真实红外数据集上分别提升了约30.62%、1.04%与24.83%、2.08%,且对不同对比度因子的低质量图像,文中方法也具有良好的增强效果。
  • 图  1  整体网络结构

    Figure  1.  Architecture of the overall network

    图  2  多尺度特征提取模块

    Figure  2.  Module of the MS-feature extraction

    图  3  注意力模块

    Figure  3.  Architecture of attention block

    图  4  解码块结构

    Figure  4.  Architecture of decoder block

    图  5  部分训练样本对

    Figure  5.  Part of the training sample pairs

    图  6  $ \alpha \in \left[\mathrm{0.5,0.51}\right] $条件下BSD200图像增强效果

    Figure  6.  Image enhancement on BSD200 with $ \alpha \in \left[\mathrm{0.5,0.51}\right] $

    图  7  $ \alpha \in \left[\mathrm{0.5,0.51}\right] $条件下真实红外图像测试结果

    Figure  7.  Test result on real infrared images with $ \alpha \in \left[\mathrm{0.5,0.51}\right] $

    图  8  在不同$ \alpha $作用下文中方法在BSD200数据集的图像增强效果

    Figure  8.  Image enhancement effect on BSD200 with different $ \alpha $ using proposed method

    表  1  结构特征权重映射块参数

    Table  1.   Parameters of SFW map blocks

    TypeKspc
    Conv11032
    conv31132
    Conv51232
    Conv31132
    下载: 导出CSV

    表  2  双尺度特征提取块参数

    Table  2.   Parameters of TSFEB

    PathTypeKspc
    2_1 Conv 3 2 1 48
    2_2 Conv 1 1 0 32
    2_3 MS-FE / / / 62
    2_4 MS-FE / / / 96
    2_5 Conv 3 1 1 96
    3_1 Conv 4 4 0 96
    3_2 Conv 1 1 0 64
    3_3 AB / / / 64
    3_4 Conv 3 1 2 64
    3_5 Conv 3 1 2 64
    3_6 Conv 3 1 2 64
    3_7 AB / / / 64
    3_8 deconv 4 2 1 96
    下载: 导出CSV

    表  3  ${\boldsymbol{\alpha}} $ ∈ [0.5, 0.51]条件下BSD200数据集测试结果

    Table  3.   Test result on BSD200 with ${\boldsymbol{\alpha}} $∈ [0.5, 0.51]

    MethodHECLAHESSRMSRTENTIECNNIE-GANProposed
    PSNR15.9522.1916.5117.5725.0724.6026.2335.42
    SSIM0.720.930.880.900.820.800.920.95
    下载: 导出CSV

    表  4  ${\boldsymbol{\alpha}}$∈ [0.5, 0.51]条件下真实红外图像增强效果

    Table  4.   Test result on real infrared images with ${\boldsymbol{\alpha}}$∈ [0.5, 0.51]

    MethodHECLAHESSRMSRTENTIECNNIE-GANProposed
    PSNR13.0624.7815.8918.3625.7723.2526.8535.72
    SSIM0.530.950.890.930.890.880.940.96
    下载: 导出CSV

    表  5  在不同${\boldsymbol{\alpha}}$作用下文中方法在BSD200数据集的PSNR和SSIM

    Table  5.   PSNR and SSIM on BSD200 with different ${\boldsymbol{\alpha}}$ using proposed method

    $ \alpha $$ \left[\mathrm{0.1,0.11}\right] $$ \left[\mathrm{0.2,0.21}\right] $$ \left[\mathrm{0.3,0.31}\right] $$ \left[\mathrm{0.4,0.41}\right] $
    PSNR30.576231.037028.129032.0594
    SSIM0.83430.88670.90740.9058
    下载: 导出CSV

    表  6  消融实验

    Table  6.   Ablation experiments

    MethodPSNRSSIMTime/s
    Path1(SFW) 27.35 0.92 0.05
    Path2 without MS-feature extraction 25.26 0.83 0.09
    Path2 27.03 0.87 0.14
    Path3 24.58 0.92 0.14
    TSFEB 29.15 0.90 0.21
    SFW + TSFEB without MS-feature extraction 30.99 0.93 0.22
    SFW + TSFEB 35.42 0.95 0.26
    下载: 导出CSV
  • [1] 左岑, 杨秀杰, 张捷, 王璇. 基于轻量级金字塔密集残差网络的红外图像超分辨增强[J]. 红外技术, 2021, 43(03): 251-257.

    Zuo C, Yang X, Zhang J, et al. Super-resolution enhancement of infrared images using a lightweight dense residual network [J]. Infrared Technology, 2021, 43(3): 251-257. (in Chinese)
    [2] 李萍, 刘以安, 徐安林. 基于多尺度耦合的密集残差网络红外图像增强[J]. 电子测量与仪器学报, 2021, 35(07): 148-155.

    Li P, Liu Y, Xu A. Infrared image enhancement using dense residual network with multi-scale coupling [J]. Journal of Electronic Measurement and Instrumentation, 2021, 35(7): 148-155. (in Chinese)
    [3] Choi Y, Kim N, Hwang S, et al. Thermal image enhancement using convolutional neural network[C]//2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2016.
    [4] 王笛, 沈涛, 孙宾宾, 崔晓荣. 基于大气灰度因子的红外图像增强算法[J]. 激光与红外, 2019, 49(09): 1135-1140.

    Wang D, Shen T, Sun B, et al. Infrared image enhancement algorithm based on atmospheric gray factor [J]. Laser and Infrared, 2019, 49(9): 1135-1140. (in Chinese)
    [5] 李牧, 周瑞杰, 田哲嘉. 基于直方图的热红外图像增强方法[J]. 红外技术, 2020, 42(09): 880-885.

    Li M, Zhou R, Tian Z. A thermal infrared image enhancement method based on histogram [J]. Infrared Technology, 2020, 42(9): 880-885. (in Chinese)
    [6] 李佳, 李少娟, 段小虎等. 基于Retinex理论与概率非局部均值的红外图像增强方法[J]. 光子学报, 2020, 49(4): 0410003. doi:  10.3788/gzxb20204904.0410003

    Li J, Li S, Duan X, et al. Infrared image enhancement based on retinex and probability nonlocal means filtering [J]. Acta Photonica Sinica, 2020, 49(4): 0410003. (in Chinese) doi:  10.3788/gzxb20204904.0410003
    [7] 曹海杰, 刘宁, 许吉等. 红外图像自适应逆直方图增强技术[J]. 红外与激光工程, 2020, 49(4): 0426003. doi:  10.3788/IRLA202049.0426003

    Cao H, Liu N, Xu J, et al. Infrared image adaptive inverse histogram enhancement technology [J]. Infrared and Laser Engineering, 2020, 49(4): 0426003. (in Chinese) doi:  10.3788/IRLA202049.0426003
    [8] Li S, Jin W, Li L, et al. An improved contrast enhancement algorithm for infrared images based on adaptive double plateaus histogram equalization [J]. Infrared Physics & Technology, 2018, 90: 164-174.
    [9] Liang X, Tian Y, Yan S, et al. A real-time infrared image enhancement algorithm based on improved CLAHE[C]//2018 International Conference on Image and Video Processing, and Artificial Intelligence, 2018: 10836.
    [10] Lee K, Lee J, Lee J, et al. Brightness-based convolutional neural network for thermal image enhancement [J]. IEEE Access, 2017, 5: 26867-26879. doi:  10.1109/ACCESS.2017.2769687
    [11] Kuang X, Sui X, Liu Y, et al. Single infrared image enhancement using a deep convolutional neural network [J]. Neurocomputing, 2019, 332: 119-128. doi:  10.1016/j.neucom.2018.11.081
    [12] He Z, Tang S, Yang J, et al. Cascaded deep networks with multiple receptive fields for infrared image super-resolution [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(8): 2310-2322. doi:  10.1109/TCSVT.2018.2864777
    [13] 王向军, 欧阳文森. 多尺度循环注意力网络运动模糊图像复原方法[J]. 红外与激光工程, 2022, 51(6): 20210605. . doi:  10.3788/IRLA20210605

    Wang X J, Ouyang W S. Multi-scale recurrent attention network for image motion deblurring [J]. Infrared and Laser Engineering, 2022, 51(6): 20210605. (in Chinese) doi:  10.3788/IRLA20210605
    [14] Tian C, Xu Y, Zuo W. Image denoising using deep CNN with batch renormalization [J]. Neural Networks, 2020, 121: 461-473. doi:  10.1016/j.neunet.2019.08.022
    [15] Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2009.
    [16] Martin D, Fowlkes C, Tal D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings Eighth IEEE International Conference on Computer Vision. ICCV. IEEE, 2001, 2: 416-423.
    [17] Toet A. TNO image fusion dataset. figshare[DB/OL]. (2014)[2021-12-13]. https://doi.org/10.6084/m9.figshare.1008029.v1.
    [18] Davis J W, Keck M A. A two-stage template approach to person detection in thermal imagery[C]//2005 Seventh IEEE Workshops on Applications of Computer Vision (WACV/MOTION'05). IEEE, 2005, 1: 364-369.
  • [1] 李鹏越, 续欣莹, 唐延东, 张朝霞, 韩晓霞, 岳海峰.  基于并行多轴自注意力的图像去高光算法 . 红外与激光工程, 2024, 53(3): 20230538-1-20230538-11. doi: 10.3788/IRLA20230538
    [2] 李昭慧, 寇鸽子.  基于改进的Deeplabv3+的红外航拍图像架空导线识别算法 . 红外与激光工程, 2022, 51(11): 20220112-1-20220112-9. doi: 10.3788/IRLA20220112
    [3] 张方, 肖辉.  基于三角函数变换与IRDPSO优化的图像增强算法 . 红外与激光工程, 2022, 51(8): 20210709-1-20210709-8. doi: 10.3788/IRLA20210709
    [4] 蔡仁昊, 程宁, 彭志勇, 董施泽, 安建民, 金钢.  基于深度学习的轻量化红外弱小车辆目标检测算法研究 . 红外与激光工程, 2022, 51(12): 20220253-1-20220253-11. doi: 10.3788/IRLA20220253
    [5] 廖莎莎.  基于筛选深度特征的红外图像目标识别方法 . 红外与激光工程, 2022, 51(5): 20210372-1-20210372-6. doi: 10.3788/IRLA20210372
    [6] 王鹏翔, 张兆基, 杨怀.  结合多特征融合和极限学习机的红外图像目标分类方法 . 红外与激光工程, 2022, 51(6): 20210597-1-20210597-6. doi: 10.3788/IRLA20210597
    [7] 夏信, 何传亮, 吕英杰, 王守志, 张博, 陈晨, 陈海鹏, 李美萱.  深度学习驱动的智能电网运行图像数据压缩技术 . 红外与激光工程, 2022, 51(12): 20220097-1-20220097-6. doi: 10.3788/IRLA20220097
    [8] 李霖, 王红梅, 李辰凯.  红外与可见光图像深度学习融合方法综述 . 红外与激光工程, 2022, 51(12): 20220125-1-20220125-20. doi: 10.3788/IRLA20220125
    [9] 王志远, 赖雪恬, 林惠川, 陈福昌, 曾峻, 陈子阳, 蒲继雄.  基于深度学习实现透过浑浊介质图像重构(特邀) . 红外与激光工程, 2022, 51(8): 20220215-1-20220215-10. doi: 10.3788/IRLA20220215
    [10] 王向军, 欧阳文森.  多尺度循环注意力网络运动模糊图像复原方法 . 红外与激光工程, 2022, 51(6): 20210605-1-20210605-9. doi: 10.3788/IRLA20210605
    [11] 汪伟, 许德海, 任明艺.  一种改进的红外图像自适应增强方法 . 红外与激光工程, 2021, 50(11): 20210086-1-20210086-9. doi: 10.3788/IRLA20210086
    [12] 史国军.  深度特征联合表征的红外图像目标识别方法 . 红外与激光工程, 2021, 50(3): 20200399-1-20200399-6. doi: 10.3788/IRLA20200399
    [13] 张智, 孙权森, 林栩凌, 韩明亮.  基于临近时空帧间信息的空间目标图像增强方法 . 红外与激光工程, 2019, 48(S1): 193-197. doi: 10.3788/IRLA201948.S128004
    [14] 梁欣凯, 宋闯, 赵佳佳.  基于深度学习的序列图像深度估计技术 . 红外与激光工程, 2019, 48(S2): 134-141. doi: 10.3788/IRLA201948.S226002
    [15] 姚旺, 刘云鹏, 朱昌波.  基于人眼视觉特性的深度学习全参考图像质量评价方法 . 红外与激光工程, 2018, 47(7): 703004-0703004(8). doi: 10.3788/IRLA201847.0703004
    [16] 张秀玲, 侯代标, 张逞逞, 周凯旋, 魏其珺.  深度学习的MPCANet火灾图像识别模型设计 . 红外与激光工程, 2018, 47(2): 203006-0203006(6). doi: 10.3788/IRLA201847.0203006
    [17] 耿磊, 梁晓昱, 肖志涛, 李月龙.  基于多形态红外特征与深度学习的实时驾驶员疲劳检测 . 红外与激光工程, 2018, 47(2): 203009-0203009(9). doi: 10.3788/IRLA201847.0203009
    [18] 刘雪超, 吴志勇, 王弟男, 杨华, 黄德天.  结合自适应窗口的二维直方图图像增强 . 红外与激光工程, 2014, 43(6): 2027-2034.
    [19] 徐利民, 范文慧, 刘佳.  太赫兹图像的降噪和增强 . 红外与激光工程, 2013, 42(10): 2865-2870.
    [20] 孙韶媛, 李琳娜, 赵海涛.  采用KPCA和BP神经网络的单目车载红外图像深度估计 . 红外与激光工程, 2013, 42(9): 2348-2352.
  • 加载中
图(8) / 表(6)
计量
  • 文章访问数:  324
  • HTML全文浏览量:  83
  • PDF下载量:  80
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-12-13
  • 修回日期:  2022-01-13
  • 网络出版日期:  2022-08-31
  • 刊出日期:  2022-08-31

并行多特征提取网络的红外图像增强方法

doi: 10.3788/IRLA20210957
    作者简介:

    庞忠祥,男,硕士生,主要从事深度学习、图像处理以及计算机视觉等方面的研究

    刘桂华,女,教授,博士生导师,博士,研究方向为机器人场景智能感知、图像处理、机器视觉以及 FPGA 集成电路设计等

基金项目:  国家自然科学基金(11602292);四川省科技支撑计划(2021YFG0380)
  • 中图分类号: TP391

摘要: 为解决低质量红外图像细节模糊、对比度低等问题,提出了并行多特征提取网络的红外图像增强方法,设计了结构特征映射网络和双尺度特征提取网络。结构特征映射网络用于建立全局结构特征权重,以保持原始图像的空间结构信息。双尺度特征提取网络采用多尺度卷积层和融合多空洞卷积的注意力,增强网络对上下文信息的关注力,提升网络对感兴趣区域的特征提取能力,同时学习不同尺度的特征信息,完成双尺度间信息的交换,生成目标增强映射,实现目标区域细节纹理自适应增强。实验证明,所提方法能有效提高对比度,避免过增强,丰富图像细节纹理,减少伪影和光晕现象,在BSD200数据集上的PSNR与SSIM较典型的传统方法和深度学习方法分别提升了约37.35%、2.1%与25.94%、3.15%,在真实红外数据集上分别提升了约30.62%、1.04%与24.83%、2.08%,且对不同对比度因子的低质量图像,文中方法也具有良好的增强效果。

English Abstract

    • 红外图像是仅反映目标物体红外辐射能量的灰度图像,其受环境干扰较小,已在野外侦察、航空航天及居家看护等军事和民生领域发挥着不可替代的作用[1]。然而,红外波段的辐射波长比可见光长,导致红外图像的空间分辨力比可见光低,图像细节信息不丰富[2]。此外,受红外成像器件本身的缺陷和外部环境的影响,红外图像通常呈现低对比度,目标边缘不清晰和人眼视觉效果不佳等缺点,很难完成目标定位识别、人体姿态估计等机器视觉任务[3]。因此,为了得到适合人眼观察或机器识别的高质量红外图像,有必要对红外图像增强,提高图像对比度、丰富细节特征,区分背景和目标,从而提高上述任务的效率和精度[4]

      深度学习流行前,针对红外图像增强任务,主要采用基于灰度变换的直方图均衡化(Histogram Equalization, HE)[5]和基于物理模型的Retinex算法[6]。HE在低照度图像增强任务上取得了良好的效果。然而,针对低对比度红外图像增强,HE通常会加大红外图像的各种噪声,局部区域呈现过增强,产生非常差的结果[7]。为了解决这个问题,出现了许多基于直方图均衡化的变体,如DPHE[8]、CLAHE[9]等。这些方法虽能够在一定程度上提高对比度和抑制噪声,但会产生光晕现象,并造成边缘模糊,降低人眼视觉效果。模仿人眼视觉系统的Retinex方法在处理红外图像时,能更进一步地保留细节信息,丰富图像纹理,然而其依赖参数选择,模型泛化能力差,不能自适应地优化图像。

      深度学习广泛应用于计算机视觉领域后,Choi等人[3]受SRCNN启发,首次设计了一个相对浅的卷积神经网络TEN用于热图像增强。Lee等人[10]提出了TIECNN用于红外图像增强,它结合亮度域和残差学习,以提高网络性能和收敛速度。Kuang等人[11]在卷积神经网络结构中加入生成对抗网络,提出了IE-GAN用于单帧红外图像增强,能有效抑制背景噪声,并增强图像对比度和细节,但需要设计相对复杂的损失函数。He等人[12]提出了一种具有多个感受野(CDN_MRF)的深度级联网络架构,以解决具有大比例因子的单帧红外图像超分辨率问题。虽然上述基于CNN的方法对红外图像增强做出了贡献,但这些方法在增强对比度的同时会加重图像伪影,造成目标边缘模糊及产生光晕,不能充分展现图像的边缘和纹理。由此,提出了端到端学习的并行多特征提取网络红外图像增强方法解决以上问题。一方面,设计了结构特征权重映射块,用于生成全局特征权重,以保留原始图像的空间结构特征;另一方面,构造了双尺度特征提取块对不同尺度的特征图进行深度特征提取,学习图像的多特征信息,捕获细节和纹理。最后,解码模块对已提取的特征和初始权重进行融合,提升对比度,丰富细节纹理,生成高质量的增强红外图像。

    • 并行多特征提取网络的整体框架如图1所示,由3条不同尺度的卷积路径组成,分别为Path1($ 128\; \times 128 $)、Path2($ 64\times 64 $)和Path3($ 32\times 32 $)。Path1为结构特征权重映射块,直接对原始输入图像进行操作,构建全局特征权重。两种不同尺度的特征提取路径Path2、Path3构成的双尺度特征提取块,学习深层的纹理细节,完成多尺度特征提取、融合,捕获图像中需要增强的目标信息。解码器(Decoder)整合多路径特征信息,生成高质量的红外图像。

      图  1  整体网络结构

      Figure 1.  Architecture of the overall network

    • 为保持原始图像的整体结构,避免图像局部区域过增强,设计了结构特征权重映射块(Structural Feature Weight, SFW),以学习低质量红外图像的全局信息,生成全局结构特征映射。如图1中Path1所示,该路径由4个卷积块(Conv-BN-PReLU)、全局平均池化(Global Average Pooling,GAP)和Mish激活函数组成。表1所示为文中提出的结构特征权重映射块参数信息,K表示卷积核大小,s表示步长,p表示填充,c表示通道数。除了第一个卷积块,其余卷积块均包含批次归一化操作(Batch Normalization, BN),则结构权重映射可表示为:

      表 1  结构特征权重映射块参数

      Table 1.  Parameters of SFW map blocks

      TypeKspc
      Conv11032
      conv31132
      Conv51232
      Conv31132
      $$ {F}_{o}=Mish\left({Y}_{GAP}\right({F}_{in}\left)\right) $$ (1)
      $$ {Y}_{GAP}=\frac{1}{H\times W}\sum _{i}^{H}\sum _{j}^{W}f(i,j) $$ (2)
      $$ Mish=\sigma \times {\rm tanh}\left({\rm log}\right(1+{\rm e}^{\sigma }\left)\right) $$ (3)

      式中:$ {F}_{in}\in {\mathbb{R}}^{C\times H\times W} $表示前4个卷积层提取的特征信息;HW表示输入特征图的高度和宽度;$ {Y}_{GAP} $为全局平均池化操作;$ f(i,j) $表示每张特征图上的特征值;$ Mish $为非线性激活函数。给定$ 128\times 128 $的单通道输入图像,经结构特征权重映射块操作后,输出特征大小为$ {F}_{o}\in {\mathbb{R}}^{32\times 1\times 1} $

    • 为了提取图像纹理、边缘等高频细节信息,提出了双尺度特征提取网络块(Two-scale Feature Extraction Block,TSFEB)。该模块由Path2和Path3两种不同尺度的特征提取路径构成。首先给定输入大小为$ 128\times 128 $的图像,经卷积降采样操作,分别获得$64\times 64 \left({F}_{1}\right)$$ 32\times 32\left({F}_{2}\right) $大小的双尺度特征图,如图1所示。其次,$ {F}_{1} $经通道压缩后,送入由不同卷积感受野组成的多尺度特征提取模块(MS-feature extraction),以学习多尺度信息,提取$ {F}_{1} $的纹理结构。此外,在Path2中加入残差学习,用于融合前层提取的特征,避免了梯度消失或梯度爆炸。最后,微调特征图信息,实现Path2的输出。图2列出了MS-feature extraction的具体结构和参数设置,其中nspc分别表示卷积核尺寸、步长、填充和通道数。$ {F}_{3} $经通道压缩后送入由注意力(Attention Block, AB)和空洞卷积组成的特征提取块中以捕获更丰富的上下文信息。研究表明[13],注意力机制能够使网络专注需要增强的细节纹理,抑制背景,进而提高目标在图像中的表现度。图3所示为注意力模块的实现流程,首先前层输入经GAP后,得到多通道全局平均信息;再经过Conv、LeakyReLU和Sigmoid操作后,与前层输入相乘,输出注意力加权特征图ÔÔ可表示为公式(4):

      图  2  多尺度特征提取模块

      Figure 2.  Module of the MS-feature extraction

      $$ {{\hat O = \hat A}} \otimes S\left({\rm Conv}\right(L\left({\rm Conv}\right({Y}_{GAP}(\textit{Â})\left)\right)\left)\right) $$ (4)

      式中:${{\hat A}}$表示输入特征图;$ \otimes $表示元素点乘;S代表Sigmoid激活函数,用来将权重压缩至$0 \sim 1$L代表LeakyReLU激活函数。

      图  3  注意力模块

      Figure 3.  Architecture of attention block

      此外,扩大卷积感受野有助于网络提取更多的信息,目前空洞卷积技术在扩大感受野方面具有广泛的应用,在图像去噪、图像增强等任务上有很好的效果[14]。使用扩张因子为$ f $($ f=2 $)和扩张卷积层数为$ N $的空洞卷积,其感受野$ {R}_{F} $可以表示为公式(5):

      $$ {R}_{F}=(4N+1)\times (4N+1) $$ (5)

      Path3采用$ f=2 $$N=3$的空洞卷积块,$ {R}_{F} $大小为$ 13\times 13 $,相当于普通的6层卷积,这样既增加了网络对特征图上下文信息的关注度,还压缩了复杂的计算量。为避免网络加深而导致模型训练困难、梯度消失或爆炸的问题,在双尺度特征提取块中加入了多级残差结构。如图1所示,分别将下采样得到的双尺度特征信息通过元素相加的方式与下层特性信息融合,多级残差结构充分利用前层所提取的特征,使正向传播的特征得以保留,有益于网络的收敛。最后,Path3所提取的高维特征信息经deconv上采样后与Path2提取到的特征相加,实现双尺度多特征的融合。由此,双尺度特征提取网络块的整体参数设置如表2所示。融合结果$ {P}_{23}\in {\mathbb{R}}^{96\times 64\times 64} $可由公式(6)表示:

      表 2  双尺度特征提取块参数

      Table 2.  Parameters of TSFEB

      PathTypeKspc
      2_1 Conv 3 2 1 48
      2_2 Conv 1 1 0 32
      2_3 MS-FE / / / 62
      2_4 MS-FE / / / 96
      2_5 Conv 3 1 1 96
      3_1 Conv 4 4 0 96
      3_2 Conv 1 1 0 64
      3_3 AB / / / 64
      3_4 Conv 3 1 2 64
      3_5 Conv 3 1 2 64
      3_6 Conv 3 1 2 64
      3_7 AB / / / 64
      3_8 deconv 4 2 1 96
      $$ {P}_{23}={{\hat E + \hat U}} $$ (6)

      式中:${{{\hat E}}}\in {\mathbb{R}}^{96\times 64\times 64}$为Path2提取的特征;${{{\hat U}}}\in {\mathbb{R}}^{96\times 64\times 64}$为Path3提取的特征。

    • 图4所示的解码块用于恢复高质量的红外图像。首先,融合的双尺度特征图$ {P}_{23} $经卷积和反卷积操作后,特征图扩张为$ 128\times 128 $,实现特征升维。其次,将结构特征权重$ {F}_{o} $点乘各像素点,以保持原始图像的结构特征,避免局部区域过增强。最后,特征图经通道压缩卷积生成高质量的增强图像。

      图  4  解码块结构

      Figure 4.  Architecture of decoder block

    • 红外图像可分解为图像空间结构权重和目标增强特征的乘积,其客观评价指标主要为峰值信噪比(PSNR)和结构相似性(SSIM),通常采用均绝对误差(Mean Absolute Error, MAE)、均方差(Mean Square Error,MSE)或MSE与感知损失、生成对抗损失相结合等作为损失函数,以取得有意义的评价结果。考虑计算量、时间成本等因素,文中选择MSE对重构图像和标签图像的各个像素点计算,损失函数可表示为公式(7):

      $$\begin{split} {L}_{MSE}=&\frac{1}{H\times W}\sum _{j=1}^{H}\sum _{i=1}^{W}{\left\| O\left(i,j\right)-I\left(i,j\right)\right\|}_{2}^{2}=\\ &\frac{1}{H\times W}{\left\|{\textit{Ǧ}}\cdot {\textit{Ă}}-G\cdot E\right\|}_{2}^{2}=\\ &\frac{1}{H\times W}{\left\|({\textit{Ǧ}},G)\cdot ({\textit{Ă}},E)\right\|}_{2}^{2}=\\ &\frac{1}{H\times W}{\left\|{\textit{Ȓ}}\cdot {\textit{Ȓ}}\right\|}_{2}^{2} \end{split}$$ (7)

      式中:$ O\left(i,j\right) $$ I\left(i,j\right) $分别表示重构图像和标签高质量图像;HW为图像的高度和宽度;$\textit{Ǧ}$表示网络结构特征权重;$ G $表示理想特征权重;$\textit{Ê}$$ E $分别表示网络增强映射和理想增强映射;$\textit{Ȓ}$表示$\textit{Ǧ}$$ G $的差值,$\textit{Ř}$表示$\textit{Ê}$$ E $的差值。

    • 由于缺乏大规模多场景高低质量红外图像对,而低对比度化的灰度图像表现出相似的红外图像特性,如与红外图像有相近的均值和方差,且整体图像不够清晰,图像中目标与背景边界模糊,现有经典方法普遍对预处理后的可见光图像进行训练。文中实验从目标检测数据集ImageNet[15]中随机选择部分图像,经滑窗裁剪的方式,生成85347张$ 128\times 128 $大小的图像块用于训练。首先,对这些图像块进行灰度化(Grayscale)处理,获得高质量灰度图片;其次,采用对比度因子$ \alpha \in \left[\mathrm{0.5,0.51}\right] $范围的随机对比度函数对高质量灰度图像低对比度化,获得相应的低质量灰度图片。部分训练样本如图5所示,第一行为高质量标签图像,第二行为低质量输入图像。

      图  5  部分训练样本对

      Figure 5.  Part of the training sample pairs

      为验证所设计网络的性能质量和视觉效果,使用BSD200[16]、TNO[17]和OTCBVS[18]数据集进行评价。常用于图像分割、图像超分辨等任务的公共数据集BSD200经灰度化,低对比度化处理后,用于图像质量的客观评价。

      TNO和OTCBVS真实红外图像数据集缺乏对应的低质量图像,因此采用低对比度化的数据作为相应的低质量图像,以实现真实红外图像的客观评价和视觉效果对比。测试数据均调整为$ 256\times 256 $分辨率。

    • 文中网络是在运行环境为 Ubuntu 20.04 操作系统和 Pytorch1.5.1 框架上搭建的。实验所用台式机使用了1块 Inter Xeon E5-2620 v4 CPU和1块 Nvidia TITAN XP 12 G GPU。批次大小为64,网络优化器选择Adam,初始学习率为$ 1 e-3 $,采用余弦学习率衰减策略,经300个epoch后,学习率降至$ 1 e-6 $

    • 对于图像增强任务,通常采用峰值信噪比(PSNR)和结构相似性(SSIM)定量评价网络模型的性能。PSNR是基于对应像素点之间的误差,其值越大,表示图像质量越好。PSNR计算方法如公式(8)所示:

      $$ {\rm PSNR}=10\times \mathrm{l}\mathrm{g}\left(\frac{{({2}^{b}-1)}^{2}}{\rm MSE}\right) $$ (8)

      式中:b为8;MSE计算如公式(2)。结构相似性(SSIM)是衡量2幅图片相似度的指标,SSIM值越接近1,表示2张图片越相似,输出图片更吻合真实标签图片,其计算公式如公式(9)所示:

      $$ {\rm SSIM}\left(x,y\right)=\frac{(2{\mu }_{x}{\mu }_{y}+{C}_{1})(2{\sigma }_{x}{\sigma }_{y}+{C}_{2})}{({\mu }_{x}^{2}+{\mu }_{y}^{2}+{C}_{1})({\sigma }_{x}^{2}+{\sigma }_{y}^{2}+{C}_{2})} $$ (9)

      式中:$ {\mu }_{x} $$ {\mu }_{y} $分别为原始高增益图像和输出图像的平均灰度值;$ {\sigma }_{x} $$ {\sigma }_{y} $为标准差;$ {C}_{1} $$ {C}_{2} $为常数。

    • 文中方法以平均PSNR和平均SSIM作为客观评价指标,与红外图像增强的典型传统方法HE[5]、CLAHE[9]、SSR[6]、MSR[6]和深度学习方法TEN[3]、TIECNN[10]及IE-GAN[11]进行定量比较,对比度因子$ \alpha \in \left[\mathrm{0.5,0.51}\right] $,BSD200数据集实验结果如表3图6所示。

      表 3  ${\boldsymbol{\alpha}} $ ∈ [0.5, 0.51]条件下BSD200数据集测试结果

      Table 3.  Test result on BSD200 with ${\boldsymbol{\alpha}} $∈ [0.5, 0.51]

      MethodHECLAHESSRMSRTENTIECNNIE-GANProposed
      PSNR15.9522.1916.5117.5725.0724.6026.2335.42
      SSIM0.720.930.880.900.820.800.920.95

      表3数据可知,文中方法在BSD200数据集上取得了最佳的PSNR和SSIM,较基于灰度变化的CLAHE方法分别提升了13.23 dB和0.02;较基于Retinex理论的MSR分别提升了17.85 dB和0.07;较基于对抗生成网络的IE-GAN分别提升了9.19 dB和0.03。文中方法较CLAHE和IE-GAN分别提升了约37.35%、2.1%和25.94%、3.15% 。从图6可知,文中网络在减小重构图像伪影、天空光晕等方面显著优于传统方法和其他深度学习算法,在提升企鹅、人像和建筑物等具体目标对比度的同时,文中方法避免了局部区域过增强,能清晰地区分目标和背景,重构效果接近高质量图像,实现低质量图像有效增强。

      图7表4展示了文中算法与其他方法在真实红外图像数据集上进行了增强的视觉效果对比及客观指标对比。图7中第1、3行为不同方法的增强结果,第2、4行为局部放大图,最后1列为高质量红外图像。与其他方法相比,文中方法能准确关注需要增强的目标区域,避免图像过增强,显著提升了图像整体对比度和纹理细节信息,同时降低了增强区域的图像伪影,使目标边缘更加清楚,图像整体更加平滑,具有更佳的视觉效果。文中方法较基于灰度变化的CLAHE方法分别提升了10.94 dB和0.01;较基于Retinex理论的MSR分别提升了17.36 dB和0.03;较基于SRCNN的TEN网络分别提升了9.95 dB和0.07;较基于对抗生成网络的IE-GAN方法分别提升了8.87 dB和0.02;较CLAHE和IE-GAN分别提升了约30.62%、1.04%和24.83%、2.08%。

      表 4  ${\boldsymbol{\alpha}}$∈ [0.5, 0.51]条件下真实红外图像增强效果

      Table 4.  Test result on real infrared images with ${\boldsymbol{\alpha}}$∈ [0.5, 0.51]

      MethodHECLAHESSRMSRTENTIECNNIE-GANProposed
      PSNR13.0624.7815.8918.3625.7723.2526.8535.72
      SSIM0.530.950.890.930.890.880.940.96

      图  6  $ \alpha \in \left[\mathrm{0.5,0.51}\right] $条件下BSD200图像增强效果

      Figure 6.  Image enhancement on BSD200 with $ \alpha \in \left[\mathrm{0.5,0.51}\right] $

      图  7  $ \alpha \in \left[\mathrm{0.5,0.51}\right] $条件下真实红外图像测试结果

      Figure 7.  Test result on real infrared images with $ \alpha \in \left[\mathrm{0.5,0.51}\right] $

      由于不同场景下的红外图像灰度变化具有随机性,进一步研究了文中方法在不同对比度因子条件下的图像增强。具体做法是仅将$ \left[\mathrm{0.5,0.51}\right] $的对比度范围动态调整为$ \left[\mathrm{0.1,0.11}\right] $$ \left[\mathrm{0.2,0.21}\right] $$ \left[\mathrm{0.3,0.31}\right] $$ \left[\mathrm{0.4,0.41}\right] $,其他参数设置不变,验证提出的方法对不同场景的增强性能。图8表5展示了灰度图像经不同对比度因子($ \alpha $)范围作用后的增强效果。图中第一行为输入的低质量图像,第二行为重构的增强图像。从图中可以直观看出,即使在极低对比度条件下,如图8(a)所示,低质量的灰度图像经网络学习后既能显著地提升对比度,增强图像中感兴趣的区域,还保留了目标区域的纹理细节,有效抑制了边缘处的伪影。表4列出了不同$ \alpha $条件下的平均PSNR和平均SSIM,文中方法对于不同的$ \alpha $也能保持较高的PSNR和SSIM,实现低质量图像的有效增强。

      图  8  在不同$ \alpha $作用下文中方法在BSD200数据集的图像增强效果

      Figure 8.  Image enhancement effect on BSD200 with different $ \alpha $ using proposed method

      表 5  在不同${\boldsymbol{\alpha}}$作用下文中方法在BSD200数据集的PSNR和SSIM

      Table 5.  PSNR and SSIM on BSD200 with different ${\boldsymbol{\alpha}}$ using proposed method

      $ \alpha $$ \left[\mathrm{0.1,0.11}\right] $$ \left[\mathrm{0.2,0.21}\right] $$ \left[\mathrm{0.3,0.31}\right] $$ \left[\mathrm{0.4,0.41}\right] $
      PSNR30.576231.037028.129032.0594
      SSIM0.83430.88670.90740.9058

      为验证各模块对网络性能的影响,文中进行了消融实验。首先验证不同特征提取路径的增强效果,其次验证多尺度特征提取对网络模型的影响,实验结果如表6所示,最后1列为平均推理速度(s)。实验表明,不同特征提取路径表现出近似的增强效果,仅在结构特征权重映射块(SFW)作用下,PSNR与SSIM分别为27.35 dB、0.92;仅在双尺度特征提取块(TSFEB)作用下,PSNR与SSIM分别为29.15 dB、0.90。未结合多尺度特征提取的Path2路径测试结果分别为25.26 dB、0.83,相较于标准Path2,PSNR与SSIM分别降低了1.77 dB、0.04,推理速度提升了0.05 s。仅Path3模块作用下,PSNR与SSIM分别为24.58 dB、0.92。最后两列比较了多尺度特征提取对整体网络的影响,增加多尺度特征提取层后,标准方法在PSNR和SSIM上分别提升了约12.51%、2.10%,推理速度仅延迟了0.04 s。

      表 6  消融实验

      Table 6.  Ablation experiments

      MethodPSNRSSIMTime/s
      Path1(SFW) 27.35 0.92 0.05
      Path2 without MS-feature extraction 25.26 0.83 0.09
      Path2 27.03 0.87 0.14
      Path3 24.58 0.92 0.14
      TSFEB 29.15 0.90 0.21
      SFW + TSFEB without MS-feature extraction 30.99 0.93 0.22
      SFW + TSFEB 35.42 0.95 0.26
    • 针对低质量红外图像增强任务,文中提出了一种并行多路径网络的红外图像增强方法。将红外图像分解为空间结构特征和目标增强特征,提出了结构特征权重映射网络和双尺度特征提取网络,分别学习图像特征结构和需要增强的感兴趣区域。在双尺度特征提取网络中采用多尺度卷积层,增强多尺度间的信息交换,将空洞卷积融入注意力中,强调对上下文信息的理解,既自适应地学习感兴趣区域,还扩大了网络感受野。为了降低网络的训练难度,引入了残差学习结构。实验表明,文中方法的PSNR和SSIM较典型的传统方法和深度学习方法有明显提升,经$ \alpha \in \left[\mathrm{0.5,0.51}\right] $低对比度化后,在BSD200数据集上,较CLAHE和IE-GAN分别提升了约37.35%、2.1%与25.94%、3.15%,在真实红外图像上,较CLAHE和IE-GAN分别提升了约30.62%、1.04%和24.83%、2.08%,且文中方法对于不同对比度因子的低质量图像也能实现有效增强。

参考文献 (18)

目录

    /

    返回文章
    返回