Volume 51 Issue 11
Nov.  2022
Turn off MathJax
Article Contents

Zhang Jun, Zhu Biao, Shen Yuzhen, Zhang Peng. Multi-drop attention residual infrared image denoising network based on guided filtering[J]. Infrared and Laser Engineering, 2022, 51(11): 20220060. doi: 10.3788/IRLA20220060
Citation: Zhang Jun, Zhu Biao, Shen Yuzhen, Zhang Peng. Multi-drop attention residual infrared image denoising network based on guided filtering[J]. Infrared and Laser Engineering, 2022, 51(11): 20220060. doi: 10.3788/IRLA20220060

Multi-drop attention residual infrared image denoising network based on guided filtering

doi: 10.3788/IRLA20220060
  • Received Date: 2022-01-18
  • Rev Recd Date: 2022-04-01
  • Publish Date: 2022-11-30
  • At present, infrared images are widely used in various fields, but limited by the non-uniformity of detector unit, the infrared image has the disadvantages of low signal-to-noise ratio and blurred visual effects, which seriously affect its application in advanced fields. Commonly used denoising algorithms cannot take into account the smoothing of denoising and the preservation of edge details. In response to the above problems, this paper proposes a multi-drop attention residual denoising network based on guided filtering. A guided convolution module is designed according to the principle of guided filtering and a multi-drop attention residual module is designed for both the extraction of shallow and deep features. Experiments have proved that the network after adding the new module can effectively reduce the noise of infrared images, and can maintain the edge detail information in the image to the greatest extent, improve the visual effect, and also have good performance on the PSRN and SSIM indicators.
  • [1] Yuan Jijun. Review of infrared detector development [J]. Laser & Infrared, 2006, 36(12): 1099-1102. (in Chinese)
    [2] Liu Xinle. Research on fusion method of thermal infrared image and visible light image[D]. Chengdu: University of Electronic Science and Technology of China, 2013. (in Chinese)
    [3] Zhang Shengwei, Xiang Wei, Zhao Yaohong. Stripe noise removal method for infrared images based on guided filtering [J]. Journal of Computer-Aided Design & Computer Graphics, 2017, 29(8): 1434-1443. (in Chinese)
    [4] Cao Y P, Tisse C L. Single-image-based solution for optics temperature-dependent nonuniformity correction in an uncooled long wave infrared camera [J]. Optics Letters, 2014, 39(3): 646-648. doi:  10.1364/OL.39.000646
    [5] Chen Shihong, Chen Rongjun. Infrared image enhancement algorithm based on iteration deep convolution network [J]. Laser & Infrared, 2021, 51(1): 114-121. (in Chinese)
    [6] Zhou Yi, Chai Xuliang, Tian Yuan, et al. Studies on InAs/GaAsSb mid-wavelength interband cascade infrared focal plane arrays [J]. Journal of Infrared and Millimeter Waves, 2019, 38(6): 745-750. (in Chinese)
    [7] Liu Liping, Qiao Lele, Jiang Liucheng. Overview of image denoising methods [J]. Journal of Frontiers of Computer Science and Technolgy, 2021, 15(8): 1418-1431. (in Chinese)
    [8] Tian Chunwei, Fei Lunke, Zheng Wenxian, et al. Deep learning on image denoising: An overview [J]. Neural Networks, 2020, 131(4): 251-275.
    [9] Liu B, Liu J. Overview of image denoising based on deep learning [J]. Journal of Physics: Conference Series, 2019, 1176(2): 022010.
    [10] Shizuo Kaji, Satoshi Kida. Overview of image to image translation by use of deep neural networks: Denoising, super-resolution, modality conversion, and reconstruction in medical imaging [J]. Radiological Physics and Technology, 2019, 12: 235-248. doi:  10.1007/s12194-019-00520-y
    [11] Peng Zhenming, Chen Yingpin, Pu Tian. et al. Image denoising based on sparse representation and regularization constraint: A review [J]. Journal of Data Acquisition & Processing, 2018, 33(1): 1-11. (in Chinese)
    [12] Liu Chengshi, Zhao Zhigang, Li Qiang, et al. Enhanced low-rank representation image denoising algorithm [J]. Computer En-gineering and Applications, 2020, 56(2): 216-225. (in Chinese)
    [13] Wang Hongyu, Chen Dongmei, Wang Hui. Image denoising model based on low rank and nonlocal sparse representation [J]. Journal of Yanshan University, 2017(3): 272-277. (in Chinese)
    [14] Kostadin Dabov, Alessandro Foi, Vladimir Katkovnik, et al. Image denoising by sparse 3D transform-domain collaborative filtering [J]. IEEE Transactions on Image Processing, 2007, 16(8): 2080-2095. doi:  10.1109/TIP.2007.901238
    [15] Dabov K, Foi A, Katkovnik V, et al. Color image denoising via sparse 3D collaborative filtering with grouping constraint in luminancc-chrominance space[C]//Processdings of the 2007 International Conference on Image Processing, 2007, 9: 313-316.
    [16] Yaniv Romano, Michael Elad. Improving K-SVD denoising by post-processing its method-noise[C]//2013 IEEE International Conference on Image Processing, 2013.
    [17] Zhang Kai, Zuo Wangmeng, Chen Yunjin, et al. Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising [J]. IEEE Transactions on Image Processing, 2017, 26(7): 3142-3155. doi:  10.1109/TIP.2017.2662206
    [18] Yu S, Park B, Jeong J. Deep iterative down-up CNN for image denoising[C]//Processings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2019, 7: 2095-2103.
    [19] Liu Yichang, Ma Wei, Xu Shibiao. Edge-fidelity image denoising based on convolutional neural network [J]. Journal of Computer-Aided Design & Computer Graphics, 2020(11): 1822-1831. (in Chinese)
    [20] Sun Haoze, Chang Tianqing, Zhang Lei, et al. Fast armored target detection based on lightweight network [J]. Journal of Computer-Aided Design & Computer Graphics, 2019(7): 1110-1121. (in Chinese)
    [21] Chen Jingwen, Chen Jiawei, Chao Hongyang. et al. Image blind denoising with generative adversarial network based noise modeling[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018, 7: 3155-3164.
    [22] Zhang Kai, Zuo Wangmeng, Zhang Lei. et al. Learning a single convolutional super-resolution network for multiple degra-dations[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018,
    [23] Itti Laurent, Christof Koch. Computational modelling of visual attention [J]. Nature Reviews Neuroscience, 2001, 2: 194-203.
    [24] Li Xiang, Wang Wenhai, Hu Xiaolin. et al. Selective kernel networks[C]//CVPR2019, 2019.
    [25] He Kaiming, Sun Jian, Tang Xiaoou. Guided image filtering [J]. IEEE Transactions on Software Engineering, 2013, 35(6): 1397-1409.
    [26] Zhu Xizhou, Cheng Dazhi, Zhang Zheng, et al. An empirical study of spatial attention mechanisms in deep networks[C]//ICCV2019, 2019.
    [27] Zhang Yulun, Li Kunpeng, Li Kai. et al. Image super-resolution using very deep residual channel attention networks[C]//ECCV2018, 2018: 294-310.
    [28] Chen Long, Zhang Hanwang, Xiao Jun, et al. SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning[C]//CVPR, 2017.
    [29] He Kaiming, Sun Jian, Tang Xiaoou. Single image haze removal using dark channel prior [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(12): 2341-2353. doi:  10.1109/TPAMI.2010.168
    [30] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//CVPR, 2016.
    [31] Chen Liang Chieh, George Papandreou, lasonas Kokkinos, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. doi:  10.1109/TPAMI.2017.2699184
    [32] Wang Zhou, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
    [33] Wang Zhou, Li Qiang. Information content weighting for perceptual image quality assessment [J]. IEEE Tansactions on Image Processing, 2011, 20(5): 1185-1198. doi:  10.1109/TIP.2010.2092435
    [34] Guo Shi, Yan Zifei, Zhang Kai, et al. Toward convolutional blind denoising of real photographs[C]//CVPR, 2019.
    [35] Zamir S W, Arora A, Khan S H, et al. Learning enriched feature for real image restoration and enhancement[C]//ECCV, 2020: 492-511.
    [36] Saeed Anwar, Nick Barnes. Real image denoising with feature attention[C]//IEEE/CVF International Conference on Comptuer Vision (ICCV), 2019.
    [37] Zhang Kai, Li Yawei, Zuo Wangmeng, et al. Plug-and-play image restoration with deep denoiser prior [J]. IEEE Transcations on Pattern Analysis and Machine Intelligence, 2021, 44(10): 6360-6376. doi:  10.1109/TPAMI.2021.3088914
  • 加载中
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Figures(8)  / Tables(3)

Article Metrics

Article views(257) PDF downloads(68) Cited by()

Related
Proportional views

Multi-drop attention residual infrared image denoising network based on guided filtering

doi: 10.3788/IRLA20220060
  • 1. Aviation Industry Corporation Huadong Photoelectric Company Limited, Wuhu 241002, China
  • 2. State Special Display Engineering Laboratory, Wuhu 241002, China
  • 3. National Special Display Engineering Research Center, Wuhu 241002, China

Abstract: At present, infrared images are widely used in various fields, but limited by the non-uniformity of detector unit, the infrared image has the disadvantages of low signal-to-noise ratio and blurred visual effects, which seriously affect its application in advanced fields. Commonly used denoising algorithms cannot take into account the smoothing of denoising and the preservation of edge details. In response to the above problems, this paper proposes a multi-drop attention residual denoising network based on guided filtering. A guided convolution module is designed according to the principle of guided filtering and a multi-drop attention residual module is designed for both the extraction of shallow and deep features. Experiments have proved that the network after adding the new module can effectively reduce the noise of infrared images, and can maintain the edge detail information in the image to the greatest extent, improve the visual effect, and also have good performance on the PSRN and SSIM indicators.

    • 随着红外设备生产制造技术的成熟,红外成像技术应用的领域亦越发广泛。红外图像是红外热成像仪利用探测器将红外辐射能转换成电信号,经放大处理,转换成标准视频信号在显示器上显示的红外热图形[1]。由于红外图像是通过“测量”物体向外辐射的热量获得的,与可见光图像相比具有分辨率差、对比度低、信噪比低、视觉效果模糊和信息量少等缺点,需要经过一系列图像处理后,才能获得舒适的视觉成像效果[2]。其中尤以图像降噪、增强最为重要。红外图像在成像的各个环节都会受到外界的影响而产生噪音,如热传导效应及空气的散射,导致图像边缘模糊,对比度低;温度分布不均匀会引起散斑噪声等。这些噪音严重影响视觉效果以及后续高级应用的实现,因此基于红外图像的去噪方法具有重要的研究价值[1, 3-4]。目前提升红外图像质量的方法主要分为硬件和软件两种方法[5]。硬件方法多集中在提升探测器材料或者制作工艺,通过抑制各探测器单元的非均匀性大幅度提升红外图像的质量,但经济成本较高,研发周期长,难以广泛应用[6]。因此基于软件的提升方法便成为最有效的改善方法。

      目前常用的图像去噪算法有传统去噪算法和基于深度学习的去噪算法[7-10]。传统去噪算法是利用噪声自身特性设计特定的滤波器或者特定模型达到去噪的效果[11-13],代表性的算法有BM3D(block matching and 3D filtering)[14-15]算法以及K-SVD算法[16]。基于深度学习的去噪算法其本质属于外部先验法[8, 10],与传统的外部先验方法相比,深度学习类算法去噪的效果要更为突出。2017年,Zhang等[17]提出的深层卷积神经网络去噪算法(denosing convolutional neural networks,DnCNN)[17-20]。该方法引入残差技术,通过预测残差图像,即预测噪声和潜在干净图像之间的差异进行去噪。2018年,JingWen Chen等在其文章[21]中提出了利用GAN对噪声分布进行建模,并通过建立的模型生成噪音样本,与干净图像集合构成训练数据集,训练去噪网络进行盲去噪[21]。2018年,Zhang Kai等人在论文[22]中提出了多个降级的超分辨率网络(Single Convolutional Super-Resolution Network for multipe degradations, SRMD),通过该算法可以处理多个退化空间不均匀的退化类型,同时提出的维度拉伸策略可以满足不同维度的输入。

      文中提出一种基于引导滤波的多分支注意力残差红外去噪网络(guided-filter denoising network,GFD-Net),该网络结合视觉注意力机制(visual attention)[23]选择核心单元(selective kernel unit, SKUnit)[24],提出了多分支注意力残差模块(multi-drop attention resnet, MAR),同时根据引导滤波原理设计[25]了引导卷积模块组件(guided-filter convolution, GFC)。通过实验证明,相比现有算法,文中提出的算法在实现红外图像去噪的同时最大程度保留红外图像的边缘细节,有效提升图像的视觉效果,并且在峰值信噪比(peak signal-to-noise ratio, PSRN)、结构相似性(structural similarity, SSIM)指标上取得了较好的表现。

    • 红外图像因其特殊的成像方式,往往具有分辨率小、对比度差、视觉效果模糊等特点。红外图像去噪过程中不仅需要完成去噪,同时还要最大程度保留红外图像的边缘细节,有效提升图像视觉效果。因此在设计CNN网络时,需要兼顾空间信息和语义信息,通过空间信息提升图像的整体视觉效果,通过语义信息保留图像上下文信息以及边缘细节信息。文中根据上述的要求设计了GFDNet (guided-filter denoising net-work)网络。网络的宗旨在于通过引入多分支注意力残差模块(multi-drop attention resnet, MAR)和引导卷积模块(guided-filter convolution, GFC),完成多尺度特征提取和融合,实现端到端的去噪网络。其中MAR模块通过空间和通道注意力机制来捕获全局信息(包括全局空间信息和全局的上下文信息),通过SKNet模块自适应感受野获取局部信息,以兼顾空间信息和语义信息;GFC模块以MAR提取的特征信息和低尺度的重建特性信息作为输入信息,相较于普通的标准拼接运算,输入信息更加丰富、多样,同时利用引导滤波原理在完成去噪功能的基础上最大程度的保留了图像的边缘细节。

    • 近年来,深度学习与视觉注意力机制结合的应用越发广泛。目前常用的视觉注意力机制主要有空间域注意力机制(spatial attention)[26]和通道域注意力机制(channel attention)[27]

      Spatial attention表现在图像中就是对特征映射图中不同位置的关注程度不相同。其数学本质为:针对大小为$ H \times W \times C $的特征图,一个有效的空间注意力对应大小为$ H \times W $的矩阵,矩阵中每个元素是特征映射图相应位置的权重,通过逐像素相乘(pixel-wise multi-ply)实现关键位置的标识,如公式(1)所示:

      式中:$ F $表示特征映射图;$\rm AvgPool(\cdot)$表示平均池化操作;$\rm MaxPool(\cdot)$表示最大池化操作,结果分别为$ F_{avg}^s $$ F_{\max }^s $$ {{\rm{conv}}^{3 \times 3}} $表示核为3×3的卷积操作;$ \otimes $表示逐像素相乘。

      其模块结构如图1所示。

      Figure 1.  Diagram of spatial attention structure

      Channel attention注意力机制主要分布在通道中,表现在图像上就是对不同的图像通道关注程度不同,其数学本质为:针对大小为$H \times W \times C$的特征映射图,一个有效的通道注意力对应一个大小$1 \times 1 \times C$的矩阵,矩阵中每个元素是特征映射图对应通道的全部像素的权重,通过逐通道相乘(channel-wise multiply)实现对关键通道的标识,如公式(2)所示:

      式中:$ {F_{sq}} $操作,本质是全局均值池化,使得$ H \times W \times C $的特征映射图转变为$ 1 \times1 \times C $的序列;$ {F_{ex}} $操作完成通道依赖性操作,这里采用了两个核为1×1的$ {\rm{conv}} $的操作代替全连接操作,其中$ {W_1} $为降维层参数,降维比例为$ r $$ {W_2} $为升维层参数。替代后,整个操作的非线性增强,可以拟合更复杂的通道间的依赖性,同时减少了参数量和运算量;$ {F_{scale}} $操作表示逐通道相乘操作。

      其结构如图2所示。

      Figure 2.  Diagram of channel attention structure

      2019年,Li Xiang提出了选择核心网络(selective kernel network, SKNet)[24],其设计思想来自于皮质神经元根据不同的刺激可以动态调节自身的感受野(receptive field)。整个网络是结合了SENet (squeeze-and-excitation networks)、合并和运行映射(merge-and-run mappings)以及attention on inception block思想的产物。

      SKNet网络是一种非线性方法,聚合来自多个卷积核的信息,以实现神经元的自适应感受野大小。整个网络由三个操作组成:Split,Fuse和Select。Split操作生成具有各种卷积核大小的多个路径。Fuse操作的基本思想是使用门运算来控制来自多个分支的信息流。不同分支携带不同尺度的信息流向下层的神经元,通过门运算实现不同分支信息的整合。这里使用Attention运算实现门运算。Select操作使用多个权重矩阵对不同分支信息流进行加权操作,然后求和得到最终的输出。以两路分支为例,如公式(3)所示:

      式中:$ {U_c} = {\tilde U_c} + {\hat U_c} $ 表示Split操作,生成不同卷积核的两个路径$ {\tilde U_c} $$ {\hat U_c} $$ {S_c},{\textit{z}}$两个公式表示Fuse操作;$ {F_{fp}}( \cdot ) $表示全局平均池化操作;$ H,W $分别表示特征映射的宽和高;$ {\textit{z}} $表示一个紧凑的特征,其目的是为精确和自适应选择提供指导;$ {F_{fc}}( \cdot ) $表示全连接层。最后两个公式表示Select操作,$ A,B $分别表示不同的权重矩阵;$ {a_c},{b_c} $分别表示$ {\tilde U_c},{\hat U_c} $的Attention结果,使用softmax运算求解$ {a_c},{b_c} $,通过紧凑特征z引导出不同空间尺度;$ {V_c} $为最终的特征映射。

      通过公式(3)可以发现通过softmax运算,将不同感受野的信息进行融合,分支中不同注意力产生不同的有效感受,最终通过加权和的形式实现自适应的感受野大小。在参考文献[24]中作者给出模块结构图,文中不在赘述。

      文中提出的(multi-drop attention resnet,MAR),采用并行分支残差结构,整个单元的结构如图3所示,输入特征首先进行核为3×3的卷积运算,再分别执行channel attention、spatial attention和SKNet三种操作,其次将chanel attention和spatial attention的运算结果进行concat操作,再执行核为1×1的卷积运算,其结果再与SKNet的运算结果进行concat操作,并对合并后的结果执行核为3×3的卷积运算,最后将3×3卷积的运算结果与输入特征进行残差连接,如公式(4)所示:

      Figure 3.  Diagram of multi-drop attention resnet structure

      式中:$ F $表示输入特征图;$ O $表示输出特征图;${{\rm{conv}}}^{3 \times 3}(\cdot)$表示核为3×3的卷积操作;${ {\rm{conv}}}^{1 \times 1}(\cdot)$表示核为1×1的卷积操作;$CA( \cdot )$表示${\rm channel}$ ${\rm attention}$运算;$SA(\cdot)$表示${\rm spatial}$ ${\rm attention}$运算;$SK(\cdot)$表示$S K N et$运算。

      对比标准卷积和空洞卷积运算无法获取全局特征信息,MAR模块中spatial attention集中关注于位置信息,通过最大池化和平均池化得到两个不同的特征描述,实现特征图在全局空间维度上的压缩;channel attention可看做是一个特征提取器,主要关注于输入特征图中有意义的信息特征,更多地可理解为全局上下文语义特征的提取[28];上述两种操作更多聚焦特征图的全局性,而SKNet具备自适应感受野的能力[24],因此,在不同尺寸的输入特征图中,可较优地获取局部特征信息,对比于标准卷积和空洞卷积运算SKNet更加灵活,适应性更强;同时笔者也注意到上述的三种运算都不约而同地采用了降维运算,虽然降低了运算量,但也使得特征的梯度信息明显下降,伴随着多尺度网络深度的增加,尤其是下采样操作,特征梯度消失情况也愈发明显,同时全局特征信息也会逐步减少,因此在模块中使用了残差结构,通过增加上层特征弥补特征信息,解决特征梯度消失的问题[27]

    • 2009年,学者何凯明提出了引导滤波(guided filter)并将其应用在暗通道图像去雾算法中[29, 25]。引导滤波原理类似于双边滤波,属于可以保持边缘的滤波算法,如公式(5)所示:

      式中:$ q $为输出图像;$ I $为引导图像;$ {a_k} $$ {b_k} $是以像素$ k $为中心的窗口的线性函数的不变系数;$ {w_k} $为以像素$ k $为中心的窗口。对公式(5)取梯度得到公式(6):

      在一定范围内,当引导图$ I $较为缓和时,$ {a_k} $趋近于0,输出图像$ q $接近于$ {b_k} $,而当引导图$ I $较为陡峭时,$ {a_k} $值变大,输出图像$ q $接近于${a_k} \times I$

      设真值图像为$ p $,则系数$ a $$ b $可以通过线性回归得方式求解,如公式(7):

      对公式(7)进行最小二乘法求解,得到公式(8):

      式中:$ \gamma {a_k}^2 $是最小二乘法引入的乘法项。

      根据上述公式,文中设计了一种引导卷积模块(guided filter convolution, GFC)。一般图像被认为具有低频区域(low-frequency regions),即平滑区域或平坦区域(smooth or flat areas)和高频区域(high-frequency regions),即边缘和噪声(lines edges and noise)。在低频区域梯度往往较小,趋近于0,而高频区域梯度变换较大,通常是边缘或者是噪声。设$ {f_m} \in {R^{w \times h}} $为第m层的特征映射图,尺度为$ w \times h $$ {f_{m + 1}} \in {R^{w1 \times h1}} $为第m+1层的特征映射图,尺度为$ w1 \times h1 $$ \nabla (\cdot) $表示求梯度函数,因为$ {f_m},{f_{m + 1}} $是同一图像不同尺度的特征映射图,具有相同的梯度趋势。因此当$ {f_{m + 1}} $为低频区域时$ \nabla ({f_{m + 1}}) $趋近于0,$ \nabla ({f_m}) $也趋近于0,而当$ {f_{m + 1}} $为高频区域时$ \nabla ({f_{m + 1}}) $会被平滑,达到去噪的效果,与引导滤波原理一致。但$ {f_m},{f_{m + 1}} $的尺度不同,因此对$ {f_{m + 1}} $进行上采样操作统一尺度,同时使用$ {\rm Relu(BN(conv}(\cdot))) $代替以像素k为中心的窗口的线性函数,以增强非线性,更好地拟合每个特征信息之间的梯度依赖性。其公式如下:

      公中:$ I{n^a} \in {\Re ^{w \times h}} $$ I{n^b} \in {\Re ^{w1 \times h1}} $对应两路输入特征图;$ I{n^a} $的尺寸大小为$ w \times h $$ I{n^b} $的尺寸大小为$ w1 \times h1 $$ R $为空间区域;$ c $为卷积的输出通道数。为了减少模块的计算量,对公式(9)中采用公式${f_4}( \cdot ) = {\rm Relu(BN(conv}(I{n^a}))){\text{ }}{f_4} \in {R^{(c + c) \times w \times h}}$,即将$ {f_4}( \cdot ) $${\rm conv}$的输出通道数扩大 1 倍,这样就可以用$ {f_4}( \cdot ) $代替$ {f_1}( \cdot ) $$ {f_3}( \cdot ) $。公式 (9) 可以变换成公式 (10):

      GFC模块的结构图如图4所示。

      Figure 4.  Diagram of GFC block structure

    • 文中设计的网络结构如图5所示,整个网络采用U型编解码形式。

      Figure 5.  Diagram of GFDNet structure

      编码网络(encoder Net)采用双路径的形式,其中一路为bottleneck的残差模块形式[30]。通过一系列的池化操作实现多尺度化,用来快速提取多尺度特征;另一路采用MAR+ ASPP模块(最低层采用 MAR+ conv形式)[31],常规UNet网络中的跳跃连接(skip connection),仅仅是单尺度特征图的转移,无法获取更多的上下文信息。文中网络充分利用skip connection,采用MAR+ ASPP的形式,以获取更多单尺度特征图的上下文的空间特征,其中ASPP模块采用三个空洞卷积(dilated convolution,DConv)并联,后接一个卷积核为1×1的conv操作,三个DConv的空洞卷积系数分别是2,4,8,卷积核是3×3,通过ASPP模块捕获不同空洞比例下特征图的上下文特征。

      在图像识别和超分辨率中,残差模块得到了广泛使用[30]。文中算法在编码网络中引入残差模块。设编码网络中第i个bottleneck模块的输出为$ {f_i} $,bottleneck模块可以表示为${\rm bottleneck}(f) = M(f) + f$,其中$ M(\cdot) $表示对输入的特征映射图进行卷积,归一化等系列操作;则$ {f_i} $可以用公式(11)表示:

      随着网络深度的增加,残差模块也在同步增加,对应的卷积操作也在增加,因此可以提取出更多的不同尺度的特征信息,学习更多的残差噪音[17,21]

      解码网络(decoder Net)的设计上基本遵循了U型网络的解码网络的设计思,但在不同尺度特征融合处进行了修改,常规的解码网络只是将低分辨率特征进行上采样,再与跳跃连接(skip connection)的特征进行拼接。这种编码方式聚焦局部特征的重建,无法兼顾全局的空间信息,虽然可以实现去噪功能,但图像模糊,边缘细节丢失严重,整体的视觉效果差。针对上述不足,文中网络在设计解码网络进行了如下的改变:(1) 在skip connection中加入了MAR, ASPP模块,通过MAR模块中的注意力机制获取更多的全局空间信息,利用MAR模块的选择核心(selective kernel)思想自适应感受野的特性,提取局部语义信息,同时使用ASPP模块获取特征间的关联信息[31]。(2) 使用GFC模块取代了拼接操作,将改进后的skip connection的输出和低尺度的重建特征图作为GFC模块的输入,兼顾了低尺度的语义信息和高尺度的空间信息和关联信息,保证了特征信息的丰富性和多样性,同时根据引导滤波特性完成去噪,并保留更多的边缘细节。

    • 文中网络的损失函数采用混合损失函数的加权线性和的形式,如公式(12)所示:

      式中:$ {L_{guided}} $表示边缘细节损失函数;$ {L_{content}} $表示语义损失函数;$\; \beta $是一个权重因子,用于平衡两种不同损失函数,在文中网络中,$\; \beta = 0.14 $

      图像降噪后的边缘细节的恢复是整个算法重要的组成部分,文中网络通过设计的GFC模块保留图像的边缘细节,因此边缘细节损失函数$ {L_{guided}} $更多是对GFC模块重要性的体现,在1.2节,公式(7)已经对GFC模块的损失函数进行了描述,不难发现公式(7)对应为$ L2 $范数损失函数,如公式(13)所示:

      式中:$ x( \cdot ) $为预测图像;$ y( \cdot ) $为目标图像;$ N $表示样本的数量;$ P $为图像的尺寸;$ p $为像素位置。

      $ {L_{content}} $语义损失函数对应整个图像的整体信息,图像降噪算法最基础的要求是保证降噪后的图像与原图像在整体上保持一致。因此语义损失函数是整个算法最基础,也是最重要的损失函数之一。文中网络采用平均结构相似性(MSSIM)作为语义损失函数,如公式(14)所示:

      式中:$ \;{\mu _x} $$ x $的均值;$\; {\mu _y} $$ y $的均值;$ \sigma _x^2 $$ x $的方差;$ \sigma _y^2 $$ y $的方差,$ {\sigma _{xy}} $$ x $$ y $的协方差;$ M,N $表示样本的数量;$ {c_1} = {({k_1}L)^2} $$ {c_2} = {({k_2}L)^2} $为两个常数; $ L = 255 $$ {k_1} = 0.01 $$ {k_2} = 0.03 $[32-33]

      将公式(13)和公式(14)代入公式(12)即可得到最终的损失函数。

    • 当前红外图像噪声数据集较少,常用的方法是在干净的红外图像中添加的噪声,通过改变噪声水平来丰富数据集,但现实中的红外图像噪音类型复杂,强度也不尽形同。因此,此次实验使用了艾睿光电公司提供的红外图像降噪数据集,该数据集通过各种红外成像仪器进行数据采集,拍摄了不同时间、不同场景、不同环境下14 bit的红外数据,数据集包含2000对噪声与干净图像对,图像的分辨率为256×192。如图6所示。

      Figure 6.  Iraytek infrared noise data ((a), (c), (e), (g) are infrared noise images, (b), (d), (f), (h) are infrared clean images)

      为了增加训练样本的多样性,同时还选择了艾睿公司的T3热红外模组、FLIR One Pro拍摄了500张干净的红外图片,分别对图像增加了$ \sigma = 15 $的高斯噪声以及均值为0,方差为0.04的均匀分布的随机乘性噪声,添加后的数据集数量到达3000对图像对。

    • 目前图像降噪算法的主流定量评估是使用峰值信噪比(peak signal-to-noise ratio, PSRN) , 结构相似性 (structural similarity, SSIM)的值来测试去噪效果,定性评估是使用视觉图形来显示恢复的干净图像[32-33]

      PSRN是一种像素级别的差异,通常用对数分贝单位表示。如公式15所示:

      式中:$ I $$ K $分别为估计量和被估计量;$ i $$ j $均为像素点;$ {N_{\max }} $为图形点颜色的最大值,在实验中设为255。

      SSIM指标可以分别从亮度、对比度、结构三个方面评估退化图像和参考图像之间的相似性,在公式(14)中有所定义。

    • 实验参数设置如下:将数据集按7∶2∶1比例分为训练样本、验证样本及测试样本。单个图像样本的分辨率为256×192,在数据增强上,使用垂直/水平翻转。采用Xavier函数初始化卷积权重,优化器(Optimizer)选择Adam,学习率(Learning Rate)设置为0.0001,批次设置 (Batch-Size)设置为8,迭代次数为700次,整个训练用时约为24小时。网络框架采用Pytorch 1.8,训练平台为Inter Core i7-7700HQ CPU@2.80 GHz,内存为16 GB,显卡为NVIDIA GeForce GTX 1050Ti (4 G)。

    • 整个实验分为损失权重选择实验、有效去噪实验和消融实验。

      (1) 损失权重选择实验

      公式12中,损失权重$ \beta $起到了平衡边缘损失函数和语义损失函数的作用。通过不同权重因子在测试数据中的PSRN和SSIM的指标值,选定合适的权重因子。实验以艾睿数据集中的100张数据作为测试数据,在迭代200,400次时,分别以0.1,0.12,0.14,0.16,0.2,0.25,0.5作为权重因子进行测试。

      表1中的数值可以发现,权重因子在0.16和0.14时PSRN指标近乎一致,差距较小。而在SSIM指标上0.14时最高,0.16处的SSIM要略低。因此,文中选择0.14作为损失权重因子。

      Loss weight200 iteration400 iteration
      PSRN/dBSSIMPSRN/dBSSIM
      0.115.290.372921.690.6729
      0.1215.340.384121.830.6841
      0.1415.390.400522.240.7013
      0.1615.410.399122.290.7004
      0.215.480.373922.010.6954
      0.2515.360.371422.110.6932
      0.515.170.369221.780.6689

      Table 1.  Comparison table of loss weight

      (2) 有效去噪实验

      为了验证网络有效性,选择BM3D算法[11]、CBDNet[34]、MIRNet[35]、RIDNet[36]及DPIR[37]进行对比,训练集采用数据集中的2100对作为训练集,600对作为验证集,测试数据采用两种不同的数据,艾睿数据集中的300张; OTCBVS数据集中的100张图片。评价指标采用峰值信噪比(PSRN)和结构相似性(SSIM)。实验结果如图78所示,评价指标如表2所示。

      Figure 7.  Experimental results of the Iraytek dataset, the green area in the lower right corner is the magnification of the red area

      Figure 8.  Experimental results of OTCBVS dataset, the green area in the lower right corner is the magnification of the red area

      AlgorithmYearIraytek dataset(300)OTCBVS(100)
      PSRN/dBSSIMPSRN/dBSSIM
      BM3D200727.430.7814__
      CBDNet201929.860.851727.870.7765
      RIDNet201930.670.899332.730.7821
      DPIR202030.780.900932.860.7839
      MIRNet202031.520.903232.770.7842
      Ours30.710.905732.710.7827

      Table 2.  Comparison table of effective denoising experimental data

      艾睿数据集对比分析:从表2中的指标可以看出,MIRNet的峰值信噪比(PSRN)最高,RIDNet、DPIR和文中提出的算法的PSRN基本一致,略低于MIRNet算法,CBDNet和BM3D算法表现的指标数较差;结构相似性(SSIM)指标上,所提算法最高,DPIR和MIRNet算法的指标值略低于文中算法,而BM3D、CBDNet及RIDNet算法的指标值差距较大。通过图7观察,CBDNet、RIDNet、MIRNet图中存在着少量噪点,细节保持较好,而BM3D明显过度平滑,边缘细节丢失严重,文中提取的算法很好的平衡了噪点平滑和细节保留,视觉效果上更加贴近Groundtruth图像。

      OTCBVS数据集对比分析:OTCBVS数据集目前主要应用与目标检测中,图像噪点较多,视觉效果较差,同时OTCBVS没有Groundtruth图像,在实验中以BM3D算法的结果作为Groundtruth图像。从指标中可以看出,RIDNet、DPIR、MIRNet及文中算法在PSRN和SSIM指标上基本相近,差异较小。CBDNet算法表现较差;视觉感受上,从图8可以发现,CBDNet算法中的存在明显的噪点,RIDNet,DPIR、MIRNet及文中算法在去噪效果和细节保持均有不错的表现,但前三者在整体对比度有所增强。

      (3) 消融实验

      文中提出的模型以UNet结构为主体结构,编解码过程中分别引入MAR和GFC两个模块,通过消融实验,验证新增加的两个模块可以有效的提升PSRN和SSIM指标。

      表3中的结果可以看出,采用模型1的方案在实验中结果较差,PSRN指标仅为27.96 dB,SSIM指标为0.8253;对比模型1和模型5可以清晰的发现,使用MAR和GFC模块后,PSRN和SSIM指标有了大幅提升。这也验证了两个模块在红外图像的去噪中起到了积极的作用。

      Model structureIraytek testset
      PSRN/dBSSIM
      Model 1.(UNet + conv + concat)27.960.8253
      Model 2.(UNet + conv + GFC)28.140.8432
      Model 3.(UNet+bottleneck+concat)28.860.8628
      Model 4.(UNet+ bottleneck + GFC)29.690.8861
      Model 5.(UNet +MAR + GFC)30.710.9057

      Table 3.  Comparison table of ablation experiment indexes under Iraytek testset

      通过上述的两个实验证明,文中提出的GFDNet网络不仅可以实现降噪功能,而且可以最大程度的保留红外图像中边缘细节,同时可以有效提升视觉效果。

    • 针对现有的热红外图像去噪算法,无法同时兼顾降噪平滑和细节保留的现象,文中提出一种基于引导滤波的多分支注意力残差深度网络,通过该网络不仅可以有效的完成红外图像的降噪功能,而且可以最大程度保留边缘细节信息。降噪后的红外图像更加贴近人眼的视觉效果。实验结果表明,文中提出的方法在PSRN和SSIM指标上取得了较好的结果。但是该网络也存在不足,如降噪后的红外图像在整体对比度上有所下降,图像增强效果不明显等,后续将针对上述的不足继续深入研究。

Reference (37)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return