-
文中使用GoPro数据集来训练网络模型,该数据集由Nah等人[5]利用GoPro运动相机拍摄每秒240帧的视频序列,并对连续的多帧短曝光图像取平均来生成模糊图像。共包含3214对分辨率为1280×720的清晰图像和模糊图像,其中文中使用2103对图像进行训练,1111对图像进行测试。为了评估网络的泛化能力,文中还使用HIDE数据集和RealBlur数据集对网络模型进行测试。HIDE数据集由Shen等人[29]提出,该数据集主要包含多种场景下的人物运动模糊,共由8422对模糊图像和清晰图像组成,其中测试集由2025对的模糊图像和清晰图像组成。与GoPro和HIDE数据集不同,RealBlur数据集[30]的图像对是在真实环境中采集的,包含232个不同场景的4738对图像,该数据集由共享相同图像内容的两个子集组成,其中一个子集RealBlur-R由相机原始图像组成,另一个子集RealBlur-J由经过相机处理后的JPEG图像组成。其中训练集包含3758对图像,测试集包含980对图像。
-
文中方法基于PyTorch框架实现,采用NVIDIA GeForce RTX 3060 12 G GPU对模型进行训练和测试。采用动量衰减指数β1=0.9,β2=0.999的Adam优化器更新网络参数,迭代次数为1000次。初始学习率设置为10−4,每迭代200次学习率减半。在每一轮训练迭代过程中,随机选取6张裁剪为256 pixel×256 pixel大小的图像作为网络输入,并通过随机旋转和垂直翻转的方式来增强数据。文中使用GoPro数据集对网络进行训练,并将训练好的模型在GoPro数据集、HIDE数据集和真实数据集RealBlur上测试。
-
文中算法与经典去模糊算法以及目前基于深度学习的主流算法进行比较,如表1所示,经典算法有:Whyte等人[8]、Xu等人[9]和Pan等人[12]提出的算法,目前基于深度学习的去模糊算法有:DeblurGAN-v1[21],DeblurGAN-v2[22],SRN[19],MT-RNN[26],DBGAN[25],DMPHN[23]以及Nah等人[5]和Gao等人[20]提出的算法。由于以上基于深度学习的去模糊算法均使用GoPro数据集对网络进行训练,所以文中直接使用作者公开发布的源代码对GoPro数据集、HIDE数据集和RealBlur数据集进行测试,并采用峰值信噪比[31](Peak Signal-to-Noise Ratio, PSNR)、结构相似性[28](Structural Similarity, SSIM)作为评价指标对所恢复的图像质量进行定量评价。由表1数据可知,文中算法在四个数据集上均取得了最佳效果,在GoPro数据集上PSNR为31.73 dB,SSIM为0.951,较DMPHN[23]分别提升了0.34 dB和0.004,在HIDE数据集上PSNR为29.39 dB,SSIM为0.923,与MT-RNN[26]相比PSNR和SSIM分别提升了0.24 dB和0.006。在真实数据集RealBlur-J和RealBlur-R上,文中算法与其他基于深度学习的去模糊算法差异较小,但仍达到了最佳效果,与第二名DeblurGAN-v2[22]相比PSNR和SSIM分别提升了0.02 dB和0.001。由四个数据集上的测试结果可知,相比其他方法,文中算法去模糊效果较好,并具有更好的泛化能力和鲁棒性。
Method GoPro HIDE RealBlur-R RealBlur-J PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM Xu et al.[9] 22.85 0.817 21.78 0.723 31.63 0.872 24.88 0.822 Whyte et al.[8] 24.47 0.843 22.81 0.735 30.56 0.854 25.92 0.844 Pan et al.[12] 24.73 0.876 23.92 0.763 32.92 0.891 25.79 0.854 DeblurGAN-v1[21] 25.64 0.859 23.96 0.809 34.28 0.932 27.01 0.865 Nah et al.[5] 27.83 0.915 25.73 0.874 33.92 0.947 27.11 0.876 DeblurGAN-v2[22] 29.08 0.918 27.51 0.884 34.16 0.942 27.17 0.877 SRN[19] 30.24 0.934 28.36 0.903 34.24 0.937 27.08 0.876 Gao et al.[20] 30.96 0.942 29.1 0.913 34.06 0.943 26.82 0.868 MT-RNN[26] 31.12 0.944 29.15 0.917 34.19 0.95 26.74 0.869 DBGAN[25] 31.18 0.946 28.94 0.915 32.99 0.926 24.87 0.821 DMPHN[23] 31.39 0.947 29.1 0.916 34.12 0.948 26.63 0.865 Ours 31.73 0.951 29.39 0.923 34.35 0.951 27.19 0.878 Table 1. Test results on various datasets
-
除了通过评价指标PSNR和SSIM对文中算法进行定量分析,文中还从GoPro数据集、HIDE数据集、RealBlur-J和RealBlur-R数据集随机选取不同场景的图像与目前主流算法进行视觉效果对比分析。图5、6、7分别展示了不同算法在GoPro数据集上、HIDE数据集和RealBlur数据集的去模糊图像视觉效果。从图5中可以看出,Xu等人[9]和Pan等人[12]提出的传统算法难以处理非均匀模糊,使得重建后的图像中仍存在大量模糊。通过对比图5中第一张图片中的汽车后视镜可以得出,文中算法对后视镜的边缘轮廓重建效果最好,DeblurGAN-v2[22]去除模糊不彻底,不能很好的恢复出主体轮廓,而DBGAN[25]能恢复出后视镜轮廓,但存在伪影无法重建图像细节。通过对比图5中第四张图片中的车牌数字可以看出,在所有对比方法中只有文中算法能清晰的恢复出数字,SRN[19]和MT-RNN[26]等算法重建的图像边缘不够清晰,无法看出清晰的数字。
通过对比图6中第二张图片的字母区域可以看出,文中算法对字母区域的恢复最为清晰,Nah等人[5]提出的算法能去除部分模糊,但不能清晰的恢复出每个字母,SRN[19]相比Nah等人[5]提出的算法去模糊效果明显提高,但仍不能有效恢复出字母的边缘等高频信息。对比图7中的第一张图片的数字区域可以看出,文中算法能很好地恢复出数字轮廓,取得了较好的主观效果。
通过3.3.1节对表1中各方法进行定量对比分析,以及3.3.2节对图5、图6和图7的主观视觉效果对比分析的结果可知,文中方法能够很好地处理非均匀模糊,对图像边缘轮廓和细节等信息重建效果更好,去模糊更为彻底。同时相比目前主流的去模糊方法,文中方法在基准数据集GoPro、HIDE和真实数据集RealBlur-R、RealBlur-J上均取得了最佳效果,具有更好的泛化能力和鲁棒性。
-
为了验证提取多尺度特征对网络去模糊性能提升的有效性,文中在GoPro数据集上训练并测试了编-解码网络不同多输入多输出个数N(尺度数)的PSNR和SSIM。当N=1时,编-解码网络只输入输出一张分辨率大小为256×256的单一尺度图像;当N=2时,编-解码网络输入输出两张分辨率大小分别为256×256和128×128的图像;当N=3时,编-解码网络输入输出三张分辨率大小分别为256×256、128×128和64×64的图像。当N=4时,编-解码网络输入输出四张分辨率大小分别为256×256、128×128、64×64和32×32的图像。测试结果如表2所示,从表2中可以看出,当使用单输入单输出编解码器时,PSNR和SSIM值分别为31.22和0.944。当N=3时,PSNR和SSIM分别提升了0.51和0.007,证明了多尺度特征提取的有效性。当N=4时,PSNR和SSIM相比N=3仅分别提升了0.09和0.001,这是因为输入图像的尺度过小只包含很少的信息,这些特征信息对网络的去模糊性能提升较小。此外,现有的多尺度去模糊方法[5, 20, 24]都是三尺度结构网络。因此,文中选择N=3作为最终网络模型的尺度数。
N PSNR SSIM 1 31.22 0.944 2 31.58 0.949 3 31.73 0.951 4 31.85 0.952 Table 2. Ablation study on different number of input and output numbers of encoder-decoder
-
文中算法设计的编-解码网络块中的残差组由多个残差块堆叠而成,为了评估残差块的个数对网络性能的影响,在GoPro数据集上对残差块的个数M做了消融实验,M的取值分别为4,8,12,16,18,20,24。实验结果如表3所示,当M=4时,PSNR和SSIM值较低,分别为27.97和0.933。随着残差块数量的增多,PSNR和SSIM值也随之提升,当M=20时,PSNR和SSIM值分别为31.73和0.951。由图8可知,当M大于20时,PSNR和SSIM的增加速率减缓,为了平衡参数量和去模糊性能,文中取M值为20。
-
文中算法在GoPro数据集进行了多种模块不同组合的消融实验。首先,评估了不同的特征融合方法对网络性能的影响,将文中所提出的多尺度特征融合模块MPFM与普通特征图通道拼接(Concatenate)和逐元素相加(Sum)的融合方法进行比较。如表4所示,使用逐级特征融合模块与使用逐元素相加的融合方法相比,PSNR提高了0.16,SSIM提高了0.006。与使用特征图拼接的融合方法相比,PSNR提高了0.08,SSIM提高了0.003。其次,为了验证提取多尺度特征提取模块MFEM对网络去模糊性能的影响,用一个3×3卷积来代替文中的多特征提取模块。从表4中可以看出,使用MFEM时PSNR提高了0.09,SSIM提高了0.003。最后,为了验证特征注意力模块FAM的有效性,对FAM进行消融实验,由表4可知,去掉FAM模块后,PSNR下降了0.03,SSIM下降了0.001。图9为FAM所生成注意力图的可视化结果,从图中可以看出,相较于背景,人物运动造成的模糊区域获得了更高的权重,这说明FAM能够强调不同的局部特征并关注模糊程度较高的区域。
M 4 8 12 16 20 24 28 PSNR 29.97 30.63 31.21 31.42 31.73 31.75 31.76 SSIM 0.933 0.939 0.944 0.948 0.951 0.951 0.951 Table 3. Ablation study on different number of residual blocks
-
图像去模糊是一项基本的低级计算机视觉任务,其最终目标是服务于后续高级计算机视觉任务。由于相机抖动、物体快速运动以及低快门速度等因素造成的图像非均匀模糊,在很大程度上会降低高级计算机视觉任务的性能。然而现有的目标检测算法往往假设输入图像是无模糊的,使得这些算法无法精确的检测到模糊图像中的对象。为了评估文中算法在目标检测算法中的有效性,使用YOLOv4[1]对模糊图像和去模糊后的图像进行目标检测。如图10所示,未经文中算法处理的模糊图像识别率较低或无法识别出对象,而去模糊后的图像识别率显著提高,能够识别出更多对象。因此,文中算法能够通过有效去除模糊来增强目标检测算法的鲁棒性。
Module Combination of different modules MPFM √ Sum Concatenate √ √ MFEM √ √ √ × √ FAM √ √ √ √ × PSNR 31.73 31.57 31.65 31.64 31.7 SSIM 0.951 0.945 0.948 0.948 0.95 Table 4. Ablation study with different module combi-nations
Image deblurring via multi-scale feature fusion and multi-input multi-output encoder-decoder
doi: 10.3788/IRLA20220018
- Received Date: 2022-01-06
- Rev Recd Date: 2022-03-04
- Available Online: 2022-11-02
- Publish Date: 2022-10-28
-
Key words:
- image deblurring /
- image restoration /
- deep learning /
- multi-input multi-output /
- multi-scale networks
Abstract: A deblurring method combining multi-scale feature fusion and a multi-input multi-output encoder-decoder is proposed for non-uniform blurred images caused by camera shake, fast motion of the captured object, and low shutter speed. Firstly, the initial features of smaller-scale blurred images are extracted using a multi-scale feature extraction module, which uses dilated convolution to obtain a larger receptive field with a smaller number of parameters. Second, the feature attention module is used to adaptively learn useful information from different scale features, which can effectively reduce redundant features by using features of small-scale images to generate attention maps. Finally, the multi-scale feature progressive fusion module is applied to gradually fuse features at different scales, making the information of different scale features to complement each other. Compared with recent multi-scale methods that use multiple subnets stacked on top of each other, we use a single network to extract multi-scale features, thus reducing the training difficulty. To evaluate the deblurring effect and generalization performance of the network, the proposed method is tested on both the benchmark datasets GoPro, HIDE, and the real dataset RealBlur. The peak signal-to-noise ratio values of 31.73 dB and 29.39 dB and the structural similarity values of 0.951 and 0.923 on the GoPro and HIDE datasets, respectively. The deblurring performance is higher than that of recent state-of-the-art deblurring methods, and it also has better performance on the RealBlur dataset containing real scenarios. The experimental results demonstrate that the proposed method is more effective than recent deblurring methods, can effectively restore the edge contour and texture detail information of images. In addition, our method can improve the robustness of subsequent high-level computer vision tasks.