留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

频域内面向目标检测的领域自适应

李岳楠 徐浩宇 董浩

李岳楠, 徐浩宇, 董浩. 频域内面向目标检测的领域自适应[J]. 红外与激光工程, 2022, 51(7): 20210638. doi: 10.3788/IRLA20210638
引用本文: 李岳楠, 徐浩宇, 董浩. 频域内面向目标检测的领域自适应[J]. 红外与激光工程, 2022, 51(7): 20210638. doi: 10.3788/IRLA20210638
Li Yuenan, Xu Haoyu, Dong Hao. Domain adaptation for object detection in the frequency domain[J]. Infrared and Laser Engineering, 2022, 51(7): 20210638. doi: 10.3788/IRLA20210638
Citation: Li Yuenan, Xu Haoyu, Dong Hao. Domain adaptation for object detection in the frequency domain[J]. Infrared and Laser Engineering, 2022, 51(7): 20210638. doi: 10.3788/IRLA20210638

频域内面向目标检测的领域自适应

doi: 10.3788/IRLA20210638
基金项目: 国家自然科学基金(61972281, 61572352)
详细信息
    作者简介:

    李岳楠,男,副教授,硕士生导师,博士,主要从事多媒体信号处理方面的研究

  • 中图分类号: TP391

Domain adaptation for object detection in the frequency domain

Funds: National Natural Science Foundation of China (61972281, 61572352)
  • 摘要: 近年来,基于深度学习的目标检测技术在机器人、自动驾驶和交通监控等领域有着广泛的应用。然而,由于训练集和测试集样本分布偏差的原因,将现成的预训练检测器应用到实际开放场景时通常会出现明显性能下降。针对该问题提出了一种频域内的领域自适应方法,利用离散余弦变换的频域能量集中特性,通过在频域内对少数重要频率系数进行处理,实现了面向目标检测的领域自适应,降低了对存储和计算资源的要求并减少了领域差异。该方法可以分为两个阶段:第一阶段使用无监督图像转换方式,将源域已标注的训练数据向目标域作转换;第二阶段采用基于对抗的领域自适应方法训练目标检测模型,对转换后的训练数据与目标域内的数据作特征适配。针对不同天气场景的目标识别实验表明:所提的频域内领域自适应方法在4种领域自适应对比算法中排名第一,与仅用源域数据训练的模型相比,mAP值提升了33.9%。
  • 图  1  频域内两阶段的领域自适应过程

    Figure  1.  Two-stage domain adaptation process in the frequency domain

    图  2  源域到中间域的无监督图像转换

    Figure  2.  Unsupervised image translation from source domain to intermediate domain

    图  3  频域内面向检测的领域自适应

    Figure  3.  Domain adaptation for object detection in the frequency domain

    图  4  频域和空域空间无监督图像转换可视化对比

    Figure  4.  Visual comparison between the unsupervised image translation results in the frequency and spatial domains

    图  5  仅用Cityscapes训练与文中算法目标检测结果对比

    Figure  5.  Comparison of detection results between ''Cityscapes Only''and the proposed algorithm

    表  1  Cityscapes→Foggy Cityscapes不同领域自适应算法目标检测结果对比

    Table  1.   Object detection results of different domain adaptation algorithms on Cityscapes → Foggy Cityscapes datasets

    MethodBusBicycleCarMotorPersonRiderTrainTruckmAP(@.5)
    Cityscapes only31.3%33.8%47.7%20.2%34.9%40.5%12.5%17.8%29.8%
    MDA[15]41.8%36.5%44.8%30.5%33.2%44.2%28.7%28.2%36.0%
    PDA[16]44.4%35.9%54.4%29.1%36.0%45.5%25.8%24.3%36.9%
    CFF[17]43.2%37.4%52.1%34.7%34.0%46.9%29.9%30.8%38.6%
    Proposed algorithms48.1%42.7%61.9%32.1%43.1%49.1%17.7%25.4%39.9%
    下载: 导出CSV

    表  2  文中算法两个阶段的消融实验

    Table  2.   Results of the ablation experiments corresponding to the two stages of the proposed algorithm

    AlgorithmBusBicycleCarMotorPersonRiderTrainTruckmAP(@.5)
    Cityscapes only31.3%33.8%47.7%20.2%34.9%40.5%12.5%17.8%29.8%
    Ours w/o stage 239.3%38.5%63.3%28.0%39.6%42.4%15.7%23.6%36.3%
    Ours w/o stage 141.3%39.0%58.4%28.6%42.4%44.7%10.7%23.6%36.1%
    Full model48.1%42.7%61.9%32.1%43.1%49.1%17.7%25.4%39.9%
    下载: 导出CSV
  • [1] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2223-2232.
    [2] Fan L, Zhao H, Hu H, et al. Survey of target detection based on deep convolutional neural networks [J]. Optics and Precision Engineering, 2020, 28(5): 1152-1164. (in Chinese)
    [3] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
    [4] Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.
    [5] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]// Advances in Neural Information Processing Systems, 2015, 28: 91-99.
    [6] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision, 2016: 21-37.
    [7] Redmon J, Farhadi A. YOLOv3: An incremental improvement [J]. ArXiv Preprint, 2018, ArXiv: 1804.02767.
    [8] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.
    [9] Wu T, Zhang Z, Liu Y, et al. A lightweight small object detection algorithm based on improved SSD [J]. Infrared and Laser Engineering, 2018, 47(7): 0703005. (in Chinese) doi:  10.3788/IRLA201847.0703005
    [10] Di X, Lin Z, Chen S. Dim moving object detection based on projection into the 2D frequency domain [J]. Infrared and Laser Engineering, 2013, 42(12): 3447-3452. (in Chinese)
    [11] Wu Y, Wang Y, Sun H, et al. LSS-target detection in complex sky backgrounds [J]. Chinese Optics, 2019, 12(4): 853-865. (in Chinese) doi:  10.3788/co.20191204.0853
    [12] Gong X, Ouyang H. Improvement of tiny YOLOV3 target detection [J]. Optics and Precision Engineering, 2020, 28(4): 988-995. (in Chinese)
    [13] Wang C, An J, Jiang X, et al. Region proposal optimization algorithm based on convolutional neural networks [J]. Chinese Optics, 2019, 12(6): 1348-1361. (in Chinese) doi:  10.3788/co.20191206.1348
    [14] Ganin Y, Lempitsky V. Unsupervised domain adaptation by backpropagation[C]//International Conference on Machine Learning, PMLR, 2015: 1180-1189.
    [15] Xie R, Yu F, Wang J, et al. Multi-level domain adaptive learning for cross-domain detection[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops, 2019.
    [16] Hsu H K, Yao C H, Tsai Y H, et al. Progressive domain adaptation for object detection[C]//Proceedings of the IEEE Winter Conference on Applications of Computer Vision, 2020: 749-757.
    [17] Zheng Y, Huang D, Liu S, et al. Cross-domain object detection through coarse-to-fine feature adaptation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020: 13766-13775.
    [18] Li H, Wan R, Wang S, et al. Unsupervised domain adaptation in the wild via disentangling representation learning [J]. International Journal of Computer Vision, 2021, 129(2): 267-283. doi:  10.1007/s11263-020-01364-5
    [19] Liu M Y, Breuel T, Kautz J. Unsupervised image-to-image translation networks[C]//Advances in Neural Information Processing Systems, 2017: 700-708.
    [20] Xu K, Qin M, Sun F, et al. Learning in the frequency domain[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020: 1740-1749.
    [21] Yang Y, Soatto S. FDA: Fourier domain adaptation for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020: 4085-4095.
    [22] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
    [23] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
    [24] Paszke A, Gross S, Massa F, et al. Pytorch: An imperative style, high-performance deep learning library[C]//Advances in Neural Information Processing Systems, 2019, 32: 8026-8037.
  • [1] 薛珊, 安宏宇, 吕琼莹, 曹国华.  复杂背景下基于YOLOv7-tiny的图像目标检测算法 . 红外与激光工程, 2024, 53(1): 20230472-1-20230472-12. doi: 10.3788/IRLA20230472
    [2] 高凡, 杨小冈, 卢瑞涛, 王思宇, 高久安, 夏海.  Anchor-free轻量级红外目标检测方法(特邀) . 红外与激光工程, 2022, 51(4): 20220193-1-20220193-9. doi: 10.3788/IRLA20220193
    [3] 张景程, 乔新博, 赵永强.  红外偏振摄像机动目标检测跟踪系统(特邀) . 红外与激光工程, 2022, 51(4): 20220233-1-20220233-10. doi: 10.3788/IRLA20220233
    [4] 蒋昕昊, 蔡伟, 杨志勇, 徐佩伟, 姜波.  基于YOLO-IDSTD算法的红外弱小目标检测 . 红外与激光工程, 2022, 51(3): 20210106-1-20210106-10. doi: 10.3788/IRLA20210106
    [5] 韩金辉, 魏艳涛, 彭真明, 赵骞, 陈耀弘, 覃尧, 李楠.  红外弱小目标检测方法综述 . 红外与激光工程, 2022, 51(4): 20210393-1-20210393-24. doi: 10.3788/IRLA20210393
    [6] 曾瀚林, 孟祥勇, 钱惟贤.  高斯差分滤波图像融合方法 . 红外与激光工程, 2020, 49(S1): 20200091-20200091. doi: 10.3788/IRLA20200091
    [7] 陈明, 赵连飞, 苑立民, 徐峰, 韩默.  基于特征选择YOLOv3网络的红外图像绝缘子检测方法 . 红外与激光工程, 2020, 49(S2): 20200401-20200401. doi: 10.3788/IRLA20200401
    [8] 魏豪, 张凯, 郑磊, 曹源, 张丁文.  基于HOG-RCNN的电力巡检红外图像目标检测 . 红外与激光工程, 2020, 49(S2): 20200411-20200411. doi: 10.3788/IRLA20200411
    [9] 南天章, 耿建君, 陈旭, 陈颖.  基于邻域特征的红外低慢小目标检测 . 红外与激光工程, 2019, 48(S1): 174-180. doi: 10.3788/IRLA201948.S128002
    [10] 曹文焕, 黄树彩, 赵炜, 黄达.  二维非重构压缩感知自适应目标检测算法 . 红外与激光工程, 2019, 48(1): 126001-0126001(8). doi: 10.3788/IRLA201948.0126001
    [11] 唐聪, 凌永顺, 郑科栋, 杨星, 郑超, 杨华, 金伟.  基于深度学习的多视窗SSD目标检测方法 . 红外与激光工程, 2018, 47(1): 126003-0126003(9). doi: 10.3788/IRLA201847.0126003
    [12] 陈卫, 孙晓兵, 乔延利, 陈震庭, 殷玉龙.  海面耀光背景下的目标偏振检测 . 红外与激光工程, 2017, 46(S1): 63-68. doi: 10.3788/IRLA201746.S117001
    [13] 张红颖, 易建军, 于之靖.  基于分形插值的频域散斑相关法面内位移测量 . 红外与激光工程, 2016, 45(9): 917004-0917004(6). doi: 10.3788/IRLA201645.0917004
    [14] 陈善静, 康青, 顾忠征, 王正刚, 沈志强, 蒲欢, 辛颖.  基于三维GMRF的高光谱图像空天融合目标检测 . 红外与激光工程, 2016, 45(S2): 132-139. doi: 10.3788/IRLA201645.S223003
    [15] 孙照蕾, 惠斌, 秦莫凡, 常铮, 罗海波, 夏仁波.  红外图像显著目标检测算法 . 红外与激光工程, 2015, 44(9): 2633-2637.
    [16] 杨宇航, 陈宇, 李鹤, 王文生.  基于频域数字散斑相关方法的面内微位移测量 . 红外与激光工程, 2014, 43(4): 1301-1305.
    [17] 黎志华, 李新国.  基于OpenCV的红外弱小运动目标检测与跟踪 . 红外与激光工程, 2013, 42(9): 2561-2565.
    [18] 刘志刚, 卢云龙, 魏一苇.  有监督的高光谱图像伪装目标检测方法 . 红外与激光工程, 2013, 42(11): 3076-3081.
    [19] 杨亚威, 李俊山, 杨威, 赵方舟.  利用稀疏化生物视觉特征的多类多视角目标检测方法 . 红外与激光工程, 2012, 41(1): 267-272.
    [20] 何莲, 蔡敬菊, 张启衡.  改进的基于弦切变换的目标检测方法 . 红外与激光工程, 2012, 41(1): 239-247.
  • 加载中
图(5) / 表(2)
计量
  • 文章访问数:  214
  • HTML全文浏览量:  84
  • PDF下载量:  56
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-01-20
  • 修回日期:  2022-03-15
  • 刊出日期:  2022-08-05

频域内面向目标检测的领域自适应

doi: 10.3788/IRLA20210638
    作者简介:

    李岳楠,男,副教授,硕士生导师,博士,主要从事多媒体信号处理方面的研究

基金项目:  国家自然科学基金(61972281, 61572352)
  • 中图分类号: TP391

摘要: 近年来,基于深度学习的目标检测技术在机器人、自动驾驶和交通监控等领域有着广泛的应用。然而,由于训练集和测试集样本分布偏差的原因,将现成的预训练检测器应用到实际开放场景时通常会出现明显性能下降。针对该问题提出了一种频域内的领域自适应方法,利用离散余弦变换的频域能量集中特性,通过在频域内对少数重要频率系数进行处理,实现了面向目标检测的领域自适应,降低了对存储和计算资源的要求并减少了领域差异。该方法可以分为两个阶段:第一阶段使用无监督图像转换方式,将源域已标注的训练数据向目标域作转换;第二阶段采用基于对抗的领域自适应方法训练目标检测模型,对转换后的训练数据与目标域内的数据作特征适配。针对不同天气场景的目标识别实验表明:所提的频域内领域自适应方法在4种领域自适应对比算法中排名第一,与仅用源域数据训练的模型相比,mAP值提升了33.9%。

English Abstract

    • 目标检测是计算机视觉中的一个重要任务。近年来,基于卷积神经网络(Convolutional Neural Networks,CNN)的工作大幅提高了目标检测的精度。目前,绝大多数目标检测算法以有监督的方式进行训练,数据标注工作需要耗费大量人力资源。此外,训练和测试样本间的差异性导致目标检测算法在新场景中的泛化能力不强。以不同天气下的检测任务为例,用晴朗天气下采集的图像训练的检测模型在雾霾天气下的检测精度通常较低。针对该问题,现有的解决方法主要分为两种:一是使用图像无监督转换的方式,将已有标注的图像(源域)转换到目标域,构建新的数据集进行训练;二是采用领域自适应的方式,将源域和目标域的数据映射到同一特征空间,以减小不同领域之前的差距。然而,这两种方法均存在一定的局限性。受计算资源和存储空间的限制,图像无监督转换通常仅能接受低分辨率的输入(如CycleGAN[1]仅接受256×256和512×512的输入图像),对于高分辨率的输入图像,通常的做法是将原始图像降采样后输入网络,之后再升采样回原始分辨率,这种方式造成了细节内容的损失,难以获得高清晰度的输出图像且不利于后续检测任务。另一方面,领域自适应的效果也同样受到输入图像尺寸的影响。

      为了减少降采样操作造成的信息丢失并节省计算资源,受到频域能量集中特性的启发,文中结合无监督图像转换和基于对抗的领域自适应两种方式,提出了一种面向目标检测的频域内的领域自适应方法。该方法分为两个阶段,第一阶段通过无监督图像转换的方式将带有标注的源域图像(如晴天图像)变换到与目标域(如雾天图像)相近的图像,并将变换后的图像所在的域定义为中间域。第二阶段通过基于对抗学习的领域自适应方法将中间域的数据与目标域(如真实有雾图)的数据在特征空间内作适配,两个阶段均在频域内完成。由于图像不同频带具有不同的视觉重要性,频域系数具备天然的可压缩属性。图像变换到频域后,能量集中到低频和中频频带,对少数几个频率系数处理就可以实现无监督转换和领域自适应,降低了训练和测试过程对计算资源和存储空间的要求。实验结果表明,第一阶段无监督图像转换能够生成与目标域相近的中间域图像,第二阶段基于对抗学习的领域自适应方法能够减少传统降采样操作造成的信息丢失,并显著提高目标域的检测性能。

    • 近年来,绝大多数目标检测算法都采用基于卷积神经网络CNN的结构[2],这些工作又可以分为基于区域生成的两阶段方法和直接获得检测结果的一阶段方法。在两阶段方法中,R-CNN[3]使用选择性搜索(Selective Search)得到物体的候选框,并使用支持向量机(Support Vector Machine,SVM)对特征进行预测。Fast R-CNN[4]改进了特征的预测方式,使用神经网络进行检测框的分类与回归。Faster R-CNN[5]进一步改进了Fast R-CNN,使用区域生成网络(Region Proposal Network,RPN)替代耗时的选择性搜索,实现了实时目标检测算法。一阶段检测方法的代表性算法有SSD[6]、YOLOv3[7]、RetinaNet[8]等,这类方法能够进一步提高目标检测的实时性能。吴天舒等人[9]结合深度可分离卷积,采用轻量化特征提取最小单元对SSD做轻量化处理,使其可以在移动设备上运行。遆晓光等人[10]将视频图像向二维频域投影后,结合主动滤波和图像重构,能够检测出弱小运动目标。吴言枫等人[11]通过提取图像中的显著性区域,并使用自适应双高斯算法分割出前景,提升了复杂天空背景下的目标检测精度。此外,还有一些方法通过改进检测器中的结构[12-13]来提升复杂背景下以及小目标的检测精度。尽管基于卷积神经网络的检测器已经达到了较高的精度,但是现有检测模型对训练集与测试集之间分布不一致性较为敏感,在新场景的应用中泛化性能较差。

    • 经典的有监督学习任务往往假设训练集和测试集分布一致,但是实际测试数据一般与理想环境下的训练数据有很大差异,迁移学习(Transfer Learning)是应对这一问题的主要技术。

      领域自适应(Domain Adaptation)是迁移学习的一种,其主要思想是将不同领域(如不同天气的图像)的数据映射到同一个特征空间,以减少领域之间的差距,提高模型的泛化性和鲁棒性。领域自适应一开始被用于图像分类任务,然后推广到目标检测等任务,领域自适应总体上可以分为基于人工定义约束的方式和基于对抗训练的方式。前者通过缩小两个分布之间的距离度量实现源域与目标域特征之间的对齐,常见的度量分布之间距离的方法有KL-散度、H散度、最大平均差距(Maximum Mean Discrepancy,MMD)等。Ganin等人[14]使用基于对抗的方法使神经网络缩减域差异,并提出了梯度反转层(Gradient Reversal Layer, GRL)。梯度反转层应用在数据特征与域鉴别器之间,在前向传播过程中梯度保持不变,在反向传播过程中梯度方向取反,使得域鉴别器与主任务网络能够对抗地进行训练,实现了真正意义上的端到端训练,避免了生成对抗网络(Generative Adversarial Nets,GAN)中生成器与鉴别器交替训练的模式。近年来,一些研究通过多阶段、多尺度训练、特征融合、注意力机制、去耦合学习等方法提升了领域自适应的效果[15-18]

      无监督图像转换需要在不成对的图像样本之间学习一个映射,将一个领域的图像映射到另一个领域。无监督图像转换的方法也可以用于领域自适应。CycleGAN[1]中提出了循环一致性损失,将图像转换到另一个领域后再使用逆映射转换回来,并要求经过循环变换的图像与输入图像一致,同时在两个领域中引入了鉴别器对相应的映射进行约束。UNIT[19]算法中提出了共享潜空间(Shared latent space)思想,假设不同域的图像能够映射到同一潜空间。基于这个思想,该算法将图像在不同域之间的变换过程拆分为潜空间编码和解码两个子过程,并引入变分自编码器对潜空间向量进行约束并结合其它限制条件来提升无监督图像转换的效果。无监督图像转换尽管能够生成与目标域十分相近的图像,但在计算资源受限的条件下,图像转换网络往往只能接受低分辨率图像作为输入。此外,由于无监督图像转换本身是一个欠定问题,无法保证生成图像分布与目标域完全相同,在进行下游计算机视觉任务时仍然存在特征分布不一致的领域偏移(Domain shift)问题。

    • Xu等人[20]首次提出在频域内训练神经网路,使用离散余弦变换(Discrete Cosine Transform, DCT)后的变换系数作为输入,并应用于图像分类和分割任务。

      Yang等人[21]以一种非学习的方式对源域和目标域的图像分别进行快速傅里叶变换(Fast Fourier Transform,FFT),然后使用目标域图像幅值的中心(低频)区域替换源域图像相应的幅值并保持相位不变,之后采用快速傅里叶逆变换(Inverse Fast Fourier Transform,IFFT)还原出图像。该算法不需要训练,能在一定程度上实现图像间的领域变换。

    • 传统的目标检测和领域自适应方法一般在空域进行,以空域像素作为输入,在一些资源受限的场景下,例如移动设备、嵌入式系统中,由于图像数据量很大,在空域进行计算会带来巨大的计算开销。为了提高推理速度、降低通信带宽和内存开销,传统方法通常将高分辨率的空域RGB图像降采样为低分辨率的图像。这种方法造成的信息损失对机器视觉任务的性能有明显影响。

      文中利用频域变换的能量集中特性,实现计算资源和检测性能的平衡,所提算法先将输入图像从RGB空间转换到YCbCr空间,然后使用离散余弦变换DCT得到图像的频域表示。在此基础上,文中提出了一种频域内面向目标检测的领域自适应方法。以不同天气下的检测任务为例,源域是晴朗天气下采集的图像,目标域是雾霾天气下采集的图像。由于晴朗天气图像和雾霾天气图像差距很大,直接在源域$\mathcal{S}$域(晴朗天气)图像和目标域$\mathcal{T}$域(雾霾天气)图像之间做领域自适应十分困难。受到CycleGAN[1]的启发,文中先采用无监督图像转换的方式,将源域图像转换为合成的雾霾图像(中间域),并记为$\mathcal{I}$域,然后使用对抗学习的方式使检测器实现在$\mathcal{I}$域和$\mathcal{T}$域之间的领域自适应,算法整体框架如图1所示。

      图  1  频域内两阶段的领域自适应过程

      Figure 1.  Two-stage domain adaptation process in the frequency domain

      文中的图像转换、领域自适应、目标检测算法均在频域内实现。

    • 频域内的数据预处理将RGB空间的像素值转换为频域表示。首先,图像在RGB空间上进行数据增广,如随机缩放裁剪,随机翻折,对比度、亮度变换等。YCbCr颜色空间内的每个通道划分为互不重叠的$8 \times 8$大小图像块做分块DCT处理。假设原始图像的尺寸为$H \times W \times 3$,DCT处理得到的系数特征尺寸为$H/8 \times W/8 \times 192$(YCbCr每个通道内各64个系数)。为了实现数据缩减,文中对每个$8 \times 8$块内的频域系数做之字型(Zigzag)排列,并在YCbCr三个颜色通道内分别选取左上角的系数,Y空间选取22个系数,Cb和Cr空间分别选取21个系数,共选取64个系数作为每个块的频域表示。由于不同频率下DCT系数的数据范围相差很大,低频分量的绝对值很大而高频分量的数量级很小。文中对输入的DCT系数特征作标准化处理,预先统计了数据集所有图像转换到频域后64个不同系数的均值和标准差,使用每个系数的均值和标准差对输入特征作标准化处理。

    • 在领域自适应的第一阶段,文中将源域$\mathcal{S}$(晴朗天气)图像使用无监督的方式变换到目标域$\mathcal{T}$(雾霾天气)。如图2所示,输入的无雾图像${I_c}$经过DCT处理后转换为64通道的DCT系数特征${F_c}$,该特征经过生成网络${G_{c \to h}}( \cdot )$后,变换为相同场景的有雾图像的DCT系数特征${F_{c \to h}}$,再经过一个相同结构、不同权重的生成网络${G_{h \to c}}( \cdot )$重新变换回无雾图的DCT系数${F_{c \to h \to c}}$。经过两次转换后的DCT系数${F_{c \to h \to c}}$与原始的DCT系数${F_c}$之间计算循环一致性损失[1],循环一致性损失定义如下:

      图  2  源域到中间域的无监督图像转换

      Figure 2.  Unsupervised image translation from source domain to intermediate domain

      $$ {L_{cyc}} = ||{G_{h \to c}}({G_{c \to h}}({F_c})) - {F_c}|{|_1} $$ (1)

      为了适应频域的特性,增强特征提取能力,文中采用如图2所示的生成网络做频域内的图像转换。生成网络由n$\mathcal{B}$模块级联而成。与深度残差网络(ResNet)类似,每个$\mathcal{B}$模块学习的是无雾特征和有雾特征之间的局部残差。在一个$\mathcal{B}$模块中,输入特征经过$3 \times 3$卷积层和ReLU激活函数后,得到的中间结果与输入相加,再分别经过$3 \times 3$卷积层、ReLU激活函数、另一层$3 \times 3$卷积层和一层通道注意力层[22],最后与输入特征相加,得到该$\mathcal{B}$模块输出的结果。通道注意力层将通道数为$c$的特征分别经过$c \to \dfrac{c}{k}$$\dfrac{c}{k} \to c$的卷积和一个Sigmoid函数,得到每个通道的权重系数,再将输入的特征与每个通道的权重系数相乘。由于不同频率的DCT系数对图像视觉效果的影响差异较大,幅度量级也各不相同,通道注意力层学习不同频率DCT系数的权重,有助于增强特征表示能力,能更好的刻画目标域的特性。

      文中引入了一个鉴别网络用于判别频域转换的结果是否接近目标域的图像特性。鉴别网络接受转换后合成有雾图的DCT系数${F_{c \to h}}$或者真实有雾图的DCT系数${F_h}$作为输入,输出该图像属于目标域的概率。鉴别网络$D( \cdot )$前半部分由若干$3 \times 3$卷积层、ReLU激活函数,以及通道注意力层组成,后半部分由若干全连接层和ReLU激活函数组成,在前半部分末尾有一个展平操作,将前半部分输出的特征展平,便于与全连接层相连接。

      鉴别网络$D( \cdot )$的优化目标是根据DCT系数来区分合成图像和目标域图像。生成网络$G( \cdot )$$\{ {G_{h \to c}}( \cdot ), {G_{c \to h}}( \cdot )\} $与鉴别网络$D( \cdot )$相对抗,目标是使合成图像和目标域图像在频域内不可区分。鉴别网络与生成网络交替训练,损失函数定义如下:

      $$ \mathop {\min }\limits_{G( \cdot )} {L_G} = {\left[ {D\left( {{G_{c \to h}}\left( {{F_c}} \right)} \right) - 1} \right]^2} $$ (2)
      $$ \mathop {\min }\limits_{D( \cdot )} {L_D} = {\left[ {D\left( {{F_h}} \right) - 1} \right]^2} + {D^2}\left( {{G_{c \to h}}\left( {{F_c}} \right)} \right) $$ (3)

      DCT处理能够将图像的尺寸缩小为原来的1/8,并通过省略不重要的高频信息来压缩显存占用率,避免了降采样带来的信息损失,从而在同等的显存条件下能够获得分辨率更高,细节更逼真的变换效果。

    • 在领域自适应的第二阶段,文中在中间域(由2.2节生成的合成有雾图像)和目标域(真实的有雾图像)之间做领域自适应。由于${F_{c \to h}}$是由无雾图像合成的,与无雾图像具有相同的场景,和无雾图像共享相同的目标检测标签(检测框坐标和类别),可用于有监督训练。如图3所示,对目标检测模型的领域自适应由两类训练样本构成,分别为带有标签信息的合成有雾图DCT系数${F_{c \to h}}$和不带标签的真实有雾图DCT系数${F_h}$

      图  3  频域内面向检测的领域自适应

      Figure 3.  Domain adaptation for object detection in the frequency domain

      为了使网络能够接受64通道的特征系数作为输出,文中去掉了目标检测网络骨干网络ResNet[23]最前面的四层,即卷积层(卷积核为$7 \times 7$,步长为2)、批正则化(BatchNorm)、ReLU激活函数以及最大值池化层(Max Pooling)。输入的DCT系数在经过去掉前四层的ResNet50后,经过特征金字塔网络(Feature Pyramid Network,FPN)融合特征。融合后的特征经过区域生成网络(Region Proposal Network,RPN)、ROI池化(ROI Pooling)和目标框回归操作,得到网络的预测结果,预测结果经过非极大值抑制(Non-Maximum Suppression,NMS)和缩放后,得到最终的检测结果。给定DCT系数特征F,目标检测的损失函数定义如下:

      $$ {L_{det}}(F) = {L_{rpn}} + {L_{cls}} + {L_{reg}} $$ (4)

      式中:$ {L_{rpn}},{L_{cls}},{L_{reg}} $分别代表RPN、框分类和框回归的损失函数[5]

      为了实现领域自适应,文中分别将特征融合层和目标回归层输出的特征送入两个相同结构、不同权重的域分类器${C_1}( \cdot )$${C_2}( \cdot )$,用于从目标检测网络输出特征的角度判断给定的图像是属于中间域$\mathcal{I}$还是目标域$\mathcal{T}$,如图4所示。域分类的结构为$3 \times 3$卷积层、ReLU激活函数、展平操作以及三组全连接层和ReLU激活函数,最终输出0代表$\mathcal{I}$域,1代表$\mathcal{T}$域,即特征属于$\mathcal{T}$域的概率。特征与域分类器之间由一层梯度反转层[14](Gradient Reversal Layer,GRL)连接,训练过程中两个特征通过GRL层与域分类器相连,梯度在经过GRL层时会进行反转,相当于使目标检测器缩小中间域和目标域在图像上的领域差异,实现同时优化检测网络和域分类器的目的,损失函数定义如下:

      $$ \begin{split} \mathop {\min }\limits_{{C_1}( \cdot )} \mathop {\min }\limits_{{C_2}( \cdot )} \mathop {\max }\limits_{Det( \cdot )} {L_{DA}} =&{\left[ {{C_1}\left( {{\varPhi _{FPN}}({F_h})} \right) - 1} \right]^2} + \\ &C_1^2\left( {{\varPhi _{FPN}}({F_{c \to h}})} \right) + \\ &{\left[ {{C_2}\left( {{\varPhi _{bbox}}({F_h})} \right) - 1} \right]^2} + \\ &C_2^2\left( {{\varPhi _{bbox}}({F_{c \to h}})} \right) \end{split} $$ (5)

      式中:$Det( \cdot )$表示检测网络;$ {\varPhi _{FPN}}( \cdot ) $$ {\varPhi _{bbox}}( \cdot ) $分别表示目标检测网络中的特征金字塔和目标框回归器,这两部分用于计算中间特征。

      图  4  频域和空域空间无监督图像转换可视化对比

      Figure 4.  Visual comparison between the unsupervised image translation results in the frequency and spatial domains

    • 文中实验均在Cityscapes数据集和Foggy Cityscapes数据集上进行。Cityscapes数据集是一个街道场景的图像数据集,包含2975张训练集图像以及500张验证集图像,图像的分辨率均为2048×1024 pixel,该数据集包含物体的分割标注。为了适应目标检测任务,文中对图像分割标注中每一个连通域物体取外接矩形作为检测的标注框。

      Foggy Cityscapes是基于Cityscapes构建的数据集,该数据集使用Cityscapes提供的景深信息模拟了3种不同级别的雾霾天气,模拟的过程可参考原论文。该数据集包含8895张训练集图像以及1500张验证图像,即Cityscapes中每张图像对应3种不同浓度的有雾霾图像。

      文中算法代码基于PyTorch[24]编写。在第1阶段无监督图像转换阶段,网络中$\mathcal{B}$模块的个数n为24,Cityscapes数据集中的无雾图像以原图尺寸(2048×1024)作为输入,经过DCT预处理后变为尺寸为256×128×64的系数特征。经过生成网络${G_{c \to h}}( \cdot )$后,得到有雾图像的DCT系数特征${F_{c \to h}}$。Foggy Cityscapes数据集中的图像也作了相同的DCT预处理,以无监督的方式交替优化生成器$ G( \cdot )\left\{ {{G_{c \to h}}( \cdot ),{G_{h \to c}}( \cdot )} \right\} $和鉴别器$D( \cdot )$。使用Adam优化器训练100代,学习率固定为$2 \times {10^{ - 4}}$

      在第2阶段中间域到目标域的领域自适应阶段,目标检测使用Faster RCNN网络。原始的Faster RCNN通常是将RGB图像缩放为短边为600,长边不超过1000的图像。在文中的方法中,目标域的图像从Foggy Cityscapes数据集采样,使用原始图像作为输入(2048×1024),经过颜色和亮度增强、随机翻折数据增强后,转换到YCbCr空间并分块作离散余弦变换后每个块内选取64个系数,最终得到$150 \times 250 \times 64$的系数特征。而中间域图像由无雾图像转换得到的有雾的DCT系数特征直接作为输入。预先计算了所有训练集图像的DCT系数的均值和方差,并对输入的DCT特征作标准化处理。 使用随机梯度下降(Stochastic Gradient Descent,SGD)算法训练,共训练12代,第1代为学习率预热(warmup),学习率为$1 \times {10^{ - 4}}$,第2代开始学习率调整为$1 \times {10^{ - 3}}$,在第8代和第11代进行学习率衰减,学习率分别变为原来的1/10。由于输入的DCT特征尺寸较小,本位将锚框面积尺寸调整为{1282, 642, 322, 162, 82},以适应目标物体大小的变化,锚框的长宽比仍然是{1:1, 1:2, 2:1}不变。

    • 为了可视化无监督图像转换${G_{c \to h}}( \cdot )$的效果,文中对转换网络${G_{c \to h}}( \cdot )$输出的系数${F_{c \to h}}$作了逆离散余弦变换(Inverse Discrete Cosine Transform,IDCT),结果如图4所示,从图中可以看出,频域内的无监督图像转换能够将清晰图像进行加雾渲染生成有雾图像,转换后的图像具有目标域特性。

      同时,文中也与空域中的算法CycleGAN[1]作了对比。为了公平起见,将文中提出的频域内的无监督转换与CycleGAN使用相同的骨干网络训练相同的代数,并控制模型所需运算量GFLOPS相同。文中算法使用原图尺寸作为输入,经过DCT预处理后变为256×128×64的DCT系数特征,CycleGAN将输入图像降采样到256×128×3,通过一层$3 \to 64$通道的卷积层得到256×128×64的特征。图4中可视化了在RGB空间进行无监督图像转换的结果。 为了进行细节的对比,在图像下方可视化了局部细节放大后的结果。从图中可以看出,在相同的计算资源条件下,在频域内做图像转换能够生成细节信息更为清晰的有雾图像,对后续的目标检测任务更为有利,而RGB颜色空间的降采样操作造成了明显的信息损失,存在图像局部信息模糊的情况,见图(c)下方的局部细节放大图。

    • 文中将提出的频域内领域自适应方法与具有代表性的三种领域自适应方法[15-17]作了比较,并以IoU为0.5报告了物体平均精确率的均值(mean Average Precision,mAP),结果如表1所示。

      在所有对比方法中,训练集由Cityscapes中有检测标注的训练图像(晴朗天气)以及没有标注的Foggy Cityscapes中的训练图像(雾霾天气)构成。

      表 1  Cityscapes→Foggy Cityscapes不同领域自适应算法目标检测结果对比

      Table 1.  Object detection results of different domain adaptation algorithms on Cityscapes → Foggy Cityscapes datasets

      MethodBusBicycleCarMotorPersonRiderTrainTruckmAP(@.5)
      Cityscapes only31.3%33.8%47.7%20.2%34.9%40.5%12.5%17.8%29.8%
      MDA[15]41.8%36.5%44.8%30.5%33.2%44.2%28.7%28.2%36.0%
      PDA[16]44.4%35.9%54.4%29.1%36.0%45.5%25.8%24.3%36.9%
      CFF[17]43.2%37.4%52.1%34.7%34.0%46.9%29.9%30.8%38.6%
      Proposed algorithms48.1%42.7%61.9%32.1%43.1%49.1%17.7%25.4%39.9%

      测试图像均来源于Foggy Cityscapes提供的验证集(雾霾天气)。表1中,MDA[15](Multi-level Domain Adaptation)、PDA[16](Progressive Domain Adaptation),CFF[17](Coarse-to-Fine Feature adaptation)是对比的3种领域自适应算法,数据引自参考文献[17]。“Cityscapes Only”表示仅用源域图像图像训练,在有雾的测试集上进行测试的结果,检测结果如图5所示,仅用源域图像训练难以检测出雾霾中的目标,mAP仅为29.8%,证实了源域和目标域之间的差异。与仅用有标注的无雾图训练相比,文中提出的算法由于采用了两阶段的领域自适应方法,利用频域能量集中的特性,提高了输入特征的信息利用率,避免了降采样带来的信息损失,将mAP值由29.8%提升到39.9%,mAP值提高了33.9%左右,在4种对比算法中排名第一。证明了这两种策略能有效降低不同域之间差异,提高目标检测任务泛化性能。

      图  5  仅用Cityscapes训练与文中算法目标检测结果对比

      Figure 5.  Comparison of detection results between ''Cityscapes Only''and the proposed algorithm

      为了评价文中提出算法两个阶段的有效性,文中采用消融实验的方式,分别移除领域自适应阶段和无监督图像转换阶段,并评价了单个阶段目标检测的效果,结果如表2所示。从表中可以看出,与仅用Cityscapes训练相比,无监督转换方式和领域自适应方式mAP均有所提高,但都小于完整的两阶段算法,说明文中算法两个阶段的有效性和必要性,能够显著增强模型在无标注领域的泛化能力。

      表 2  文中算法两个阶段的消融实验

      Table 2.  Results of the ablation experiments corresponding to the two stages of the proposed algorithm

      AlgorithmBusBicycleCarMotorPersonRiderTrainTruckmAP(@.5)
      Cityscapes only31.3%33.8%47.7%20.2%34.9%40.5%12.5%17.8%29.8%
      Ours w/o stage 239.3%38.5%63.3%28.0%39.6%42.4%15.7%23.6%36.3%
      Ours w/o stage 141.3%39.0%58.4%28.6%42.4%44.7%10.7%23.6%36.1%
      Full model48.1%42.7%61.9%32.1%43.1%49.1%17.7%25.4%39.9%
    • 为提高目标检测的泛化性能,针对测试和训练数据分布不一致的问题,文中提出了一种频域内面向目标检测的领域自适应方法。通过频域内的无监督图像转换生成高分辨率图像,为测试集所在的域作数据扩充。算法同时采用基于对抗的领域自适应方法,进一步对齐扩充的数据和测试集数据的特征,减少了训练数据和测试数据之间的领域差异。实验结果表明,与空域的领域自适应和图像无监督转换方法相比,文中提出的方法在图像转换过程中能够生成清晰度和分辨率更高的图像。同时,利用频域的能量集中特性,能保留更多的原始图像信息,减少了由天气造成的领域差异,对交通监控等开放式目标检测的性能有着明显的提升效果。与仅用晴天图像训练的检测模型相比,领域自适应可将mAP值提升33.9%。

参考文献 (24)

目录

    /

    返回文章
    返回