留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

Anchor-free轻量级红外目标检测方法(特邀)

高凡 杨小冈 卢瑞涛 王思宇 高久安 夏海

高凡, 杨小冈, 卢瑞涛, 王思宇, 高久安, 夏海. Anchor-free轻量级红外目标检测方法(特邀)[J]. 红外与激光工程, 2022, 51(4): 20220193. doi: 10.3788/IRLA20220193
引用本文: 高凡, 杨小冈, 卢瑞涛, 王思宇, 高久安, 夏海. Anchor-free轻量级红外目标检测方法(特邀)[J]. 红外与激光工程, 2022, 51(4): 20220193. doi: 10.3788/IRLA20220193
Gao Fan, Yang Xiaogang, Lu Ruitao, Wang Siyu, Gao Jiuan, Xia Hai. Anchor-free lightweight infrared object detection method (Invited)[J]. Infrared and Laser Engineering, 2022, 51(4): 20220193. doi: 10.3788/IRLA20220193
Citation: Gao Fan, Yang Xiaogang, Lu Ruitao, Wang Siyu, Gao Jiuan, Xia Hai. Anchor-free lightweight infrared object detection method (Invited)[J]. Infrared and Laser Engineering, 2022, 51(4): 20220193. doi: 10.3788/IRLA20220193

Anchor-free轻量级红外目标检测方法(特邀)

doi: 10.3788/IRLA20220193
基金项目: 国家自然科学基金(61806209);陕西省自然科学基金(2020 JQ-490);航空科学基金(201851 U8012)
详细信息
    作者简介:

    高凡,男,硕士生,主要从事计算机视觉方面的研究

  • 中图分类号: TP391.4

Anchor-free lightweight infrared object detection method (Invited)

  • 摘要: 针对红外目标的特点,提出了一种anchor-free轻量级红外目标检测方法,提高了嵌入式平台对红外目标的检测能力。针对计算资源有限的平台,提出了一种新的轻量级卷积结构,引入非对称卷积增强标准卷积的特征表达能力,同时有效减少参数和计算量。设计并行多路特征通道,经过通道拼接生成丰富的特征,结合注意力模块和Channel Shuffle构建轻量级特征提取单元。增加SkipBranch促进浅层信息向高层传递,进一步丰富高层特征。在FLIR数据集进行实验验证,设计的轻量级网络结构精度为81.7% ,超过了 YOLOv4-tiny,但模型参数量减少了75.0%、计算量下降了71.1%,并且推理时间压缩了91.3%,能够满足嵌入式平台红外目标的实时检测需求。
  • 图  1  PMFP结构

    Figure  1.  Structure of PMFP

    图  2  常规卷积和非对称卷积

    Figure  2.  Conventional convolution and asymmetric convolution

    图  3  Channel Shuffle

    Figure  3.  Channel Shuffle

    图  4  Slim-Focus结构

    Figure  4.  Structure of Slim-Focus

    图  5  降采样效果对比

    Figure  5.  Comparison of down-sampling effect

    图  6  SkipBranch结构

    Figure  6.  Structure of SkipBranch

    图  7  PMFPSNet轻量级模型结构

    Figure  7.  Structure of lightweight model PMFPSNet

    图  8  PANet结构

    Figure  8.  Structure of PANet

    图  9  Centerness label和IoU label

    Figure  9.  Centerness label and IoU label

    图  10  检测结果对比

    Figure  10.  Comparison of detection results

    表  1  模型性能比较

    Table  1.   Comparison of model performance

    ModelmAPParametersGFLOPSDelay/ms
    CSPNet0.7872.24 M6.877.18
    ShuffleNet0.7892.12 M6.267.86
    Maxpool0.7731.57 M4.987.28
    YOLOv4-tiny0.8116.27 M17.284.6
    PMFPSNet0.8171.57 M4.987.34
    下载: 导出CSV
  • [1] Howard A G, Zhu M, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications [J]. arXiv preprint, 2017: 1704.04861. doi:  10.48550/arXiv.1704.04861
    [2] Sandler M, Howard A, Zhu M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]//IEEE/CVF Conference on Computer Vision & Pattern Recognition, 2018: 4510-4520.
    [3] Howard A, Sandler M, Chen B, et al. Searching for MobileNetV3[C]//IEEE/CVF International Conference on Computer Vision, 2019: 1314-1324.
    [4] Hu Jie, Shen Li, Sun Gang, et al. Squeeze-and-excitation networks[C]//IEEE/CVF Conference on Computer Vision & Pattern Recognition, 2018: 7132-7141.
    [5] Zhang X, Zhou X, Lin M, et al. ShuffleNet: An extremely efficient convolutional neural network for mobile devices[C]//CVF Conference on Computer Vision & Pattern Recognition, 2018: 6848-6856.
    [6] Ma N, Zhang X, Zheng H T, et al. ShuffleNetV2: Practical guidelines for efficient CNN architecture design[C]//European Conference on Computer Vision, 2018, 11218: 122-138.
    [7] Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-level accuracy with 50 x fewer parameters and <0.5 MB model size [J]. arXiv preprint, 2016: 1602.07360.
    [8] Han K, Wang Y, Tian Q, et al. GhostNet: More features from cheap operations[C]//CVF Conference on Computer Vision & Pattern Recognition, 2020: 1577-1586.
    [9] Tan M X, Le Q V. EfficientNet: Rethinking model scaling for convolutional neural networks [J]. arXiv preprint, 2019: 1905.11946. doi:  10.48550/arXiv.1905.11946
    [10] Tan M X, Le Q V. EfficientNetV2: Smaller models and faster training [J]. arXiv preprint, 2021: 2104.00298. doi:  10.48550/arXiv.2104.00298
    [11] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149. doi:  10.1109/TPAMI.2016.2577031
    [12] Wang Chen, Zhang Xiufeng, Liu Chao, et al. Detection method of wheel hub weld defects based on the improved YOLOv3 [J]. Optics and Precision Engineering, 2021, 29(8): 1942-1954. (in Chinese) doi:  10.37188/OPE.20212908.1942
    [13] Cheng Yan, Yu Xuelian, Qian Weixian, et al. Ship wake extraction and detection from infrared remote sensing images [J]. Infrared and Laser Engineering, 2022, 51(2): 20210844. (in Chinese) doi:  10.3788/IRLA20210844
    [14] Wang Chunzhe, An Junshe, Jiang Xiujie, et al. Region proposal optimization algorithm based on convolutional neural networks [J]. Chinese Optics, 2019, 12(6): 1348-1361. (in Chinese) doi:  10.3788/CO.20191206.1348
    [15] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]//AAAI Conference on Artificial Intelligence, 2017: 4278-4284.
    [16] Zhang Ruiyan, Jiang Xiujie, An Junshe, et al. Design of global-contextual detection model for optical remote sensing targets [J]. Chinese Optics, 2020, 13(6): 1302-1313. (in Chinese) doi:  10.37188/CO.2020-0057
    [17] Li Weipeng, Yang Xiaogang, Li Chuanxiang, et al. Infrared object detection network compression using Lp normalized weight [J]. Infrared and Laser Engineering, 2021, 50(8): 20200510. (in Chinese) doi:  10.3788/IRLA20200510
    [18] Yang Lingxiao, Zhang Ru-Yuan, Li Lida, et al. SimAM: A simple, parameter-free attention module for convolutional neural networks[C]//International Conference on Machine Learning, 2021, 139: 11863-11874.
    [19] Ju Moran, Luo Haibo, Liu Guangqi, et al. Infrared dim and small target detection network based on spatial attention mechanism [J]. Optics and Precision Engineering, 2021, 29(4): 843-853. (in Chinese) doi:  10.37188/OPE.20212904.0843
    [20] Lin T Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]//IEEE Computer Society Conference on Computer Vision & Pattern Recognition, 2017: 936-944.
    [21] Liu S, Qi L, Qin H, et al. Path aggregation network for instance segmentation[C]//IEEE Conference on Computer Vision & Pattern Recognition, 2018: 8759–8768.
    [22] Tian Z, Shen C, Chen H, et al. FCOS: Fully convolutional one-stage object detection[C]//CVF International Conference on Computer Vision, 2019: 9626-9635.
  • [1] 李岳楠, 徐浩宇, 董浩.  频域内面向目标检测的领域自适应 . 红外与激光工程, 2022, 51(7): 20210638-1-20210638-9. doi: 10.3788/IRLA20210638
    [2] 张景程, 乔新博, 赵永强.  红外偏振摄像机动目标检测跟踪系统(特邀) . 红外与激光工程, 2022, 51(4): 20220233-1-20220233-10. doi: 10.3788/IRLA20220233
    [3] 蒋昕昊, 蔡伟, 杨志勇, 徐佩伟, 姜波.  基于YOLO-IDSTD算法的红外弱小目标检测 . 红外与激光工程, 2022, 51(3): 20210106-1-20210106-10. doi: 10.3788/IRLA20210106
    [4] 韩金辉, 魏艳涛, 彭真明, 赵骞, 陈耀弘, 覃尧, 李楠.  红外弱小目标检测方法综述 . 红外与激光工程, 2022, 51(4): 20210393-1-20210393-24. doi: 10.3788/IRLA20210393
    [5] 魏豪, 张凯, 郑磊, 曹源, 张丁文.  基于HOG-RCNN的电力巡检红外图像目标检测 . 红外与激光工程, 2020, 49(S2): 20200411-20200411. doi: 10.3788/IRLA20200411
    [6] 陈明, 赵连飞, 苑立民, 徐峰, 韩默.  基于特征选择YOLOv3网络的红外图像绝缘子检测方法 . 红外与激光工程, 2020, 49(S2): 20200401-20200401. doi: 10.3788/IRLA20200401
    [7] 徐云飞, 张笃周, 王立, 华宝成.  非合作目标局部特征识别轻量化特征融合网络设计 . 红外与激光工程, 2020, 49(7): 20200170-1-20200170-7. doi: 10.3788/IRLA20200170
    [8] 南天章, 耿建君, 陈旭, 陈颖.  基于邻域特征的红外低慢小目标检测 . 红外与激光工程, 2019, 48(S1): 174-180. doi: 10.3788/IRLA201948.S128002
    [9] 唐聪, 凌永顺, 郑科栋, 杨星, 郑超, 杨华, 金伟.  基于深度学习的多视窗SSD目标检测方法 . 红外与激光工程, 2018, 47(1): 126003-0126003(9). doi: 10.3788/IRLA201847.0126003
    [10] 吴天舒, 张志佳, 刘云鹏, 裴文慧, 陈红叶.  基于改进SSD的轻量化小目标检测算法 . 红外与激光工程, 2018, 47(7): 703005-0703005(7). doi: 10.3788/IRLA201847.0703005
    [11] 陈卫, 孙晓兵, 乔延利, 陈震庭, 殷玉龙.  海面耀光背景下的目标偏振检测 . 红外与激光工程, 2017, 46(S1): 63-68. doi: 10.3788/IRLA201746.S117001
    [12] 许典, 曹佃生, 林冠宇, 于向阳.  双光栅光谱仪光栅转轴的多目标优化 . 红外与激光工程, 2017, 46(3): 320001-0320001(7). doi: 10.3788/IRLA201746.0320001
    [13] 孙照蕾, 惠斌, 秦莫凡, 常铮, 罗海波, 夏仁波.  红外图像显著目标检测算法 . 红外与激光工程, 2015, 44(9): 2633-2637.
    [14] 袁良, 占春连, 李燕, 卢飞, 李正琪, 李涛.  红外目标光谱辐射亮度测试技术 . 红外与激光工程, 2015, 44(12): 3807-3811.
    [15] 彭志勇, 王向军, 卢进.  窗口热辐射下基于视觉显著性的红外目标检测方法 . 红外与激光工程, 2014, 43(6): 1772-1776.
    [16] 刘志刚, 卢云龙, 魏一苇.  有监督的高光谱图像伪装目标检测方法 . 红外与激光工程, 2013, 42(11): 3076-3081.
    [17] 黎志华, 李新国.  基于OpenCV的红外弱小运动目标检测与跟踪 . 红外与激光工程, 2013, 42(9): 2561-2565.
    [18] 薛松, 韩广良.  基于旋转角预估的红外指定目标快速捕获 . 红外与激光工程, 2013, 42(11): 2907-2912.
    [19] 黄曦, 张建奇, 张绍泽, 吴鑫.  目标高真实感红外图像生成方法 . 红外与激光工程, 2013, 42(4): 1084-1088.
    [20] 赵春晖, 刘振龙.  改进的红外图像神经网络非均匀性校正算法 . 红外与激光工程, 2013, 42(4): 1079-1083.
  • 加载中
图(10) / 表(1)
计量
  • 文章访问数:  74
  • HTML全文浏览量:  19
  • PDF下载量:  29
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-03-17
  • 录用日期:  2022-04-11
  • 修回日期:  2022-04-11
  • 刊出日期:  2022-05-06

Anchor-free轻量级红外目标检测方法(特邀)

doi: 10.3788/IRLA20220193
    作者简介:

    高凡,男,硕士生,主要从事计算机视觉方面的研究

基金项目:  国家自然科学基金(61806209);陕西省自然科学基金(2020 JQ-490);航空科学基金(201851 U8012)
  • 中图分类号: TP391.4

摘要: 针对红外目标的特点,提出了一种anchor-free轻量级红外目标检测方法,提高了嵌入式平台对红外目标的检测能力。针对计算资源有限的平台,提出了一种新的轻量级卷积结构,引入非对称卷积增强标准卷积的特征表达能力,同时有效减少参数和计算量。设计并行多路特征通道,经过通道拼接生成丰富的特征,结合注意力模块和Channel Shuffle构建轻量级特征提取单元。增加SkipBranch促进浅层信息向高层传递,进一步丰富高层特征。在FLIR数据集进行实验验证,设计的轻量级网络结构精度为81.7% ,超过了 YOLOv4-tiny,但模型参数量减少了75.0%、计算量下降了71.1%,并且推理时间压缩了91.3%,能够满足嵌入式平台红外目标的实时检测需求。

English Abstract

    • 目标检测作为计算机视觉的一个重要的分支,随着相关理论的深入研究和技术的广泛应用,取得了巨大的进步。而人工智能在实际中的应用,严重依赖高性能服务器的算力支撑。由于内存、计算等硬件的发展难以满足当前不断进步的神经网络模型庞大的存储和运算需求,模型的轻量化成为亟待解决的问题。

      由于端侧和边缘设备的硬件资源有限,在模型的参数量、计算量以及推理速度与精度之间取得更加平衡的性能,才能满足实际需求。在神经网络的研究中,设计合理有效的结构来使得各层获取丰富多样的特征是网络性能提升的关键。由于参数量较少,轻量化的网络难以通过获取和复杂结构相比拟的丰富特征。

      目前轻量化神经网络的设计取得了一系列成果。MobileNetv1[1]采用深度可分离卷积替代传统卷积,并使用分辨率超参数控制输入图像分辨率和宽度超参数调节网络宽度,有效减少了模型参数量;MobileNetv2[2]通过inverted residual block结构,优化MobileNetv1的性能;MobileNetv3[3]引入轻量级注意力机制SENet[4]对通道关系重新建模,并利用神经网络结构搜索(Neural Architecture Search,NAS)技术,进一步提高模型性能。ShuffleNetv1[5]提出了pointwise group convolution来降低计算复杂度,并引入Channel Shuffle,以提高通道不同组内的信息流动;ShuffleNetv2[6]针对神经网络在硬件上的实际运行情况,提出了网络设计准则并设计了新的轻量级结构,进一步提高了模型在硬件上的推理速度。SqueezeNet[7]通过1×1和3×3的卷积共同组成Fire模块,有效减少了参数量。GhostNet[8]在卷积生成特征图的基础上,又通过有效的线性运算来进行特征图扩展,减少了参数量和计算量。EfficientNet[9]研究了网络深度、宽度和分辨率对性能指标的影响,并通过NAS获得了效果更好的模型;EfficientNetv2[10]在此基础上引入了Fused-MBConv模块,并通过渐进式学习策略加快了训练速度。上述高效的模型大多通过深度可分离卷积和NAS实现,对计算资源有极高的要求,而且不能完全适用于特定的红外场景。

      以Faster R-CNN[11]和YOLO[12]系列为代表的anchor-based算法在模型训练之前需要对数据进行聚类分析,确定最优的锚框,而锚框的设置对模型的性能会造成影响,对于不同的任务场景又需要进行重新调整。Anchor-free算法通过消除先验框,有效缓解了预设锚框带来的超参数干扰,简化了训练过程;同时避免了大量负样本带来的样本不均衡,大幅减少了IoU计算,降低了内存占用和时间消耗,适用于完成端侧实时精确目标检测任务。

      针对红外图像分辨率较低、目标纹理特征不明显[13]的问题,文中设计了一种轻量级特征提取网络,将非对称卷积和标准卷积相结合,提高对不同尺度目标特征的表达能力,降低了参数和计算量;在特征通道设置不同大小的卷积核,融合不同卷积结构的细节特征;并引入注意力机制和Channel Shuffle增强通道维度的特征获取和信息流动。为缓解红外图像在下采样过程中的细节丢失,采用改进的Fcous结构,同时提高了推理速度。通过SkipBranch结构直接将浅层定位信息和高层语义信息相融合,丰富高层的特征,加强轻量级结构的特征描述。实验结果表明,文中的轻量化模型具有较高的检测精度,在模型参数和计算量大幅压缩的条件下,实现了嵌入式平台红外目标实时检测。

    • 红外成像时不同物体的红外辐射特性存在差异,如果目标重叠则会造成能量交互,使得图像中物体轮廓边缘模糊[14]。受到Inception[15]网络的启发,文中设计了并行多特征通道(Parallel Multi Feature Path,PMFP)轻量级卷积结构,如图1所示。采用非对称卷积和常规卷积相结合构成单独的特征通道,通过不同大小的卷积核获取不同大小的感受野,最后对多路特征进行融合,使得模型对不同尺度的目标适应性更强,提取的信息更加丰富,减少通道的冗余信息。通过残差结构[16]连接网络的不同层,一定程度上缓解在反向传播时出现的梯度消失问题,在实现特征复用的同时减少采用点卷积进行通道对齐带来的运算消耗,进一步提高神经网络的计算效率和融合效率。

      图  1  PMFP结构

      Figure 1.  Structure of PMFP

      PMFP结构将输入特征映射为四路分支。第一路分支为3×3的深度可分离卷积生成的特征映射;第二路分支包括5×1和1×5的非对称卷积,以及3×3深度可分离卷积的残差结构;第三路分支的特征通道首先经过3×1和1×3的两个非对称卷积的叠加,再串联3×3深度可分离卷积的残差块;第四路分支保留输入映射进行特征复用;然后将四路输出提取的不同信息进行特征融合,并通过1×1的卷积进行降维和通道间的编码。PMFP通过不同的特征映射方式减少冗余信息的生成,提高模型的特征表达能力,并显著减少了模型的计算量和参数量。

      一维非对称卷积能够提升标准卷积的表达能力,获得更加丰富的特征空间,无需引入额外超参数和推理时间,而且能够有效降低计算量和参数量。如图2所示,相比于常规卷积,这种卷积方式连接更加稀疏[17],且感受野相同。假设特征图的尺寸为F×F,非对称卷积核的大小为1×KK×1,常规卷积核的大小为K×K,且卷积运算前后特征图的分辨率不变,则非对称卷积结构的计算量为2×K×F×F,参数量为2 K;常规卷积的计算量为K×K×F×F,参数量为K×K。那么计算量减少为:

      图  2  常规卷积和非对称卷积

      Figure 2.  Conventional convolution and asymmetric convolution

      $$ \frac{\text{2}\times {K}\times {F}\times {F}}{{K}\times {K}\times {F}\times {F}}\text=\frac{2}{{K}}\text{,}{K}\geqslant 3 $$ (1)

      参数量减少为:

      $$ \frac{{2K}}{{K}\times {K}}\text=\frac{2}{{K}}\text{,}{K}\geqslant 3 $$ (2)
    • 红外目标在成像时受到外界环境的影响会导致信噪比较低,因此引入注意力机制SimAM[18],使得神经网络专注于输入的特定部分,增强对红外目标的检测能力。相比其他注意力结构[19],SimAM无需额外的参数就能够有效改善模型性能。常用的一些注意力结构SENet等往往需要通过额外的子网络生成注意力权值,如SENet结构通过全局平均池化和两个全连接层的组合来生成通道权值,并且在全连接层进行通道压缩时又会引入新的超参数,使工程实际应用中网络调优的复杂度增加。根据神经科学中信息丰富的神经元通常的放电模式与周围神经元不同的原理,SimAM定义了能量函数:

      $$ {{e}_t}({\omega _t},{b_t},y,{x_i}) = {({y_t} - \hat t)^2} + \frac{1}{{M - 1}}\sum\limits_{i = 1}^{{M} - 1} {{{({y_o} - {{\hat x}_i})}^2}} $$ (3)

      式中:t$ {x_i} $代表输入特征$ {X} \in {\mathbb{R}^{{C} \times H \times W}} $在同一通道的目标神经元和其他神经元,$ \hat t = {\omega _t}t + {b_t} $$ {\hat x_i} = {\omega _t}{x_i} + {b_t} $是关于二者的线性变换;i是不同的空间维度;$ M = H \times W $表示此通道的神经元数量;$ {\omega _t} $$ {b_t} $是线性变换的权重和偏置。

      通过最小化能量函数,找到同一通道内目标神经元和其他神经元之间的线性可分关系。对$ {y_t} $$ {y_o} $采用二值简化,并添加正则项得到新的能量函数:

      $$ \begin{split} {{e}_t}({\omega _t},{b_t},y,{x_i}) =& {(1 - ({\omega _t}t + {b_t}))^2} + \frac{1}{{M - 1}}\sum\limits_{i = 1}^{{M} - 1}\\ & {{{( - 1 - ({\omega _t}{x_i} + {b_t}))}^2}} + \lambda {\omega _t}^2 \end{split}$$ (4)

      理论上,每个通道有M个能量函数。公式(4)有解析解如下:

      $$ {\omega _t} = - \frac{{2(t - {\mu _t})}}{{{{(t - {\mu _t})}^2} + 2{\sigma _t}^2 + 2\lambda }} $$ (5)
      $$ {b_t} = - \frac{1}{2}(t + {\mu _t}){\omega _t} $$ (6)

      式中:$\;{\mu _t} = \dfrac{1}{{M - 1}}\displaystyle\sum\limits_{i = 1}^{M - 1} {{x_i}}$${\sigma _t}^2 = \dfrac{1}{{M - 1}}\displaystyle\sum\limits_{i = 1}^{M - 1} {({x_i}} - {\mu _t}{)^2}$是该通道中除目标神经元t之外其他神经元的均值和方差。能量最小可通过下式计算:

      $$ e_t^* = \frac{{4({{\hat \sigma }^2} + \lambda )}}{{{{(t - \hat \mu )}^2} + 2{{\hat \sigma }^2} + 2\lambda }} $$ (7)

      式中:$\hat \mu = \dfrac{1}{M}\displaystyle\sum\limits_{i = 1}^M {{x_i}}$${\sigma _t}^2 = \dfrac{1}{M}\displaystyle\sum\limits_{i = 1}^M {({x_i}} - \hat \mu {)^2}$。当能量越低,目标神经元t与其他神经元之间的差异越明显,也就是其重要性越高,即可表示为$\dfrac{1}{{e_t^*}}$。通过对神经元重要性的描述,就能进一步对特征进行增强:

      $$ \tilde { X} = sigmoid\left(\frac{1}{{ E}}\right) \odot { X} $$ (8)

      式中:E是所有$ e_t^* $在通道维度和空间维度的组合,通过sigmoid函数进行数值限制。

      在深度可分离卷积中的深度卷积是将输入特征图进行分组卷积,采用不同的卷积对组内的特征图进行编码,这种稀疏连接方式相较于对输入特征图进行全通道卷积的密集连接方式,能够显著降低计算量。由于特征图之间缺少组间通信,会降低网络的特征提取能力,因此引入Channel Shuffle进行通道重排,如图3所示,加强通道间的信息交流,弱化通道信息独立的影响,提高轻量化卷积结构的性能。

      图  3  Channel Shuffle

      Figure 3.  Channel Shuffle

    • 神经网络通过降采样不断增大感受野的同时,图像的分辨率不断减小,由于成像原理的限制,红外目标的纹理较为模糊,图像分辨率较低。改进Focus结构的Slim-Focus通过对输入进行隔像素采样实现特征图分辨率减小,如图4所示,将特征图的宽度和高度信息集中到了通道空间,输入通道扩充了4倍,得到的低分辨率特征图经过深度可分离卷积结构进行空间编码,通过Channel Shuffle操作实现通道重组最终生成降采样特征图,减少了计算量。

      图  4  Slim-Focus结构

      Figure 4.  Structure of Slim-Focus

      图5为原始图像经过两次降采样之后对比结果,Slim-Focus结构相较于最大池化降采样,能够更好地保留红外目标的纹理信息,缓解在降采样过程中的信息丢失,并弱化红外图像噪声的影响,提高定位精度。

      图  5  降采样效果对比

      Figure 5.  Comparison of down-sampling effect

    • 随着神经网络层数和宽度增加,模型性能不断提高,但是在较深的结构中由于宽度的加深会出现通道冗余,一些权重参数趋于零,为提高通道利用率增加通道特征的独立性,如图6引入SkipBranch结构,促进特征提取网络底层信息向最后一层结构的流动,增强特征描述。为将不同空间维度的特征信息进行融合,首先采用自适应平均池化进行特征对齐,然后通过深度可分离卷积进行通道维度对齐,最后引入注意力机制聚焦有效信息。

      图  6  SkipBranch结构

      Figure 6.  Structure of SkipBranch

    • 文中的轻量级模型PMFPSNet结构如图7所示,包括特征提取网络、特征融合网络和anchor-free算法。

      图  7  PMFPSNet轻量级模型结构

      Figure 7.  Structure of lightweight model PMFPSNet

    • 轻量级目标检测模型PMFPSNet的前端,首先由PMFP轻量级结构作为特征提取单元,随着神经网络层数的加深,通过Slim-Focus降采样模块减小特征图的分辨率增大感受野,同时PMFP结构的通道数逐渐增加,提取更加丰富的特征信息,然后SkipBranch辅助特征增强结构促进浅层信息和高层语义的融合,完成整个特征提取网络的构建。

      神经网络通过不同尺度的网络结构生成丰富的特征图,浅层结构的特征图保留的目标细节信息较多,如边缘、角点和纹理等,因此对小目标的分类和定位更为重要;随着网络加深,特征图在下采样的过程中尺度减小,语义信息更加复杂,有利于大目标的识别。构建特征融合网络能够利用浅层网络的强定位信息和深层网络的强语义信息,提高网络的检测能力。FPN[20]的低层次特征图包含准确的定位信息,在特征向高层传递的过程中路径较长,增加了高层语义访问准确定位信息的难度,这样造成特征信息丢失较为严重。

      图8所示,在特征融合结构中,将PANet[21]中的3×3标准卷积替换为深度可分离卷积,减少计算量。在FPN的基础上添加自下而上的路径,通过网络的横向连接缩短底层和高层之间的信息路径,增强融合后网络的特征表达能力。这样的多尺度融合结构能够保证获取有效的分类特征,增强网络对小目标的定位能力,从而提高模型对多尺度目标的检测性能。

      图  8  PANet结构

      Figure 8.  Structure of PANet

      最后采用anchor-free目标检测算法作为预测结构,通过改进FCOS[22]将分类预测和定位预测进行结合,提高模型的性能。

    • FCOS提出在Regression分支并行增加Centerness分支来抑制远离中心点的预测框,在一定程度上提高了网络的性能。公式(9)中$ ({l^*},{t^*},{r^*},{b^*}) $表示$ (x,y) $到groundtruth边框的距离,其中$ (x_0^{(i)},y_0^{(i)}) $$ (x_1^{(i)},y_1^{(i)}) $分别是groundtruth的左上角和右下角的坐标,$ (x,y) $是特征图上的像素位置,$ s $表示第$ i $层特征图$ {F_i} = \in {\mathbb{R}^{H \times W \times C}} $的缩放的步幅,公式(10)用来度量预测框偏离中心点的程度:

      $$ \left\{ \begin{gathered} {l^*} = (x - x_0^{(i)})/s \hfill \\ {t^*} = (y - y_0^{(i)})/s \hfill \\ {r^*} = (x_1^{(i)} - x)/s \hfill \\ {b^*} = (y_1^{(i)} - y)/s \hfill \\ \end{gathered} \right. $$ (9)
      $$ centernes{s^*} = \sqrt {\frac{{\min ({l^*},{r^*})}}{{\max ({l^*},{r^*})}} \times \frac{{\min ({t^*},{b^*})}}{{\max ({t^*},{b^*})}}} $$ (10)

      图9所示,特征图中的centerness label往往比IoU label小,导致一部分正样本难以召回。此外,由于网络的Classification分支和Regression分支相互独立,可能导致在某些场景下分类预测值高但定位预测不一定最准确,使得检测器的分类预测值和定位预测之间相关性较低,导致模型检测性能下降。由IoU的计算原理可知,其在一定程度上能够直接反映出定位的准确性,所以在Classification分支引入预测IoU参与模型训练,这样就能同时代表目标分类和定位精度,如公式(11)所示:

      图  9  Centerness label和IoU label

      Figure 9.  Centerness label and IoU label

      $$\begin{split} \left[\begin{array}{c}\text{c}{t}_{1}\\ \vdots\\ c{t}_{n}\end{array}\right]=&\left[\begin{array}{ccc}cl{s}_{1}^{1}& \cdots & cl{s}_{1}^{c}\\ \vdots& \cdots & \vdots\\ cl{s}_{n}{}^{1}& \cdots & cl{s}_{n}^{c}\end{array}\right]\cdot\left[\begin{array}{c}io{u}_{1}\\ \vdots\\ io{u}_{n}\end{array}\right]=\\ &\left[\begin{array}{ccc}cl{s}_{1}^{1}io{u}_{1}& \cdots & cl{s}_{1}^{c}io{u}_{1}\\ \vdots& \cdots & \vdots\\ cl{s}_{n}{}^{1}io{u}_{n}& \cdots & cl{s}_{n}^{c}io{u}_{n}\end{array}\right] \end{split} $$ (11)

      式中:$ c{t_n} $表示Classification分支的学习目标;$ cls_n^c $表示第n个正样本的类别c$ io{u_n} $表示第n个正样本和groundtruth的IoU。

      损失函数包括IoU损失、obj损失和cls损失,如公式(12):

      $$ \begin{split} Loss =& loss\_iou + loss\_obj + loss\_cls= \\ & \frac{1}{{{N_{pos}}}}IoU\_Loss(bbo{x_{pred}},bbo{x_{gt}}) +\\ & \frac{1}{{{N_{pos}}}}BCE\_Loss(ob{j_{pred}},ob{j_{gt}}) + \\ & \frac{1}{{{N_{pos}}}}BCE\_Loss(cl{s_{pred}},cl{s_{gt}}) \end{split} $$ (12)

      式中:$ {N_{pos}} $表示正样本的数量;$ IoU\_Loss $表示IoU损失函数;$ BCE\_Loss $表示交叉熵损失函数。

    • 在FLIR数据集以行人和车辆为目标进行模型性能对比实验,算法采用Pytorch框架,实验环境为Ubuntu18.04,2块NVIDIA RTX 8000显卡,batchsize设置为256,起始学习率为0.01,并采用余弦退火策略训练300 epochs。硬件测试平台为Intel Core i7-10750 H和NVIDIA Quadro T2000,最后在嵌入式平台NVIDIA Jetson Xavier NX进行实验验证。针对模型性能的评价,实验综合考虑mAP(mean Average Precision)、参数量(Parameters)、计算量(FLOPS)以及推理延时(Delay)四个方面对不同模型进行消融实验,验证不同网络结构的性能。

    • 在特征提取网络中选择ShuffleNetv2和CSPNet与文中设计的PMFPSNet进行对比。ShuffleNetv2在轻量级结构中具有较好的性能,而CSPNet在主流的网络模型中已被广泛使用。在通道维数相同的情况下,采用不同的特征提取网络进行模型训练比较,如表1所示。实验结果中,PMFPSNet的mAP达到了0.817,参数量仅有1.57 M,计算量为4.98 GFLOPS;与CSPNet结构相比,精度提高了3%,但参数量和计算量分别下降了30%和28%;与ShuffleNet结构相比,具有更加明显的性能优势。

      表 1  模型性能比较

      Table 1.  Comparison of model performance

      ModelmAPParametersGFLOPSDelay/ms
      CSPNet0.7872.24 M6.877.18
      ShuffleNet0.7892.12 M6.267.86
      Maxpool0.7731.57 M4.987.28
      YOLOv4-tiny0.8116.27 M17.284.6
      PMFPSNet0.8171.57 M4.987.34
    • 在轻量级网络中Maxpool能够以较少的参数实现降采样,在其他结构相同的情况下,对Slim-Focus和Maxpool两种降采样结构性能进行比较,如表1所示,采用Slim-Fcous能更好地保留红外目标的特征,在降采样过程中的信息丢失更少,比Maxpool方式的精度高4.4%,验证了Slim-Focus降采样结构的有效性。

    • 将提出的anchor-free算法PMFPSNet与anchor-based轻量级网络性能进行对比,YOLOv4-tiny是轻量级网络中的优秀代表,与之相比,在表1中PMFPSNet精度略高,但参数量和计算量分别仅有前者的25%和29%,推理速度仅有9%,尽管其在网络宽度上进行了缩减,但是由于卷积计算采用稠密方式,计算量仍然较大,而且网络输出层的减少限制了其性能。检测效果如图10所示,YOLOv4-tiny对密集红外目标的检测存在较多的漏检,而PMFPSNet对小目标的检测效果更好。综上所述,相比其他结构,文中的轻量级结构能够以更少的计算量和参数量实现更高的精度,并且具有较好的推理速度,模型性能更加优越。

      图  10  检测结果对比

      Figure 10.  Comparison of detection results

    • 文中提出了一种anchor-free轻量级红外目标检测方法,在模型PMFPSNet中通过并行多特征通道轻量级卷积结构PMFP提高特征提取单元对不同尺度目标特征的获取能力,经过通道融合生成丰富的特征,同时有效减少参数和计算量;结合无参数注意力模块SimAM和Channel Shuffle在不增加参数的情况下提高模型性能,采用Slim-Focus结构改善在降采样过程中的红外特征丢失,增加SkipBranch分支促进浅层信息向深层网络的流动,提高模型在学习过程中的效率。在FCOS算法的基础上,利用IoU分支融合定位信息和分类信息,提高网络的精度。实验结果表明,PMFPSNet模型的检测精度更高,且参数量和计算量大幅减少,能够更好地完成嵌入式平台的红外目标实时检测任务。设计的轻量级模型PMFPSNet实现网络结构精简的情况下,mAP为81.7%且高于其他轻量级网络。同时相较于anchor-based模型,参数量和计算量分别下降75.0%和71.1%,具有更快的推理速度。

参考文献 (22)

目录

    /

    返回文章
    返回