留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于图匹配网络的小样本违禁物品分割算法

朱祯悦 吕淑静 吕岳

朱祯悦, 吕淑静, 吕岳. 基于图匹配网络的小样本违禁物品分割算法[J]. 红外与激光工程, 2021, 50(11): 20210075. doi: 10.3788/IRLA20210075
引用本文: 朱祯悦, 吕淑静, 吕岳. 基于图匹配网络的小样本违禁物品分割算法[J]. 红外与激光工程, 2021, 50(11): 20210075. doi: 10.3788/IRLA20210075
Zhu Zhenyue, Lv Shujing, Lv Yue. Few-shot prohibited item segmentation algorithm based on graph matching network[J]. Infrared and Laser Engineering, 2021, 50(11): 20210075. doi: 10.3788/IRLA20210075
Citation: Zhu Zhenyue, Lv Shujing, Lv Yue. Few-shot prohibited item segmentation algorithm based on graph matching network[J]. Infrared and Laser Engineering, 2021, 50(11): 20210075. doi: 10.3788/IRLA20210075

基于图匹配网络的小样本违禁物品分割算法

doi: 10.3788/IRLA20210075
详细信息
    作者简介:

    朱祯悦,女,硕士生,主要从事目标检测和计算机视觉方面的研究

    吕岳,男,教授,博士生导师,博士,主要从事图像处理、模式识别与机器学习方面的研究

    通讯作者: 吕淑静,女,研究员,博士,主要从事图像处理、模式识别与机器学习方面的研究。
  • 中图分类号: TP391.4

Few-shot prohibited item segmentation algorithm based on graph matching network

  • 摘要: 自动化安检技术是维护公共安全、提升安检效率的一项有效措施。在实际场景中很难获得充足的违禁品标注样本用于神经网络的训练,并且在不同场景和安全级别下违禁品的类别也有所不同。为解决基于神经网络的违禁品检测方法所面临的样本不均衡问题,以及避免模型在分割新的违禁品类别时需重新训练的现象,文中提出一种基于图匹配网络的小样本违禁物品分割算法。文中模型将测试图像与参考图像并行输入到图匹配网络中,并根据匹配结果从测试图像中分割出违禁品。所设计的图匹配模块不仅从图间节点的相似性考虑匹配问题,并利用DeepEMD算法建立全局概念,进一步提高测试图和参考图的匹配结果。在SIXray数据集和Xray-PI数据集上的实验表明:本模型在单样本分割任务中得到36.4%和51.2%的类平均交并比,分别比目前先进的单样本分割方法提高2.5%和2.3%。由此表明所设计的算法能有效提升小样本X光图像分割算法的精确度。
  • 图  1  单样本违禁物品分割模型结构图

    Figure  1.  Overview of proposed framework in the 1-shot prohibited item segmentation

    图  2  节点注意力模块结构图

    Figure  2.  Structure diagram of the node attention module

    图  3  在SIXray数据集上的实验效果图。(a)参考图像;(b)参考图像掩模型;(c)测试图像;(d)分割结果,其中红色区域为预测违禁品区域

    Figure  3.  Experimental effect results on SIXray dataset. (a) Support image; (b) Support image mask; (c) Query image; (d) Segmentation result, of which red region is the predicted prohibited item region

    图  4  在Xray-PI数据集上的实验效果图。(a)参考图像;(b)参考图像掩模型;(c)测试图像;(d)分割结果,其中红色区域为预测违禁品区域

    Figure  4.  Experimental effect results on Xray-PI dataset. (a) Support image; (b) Support image mask; (c) Query image; (d) Segmentation result, of which red region is the predicted prohibited item region

    表  1  基于图匹配网络违禁物品分割模型的参数设置

    Table  1.   Parameter setting of prohibited item segmentation model based on graph matching network

    Operational layerConfiguration
    Graph embeddingInput image321×321×3
    Convolution layer#maps: 64,k: 7×7,s: 2×2
    Maxpool layerw: 3×3,s: 2×2
    Convolution layer $\left[ \begin{array}{l}{\rm{\# maps:} }\;\;{\rm{64,} }\;{{k:} }\;{\rm{1 \times 1} }\;{{s:} }\;{\rm{1 \times 1} }\\{\rm{\# maps:} }\;\;{\rm{64,} }\;{{k:} }\;{\rm{3 \times 3} }\;{{s:} }\;{\rm{1 \times 1} }\\{\rm{\# maps:} }\;{\rm{256,} }\;{{k:} }\;{\rm{1 \times 1} }\;{{s:} }\;{\rm{1 \times 1} }\end{array} \right]{\rm{ \times 3} }$
    Convolution layer $\left[ \begin{array}{l}{\rm{\# maps:} }\;\;128{\rm{,} }\;{{k:} }\;{\rm{1 \times 1} }\;{{s:} }\;2{\rm{ \times 2} }\\{\rm{\# maps:} }\;\;128{\rm{,} }\;{{k:} }\;{\rm{3 \times 3} }\;{{s:} }\;2{\rm{ \times 2} }\\{\rm{\# maps:} }\;\;512{\rm{,} }\;{{k:} }\;{\rm{1 \times 1} }\;{{s:} }\;2{\rm{ \times 2} }\end{array} \right]{\rm{ \times 4} }$
    Convolution layer $\left[ \begin{array}{l}{\rm{\# maps:} }\;\;\;256{\rm{,} }\;{ {k:} }\;{\rm{1 \times 1} }\;{ {s:} }\;1{\rm{ \times 1} }\\{\rm{\# maps:} }\;\;\;256{\rm{,} }\;{ {k:} }\;{\rm{3 \times 3} }\;{ {s:} }\;1{\rm{ \times 1} }\\{\rm{\# maps:} }\;\;1024{\rm{,} }\;{ {k:} }\;{\rm{1 \times 1} }\;{ {s:} }\;1{\rm{ \times 1} }\end{array} \right]{\rm{ \times 6} }$
    Convolution layer#maps: 256,k: 1×1,s: 1×1
    Graph matchingConvolution layer#maps: 256,k: 1×1,s: 1×1
    Avgpool layerw: 11×11,s: 1×1
    Convolution layer#maps: 256,k: 1×1,s: 1×1
    Convolution layer#maps: 256,k: 1×1,s: 1×1
    Maxpool layerw: 10×10,s: 1×1
    SegmentationConvolution layer#maps: 256,k: 1×1,s: 1×1
    Convolution layer $\left[ \begin{array}{l}{\rm{\# maps:} }\;\;\;256{\rm{,} }\;{{k:} }\;3{\rm{ \times 3} }\;{{s:} }\;1{\rm{ \times 1} }\\{\rm{\# maps:} }\;\;\;256{\rm{,} }\;{{k:} }\;{\rm{3 \times 3} }\;{{s:} }\;1{\rm{ \times 1} }\end{array} \right]{\rm{ \times 3} }$
    Convolution layer#maps: 1,k: 1×1,s: 1×1
    下载: 导出CSV

    表  2  模型在不同滤波器和子图边长条件下的分割性能

    Table  2.   Segmentation performance of model with different filters and length of subgraphs

    FilterSizemeanIoU
    Xray-PISIXray
    Average filter 5 48.8% 34.0%
    10 50.4% 35.8%
    15 49.7% 35.5%
    Maximum filter 5 50.1% 34.8%
    10 51.2% 36.4%
    15 50.4% 35.3%
    下载: 导出CSV

    表  3  在SIXray数据集上进行单样本和五样本分割性能

    Table  3.   Segmentation performance of 1-shot task and 5-shot task on SIXray dataset

    MethodsGunKnifeWrenchPliersScissorsmeanIoU
    1-shotCANet[13]40.341.635.233.918.333.9%
    PGNet[16]38.941.537.433.218.033.8%
    Ours41.442.135.634.028.536.4%
    5-shotCANet[13]43.043.236.835.418.935.5%
    PGNet[16]41.142.937.035.719.135.2%
    Ours43.743.436.335.929.337.7%
    下载: 导出CSV

    表  4  在Xray-PI数据集上进行单样本和五样本分割性能

    Table  4.   Segmentation performance of 1-shot task and 5-shot task on Xray-PI dataset

    MethodsFireworkFirecrackerBottleGunWrenchPliersBlademeanIoU
    1-shotCANet[13]51.445.542.248.134.753.067.948.9%
    PGNet[16]44.141.931.847.136.351.166.445.5%
    Proposed52.945.747.451.237.555.568.751.2%
    5-shotCANet[13]54.847.645.249.535.656.168.051.0%
    PGNet[16]46.043.035.148.537.155.668.347.7%
    Proposed55.449.148.753.638.556.468.952.9%
    下载: 导出CSV
  • [1] Akçay S, Kundegorski M E, Devereux M, et al. Transfer learning using convolutional neural networks for object classification within X-ray baggage security imagery[C]//Conference on International Conference on Image Processing, 2016: 1057–1061.
    [2] Jaccard N, Rogers T W, Morton E J, et al. Tackling the X-ray cargo inspection challenge using machine learning[C]//Conference on Anomaly Detection and Imaging with X-Rays. International Society for Optics and Photonics, 2016, 9847: 98470N.
    [3] Singh M, Singh S. Image segmentation optimisation for X-ray images of airline luggage[C]//Conference on Computational Intelligence for Homeland Security and Personal Safety, 2004: 10-17.
    [4] Bhowmik N, Gaus Y F A, Akçay S, et al. On the impact of object and sub-component level segmentation strategies for supervised anomaly detection within X-ray security imagery[C]//Conference on Machine Learning and Applications, 2019: 986-991.
    [5] An J, Zhang H, Zhu Y, et al. Semantic segmentation for prohibited items in baggage inspection[C]//Conference on Intelligent Science and Big Data Engineering, 2019: 495-505.
    [6] Yang N, Nan L, Zhang D Y, et al. Research on image interpretation based on deep learning [J]. Infrared and Laser Engineering, 2018, 47(2): 0203002. (in Chinese) doi:  10.3788/IRLA201847.0203002
    [7] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks [J]. arXiv preprint, 2017: arXiv1703.03400.
    [8] Xue S, Zhang Z, Lv Q Y, et al. Image recognition method of anti UAV system based on convolutional neural network [J]. Infrared and Laser Engineering, 2020, 49(7): 20200154. (in Chinese)
    [9] Snell J, Swersky K, Zemel R. Prototypical networks for few-shot learning[C]//Conference on Advances in Neural Information Processing Systems, 2017: 4077-4087.
    [10] Sung F, Yang Y, Zhang L, et al. Learning to compare: Relation network for few-shot learning[C]//Conference on Computer Vision and Pattern Recognition, 2018: 1199-1208.
    [11] Shaban A, Bansal S, Liu Z, et al. One-shot learning for semantic segmentation [J]. arXiv preprint, 2017: arXiv1709.03410.
    [12] Rakelly K, Shelhamer E, Darrell T, et al. Conditional networks for few-shot semantic segmentation[C]//Conference on Learning Representations Workshop, 2018.
    [13] Zhang C, Lin G, Liu F, et al. Canet: Class-agnostic segmentation networks with iterative refinement and attentive few-shot learning[C]//Conference on Computer Vision and Pattern Recognition, 2019: 5217-5226.
    [14] Li Y, Gu C, Dullien T, et al. Graph matching networks for learning the similarity of graph structured objects [J]. arXiv preprint, 2019: arXiv1904.12787.
    [15] Sarlin P E, DeTone D, Malisiewicz T, et al. Superglue: Learning feature matching with graph neural networks[C]//Conference on Computer Vision and Pattern Recognition, 2020: 4938-4947.
    [16] Zhang C, Lin G, Liu F, et al. Pyramid graph networks with connection attentions for region-based one-shot semantic segmentation[C]//Proceedings of the IEEE International Conference on Computer Vision, 2019: 9587-9595.
    [17] Zhang C, Cai Y, Lin G, et al. DeepEMD: Few-shot image classification with differentiable earth mover’s distance and structured classifiers[C]//Conference on Computer Vision and Pattern Recognition, 2020: 12200-12210.
    [18] Zeiler M D, Fergus R. Visualizing and understanding convo-lutional networks[C]//European Conference on Computer Vision, 2014: 818-833.
    [19] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
    [20] Rubner Y, Tomasi C, Guibas L J. A metric for distributions with applications to image databases[C]//Proceedings of the IEEE International Conference on Computer Vision, 1998: 59-66.
    [21] Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation [J]. arXiv preprint, 2017: arXiv1706.05587.
    [22] Milletari F, Navab N, Ahmadi S A. V-net: Fully convolutional neural networks for volumetric medical image segmen-tation[C]//International Conference on 3D Vision (3DV). IEEE, 2016: 565-571.
    [23] Piao Y, Liu L, Liu X Y. Enhancement technology of video under low illumination [J]. Infrared and Laser Engineering, 2014, 43(6): 2021-2026. (in Chinese) doi:  10.3969/j.issn.1007-2276.2014.06.057
    [24] Miao C, Xie L, Wan F, et al. Sixray: A large-scale security inspection x-ray benchmark for prohibited item discovery in overlapping images[C]//Conference on Computer Vision and Pattern Recognition, 2019: 2119-2128.
  • [1] 柯岩, 傅云, 周玮珠, 朱伟东.  基于Transformer的复合材料多源图像实例分割网络 . 红外与激光工程, 2023, 52(2): 20220338-1-20220338-13. doi: 10.3788/IRLA20220338
    [2] 闵莉, 曹思健, 赵怀慈, 刘鹏飞.  改进生成对抗网络实现红外与可见光图像融合 . 红外与激光工程, 2022, 51(4): 20210291-1-20210291-10. doi: 10.3788/IRLA20210291
    [3] 宦克为, 李向阳, 曹宇彤, 陈笑.  卷积神经网络结合NSST的红外与可见光图像融合 . 红外与激光工程, 2022, 51(3): 20210139-1-20210139-8. doi: 10.3788/IRLA20210139
    [4] 李霖, 王红梅, 李辰凯.  红外与可见光图像深度学习融合方法综述 . 红外与激光工程, 2022, 51(12): 20220125-1-20220125-20. doi: 10.3788/IRLA20220125
    [5] 林森, 赵振禹, 任晓奎, 陶志勇.  基于语义信息补偿全局特征的物体点云分类分割 . 红外与激光工程, 2022, 51(8): 20210702-1-20210702-12. doi: 10.3788/IRLA20210702
    [6] 杜中强, 唐林波, 韩煜祺.  面向嵌入式平台的车道线检测方法 . 红外与激光工程, 2022, 51(7): 20210753-1-20210753-8. doi: 10.3788/IRLA20210753
    [7] 孙旭旦, 吴清, 赵春艳, 张满囤.  语义增强引导特征重建的遮挡行人检测 . 红外与激光工程, 2022, 51(9): 20210924-1-20210924-10. doi: 10.3788/IRLA20210924
    [8] 刘云朋, 霍晓丽, 刘智超.  基于深度学习的光纤网络异常数据检测算法 . 红外与激光工程, 2021, 50(6): 20210029-1-20210029-6. doi: 10.3788/IRLA20210029
    [9] 李维鹏, 杨小冈, 李传祥, 卢瑞涛, 黄攀.  红外目标检测网络改进半监督迁移学习方法 . 红外与激光工程, 2021, 50(3): 20200511-1-20200511-8. doi: 10.3788/IRLA20200511
    [10] 苏云征, 郝群, 曹杰, 闫雷, 武帅.  合并分割块的点云语义分割方法 . 红外与激光工程, 2021, 50(10): 20200482-1-20200482-10. doi: 10.3788/IRLA20200482
    [11] 卢纯青, 杨孟飞, 武延鹏, 梁潇.  基于C-TOF成像的位姿测量与地物目标识别技术研究 . 红外与激光工程, 2020, 49(1): 0113005-0113005(9). doi: 10.3788/IRLA202049.0113005
    [12] 朱琳琳, 韩璐, 杜泓, 范慧杰.  基于U-Net网络的多主动轮廓细胞分割方法研究 . 红外与激光工程, 2020, 49(S1): 20200121-20200121. doi: 10.3788/IRLA20200121
    [13] 汪子君, 邱俨睿, 杨宏霄, 孙磊.  基于鲁棒Otsu的红外无损检测缺陷分割算法 . 红外与激光工程, 2019, 48(2): 204004-0204004(9). doi: 10.3788/IRLA201948.0204004
    [14] 唐聪, 凌永顺, 杨华, 杨星, 路远.  基于深度学习的红外与可见光决策级融合检测 . 红外与激光工程, 2019, 48(6): 626001-0626001(15). doi: 10.3788/IRLA201948.0626001
    [15] 杨楠, 南琳, 张丁一, 库涛.  基于深度学习的图像描述研究 . 红外与激光工程, 2018, 47(2): 203002-0203002(8). doi: 10.3788/IRLA201847.0203002
    [16] 罗海波, 何淼, 惠斌, 常铮.  基于双模全卷积网络的行人检测算法(特邀) . 红外与激光工程, 2018, 47(2): 203001-0203001(8). doi: 10.3788/IRLA201847.0203001
    [17] 耿磊, 彭晓帅, 肖志涛, 李秀艳, 荣锋, 马潇.  位置信息约束的SMT料盘X射线图像检测方法 . 红外与激光工程, 2017, 46(6): 617004-0617004(7). doi: 10.3788/IRLA201746.0617004
    [18] 郭靖, 江洁, 曹世翔.  水平集分层分割遥感图像中的建筑物 . 红外与激光工程, 2014, 43(4): 1332-1337.
    [19] 刘松林, 牛照东, 陈曾平.  交叉熵约束的红外图像最小错误阈值分割 . 红外与激光工程, 2014, 43(3): 979-984.
    [20] 王冬冬, 张炜, 金国锋, 杨正伟, 田干.  尖点突变理论在红外热波检测图像分割中的应用 . 红外与激光工程, 2014, 43(3): 1009-1015.
  • 加载中
图(4) / 表(4)
计量
  • 文章访问数:  357
  • HTML全文浏览量:  89
  • PDF下载量:  28
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-01-27
  • 修回日期:  2021-04-13
  • 网络出版日期:  2021-12-03
  • 刊出日期:  2021-11-30

基于图匹配网络的小样本违禁物品分割算法

doi: 10.3788/IRLA20210075
    作者简介:

    朱祯悦,女,硕士生,主要从事目标检测和计算机视觉方面的研究

    吕岳,男,教授,博士生导师,博士,主要从事图像处理、模式识别与机器学习方面的研究

    通讯作者: 吕淑静,女,研究员,博士,主要从事图像处理、模式识别与机器学习方面的研究。
  • 中图分类号: TP391.4

摘要: 自动化安检技术是维护公共安全、提升安检效率的一项有效措施。在实际场景中很难获得充足的违禁品标注样本用于神经网络的训练,并且在不同场景和安全级别下违禁品的类别也有所不同。为解决基于神经网络的违禁品检测方法所面临的样本不均衡问题,以及避免模型在分割新的违禁品类别时需重新训练的现象,文中提出一种基于图匹配网络的小样本违禁物品分割算法。文中模型将测试图像与参考图像并行输入到图匹配网络中,并根据匹配结果从测试图像中分割出违禁品。所设计的图匹配模块不仅从图间节点的相似性考虑匹配问题,并利用DeepEMD算法建立全局概念,进一步提高测试图和参考图的匹配结果。在SIXray数据集和Xray-PI数据集上的实验表明:本模型在单样本分割任务中得到36.4%和51.2%的类平均交并比,分别比目前先进的单样本分割方法提高2.5%和2.3%。由此表明所设计的算法能有效提升小样本X光图像分割算法的精确度。

English Abstract

    • 在机场、火车站等重要场所对行李物品等进行安检过程中,安检人员需要在X光图像中识别出违禁物品。对于训练有素的安检人员来说,判断一张X光图像中是否存在违禁物品是件较为容易的事。但随着工作时长的增加,难免会精神疲倦、注意力下降,这便为安检带来了隐患。因此,违禁物品自动识别获得越来越多的关注并已成为一个新热点。

      Akcay等人首次对X光图像提取深度特征[1],并利用迁移学习以帮助模型完成X光图像的二分类任务;Jaccard等人[2]进一步通过实验论证卷积神经网络(CNNs)所提取的X光图像特征相较于传统描述算子包含更多信息;Singh等人提出一种提取图像属性的神经网络框架以优化针对空运行李的X光图像分割算法[3];Bhowmik等人对图像中的物体及其组件进行分割,采用有监督的方式对X光图像进行异常检测[4];随着注意机制的发展,An等人提出一种基于注意力的分割模型用于提取更丰富的X光图像特征[5]。虽然以上的深度学习方法都取得了较好的分割性能,但它们都依赖于大量的样本进行训练,并且这些模型只能处理在训练阶段出现过的违禁品类别。而在公共交通背景下,人们可能无法收集大量的含有违禁品的标注图像。此外,违禁品的类别也未有一个统一的标准,在不同的场景或安全级别下,禁止携带的物品种类也会随之改变。因此,探索新的X光图像分割方法是迫切需要的。

      相对于机器学习算法,人类在见过几个示例后便能准确地在图像中识别出之前从未见过的物体。小样本学习的研究便由人类和机器学习算法之间的差距引申而出,旨在学习出一个仅使用少量标注样本便可预测新类别的模型。目前小样本学习已广泛应用于分类方法中,包括记忆性循环神经网络[6]、迁移学习[7]、网络参数预测[8]以及度量学习[9]。与大家工作最息息相关的是关系网络[10],它是度量学习的一个分支。关系网络提供了一个可学习的且非线性的分类器用于比较特征间的相似性,该分类器由多个卷积操作组成。Shaban等人首次提出用双分支结构解决小样本语义分割任务[11],该方法将标注样本所提取的特征直接作为预测测试图像最后一层输出层的权重;K. Rakelly等人提出标注样本可生成一个嵌入式特征与测试图像进行特征融合[12];CANet算法[13]不同于之前的工作,该网络使用孪生网络提取 CNN 特征,模型中的稠密比较模块可以被看作是一个以稠密形式扩展的用于解决分割任务的关系网络。

      以上所提出的双分支网络与图匹配网络结构相似。已知图匹配网络以一对图作为模型的输入,利用节点和图相似度等信息进行匹配并保留两图中相似的部分。Li等人引入基于注意力的图匹配机制[14],将两个图之间的节点相似度视为权重,使匹配网络更专注于其中一个图节点与另一个图中最相似节点之间的差异;Sarlin等人通过基于注意力的聚合方式[15]对两组局部特征进行最优匹配。由于关系网络与图匹配网络皆从相似性的角度出发分类特征,因此Zhang等人提出一种金字塔图网络模型[16],通过利用小样本学习和图注意力机制在仅含有少量参考图像的情况下对新物体类别进行分割。

      不同于金字塔图网络模型[16]中将测试图和参考图并行输入多个注意力模块对图间节点一一匹配,文中所提出的算法将测试图和参考图一同输入到单个注意力模块,以计算测试图节点与参考图节点之间的相似度。另一方面,文中模型采用DeepEMD算法[17]来计算两个图之间的相似度,以此代替使用两图平均节点之间的距离表征整体相似度的方法。笔者认为这种做法可以更详细、更精确地表达测试图和参考图之间的全局匹配程度。文中还为图匹配模块设计出一个图相似度损失函数,训练图相似度的计算结果更贴近真实数值。

      文中提出一种用于小样本X光图像分割的图匹配网络,以解决训练样本不均衡 的问题,并在无需重复训练模型的情况下对新加入的违禁品类别进行分割。文中模型加入图匹配模块,从节点相似度和图相似度两个角度解决图匹配问题。文中设计出一个图相似度损失函数用以纠正测试图和参考图之间的相似度计算。在SIXray数据集和Xray-PI数据集上的实验表明:所提模型在单样本分割任务中得到36.4%和51.2%的类平均交并比,分别比SOTA单样本分割方法提高了2.5%和2.3%。

    • 文中所设计的方法是从局部和全局两个视角比较测试图和参考图之间的相似性。首先,将测试图和参考图输入节点注意力模块,从局部的角度出发筛选出与参考图相关性高的测试图节点,并以此去除测试图中背景节点的噪声干扰。随后,从全局的角度出发计算测试子图与参考子图之间的图相似度,通过比较两子图特征的分布规律考察测试子图中是否含有指定的违禁品。

    • 文中算法提出的小样本语义分割模型包含三个阶段:图嵌入、图匹配和分割。下文将以单样本语义分割为例介绍违禁品检测的算法流程。模型的总体架构如图1所示,文中算法采用孪生网络提取测试图像与参考图像的 CNN 特征并由此建立起图结构。而后将测试图和参考图并行输入计算节点相似度的节点注意力模块。根据求得的节点相似度信息,在测试图中筛选出可能是违禁品区域的图节点并将筛选出的图节点构建成测试子图,参考子图则利用参考图的掩模信息构建而成。随后,模型采用DeepEMD算法[18]计算测试子图与参考子图之间的图相似度。文中算法将图相似度高于一定阈值的测试图预测掩模输入到ASPP模块中获取多尺度信息。最后,该算法将像素级分类后的概率图二值化以获得最终的分割结果。

      图  1  单样本违禁物品分割模型结构图

      Figure 1.  Overview of proposed framework in the 1-shot prohibited item segmentation

    • 在单样本语义分割模型的图嵌入阶段,模型的输入是一幅测试图像$ {x}_{q}\in {R}^{H\times W\times 3} $ 和一幅带掩模 $Mas{k_s} \in $$ {\left\{ {0,1} \right\}^{H \times W \times 1}}$的参考图像${x_s} \in {R^{H \times W \times 3}}$。所提模型将所输入的一对测试图像和参考图像分别建立各自的全连接图。其中,每一个图节点皆为卷积神经网络对图像中的某一块感受野所提取的 CNN 特征。

      为提取图像特征,文中模型采用ResNet-50[19]作为特征提取器,它共包含四个模块。而该模型仅采用前三个模块所提取的特征构建图节点,并舍弃第三个模块之后所提取的特征,其原因在于通过 CNN 特征可视化[18]可观察到,越前列的模块所提取的特征更靠近底层,而越靠后的模块所提取的特征更为抽象。

      值得注意的是,为保持特征图的空间分辨率,特征提取器的第二个模块中加入了膨胀卷积,该膨胀卷积的膨胀率为2。为使特征提取器的三个模块所提取的特征能一一对应,经这三个模块所提取的特征被重新规整尺寸,其长和宽都被缩减至原始图像的八分之一,由此,模型所构建的图节点便由特征提取器的第一个模块 ${f_{block1}}( \cdot )$、第二个模块${f_{block2}}( \cdot )$和第三个模块${f_{block3}}( \cdot )$所提取的特征拼接得来。具体公式为:

      $$g_q^i = {f_{block1}}(x_q^i)||{f_{block2}}(x_q^i)||{f_{block3}}(x_q^i) \\i \in [1,H'W']$$ (1)
      $$ g_s^i = {f_{block1}}(x_s^i)||{f_{block2}}(x_s^i)||{f_{block3}}(x_s^i) \\i\in \left[1,{H}'{W}'\right] $$ (2)

      式中:||为向量拼接操作;${g_q}$${g_s}$分别为测试图像和参考图像所构建的图节点;${x_q}$${x_s}$分别为测试图像和参考图像的特征提取感受野;$H'W'$分别为原始图像长和宽的八分之一。

      经以上步骤便可将测试图像转换为测试图${G_q} = \{ g_q^i\} _{i = 1}^{H'W'}$,参考图像转换为参考图${G_s} = \{ g_s^i\} _{i = 1}^{H'W'}$。相对应的参考图像的掩模也被调整至合适大小${M_s} = $$ \{ m_s^i\} _{i = 1}^{H'W'}$作为对应参考图节点的标签。以上表述的是单样本语义分割模型的图嵌入步骤,当参考图像数量增多时,由不同参考图像构建而得的图节点可以合并,从而扩展至更大的参考图。

    • 在获得测试图和参考图后,将其一同输入到节点注意力模块,如图2所示。文中模型根据计算得到的测试图和参考图节点之间的相似性信息筛选出可能含有违禁品区域的测试图节点并建立测试子图。节点相似度矩阵 ${S_N} = \{ {s_{ij}} \in R\} _{i,j = 1}^{H'W'}$是由测试图中的每一个节点与参考图节点进行相似度计算得来,其计算公式如下:

      图  2  节点注意力模块结构图

      Figure 2.  Structure diagram of the node attention module

      $${s_{ij}} = {(g_q^i)^{\rm T}}g_s^j,\;\;i,j \in [1,H'W']$$ (3)

      式中:${s_{ij}}$为第i个测试图节点和第j个参考图节点间的相似度。

      权重矩阵随后与参考图节点的标签 ${M_s}$点乘,以去除由参考图中的背景节点所引起的噪声。而后利用 softmax 函数对权重矩阵进行规范化处理,具体公式如下:

      $$ {s}_{ij}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({s}_{ij}\right)}{{\displaystyle\sum }_{j=1}^{{H}'{W}'}\mathrm{e}\mathrm{x}\mathrm{p}\left({s}_{ij}\right)} $$ (4)

      为提炼图节点中的信息,文中算法采用卷积操作分别对测试图和参考图的特征维度进行压缩。

      $$ {V}_{q}=g\left({G}_{q}\right),{V}_{s}=g\left({g}_{s}\right) $$ (5)

      式中:${G_q}$${G_s}$分别为压缩前的测试图和参考图;${V_q}$${V_s}$分别为压缩后的测试图和参考图;$g( \cdot )$为卷积操作。

      而后,将计算得到的节点相似度矩阵与带标签的参考图节点相乘获得重建测试图。计算公式如下:

      $$ {{\textit{z}}}_{q}^{i}=\sum _{j=1}^{{H}'{W}'}{s}_{ij}{v}_{s}^{j}, i\in \left[1,{H}'{W}'\right] $$ (6)

      式中:s为某个测试图节点与参考图节点之间的相似度;${v_s}$s所对应的参考图节点;${z_q}$s所对应的重建后的测试图节点。

      随后通过融合重建前后的两组测试图可以获得采用相似度作为权重进行筛选后的测试节点标签信息。融合公式如下:

      $$ {h}_{similarity}^{i}= \varphi \left({{\textit{z}}}_{q}^{i}\right|\left|{v}_{q}^{i}\right),\;\;i\in \left[1,{H}'{W}'\right] $$ (7)

      式中:${h_{similarity}}$为预测的测试节点标签信息;$\varphi ( \cdot )$为卷积操作。

      而后建立测试子图,子图中将尽可能保留含有违禁品的图节点并将被筛去的图节点数值清零,参考子图的建立方式与测试子图相似,只需依照参考图的标签信息筛选节点即可。为便于后续的图相似度计算,文算法将进一步对测试子图与参考子图进行滤波操作以提炼信息并调整子图尺寸。滤波公式如下:

      $${U_q} = F({V_q} \cdot {h_{similarity}}) $$ (8)
      $$ {U_s} = F({V_s} \cdot {M_s})$$ (9)

      式中:${U_q}$为测试子图;${U_s}$为参考子图;$F( \cdot )$为滤波函数。滤波半径和步长的计算公式为:

      $$ stride= floor\left(\frac{input\_size}{N}\right) {U_q}$$ (10)
      $$ ker nel\_si{\textit{z}}e = input\_si{\textit{z}}e - (N - 1) \times stride$$ (11)

      式中:$input\_size$为子图的初始边长;N为预期调整后子图边长;$floor( \cdot )$为向下取整函数;$stride$为滤波步长;$\ kernel\_size$为滤波半径。

    • 在获得经过尺寸调整的测试子图与参考子图后,文中利用DeepEMD算法[17]计算两子图之间的图相似度。首先DeepEMD算法[17]是由EMD算法[20]融入到神经网络中衍化得来,EMD算法[20]测量的是两个概率分布之间的距离。

      在DeepEMD算法中[17],测试图将作为源分布,测试图中的节点为i,其特征向量为${u_i}$,权值为${s_i}$。同时,参考图将作为目标分布,参考图中的节点为j,其特征向量为${v_j}$,权值为${d_j}$${c_{ij}}$表示测试图中的节i与参考图中的节点 j 之间的特征距离。在图匹配算法中,节点i转换为节点j的成本由两节点的权重共同决定。

      $$ {c}_{ij}= 1-\frac{{{u}_{i}}^{\rm T}{v}_{j}}{\left|{u}_{i}\right|\left|{v}_{j}\right|} $$ (12)

      结合DeepEMD算法[17],文中将源分布设置为测试子图${U_q}$,目标分布为参考子图${U_s}$,根据公式(12)计算测试子图与参考子图中各节点之间的距离后,文中还将计算每个节点对应的权重:

      $$\begin{split} {w}_{i}={\rm max}\Biggr({({u}_{q}^{i})}^{\rm T}\dfrac{\displaystyle\sum _{j=1}^{{N}^{2}}{{u}}_{{s}}^{{i}}}{{N}^{2}},0\Biggr) \end{split} $$ (13)

      式中:$u_q^i$为测试子图中的某个节点;$u_s^j$为参考子图中的某个节点;$\max ( \cdot )$为取最大值函数;${w_i}$为查询子图中节点 i 对应的权值。该公式表明,测试子图节点的权重与该节点同参考子图的相关性成正比,即两个子图中包含的相似区域的权值较高,而背景区域的权值较小。

      随后,文中算法对子图中所有节点的权值进行归一化,使测试节点的权值之和等于参考节点的权值之和。

      $$ {\widehat{w}}_{i}={w}_{i}\frac{{N}^{2}}{\displaystyle\sum _{j=1}^{{N}^{2}}{{w}}_{{j}}} $$ (14)

      式中:${\hat w_i}$为节点i的最终权值。而测试子图与参考子图之间的距离为:

      $$s({U_q},{U_s}) = \sum\limits_{i = 1}^{{N^2}} {\sum\limits_{j = 1}^{{N^2}} {(1 - {c_{ij}})|{w_i} - {w_j}|} } $$ (15)

      式中:${c_{ij}}$为测试节点i到参考节点j的距离;${w_j}$为参考节点j的权重;$s({U_q},{U_s})$为两个子图之间的图相似度。

    • 在模型的分割阶段,保留高于图相似度阈值所对应的预测测试节点标签信息,并将其输入空间金字塔池模块(ASPP)[21]。该模块包含全局平均池化层和$1 \times 1$卷积层用于提取图像级特征,同时ASPP模块采用一个$1 \times 1$卷积层和三个不同采样率的放大卷积层来获取响应图的不同尺度信息。将ASPP模块生成的上述不同尺度特征用$1 \times 1$卷积层融合后,再通过双线性上采样便能得到最终的分割结果。

    • 在训练阶段,文中算法采用Dice Loss[22]作为损失函数作用于测试图像的所有像素区域。

      $$ {L}_{dice}=1-\frac{2\mathrm{ }\times \mathrm{ }|X\cap Y|}{\left|X\right|+\left|Y\right|} $$ (16)

      式中:X为所预测的测试图像掩模拉伸至一维后的列向量;Y为参考图像的真值掩模拉伸至一维后的列向量。

      在此基础上,文中提出图相似度损失函数,使预测的测试节点标签信息能更贴近于真值。

      $$ {{L}_{graph}= - label \times {\rm log}\left(s\left({U}_{q},{U}_{s}\right)\right)-\left(1-label\right)\times (1-s({U}_{q},{U}_{s}\left)\right)} $$ (17)

      式中:$s({U_q},{U_s})$为两个子图之间的图相似度;$label$为图相似度真值。若测试图像中含有违禁品,则其值为1,反之为0。以上两个损失函数以相加的方式结合作为文中模型最终的损失函数。

    • 文中在表1中展示出模型的完整参数配置。其中,#maps表示卷积核数量,k 表示卷积窗口大小,s表示步长,w表示池化窗口大小。在节点注意力模块中,拼接测试图节点和参考图节点的卷积操作$\varphi ( \cdot )$共享参数;压缩测试图节点和参考图节点特征的卷积操作$g( \cdot )$也同样共享参数。

      表 1  基于图匹配网络违禁物品分割模型的参数设置

      Table 1.  Parameter setting of prohibited item segmentation model based on graph matching network

      Operational layerConfiguration
      Graph embeddingInput image321×321×3
      Convolution layer#maps: 64,k: 7×7,s: 2×2
      Maxpool layerw: 3×3,s: 2×2
      Convolution layer $\left[ \begin{array}{l}{\rm{\# maps:} }\;\;{\rm{64,} }\;{{k:} }\;{\rm{1 \times 1} }\;{{s:} }\;{\rm{1 \times 1} }\\{\rm{\# maps:} }\;\;{\rm{64,} }\;{{k:} }\;{\rm{3 \times 3} }\;{{s:} }\;{\rm{1 \times 1} }\\{\rm{\# maps:} }\;{\rm{256,} }\;{{k:} }\;{\rm{1 \times 1} }\;{{s:} }\;{\rm{1 \times 1} }\end{array} \right]{\rm{ \times 3} }$
      Convolution layer $\left[ \begin{array}{l}{\rm{\# maps:} }\;\;128{\rm{,} }\;{{k:} }\;{\rm{1 \times 1} }\;{{s:} }\;2{\rm{ \times 2} }\\{\rm{\# maps:} }\;\;128{\rm{,} }\;{{k:} }\;{\rm{3 \times 3} }\;{{s:} }\;2{\rm{ \times 2} }\\{\rm{\# maps:} }\;\;512{\rm{,} }\;{{k:} }\;{\rm{1 \times 1} }\;{{s:} }\;2{\rm{ \times 2} }\end{array} \right]{\rm{ \times 4} }$
      Convolution layer $\left[ \begin{array}{l}{\rm{\# maps:} }\;\;\;256{\rm{,} }\;{ {k:} }\;{\rm{1 \times 1} }\;{ {s:} }\;1{\rm{ \times 1} }\\{\rm{\# maps:} }\;\;\;256{\rm{,} }\;{ {k:} }\;{\rm{3 \times 3} }\;{ {s:} }\;1{\rm{ \times 1} }\\{\rm{\# maps:} }\;\;1024{\rm{,} }\;{ {k:} }\;{\rm{1 \times 1} }\;{ {s:} }\;1{\rm{ \times 1} }\end{array} \right]{\rm{ \times 6} }$
      Convolution layer#maps: 256,k: 1×1,s: 1×1
      Graph matchingConvolution layer#maps: 256,k: 1×1,s: 1×1
      Avgpool layerw: 11×11,s: 1×1
      Convolution layer#maps: 256,k: 1×1,s: 1×1
      Convolution layer#maps: 256,k: 1×1,s: 1×1
      Maxpool layerw: 10×10,s: 1×1
      SegmentationConvolution layer#maps: 256,k: 1×1,s: 1×1
      Convolution layer $\left[ \begin{array}{l}{\rm{\# maps:} }\;\;\;256{\rm{,} }\;{{k:} }\;3{\rm{ \times 3} }\;{{s:} }\;1{\rm{ \times 1} }\\{\rm{\# maps:} }\;\;\;256{\rm{,} }\;{{k:} }\;{\rm{3 \times 3} }\;{{s:} }\;1{\rm{ \times 1} }\end{array} \right]{\rm{ \times 3} }$
      Convolution layer#maps: 1,k: 1×1,s: 1×1

      在训练阶段,模型通过SGD优化器训练网络参数以达到最小化损失函数的目的。文中算法的图相似度阈值设置为0.5,模型训练的学习率被设置为0.0025,权值衰减设置为0.0005,batch的大小设置为4。在训练阶段该模型的训练时长为25 h,平均每轮训练15 min,在测试阶段模型处理一张X光图像的时长为10 ms。模型在 Nvidia 2080Ti GPU上训练与测试。

    • 文中模型分别在SIXray数据集和Xray-PI数据集上进行实验,这两个数据集中的X光数据集皆为伪彩色图像。由于数据集中的X光图像来并非由同一款安检机拍摄得来,因此即使是同一物质的物体,在不同伪彩色X光图像之间也存在色差,故文中的所有实验在预处理阶段皆引入图像增强的方法[23]纠正严重偏移的色差。

      以下将分别对这两个数据集进行简要介绍。

      (1) SIXray数据集

      SIXray数据集是由Miao等人提供的伪彩色X射线图像数据集[24],该数据集原是用于目标分类与定位的研究,因此仅对X光图像提供违禁品的边框标注。SIXray数据集共包含8929张含有违禁品的X光图像,该数据集中共含五类违禁品,各类违禁品的X光图像具体数量如下:手枪(Gun) 3131张,小刀(Knife)1943张,扳手(Wrench) 2199张,钳子(Pliers) 3961张,剪刀(Scissors) 983张。

      (2) Xray-PI数据集

      由于目前缺乏像素级标记的X光数据集,因此实验将由X光安检机采集得来的伪彩色图像进行像素级标注,并对所建立的X光数据集命名为Xray-PI。与SIXray数据集相比,该数据集的标注信息更精细,违禁品类别也更多样化。Xray-PI数据集共包含385张含有违禁品的X光图像,该数据集中共包含七类违禁品,各类违禁品的X光图像具体数量如下:扳手(Wrench) 34张,瓶子(Bottle) 86张,烟花(Firework)39张,枪(Gun) 70张,鞭炮(Firecracker) 64张,钳子(Pliers)43张,刀片(Blade) 49张。

      实验的训练策略是在指定的X光数据集中选择含有某一类违禁品的X光图像作为测试集,含有其他类别违禁品的X光图像作为训练集。模型在训练集上学习网络参数,而后在测试集中挑选少量标注样本作为分割测试集中X光图像的参考图像。此训练策略可以保证模型参数不受测试阶段所分割的违禁品类别的影响。实验将在训练集和测试集中采用随机剪裁、翻转、缩放等方式扩充图像数量,而后分别在训练集和测试集中随机选择一定数量的图像来验证模型的性能。

      实验通过计算测试图像的真值掩模$pred$与预测分割结果$mask$之间的交并比作为该次预测正确与否的衡量指标,并用类平均交并比体现模型在指定数据集上预测分割的整体性能。交并比的定义公式如下:

      $$ IoU =\frac{mask\cap pred}{mask\cup pred} $$ (18)
    • 文中算法可将单张测试图像与多张样本图像一同输入模型中进行图匹配。在单样本条件下模型前向传播时所需的计算力为43.7407 G,参数总量占15.6254 M内存。随着样本图像数量的增加,模型前向传播时所需的计算力将成倍数增长。

      模型在获得测试子图与参考子图后需借助滤波规整子图尺寸,实验通过控制变量的方式比较在不同滤波处理条件下,选定不同的子图边长对单样本模型预测的分割结果会产生何种影响,并根据实验结果选择合适的滤波器及子图边长。

      表2中数据所示,模型采用最大值滤波的分割效果优于采用均值滤波的分割效果,而在最大值滤波条件下,当测试子图和参考子图的边长为10时,其分割效果最佳。因此,模型选择使用最大值滤波将测试子图与参考子图规整至边长为10的尺寸,以此为后续图计算做准备。

      表 2  模型在不同滤波器和子图边长条件下的分割性能

      Table 2.  Segmentation performance of model with different filters and length of subgraphs

      FilterSizemeanIoU
      Xray-PISIXray
      Average filter 5 48.8% 34.0%
      10 50.4% 35.8%
      15 49.7% 35.5%
      Maximum filter 5 50.1% 34.8%
      10 51.2% 36.4%
      15 50.4% 35.3%
    • 图3为模型在SIXray数据集上获得的实验效果图。模型将与CANet [13]和PGNet [16]进行比较,观察表3中的信息可知文中方法在单样本和五样本分割任务中类平均交并比分别高于CANet [13]2.5%和2.2%,高于PGNet [16]2.6%和2.5%。模型在五样本分割任务中类平均交并比比单样本分割任务高1.3%。

      表 3  在SIXray数据集上进行单样本和五样本分割性能

      Table 3.  Segmentation performance of 1-shot task and 5-shot task on SIXray dataset

      MethodsGunKnifeWrenchPliersScissorsmeanIoU
      1-shotCANet[13]40.341.635.233.918.333.9%
      PGNet[16]38.941.537.433.218.033.8%
      Ours41.442.135.634.028.536.4%
      5-shotCANet[13]43.043.236.835.418.935.5%
      PGNet[16]41.142.937.035.719.135.2%
      Ours43.743.436.335.929.337.7%

      图  3  在SIXray数据集上的实验效果图。(a)参考图像;(b)参考图像掩模型;(c)测试图像;(d)分割结果,其中红色区域为预测违禁品区域

      Figure 3.  Experimental effect results on SIXray dataset. (a) Support image; (b) Support image mask; (c) Query image; (d) Segmentation result, of which red region is the predicted prohibited item region

    • 在Xray-PI数据集上进行的实验效果如图4所示,该模型同样与CANet [13]和PGNet [16]这两种先进的小样本语义分割算法进行比较。根据表4中的实验结果可证明本方法的类平均交并比得分比CANet [13]在单样本分割任务和五样本分割任务中分别高出2.3%和1.9%。同时,文中方法的类平均交并比得分比PGNet [16]在单样本分割任务中高出5.7%,在五样本分割任务中高出5.2%。该模型在五样本分割任务中类平均交并比比单样本分割任务高1.7%。

      图  4  在Xray-PI数据集上的实验效果图。(a)参考图像;(b)参考图像掩模型;(c)测试图像;(d)分割结果,其中红色区域为预测违禁品区域

      Figure 4.  Experimental effect results on Xray-PI dataset. (a) Support image; (b) Support image mask; (c) Query image; (d) Segmentation result, of which red region is the predicted prohibited item region

      表 4  在Xray-PI数据集上进行单样本和五样本分割性能

      Table 4.  Segmentation performance of 1-shot task and 5-shot task on Xray-PI dataset

      MethodsFireworkFirecrackerBottleGunWrenchPliersBlademeanIoU
      1-shotCANet[13]51.445.542.248.134.753.067.948.9%
      PGNet[16]44.141.931.847.136.351.166.445.5%
      Proposed52.945.747.451.237.555.568.751.2%
      5-shotCANet[13]54.847.645.249.535.656.168.051.0%
      PGNet[16]46.043.035.148.537.155.668.347.7%
      Proposed55.449.148.753.638.556.468.952.9%
    • 文中提出基于图匹配网络的小样本违禁物品分割算法,该算法的设计初衷是为解决样本不均衡问题,以及避免训练后的模型在分割新的违禁品类别时需要重新训练的现象。文中提出从节点与图这两个角度出发匹配图模型,从而找到两图间相似的含有违禁品的区域,同时设计了一个图相似度损失函数以提升图相似度计算的可靠性。在SIXray数据集和Xray-PI数据集上进行的实验证明该方法在未训练过的测试集X光图像中能有效分割出违禁品。

      在五样本分割任务中,文中模型前向传播时所需的计算力是单样本分割任务的五倍,但类平均交并比仅比单样本分割任务高出1.5%左右。虽然本模型消耗了成倍的计算力,却未能大幅提升类平均交并比,因此该算法在单张测试图像和多张样本图像的匹配方式上仍有待改进。

参考文献 (24)

目录

    /

    返回文章
    返回