基于体素化图卷积网络的三维点云目标检测方法

赵毅强; 艾西丁·艾克白尔; 陈瑞; 周意遥; 张琦

doi:10.3788/IRLA20200500

基于体素化图卷积网络的三维点云目标检测方法

doi: 10.3788/IRLA20200500

天津大学微电子学院，天津 300072

基金项目: 国家自然科学基金（61871284）；天津市科技重大专项研发计划新一代人工智能科技重大专项（18ZXZNGX00320）

详细信息

作者简介:
赵毅强，男，教授，博士生导师，博士，主要从事集成电路设计和红外成像与感知方面的研究

中图分类号: TP183

3D point cloud object detection method in view of voxel based on graph convolution network

School of Microelectronics, Tianjin University, Tianjin 300072, China

摘要: 针对激光雷达点云的稀疏性和空间离散分布的特点，通过结合体素划分和图表示方法设计了新的图卷积特征提取模块，提出一种基于体素化图卷积神经网络的激光雷达三维点云目标检测算法。该方法通过消除传统3D卷积神经网络的计算冗余性，不仅提升了网络的目标检测能力，并且提高了点云拓扑信息的分析能力。文中设计的方法在KITTI公开数据集的车辆、行人、骑行者的3D目标检测和鸟瞰图目标检测任务的检测性能相比基准网络均有了有效提升，尤其在车辆3D目标检测任务上最高提升了13.75%。实验表明：该方法采用图卷积特征提取模块有效提高了网络整体检测性能和数据拓扑关系的学习能力，为三维点云目标检测任务提供了新的方法。
- 图卷积神经网络 /
- 激光雷达 /
- 三维点云目标检测 /
- 拓扑信息 /
- KITTI数据集
Abstract: In view of the sparsity and spatial discrete distribution of lidar point cloud, a graph convolution feature extraction module was designed by combining voxel partition and graph representation, and a 3D lidar point cloud object detection algorithm in view of voxel based graph convolution neural network was proposed. By eliminating the computational redundancy of the traditional 3D convolution neural network, this method not only improved the object detection ability of the network, but also improved the analysis ability of the point cloud topology information. Compared with the baseline network, the detection performance of vehicle, pedestrian and cyclist 3D object detection and bird’s eye view object detection tasks in KITTI public dataset were improved greatly, especially improved with 13.75% precision in 3D object detection task of vehicle at maximal. Experimental results show that the proposed method improves the detection performance of the network and the learning ability of data topological relationship via graph convolution feature extraction module, which provides a new method for 3D point cloud object detection task.
- graph convolution neural network /
- lidar /
- 3D point cloud object detection /
- topological information /
- KITTI dataset

图 1 基于体素划分的图卷积三维目标检测流程

Figure 1. Pipeline of graph convolution 3D object detection based on voxelization

下载: 全尺寸图片幻灯片

图 2 有效体素格空间邻域关系示意图

Figure 2. Schematic diagram of neighborhood of valid voxel

下载: 全尺寸图片幻灯片

图 3 设计的三维点云目标检测网络架构图

Figure 3. Structure of designed 3D point cloud object detection network

下载: 全尺寸图片幻灯片

图 4 KITTI数据集3D目标实测结果

Figure 4. 3D object detection result of KITTI dataset

下载: 全尺寸图片幻灯片

图 5 3D目标检测P-R曲线对比

Figure 5. Comparison of P-R curve of 3D object detection

下载: 全尺寸图片幻灯片

表 1 KITTI 验证集上的点云3D目标检测平均精度对比

Table 1. Comparison of average precision of point cloud 3D object detection on KITTI validation set

Networks	Inference time/s	Sensors		Car			Pedestrian			Cyclist
Networks	Inference time/s	LiDAR	Image	Moderate	Hard	Easy	Moderate	Hard	Easy	Moderate	Hard	Easy
MV3D ^[10]	0.36	√	√	62.35%	55.12%	71.09%	N/A	N/A	N/A	N/A	N/A	N/A
MV3D (Lidar)^[10]	0.24	√	×	52.73%	51.31%	66.77%	N/A	N/A	N/A	N/A	N/A	N/A
AVOD ^[11]	0.08	√	√	65.78%	58.38%	73.59%	31.51%	26.98%	38.28%	44.90%	38.80%	60.11%
VoxelNet ^[3]	0.31	√	×	65.46%	62.85%	81.97%	53.42%	48.87%	57.86%	47.65%	45.11%	67.17%
Point-GNN^[6]	0.6	√	×	79.47%	72.29%	88.33%	43.77%	40.14%	51.92%	63.48%	57.08%	78.60%
VGCN (Ours)	0.09	√	×	79.21%	78.58%	89.25%	53.28%	48.74	60.90%	71.82%	68.19%	85.89%

下载: 导出CSV

表 2 KITTI 验证集上的鸟瞰图目标检测平均精度对比

Table 2. Comparison of average precision of BEV object detection on KITTI validation set

Networks	Inference time/s	Sensors		Car			Pedestrian			Cyclist
Networks	Inference time/s	LiDAR	Image	Moderate	Hard	Easy	Moderate	Hard	Easy	Moderate	Hard	Easy
MV3D ^[10]	0.36	√	√	76.90%	68.49%	86.02%	N/A	N/A	N/A	N/A	N/A	N/A
MV3D (Lidar) ^[10]	0.24	√	×	77.00%	68.94%	85.82%	N/A	N/A	N/A	N/A	N/A	N/A
AVOD ^[11]	0.08	√	√	85.44%	77.73%	86.60%	35.24%	33.97%	42.52%	47.74%	46.55%	63.66%
VoxelNet ^[3]	0.31	√	×	84.81%	78.57%	89.60%	61.05%	56.98%	65.95%	52.18%	50.49%	74.41%
Point-GNN^[6]	0.6	√	×	89.17%	83.90%	93.11%	43.77%	40.14%	51.92%	67.28%	59.67%	81.17%
VGCN (Ours)	0.09	√	×	87.90%	87.33%	90.23%	57.30%	52.72%	64.22%	74.94%	71.57%	87.26%

下载: 导出CSV

表 3 KITTI测试集上的3D和鸟瞰图目标测试结果

Table 3. 3D and BEV object detection on KITTI test set

Benchmarks	Moderate	Easy	Hard
Car(3D)	77.65%	84.47%	73.36%
Car(BEV)	87.16%	90.67%	82.98%
Cyclist(3D)	62.36%	78.47%	55.88%
Cyclist(BEV)	67.04%	81.50%	59.45%
Pedestrian(3D)	37.60%	45.28%	34.96%
Pedestrian(BEV)	42.33%	50.02%	40.05%

下载: 导出CSV

表 4 图卷积层数对车辆目标检测的影响

Table 4. Effect of the number of graph convolutional layers on vehicle object detection

Networks	Moderate	Hard	Easy
VoxelNet ^[3]	65.46%	62.85%	81.97%
1-Graph conv	76.32%	75.18%	85.85%
2-Graph convs	79.21%	78.58%	89.25%
4-Graph convs	80.06%	75.72%	86.73%

下载: 导出CSV

[1]	Zhang Nan, Sun Jianfeng, Jiang Peng, et al. Pose estimation algorithms for lidar scene based on point normal vector [J]. Infrared and Laser Engineering, 2020, 49(1): 0105004. (in Chinese) doi: CNKI:SUN:HWYJ.0.2020-01-020
[2]	Xia Xianzhao, Zhu Shixian, Zhou Yiyao, et al. LiDAR K-means clustering algorithm based on threshold [J]. Journal of Beijing University of Aeronautics and Astronautics, 2020, 46(1): 115-121. (in Chinese)
[3]	Zhou Y, Tuzel O. Voxelnet: End-to-end learning for point cloud based3d object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4490-4499.
[4]	Yan Yan, Mao Yuxing, Bo Li. Second: Sparsely embedded convolutional detection [J]. *Sensors*, 2018, 18 (10) : 3337.
[5]	Qi C R, Yi L, Su H, et al. Pointnet++: Deep hierarchical feature learning on point sets in a metric space[C]// Advances in Neural Information Processing Systems, 2017: 5099–5108.
[6]	Shi Weijing, Rajkumar Raj. Point-gnn: Graph neural network for 3d object detection in a point cloud[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1711-1719.
[7]	Kipe Thomas N, Welling Max. Semi-supervised classification with graph convolutional networks [J]. arXiv preprint arXiv, 2016, 1609: 02907.
[8]	Xue Shan, Zhang Zhen, Lu Qiongying, et al. Image recognition method of anti UAV system based on convolutional neural network [J]. Infrared and Laser Engineering, 2020, 49(7): 20200154. (in Chinese)
[9]	Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving? the kitti vision benchmark suite[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition, 2012: 3354–3361.
[10]	Chen Xiaozhi, Ma Huimin, Wan Ji, et al. Multi-view 3d object detection network for autonomous driving[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1907-1915.
[11]	Yan Yan,Mao Yuxing,Bo Li. Second: Sparsely embedded convolutional detection [J]. Sensors, 2018, 18(10): 3337.

[1]	冯杰, 冯扬, 刘翔, 邓陈进, 喻忠军. 远距离监视激光雷达动目标快速检测 . 红外与激光工程, 2023, 52(4): 20220506-1-20220506-9. doi: 10.3788/IRLA20220506
[2]	蒋筱朵, 赵晓琛, 冒添逸, 何伟基, 陈钱. 采用传感器融合网络的单光子激光雷达成像方法 . 红外与激光工程, 2022, 51(2): 20210871-1-20210871-7. doi: 10.3788/IRLA20210871
[3]	靳辰飞, 田小芮, 唐勐, 王峰, 杨杰, 乔凯, 史晓洁, 张思琦. 非视域三维成像激光雷达的研究进展 . 红外与激光工程, 2022, 51(3): 20210471-1-20210471-16. doi: 10.3788/IRLA20210471
[4]	郭静菁, 费晓燕, 葛鹏, 周安然, 王磊, 李正琦, 盛磊. 基于全光纤光子计数激光雷达的高分辨率三维成像 . 红外与激光工程, 2021, 50(7): 20210162-1-20210162-10. doi: 10.3788/IRLA20210162
[5]	刘汝卿, 蒋衍, 李锋, 孟柘, 郭文举, 朱精果. 实时感知型激光雷达多通道数据采集系统设计 . 红外与激光工程, 2021, 50(5): 20200291-1-20200291-7. doi: 10.3788/IRLA20200291
[6]	冯振中, 杨镇源, 余臣, 白杨, 宋昭, 徐诗月, 高剑波. 高速高精度多线激光雷达信息处理设计及应用 . 红外与激光工程, 2021, 50(11): 20210684-1-20210684-8. doi: 10.3788/IRLA20210684
[7]	陈思颖, 王嘉奇, 陈和, 张寅超, 郭磐, 年璇, 孙卓然, 陈粟. 改进简单多尺度法的激光雷达云检测 . 红外与激光工程, 2020, 49(S2): 20200379-20200379. doi: 10.3788/IRLA20200379
[8]	张楠, 孙剑峰, 姜鹏, 刘迪, 王鹏辉. 激光雷达场景三维姿态点法向量估计方法 . 红外与激光工程, 2020, 49(1): 0105004-0105004(8). doi: 10.3788/IRLA202049.0105004
[9]	龚道然, 李思宁, 姜鹏, 刘迪, 孙剑峰. 激光雷达三维距离像超分辨重构方法研究 . 红外与激光工程, 2020, 49(8): 20190511-1-20190511-7. doi: 10.3788/IRLA20190511
[10]	曹杰, 郝群, 张芳华, 徐辰宇, 程阳, 张佳利, 陶禹, 周栋, 张开宇. APD三维成像激光雷达研究进展 . 红外与激光工程, 2020, 49(9): 20190549-1-20190549-10. doi: 10.3788/IRLA20190549
[11]	李晶, 车英, 宋暖, 翟艳男, 陈大川, 李君. 三维激光雷达共光路液体透镜变焦光学系统设计 . 红外与激光工程, 2019, 48(4): 418002-0418002(9). doi: 10.3788/IRLA201948.0418002
[12]	沈振民, 赵彤, 王云才, 郑永超, 尚卫东, 王冰洁, 李静霞. 混沌脉冲激光雷达水下目标探测 . 红外与激光工程, 2019, 48(4): 406004-0406004(7). doi: 10.3788/IRLA201948.0406004
[13]	杜玉红, 王鹏, 史屹君, 王璐瑶, 赵地. 环境特征自适应激光雷达数据分割方法 . 红外与激光工程, 2018, 47(8): 830001-0830001(8). doi: 10.3788/IRLA201847.0830001
[14]	吴天舒, 张志佳, 刘云鹏, 裴文慧, 陈红叶. 基于改进SSD的轻量化小目标检测算法 . 红外与激光工程, 2018, 47(7): 703005-0703005(7). doi: 10.3788/IRLA201847.0703005
[15]	张欣婷, 安志勇, 亢磊. 三维激光雷达发射/接收共光路光学系统设计 . 红外与激光工程, 2016, 45(6): 618004-0618004(5). doi: 10.3788/IRLA201645.0618004
[16]	封双连, 强希文, 宗飞, 李志朝, 常金勇, 赵军卫, 吴敏, 江钰. 湍流廓线激光雷达的数据处理方法 . 红外与激光工程, 2015, 44(S1): 220-224.
[17]	李鹏程, 徐青, 邢帅, 刘志青, 耿迅, 侯晓芬, 张军军. 全局收敛LM 的激光雷达波形数据分解方法 . 红外与激光工程, 2015, 44(8): 2262-2267.
[18]	杨文秀, 付文兴, 周志伟, 余巍, 马杰. 基于投影降维的激光雷达快速目标识别 . 红外与激光工程, 2014, 43(S1): 1-7.
[19]	李小珍, 吴玉峰, 郭亮, 曾晓东. 合成孔径激光雷达下视三维成像构型及算法 . 红外与激光工程, 2014, 43(10): 3276-3281.
[20]	孙崇利, 苏伟, 武红敢, 刘睿, 刘婷, 黄健熙, 朱德海, 张晓东, 刘峻明. 改进的多级移动曲面拟合激光雷达数据滤波方法 . 红外与激光工程, 2013, 42(2): 349-354.

点击查看大图

图(5) / 表(4)

计量

文章访问数: 643
HTML全文浏览量: 325
PDF下载量: 79
被引次数: 0

全文HTML

0. 引　言

随着智能感知系统的快速发展，三维点云目标检测在计算机视觉领域得到了越来越多的关注。激光雷达因探测距离远，精度高，其生成的点云数据对光强和距离等环境因素的鲁棒性好，目前在自动驾驶，遥感环境监测，高精度地图等领域坐拥着重要的地位^[1-2]。

激光雷达生成的三维点云由空间离散点组成，可表示目标场景的立体坐标信息。由于点云数据在三维空间的非规则排布和稀疏特性，无法直接利用传统的卷积神经网络来学习点云的局部和高级特征信息。所以通常需要借助预处理步骤来确定点云数据的局部单位，即点云的单位表示是点云数据学习的重要基础步骤。目前采用的表示方法可分为，基于体素划分表示^[3-4]，基于点的表示方法^[5]等。而图表示方法通过引入图概念，直接在输入点云数据上做算法处理^[6]。点云数据具有丰富的拓扑信息和空间感知能力，基于图表示的方法利用数据的图结构能有效地表示空间离散分布的稀疏点云数据，同时利用图卷积操作来学习点云语义信息和邻域点之间的相关性，提高模型学习能力和泛化能力。

4. 结　论

文中研究了基于体素划分的图卷积神经网络在点云目标检测中的应用，提出一种基于体素化图卷积网络的三维点云目标检测算法。针对三维点云数据的非规则排布和稀疏性，引入了基于体素划分的图表示方法，有效提高了目标检测网络的数据表征和学习能力。通过设计体素格补偿编码层以及采用图卷积模块替代传统的3D卷积层，消除了网络的计算冗余性，提高了体素格节点之间的相关性学习，从而提升了网络算法的目标检测性能。

在公开数据集KITTI的检测实验表明，与已有的目标检测算法相比，通过引入基于拉普拉斯矩阵的图卷积模块有效提升了网络的综合检测精度，在3D目标检测和鸟瞰图目标检测任务上进一步优化了基准目标检测算法的性能。但相比图像数据，点云数据稀疏，低分辨率特性使其在捕捉行人，骑行者等扫描到的点数少，尺寸小的目标物时会产生漏检情况。因此，后续工作将进一步提升网络对点云语义信息的学习能力，提升目标场景的全覆盖检测能力和检测精度。

参考文献 (11)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于体素化图卷积网络的三维点云目标检测方法

doi: 10.3788/IRLA20200500

作者简介:
赵毅强，男，教授，博士生导师，博士，主要从事集成电路设计和红外成像与感知方面的研究

3D point cloud object detection method in view of voxel based on graph convolution network

计量

基于体素化图卷积网络的三维点云目标检测方法

doi: 10.3788/IRLA20200500

天津大学微电子学院，天津 300072

作者简介:
赵毅强，男，教授，博士生导师，博士，主要从事集成电路设计和红外成像与感知方面的研究

English Abstract

3D point cloud object detection method in view of voxel based on graph convolution network

School of Microelectronics, Tianjin University, Tianjin 300072, China

全文HTML

2.1. 点云数据体素划分预处理

2.2. 基于体素划分的点云图结构建立

2.3. 体素格特征补偿编码

2.4. 基于拉普拉斯卷积核的前向传播层搭建

2.5. 目标检测框生成网络模块

2.6. 损失函数的设计

2.6.1. 目标检测框的生成

2.6.2. 网络预测回归框的总损失

3.1. 数据集的准备

3.2. 实验环境

3.3. 实验过程及分析

3.3.1. 改变卷积模块的层数进行消融实验

3.3.2. 体素格补偿编码的检测性能对比

目录

留言板

基于体素化图卷积网络的三维点云目标检测方法

doi: 10.3788/IRLA20200500

作者简介: 赵毅强，男，教授，博士生导师，博士，主要从事集成电路设计和红外成像与感知方面的研究

3D point cloud object detection method in view of voxel based on graph convolution network

计量

出版历程

基于体素化图卷积网络的三维点云目标检测方法

doi: 10.3788/IRLA20200500

天津大学 微电子学院，天津 300072

作者简介: 赵毅强，男，教授，博士生导师，博士，主要从事集成电路设计和红外成像与感知方面的研究

English Abstract

3D point cloud object detection method in view of voxel based on graph convolution network

School of Microelectronics, Tianjin University, Tianjin 300072, China

全文HTML

2.1. 点云数据体素划分预处理

2.2. 基于体素划分的点云图结构建立

2.3. 体素格特征补偿编码

2.4. 基于拉普拉斯卷积核的前向传播层搭建

2.5. 目标检测框生成网络模块

2.6. 损失函数的设计

2.6.1. 目标检测框的生成

2.6.2. 网络预测回归框的总损失

3.1. 数据集的准备

3.2. 实验环境

3.3. 实验过程及分析

3.3.1. 改变卷积模块的层数进行消融实验

3.3.2. 体素格补偿编码的检测性能对比

目录

作者简介:
赵毅强，男，教授，博士生导师，博士，主要从事集成电路设计和红外成像与感知方面的研究

天津大学微电子学院，天津 300072

作者简介:
赵毅强，男，教授，博士生导师，博士，主要从事集成电路设计和红外成像与感知方面的研究