基于汇聚级联卷积神经网络的旋转人脸检测方法

齐悦; 董云云; 王溢琴

doi:10.3788/IRLA20220176

基于汇聚级联卷积神经网络的旋转人脸检测方法

doi: 10.3788/IRLA20220176

齐悦^1,,
董云云²,
王溢琴^3, ,

1.
太原开放大学计算机网络中心，山西太原 030024
2.
太原理工大学软件学院，山西太原 030600
3.
晋中学院信息技术与工程系，山西晋中 030619

基金项目: 山西省高等学校科技创新项目（2021L490）；山西省教育科学“十四五”规划课题（GH-21105）

详细信息

作者简介:
齐悦，男，副教授，硕士，主要从事计算机视觉、深度学习方面的研究

通讯作者: 王溢琴，女，副教授，硕士，主要从事图像处理、深度学习方面的研究。

中图分类号: TP391

Rotating face detection based on convergent cascaded convolutional neural network

Qi Yue^1
,,
Dong Yunyun²,
Wang Yiqin^{3
, ,}

1.
Computer Network Center, Taiyuan Open University, Taiyuan 030024, China
2.
College of Software, Taiyuan University of Technology, Taiyuan 030600, China
3.
Department of Information Technology and Engineering, Jinzhong University, Jinzhong 030619, China

Funds: The Shanxi Province Science and Technology Innovation Project of Higher Education(2021L490); Planning subject for the 14th five year plan of Shanxi education sciences(GH-21105)

摘要: 针对大规模姿态变化和大角度人脸平面旋转(Rotation-in-Plane, RIP)等复杂条件下，多尺度旋转人脸检测精度低的问题，提出了一种基于汇聚级联卷积神经网络(Convolutional Neural Networks, CNN)的旋转人脸检测方法。采用由粗到精的级联策略，在主网络SSD的多个特征层上汇聚级联了多个浅层的卷积神经网络，逐步完成人脸/非人脸检测、人脸边界框位置更新和人脸RIP角度估计。该方法在Rotate FDDB和Rotate Sub-WIDER FACE数据集上取得了较好的检测效果。在Rotate Sub-WIDER FACE数据集出现100次误报时的检测精度为87.1%，速度为45 FPS，证明该方法可在低时间损耗下完成精确的旋转人脸检测。
- 旋转人脸检测 /
- 汇聚级联 /
- 卷积神经网络 /
- 尺度变换 /
- 平面旋转
Abstract: To solve the problem of low accuracy of multi-scale rotating face detection under complex conditions such as large-scale pose change and large-angle face rotation-in-plane, a rotating face detection method based on parallel cascade convolution neural network is proposed. Using a coarse-to-fine cascading strategy, multiple shallow convolutional neural networks are cascaded in parallel on multiple feature layers of the main network SSD. Face/non-face detection, face boundary box position update and face RIP angle estimation are gradually completed. Experimental results on Rotate FDDB dataset and Rotate Sub-WIDER FACE dataset show that the proposed method achieves advanced face detection. The detection precision of the method is 87.1% and the speed is 45 FPS when 100 false positives occur in the rotating Sub-WIDER FACE dataset, which proves that the method can achieve accurate rotating face detection with low time loss.
- rotating face detection /
- parallel cascade /
- CNN /
- scale transformation /
- rotation-in-plane
图 1 基于SSD算法的多尺度人脸检测模型

Figure 1. Multi-scale face detection model based on SSD algorithm

下载: 全尺寸图片幻灯片

图 2 基于汇聚级联卷积神经网络的多尺度旋转人脸检测模型

Figure 2. Multi-scale rotating face detection model based on convergent cascaded convolutional neural network

下载: 全尺寸图片幻灯片

图 3 24-classification-net结构

Figure 3. 24-classification-net structure

下载: 全尺寸图片幻灯片

图 4 12-classification-net结构

Figure 4. 12-classification-net structure

下载: 全尺寸图片幻灯片

图 5 46-regression-net结构

Figure 5. 46-regression-net structure

下载: 全尺寸图片幻灯片

图 6 22-regression-net结构

Figure 6. 22-regression-net structure

下载: 全尺寸图片幻灯片

图 7 Rotate FDDB数据集上的$ {\text{ROC}} $曲线对比

Figure 7. Comparison of ROC curves on the Rotate FDDB dataset

下载: 全尺寸图片幻灯片

图 8 Rotate Sub-WIDER FACE数据集上的$ {\text{ROC}} $曲线对比

Figure 8. Comparison of ROC curves on the Rotate Sub-WIDER FACE dataset

下载: 全尺寸图片幻灯片

图 9 文中算法在Rotate Sub-WIDER FACE数据集上的部分检测效果图

Figure 9. Partial detection effect diagram of proposed algorithm on the Rotate Sub-WIDER FACE dataset

下载: 全尺寸图片幻灯片

表 1 文中算法与PCN、Faster R-CNN、SSD和Cascade CNN等算法在100次误报时的速度和精度对比

Table 1. Comparison of speed and precision of PCN, Faster R-CNN, SSD, Cascade CNN and proposed algorithm in 100 false positives

Method Precision Speed/FPS

PCN^[13] 0.852 47
Faster R-CNN^[14] 0.818 13
SSD^[15] 0.771 24
Cascade CNN^[16] 0.778 51
Proposed algorithm 0.871 45

下载: 导出CSV

[1]	Guo J, Zhu X, Zhao C, et al. Learning meta face recognition in unseen domains [C]//Computer Vision and Pattern Recognition, IEEE, 2020: 6163-6172.
[2]	Liu H Z, Yang S P, Yuan J Z, et al. Multi-scale face detection based on single neural network [J]. Journal of Electronics and Information Technology, 2018, 40(11): 63-70. (in Chinese)
[3]	Fang Y, Chi Z, Yang W, et al. Blind visual quality assessment for image super-resolution by convolutional neural network [J]. Multimedia Tools & Applications, 2018, 77(10): 29829-29846.
[4]	Xiao Y, Cao D, Gao L. Face detection based on occlusion area detection and recovery [J]. Multimedia Tools and Applications, 2020, 79(2): 16531-16546.
[5]	Ma D, Lai H C. In-plane rotation face detection based on improved SURFs [J]. Computer Engineering and Design, 2018, 39(9): 125-129. (in Chinese)
[6]	Hu P, Ramanan D. Finding tiny faces [C]//Computer Vision and Pattern Recognition, IEEE, 2017: 1522-1530.
[7]	Rezaei M, Ravanbakhsh E, Namjoo E, et al. Assessing the effect of image quality on SSD and faster R-CNN networks for face detection [C]//27th Iranian Conference on Electrical Engineering (ICEE), IEEE, 2019: 1589-1594.
[8]	Zhang H T, Li M L, Dong S H. Two-layer cascaded convolutional neural network for face detection [J]. Journal of Image and Graphics, 2019, 24(2): 49-60. (in Chinese)
[9]	Hao Z, Liu Y, Qin H, et al. Scale-aware face detection [C]//Computer Vision and Pattern Recognition, IEEE, 2017: 1913-1922.
[10]	Wu S, Kan M, He Z, et al. Funnel-structured cascade for multi-view face detection with alignment-awareness [J]. Neurocomputing, 2017, 221(C): 138-145.
[11]	Priya G N, Banu R S D W. A robust rotation invariant multiview face detection in erratic illumination condition [J]. International Journal of Computer Applications, 2012, 57(20): 46-51.
[12]	Kylberg G, Sintorn I M. On the influence of interpolation method on rotation invariance in texture recognition [J]. Eurasip Journal on Image and Video Processing, 2016(1): 17. doi: 10.1186/s13640-015-0097-y
[13]	Shi X, Shan S, Kan M, et al. Real-time rotation-invariant face detection with progressive calibration networks [C]//Computer Vision and Pattern Recognition, IEEE, 2018: 2295-2303.
[14]	Jiang H, Learned-Miller E. Face detection with the faster R-CNN [C]//IEEE International Conference on Automatic Face & Gesture Recognition, IEEE, 2017: 650-657.
[15]	Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector [C]//European Conference on Computer Vision, 2016: 21-37.
[16]	Li H, Lin Z, Shen X, et al. A convolutional neural network cascade for face detection [C]//Computer Vision and Pattern Recognition, IEEE, 2015: 5325-5334.
[17]	Jain V, Learned-Miller E. FDDB: A benchmark for face detection in unconstrained settings [R]. US: UMass Amherst, 2010.
[18]	Yang S, Luo P, Chen C L, et al. WIDER FACE: A face detection benchmark [C]//IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2016: 5525-5533.

[1]	徐瑞书, 罗笑南, 沈瑶琼, 郭创为, 张文涛, 管钰晴, 傅云霞, 雷李华. 基于改进U-Net网络的相位解包裹技术研究 . 红外与激光工程, 2024, 53(2): 20230564-1-20230564-14. doi: 10.3788/IRLA20230564
[2]	蒋筱朵, 赵晓琛, 冒添逸, 何伟基, 陈钱. 采用传感器融合网络的单光子激光雷达成像方法 . 红外与激光工程, 2022, 51(2): 20210871-1-20210871-7. doi: 10.3788/IRLA20210871
[3]	林丽, 刘新, 朱俊臻, 冯辅周. 基于CNN的金属疲劳裂纹超声红外热像检测与识别方法研究 . 红外与激光工程, 2022, 51(3): 20210227-1-20210227-9. doi: 10.3788/IRLA20210227
[4]	庄子波, 邱岳恒, 林家泉, 宋德龙. 基于卷积神经网络的激光雷达湍流预警 . 红外与激光工程, 2022, 51(4): 20210320-1-20210320-10. doi: 10.3788/IRLA20210320
[5]	刘瀚霖, 辛璟焘, 庄炜, 夏嘉斌, 祝连庆. 基于卷积神经网络的混叠光谱解调方法 . 红外与激光工程, 2022, 51(5): 20210419-1-20210419-9. doi: 10.3788/IRLA20210419
[6]	宦克为, 李向阳, 曹宇彤, 陈笑. 卷积神经网络结合NSST的红外与可见光图像融合 . 红外与激光工程, 2022, 51(3): 20210139-1-20210139-8. doi: 10.3788/IRLA20210139
[7]	李保华, 王海星. 基于增强卷积神经网络的尺度不变人脸检测方法 . 红外与激光工程, 2022, 51(7): 20210586-1-20210586-8. doi: 10.3788/IRLA20210586
[8]	徐云飞, 张笃周, 王立, 华宝成. 非合作目标局部特征识别轻量化特征融合网络设计 . 红外与激光工程, 2020, 49(7): 20200170-1-20200170-7. doi: 10.3788/IRLA20200170
[9]	裴晓敏, 范慧杰, 唐延东. 多通道时空融合网络双人交互行为识别 . 红外与激光工程, 2020, 49(5): 20190552-20190552-6. doi: 10.3788/IRLA20190552
[10]	李鸿龙, 杨杰, 张忠星, 罗迁, 于双铭, 刘力源, 吴南健. 用于实时目标检测的高速可编程视觉芯片 . 红外与激光工程, 2020, 49(5): 20190553-20190553-10. doi: 10.3788/IRLA20190553
[11]	薛珊, 张振, 吕琼莹, 曹国华, 毛逸维. 基于卷积神经网络的反无人机系统图像识别方法 . 红外与激光工程, 2020, 49(7): 20200154-1-20200154-8. doi: 10.3788/IRLA20200154
[12]	高泽宇, 李新阳, 叶红卫. 流场测速中基于深度卷积神经网络的光学畸变校正技术 . 红外与激光工程, 2020, 49(10): 20200267-1-20200267-10. doi: 10.3788/IRLA20200267
[13]	刘鹏飞, 赵怀慈, 曹飞道. 多尺度卷积神经网络的噪声模糊图像盲复原 . 红外与激光工程, 2019, 48(4): 426001-0426001(9). doi: 10.3788/IRLA201948.0426001
[14]	张秀, 周巍, 段哲民, 魏恒璐. 基于卷积稀疏自编码的图像超分辨率重建 . 红外与激光工程, 2019, 48(1): 126005-0126005(7). doi: 10.3788/IRLA201948.0126005
[15]	贾鑫, 张惊雷, 温显斌. 双监督信号深度学习的电气设备红外故障识别 . 红外与激光工程, 2018, 47(7): 703003-0703003(7). doi: 10.3788/IRLA201847.0703003
[16]	张国山, 张培崇, 王欣博. 基于多层次特征差异图的视觉场景识别 . 红外与激光工程, 2018, 47(2): 203004-0203004(9). doi: 10.3788/IRLA201847.0203004
[17]	杨楠, 南琳, 张丁一, 库涛. 基于深度学习的图像描述研究 . 红外与激光工程, 2018, 47(2): 203002-0203002(8). doi: 10.3788/IRLA201847.0203002
[18]	殷云华, 李会方. 基于混合卷积自编码极限学习机的RGB-D物体识别 . 红外与激光工程, 2018, 47(2): 203008-0203008(8). doi: 10.3788/IRLA201847.0203008
[19]	张腊梅, 陈泽茜, 邹斌. 基于3D卷积神经网络的PolSAR图像精细分类 . 红外与激光工程, 2018, 47(7): 703001-0703001(8). doi: 10.3788/IRLA201847.0703001
[20]	郭强, 芦晓红, 谢英红, 孙鹏. 基于深度谱卷积神经网络的高效视觉目标跟踪算法 . 红外与激光工程, 2018, 47(6): 626005-0626005(6). doi: 10.3788/IRLA201847.0626005

点击查看大图

图(9) / 表(1)

计量

文章访问数: 357
HTML全文浏览量: 61
PDF下载量: 51
被引次数: 0

全文HTML

0. 引　言

近年来，伴随着深度学习技术的广泛应用，基于卷积神经网络的人脸检测技术也得到了快速发展，其被广泛应用于人脸识别^[1]、人脸对齐^[2]和人脸超分辨率重建^[3]等研究领域。虽然近年来人脸检测的精度不断提高，但多尺度旋转人脸检测的问题还没有得到较好解决。

多尺度旋转人脸检测^[4-5]是指在输入图像中检测出具有尺度变化和任意角度平面旋转的人脸，在刷脸闸机通行、人脸注册登录、智能视频监控、互动娱乐美颜等场景得到了广泛应用。传统基于卷积神经网络(Convolutional Neural Networks, CNN)的人脸检测方法^[6-8]受益于CNN自动高效的非线性特征提取能力，可以实现快速准确的人脸检测，但是在处理具有尺度变化和平面旋转的人脸图像时，受多尺度和多角度条件下人脸特征差异明显的影响，模型训练收敛速度慢，检测精度一般。因此，最简单的方法就是在不同平面旋转角下对训练样本进行扩充，形成包含各个平面旋转角度的训练数据，然后再训练人脸检测模型。但是，更大规模的训练样本会在模型训练过程中降低分类器的性能，导致人脸检测时间增加^[9-10]。参考文献[11]通过训练多个覆盖各种角度的分类器完成旋转人脸的检测，每一个分类器仅负责小范围内的角度变化，降低了模型的收敛难度。参考文献[12]首先分别训练眼、鼻、嘴等四个检测器，然后组合起来构建目标区域以进行人脸检测，但是训练多个检测器会增加耗时并且对检测精度提高有限。参考文献[13]提出了一种渐进式校准网络（Progressive Calibration Networks, PCN）以进行旋转人脸检测，该方法采用三级级联的方式逐步估计人脸旋转角度，虽然检测速度很快，但是检测精度不高，需要在速度和精度上进行权衡调整。参考文献[14]提出了一种基于通用目标检测框架的人脸检测方法，在准确率上有所提升，但计算消耗比较大。参考文献[15]提出了基于单射多尺度检测器（Single Shot MultiBox Detector, SSD）的人脸检测算法，该算法直接在多尺度卷积层进行人脸/非人脸鉴别和人脸框位置调整，可快速高效地完成多尺度人脸检测，进而采用SSD人脸检测模型解决各种人脸检测问题迅速成为研究热点。

文中汲取了SSD人脸检测模型精准高效的特点，同时针对多种复杂环境下的多尺度旋转人脸检测问题进行了以下改进：（1）采用由粗到精的级联策略，在主网络SSD的多个特征层上级联多个浅层的卷积神经网络，逐步完成人脸/非人脸鉴别、人脸RIP角度估计和人脸框位置调整；（2）在主干网络的卷积特征层，通过汇聚级联多个浅层人脸分类网络和人脸回归网络，加快对旋转人脸的检测实时性；（3）对浅层的卷积神经网络采用不同的分辨率设计，可以实现比单分辨率CNN更强的检测能力。

4. 结束语

文中提出的基于汇聚级联卷积神经网络的多尺度旋转人脸检测方法采用由粗到精的级联策略，在主网络SSD的多个特征层上汇聚级联了多个浅层的卷积神经网络，逐步完成人脸/非人脸检测、人脸边界框位置更新和人脸RIP角度估计。同时，浅层的卷积神经网络还采用了多分辨率设计，可以实现比单分辨率CNN更强的检测能力。所提出的方法在保持低时间损耗的同时，进一步提高了多尺度旋转人脸的检测精度，同时在Rotate FDDB和Rotate Sub-WIDER FACE数据集上也取得了较好的检测效果。

参考文献 (18)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于汇聚级联卷积神经网络的旋转人脸检测方法

doi: 10.3788/IRLA20220176

作者简介:
齐悦，男，副教授，硕士，主要从事计算机视觉、深度学习方面的研究

通讯作者: 王溢琴，女，副教授，硕士，主要从事图像处理、深度学习方面的研究。

Rotating face detection based on convergent cascaded convolutional neural network

计量

基于汇聚级联卷积神经网络的旋转人脸检测方法

doi: 10.3788/IRLA20220176

1. 太原开放大学计算机网络中心，山西太原 030024

2. 太原理工大学软件学院，山西太原 030600

3. 晋中学院信息技术与工程系，山西晋中 030619

作者简介:
齐悦，男，副教授，硕士，主要从事计算机视觉、深度学习方面的研究

通讯作者: 王溢琴，女，副教授，硕士，主要从事图像处理、深度学习方面的研究。

English Abstract

Rotating face detection based on convergent cascaded convolutional neural network

1. Computer Network Center, Taiyuan Open University, Taiyuan 030024, China

2. College of Software, Taiyuan University of Technology, Taiyuan 030600, China

3. Department of Information Technology and Engineering, Jinzhong University, Jinzhong 030619, China

全文HTML

2.1. 整体框架

2.2. 候选人脸特征图生成

2.3. 人脸分类网络

2.4. 人脸回归网络

2.5. 旋转NMS

3.1. 网络设置

3.2. Rotate FDDB数据集测试结果分析

3.3. Rotate Sub-WIDER FACE数据集测试结果分析

3.4. 速度和精度对比

目录

Method	Precision	Speed/FPS
PCN^[13]	0.852	47
Faster R-CNN^[14]	0.818	13
SSD^[15]	0.771	24
Cascade CNN^[16]	0.778	51
Proposed algorithm	0.871	45

留言板

基于汇聚级联卷积神经网络的旋转人脸检测方法

doi: 10.3788/IRLA20220176

作者简介: 齐悦，男，副教授，硕士，主要从事计算机视觉、深度学习方面的研究

通讯作者: 王溢琴，女，副教授，硕士，主要从事图像处理、深度学习方面的研究。

Rotating face detection based on convergent cascaded convolutional neural network

计量

出版历程

基于汇聚级联卷积神经网络的旋转人脸检测方法

doi: 10.3788/IRLA20220176

1. 太原开放大学 计算机网络中心，山西 太原 030024 2. 太原理工大学 软件学院，山西 太原 030600 3. 晋中学院 信息技术与工程系，山西 晋中 030619

作者简介: 齐悦，男，副教授，硕士，主要从事计算机视觉、深度学习方面的研究

通讯作者: 王溢琴，女，副教授，硕士，主要从事图像处理、深度学习方面的研究。

English Abstract

Rotating face detection based on convergent cascaded convolutional neural network

1. Computer Network Center, Taiyuan Open University, Taiyuan 030024, China 2. College of Software, Taiyuan University of Technology, Taiyuan 030600, China 3. Department of Information Technology and Engineering, Jinzhong University, Jinzhong 030619, China

全文HTML

2.1. 整体框架

2.2. 候选人脸特征图生成

2.3. 人脸分类网络

2.4. 人脸回归网络

2.5. 旋转NMS

3.1. 网络设置

3.2. Rotate FDDB数据集测试结果分析

3.3. Rotate Sub-WIDER FACE数据集测试结果分析

3.4. 速度和精度对比

目录

作者简介:
齐悦，男，副教授，硕士，主要从事计算机视觉、深度学习方面的研究

1. 太原开放大学计算机网络中心，山西太原 030024

2. 太原理工大学软件学院，山西太原 030600

3. 晋中学院信息技术与工程系，山西晋中 030619

作者简介:
齐悦，男，副教授，硕士，主要从事计算机视觉、深度学习方面的研究

1. Computer Network Center, Taiyuan Open University, Taiyuan 030024, China

2. College of Software, Taiyuan University of Technology, Taiyuan 030600, China

3. Department of Information Technology and Engineering, Jinzhong University, Jinzhong 030619, China