多通道时空融合网络双人交互行为识别

裴晓敏; 范慧杰; 唐延东

doi:10.3788/IRLA20190552

多通道时空融合网络双人交互行为识别

doi: 10.3788/IRLA20190552

1.
辽宁石油化工大学信息与控制工程学院，辽宁抚顺 113001
2.
中国科学院沈阳自动化研究所机器人学国家重点实验室，辽宁沈阳 110016

基金项目: 国家自然科学基金（61401455）；辽宁省自然科学基金（2019ZD0066）

详细信息

作者简介:
裴晓敏（1981-），女，讲师，博士后，主要从事图像处理与机器视觉方面的研究。Email：pxm_neu@126.com

中图分类号: TP183

Two-person interaction recognition based on multi-stream spatio-temporal fusion network

1.
School of Information and Control Engineering, Liaoning Shihua University, Fushun 113001, China
2.
State Key Laboratory of Robotics, Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China

摘要: 提出一种基于多通道时空融合网络的双人交互行为识别方法，对双人骨架序列行为进行识别。首先，采用视角不变性特征提取方法提取双人骨架特征，然后，设计两层级联的时空融合网络模型，第一层基于一维卷积神经网络（1DCNN）和双向长短时记忆网络（BiLSTM）学习空间特征，第二层基于长短时记忆网络(LSTM)学习时间特征，得到双人骨架的时空融合特征。最后，采用多通道时空融合网络分别学习多组双人骨架特征得到多通道融合特征，利用融合特征识别交互行为，各通道之间权值共享。将文中算法应用于NTU-RGBD人体交互行为骨架库，双人交叉对象实验准确率可达96.42%，交叉视角实验准确率可达97.46%。文中方法与该领域的典型方法相比，在双人交互行为识别中表现出更好的性能。
- 双人交互行为 /
- 卷积神经网络 /
- 长短时记忆网络 /
- 时空融合网络 /
- 多通道
Abstract: Two-person interaction recognition based on multi-stream spatio-temporal fusion was proposed. Firstly, a method to describe two-person’s skeleton which invariable with angle of view was proposed. Then a two-layer spatio-temporal fusion network model was designed. In the first layer, the spatial correlation features were obtained based on one-dimensional convolutional neural network (1DCNN) and bi-directional long short term memory(BiLSTM). In the second layer, the spatio-temporal fusion features were obtained based on LSTM. Finally, the multi-stream spatio-temporal fusion network was used to obtain the multi-stream fusion features, which learned one kind of feature by one stream and fusion features for all streams together at last. The weights for each stream was shared, and every stream had the same structure. After features were fusion for all streams, it could be used for interaction recognition. By applying this algorithm to NTU-rgbd datasets, the accuracy for two person interaction recognition for cross-subject could reach 96.42%, and the accuracy of two person interaction recognition for cross-view could reach 97.46%. Compared with the state of art methods in this field, this method performed best in two person interaction recognition.
- two-person interaction /
- CNN /
- LSTM /
- spatio-temporal fusion network /
- multi-stream

图 1 双人行为骨架

Figure 1. Two person action skeletons

下载: 全尺寸图片幻灯片

图 2 空间特征学习

Figure 2. Spatial feature learning

下载: 全尺寸图片幻灯片

图 3 多通道时空融合网络

Figure 3. Multi-stream spatio-temporal fusion network

下载: 全尺寸图片幻灯片

图 4 多通道时空融合网络交叉对象实验行为识别准确率

Figure 4. Multi-stream spatio-temporal fusion model classification accuracy for cross subject

下载: 全尺寸图片幻灯片

图 5 多通道时空融合网络交叉视角实验行为识别准确率

Figure 5. Multi-stream spatio-temporal fusion model classification

下载: 全尺寸图片幻灯片

表 1 NTU-RGBD数据库行为识别准确率

Table 1. Accuracy for human action recognition for NTU-RGBD dataset

Method	Cross-subject	Cross view
HBRNN^[4]	59.1%	64.0%
Part-aware LSTM^[5]	62.9%	70.3%
VA LSTM^[6]	79.4%	87.6%
Trust Gate ST-LSTM^[7]	69.2%	77.7%
AGC-LSTM^[8]	95.0%	89.2%
ST-GCN^[9]	81.5%	88.3%
Single stream (SST)	85.61%	92.42%
Our method (MST)	96.42%	97.46%

下载: 导出CSV

表 2 SBU数据库行为识别结果

Table 2. Human action recognition accuracy for SBU dataset

Method	Accuracy
Co-occurrence RNN^[10]	90.4%
STA-LSTM^[5]	91.5%
Trust Gate ST-LSTM^[7]	93.3%
VA-LSTM^[6]	97.6%
Our method（weighted multi-stream）	98.92%

下载: 导出CSV

表 3 网络结构对比

Table 3. Comparison of the network structure

Net structural	Parameter	Convergence	Accuracy
Multi-stream spatio-temporal model	N	100epochs	96.42%
Single-stream spatio-temporal model	N	100epochs	85.61%
Single-stream spatio-temporal model	3N	200epochs	86.74%

下载: 导出CSV

[1]	Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Adavances in Neural Information Processing Systems, 2014: 568-576.
[2]	Tran D, Bourdev L, Fergus R, et al. Learning spatio temporal features with 3D convolutional networks[C]// 2015 IEEE International Conference on Computer Vision (ICCV), 2015: 4489-4497.
[3]	Pei Xiaomin, Fan Huijie, Tang Yandong. Action recognition method of spatio-temporal feature fusion deep learning network [J]. Infrared and Laser Engineering, 2018, 47(2): 0203007. (in Chinese)
[4]	Du Yong, Wang W, Wang L. Hierarchical recurrent neural network for skeleton based action recognition[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 1110-1118.
[5]	Shahroudy A, Liu J, Ng T -T, et al. NTU RGB+D: A large scale dataset for 3D human activity analysis[C]//Proc CVPR, 2016: 1010-1019.
[6]	Zhang Cuiling Lan, Junliang Xing, et al. View adaptive recurrent neural networks for high performance human action recognition from skeleton data[C]//ICCV, 2017.
[7]	Li J, Shahroudy A, Xu D, et al. Spatio-temporal lstm with trust gates for 3d human action recognition[C]//ECCV, Springer, 2016: 816-833.
[8]	Si Chenyang, Chen Wentao, Wang W. An attention enhanced graph convolutional LSTM network for skeleton-based action recognition[C/OL]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[2019-06-15]. https://arxiv.org/abs/1902.09130.
[9]	Yan Sijie, Xiong Yuanjun, Lin Dahua. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//AAAI, 2018.
[10]	Li Chao, Zhong Qiaoyong, Xie Di, et al. Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation[C]//IJCAI, 2018.
[11]	Zhang Xiangyue, Ding Qinghai, Luo Haibo. Infrared dim target detection algorithm based on improved LCM [J]. Infrared and Laser Engineering, 2017, 46(7): 0726002. (in Chinese)
[12]	Wang Zhongyu, Ni Xianyang, Shang Zhendong. Autonomous driving semantic segmentation with convolution neural networks [J]. Optics and Precision Engineering, 2019, 27(11): 0726002. (in Chinese) doi: 10.3788/OPE.20192711.2429
[13]	Wu Yanfeng, Wang Yanjie, Sun Haijiang, et al. LSS-target detection in complex sky backgrounds [J]. Chinese Optics, 2019, 12(4): 854−866. (in Chinese)

[1]	徐瑞书, 罗笑南, 沈瑶琼, 郭创为, 张文涛, 管钰晴, 傅云霞, 雷李华. 基于改进U-Net网络的相位解包裹技术研究 . 红外与激光工程, 2024, 53(2): 20230564-1-20230564-14. doi: 10.3788/IRLA20230564
[2]	李霖, 王红梅, 李辰凯. 红外与可见光图像深度学习融合方法综述 . 红外与激光工程, 2022, 51(12): 20220125-1-20220125-20. doi: 10.3788/IRLA20220125
[3]	陆建华. 融合CNN和SRC决策的SAR图像目标识别方法 . 红外与激光工程, 2022, 51(3): 20210421-1-20210421-7. doi: 10.3788/IRLA20210421
[4]	王国刚, 孙召进, 刘云鹏. J-MSF: 一种新的多通道多尺度红外弱小目标检测算法 . 红外与激光工程, 2022, 51(5): 20210459-1-20210459-10. doi: 10.3788/IRLA20210459
[5]	蒋筱朵, 赵晓琛, 冒添逸, 何伟基, 陈钱. 采用传感器融合网络的单光子激光雷达成像方法 . 红外与激光工程, 2022, 51(2): 20210871-1-20210871-7. doi: 10.3788/IRLA20210871
[6]	齐悦, 董云云, 王溢琴. 基于汇聚级联卷积神经网络的旋转人脸检测方法 . 红外与激光工程, 2022, 51(12): 20220176-1-20220176-8. doi: 10.3788/IRLA20220176
[7]	李保华, 王海星. 基于增强卷积神经网络的尺度不变人脸检测方法 . 红外与激光工程, 2022, 51(7): 20210586-1-20210586-8. doi: 10.3788/IRLA20210586
[8]	刘瀚霖, 辛璟焘, 庄炜, 夏嘉斌, 祝连庆. 基于卷积神经网络的混叠光谱解调方法 . 红外与激光工程, 2022, 51(5): 20210419-1-20210419-9. doi: 10.3788/IRLA20210419
[9]	庄子波, 邱岳恒, 林家泉, 宋德龙. 基于卷积神经网络的激光雷达湍流预警 . 红外与激光工程, 2022, 51(4): 20210320-1-20210320-10. doi: 10.3788/IRLA20210320
[10]	宦克为, 李向阳, 曹宇彤, 陈笑. 卷积神经网络结合NSST的红外与可见光图像融合 . 红外与激光工程, 2022, 51(3): 20210139-1-20210139-8. doi: 10.3788/IRLA20210139
[11]	徐云飞, 张笃周, 王立, 华宝成. 非合作目标局部特征识别轻量化特征融合网络设计 . 红外与激光工程, 2020, 49(7): 20200170-1-20200170-7. doi: 10.3788/IRLA20200170
[12]	高泽宇, 李新阳, 叶红卫. 流场测速中基于深度卷积神经网络的光学畸变校正技术 . 红外与激光工程, 2020, 49(10): 20200267-1-20200267-10. doi: 10.3788/IRLA20200267
[13]	薛珊, 张振, 吕琼莹, 曹国华, 毛逸维. 基于卷积神经网络的反无人机系统图像识别方法 . 红外与激光工程, 2020, 49(7): 20200154-1-20200154-8. doi: 10.3788/IRLA20200154
[14]	刘鹏飞, 赵怀慈, 曹飞道. 多尺度卷积神经网络的噪声模糊图像盲复原 . 红外与激光工程, 2019, 48(4): 426001-0426001(9). doi: 10.3788/IRLA201948.0426001
[15]	殷云华, 李会方. 基于混合卷积自编码极限学习机的RGB-D物体识别 . 红外与激光工程, 2018, 47(2): 203008-0203008(8). doi: 10.3788/IRLA201847.0203008
[16]	裴晓敏, 范慧杰, 唐延东. 时空特征融合深度学习网络人体行为识别方法 . 红外与激光工程, 2018, 47(2): 203007-0203007(6). doi: 10.3788/IRLA201847.0203007
[17]	张腊梅, 陈泽茜, 邹斌. 基于3D卷积神经网络的PolSAR图像精细分类 . 红外与激光工程, 2018, 47(7): 703001-0703001(8). doi: 10.3788/IRLA201847.0703001
[18]	郭强, 芦晓红, 谢英红, 孙鹏. 基于深度谱卷积神经网络的高效视觉目标跟踪算法 . 红外与激光工程, 2018, 47(6): 626005-0626005(6). doi: 10.3788/IRLA201847.0626005
[19]	毛红敏, 马锡英, 王晓丹, 徐国定. 多通道可调谐1.55μm光子晶体滤波器 . 红外与激光工程, 2017, 46(6): 620002-0620002(5). doi: 10.3788/IRLA201746.0620002
[20]	陈颖, 王文跃, 范卉青, 卢波. 异质结构光子晶体微腔实现多通道可调谐滤波 . 红外与激光工程, 2014, 43(10): 3399-3403.

点击查看大图

图(5) / 表(3)

计量

文章访问数: 1303
HTML全文浏览量: 984
PDF下载量: 41
被引次数: 0

全文HTML

0. 引　言

人体行为识别在视频大数据分析、公共安全、人机交互等领域具有广泛应用。根据人体行为活动中执行动作的个体数量不同，可分为单个行为人的单人行为识别、两个行为人的交互行为识别、多个行为人的群体行为识别。双人交互行为中两行为人之间相互关联，如“握手”、“传球”、“互相拍打”等，这些行为经常出现在日常生活中。因而，对交互行为识别具有较高的实用价值和广阔的应用前景。

目前，针对于双人交互行为的识别方法主要有两种。一种是先分别提取每个参与人的运动信息，然后计算双人之间的相关性来预测交互双人的行为，该方法将交互行为看作是两个独立个体的个人行为，忽略了双人间的关联性，且产生大量无用信息。另一种是在每个时间点上提取双人间的运动关联信息，然后建立相关模型，由于该方法多采用自然场景图像，双人紧密接触时交互区域很难定位^[1-3]。

近年来，基于深度学习网络的人体骨架行为识别方法受到广泛关注。深度相机可实时采集人体骨架，基于骨架的行为识别方法可避免因背景遮挡和其他环境因素，如光照、物体遮挡等影响识别结果。Yong Du^[4]等提出基于HBRNN网络的骨架行为识别方法，将人体行为骨架依照解剖学特征分成若干部分，依次输入到多个级联的循环神经网络（Recurrent neural network ，RNN）中。

Amir Shahroudy^[5]等提出基于Part-aware长短时记忆（Long short term memory， LSTM）的骨架行为识别方法，将骨架分成若干部分后，输入到LSTM网络中。Pengfei Zhang 等^[6]提出基于View adaptive LSTM视角自适应循环神经网络的行为识别方法。Chenyang Si 等^[7]提出基于Graph LSTM的骨架行为识别方法，将骨架视为图，骨架点为节点，骨架之间的关联性组成边，利用时空图网络学习骨架的行为特征。

上述方法对单人行为识别的准确率较高，但未考虑双人间的相关性，在双人交互行为识别中准确率较低。为解决这一问题，文中提出针对双人交互行为的多通道时空融合网络双人交互行为识别方法，主要创新点如下：

（1）提出一种视角不变的双人交互行为描述方法。考虑双人骨架节点间距离不受视角变化影响的特点，定义四组包含骨架自身特征和双人关联特征的骨架距离特征。

（2）设计两层时空融合网络模型学习序列的时空融合特征。第一层采用基于一维卷积神经网络和双向长短时记忆网络学习序列的空间关联特征(CNN-BiLSTM)；第二层采用LSTM网络学习序列的时间特征。

（3）提出一种多通道网络结构。在不增加网络参数的前提下，得到多组时空特征，利用四个通道分别处理四组骨架特征，四通道结构相同、权值共享。

5. 结　论

文中提出一种基于深度学习的多通道时空融合网络双人交互行为识别方法，实验结果验证1DCNN-LSTM LSTM结构可以提取行为序列的时空融合特征。设计了一种新颖的双人行为表示方法，利用四组距离特征表示原始骨架，得到双人视角不变性特征表示，提升了行为特征的视角不变性。设计多通道权值共享时空特征融合网络模型，采用多个通道分别处理各组特征，多通道间权值共享，在不增加网络参数的前提下，提取多组时空融合特征。该方法在双人行为识别中具有较高的准确率，与该领域的典型算法对比实验结果表明，文中所提出的方法在双人交互行为识别上具有明显优势。后续将引入多模态行为特征，实现更复杂场景的行为分析。

参考文献 (13)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

多通道时空融合网络双人交互行为识别

doi: 10.3788/IRLA20190552

作者简介:
裴晓敏（1981-），女，讲师，博士后，主要从事图像处理与机器视觉方面的研究。Email：pxm_neu@126.com

Two-person interaction recognition based on multi-stream spatio-temporal fusion network

计量

多通道时空融合网络双人交互行为识别

doi: 10.3788/IRLA20190552

1. 辽宁石油化工大学信息与控制工程学院，辽宁抚顺 113001

2. 中国科学院沈阳自动化研究所机器人学国家重点实验室，辽宁沈阳 110016

作者简介:
裴晓敏（1981-），女，讲师，博士后，主要从事图像处理与机器视觉方面的研究。Email：pxm_neu@126.com

English Abstract

Two-person interaction recognition based on multi-stream spatio-temporal fusion network

1. School of Information and Control Engineering, Liaoning Shihua University, Fushun 113001, China

2. State Key Laboratory of Robotics, Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China

全文HTML

4.1. 网络参数设置

4.2. 典型算法对比

4.3. 交互行为识别实验

4.4. 网络结构对比实验

目录

留言板

多通道时空融合网络双人交互行为识别

doi: 10.3788/IRLA20190552

作者简介: 裴晓敏（1981-），女，讲师，博士后，主要从事图像处理与机器视觉方面的研究。Email：pxm_neu@126.com

Two-person interaction recognition based on multi-stream spatio-temporal fusion network

计量

出版历程

多通道时空融合网络双人交互行为识别

doi: 10.3788/IRLA20190552

1. 辽宁石油化工大学 信息与控制工程学院，辽宁 抚顺 113001 2. 中国科学院沈阳自动化研究所 机器人学国家重点实验室，辽宁 沈阳 110016

作者简介: 裴晓敏（1981-），女，讲师，博士后，主要从事图像处理与机器视觉方面的研究。Email：pxm_neu@126.com

English Abstract

Two-person interaction recognition based on multi-stream spatio-temporal fusion network

1. School of Information and Control Engineering, Liaoning Shihua University, Fushun 113001, China 2. State Key Laboratory of Robotics, Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China

全文HTML

4.1. 网络参数设置

4.2. 典型算法对比

4.3. 交互行为识别实验

4.4. 网络结构对比实验

目录

作者简介:
裴晓敏（1981-），女，讲师，博士后，主要从事图像处理与机器视觉方面的研究。Email：pxm_neu@126.com

1. 辽宁石油化工大学信息与控制工程学院，辽宁抚顺 113001

2. 中国科学院沈阳自动化研究所机器人学国家重点实验室，辽宁沈阳 110016

作者简介:
裴晓敏（1981-），女，讲师，博士后，主要从事图像处理与机器视觉方面的研究。Email：pxm_neu@126.com

1. School of Information and Control Engineering, Liaoning Shihua University, Fushun 113001, China

2. State Key Laboratory of Robotics, Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China