深度学习运动姿态反馈模型

发表时间:2021/7/2   来源:《中国科技信息》2021年8月   作者:李小军 穆孙楠 乔世琦 可焓灵 李茂嵩
[导读] 随着我国人工智能技术的飞速发展,AI为改善体育健身类系统教学的教学专业度和提高教学效果提供了技术基础。

西安电子科技大学  陕西西安  李小军  穆孙楠  乔世琦  可焓灵  李茂嵩  710126

摘  要  随着我国人工智能技术的飞速发展,AI为改善体育健身类系统教学的教学专业度和提高教学效果提供了技术基础。在教练指导运动员进行训练的时候,需要对运动员的技术动作进行评估。过去采用的方法常常是教练通过用肉眼来观察运动员训练时的技术动作,利用自己的经验对运动员进行指导。但是这种方法依赖教练员个人的经验,不仅难以统一标准,而且训练方法主观,训练效果也无法保证。 为了实现纠错,我们设计了一整深度学习运动姿态反馈模型,实现实时的运动姿态纠错。
        1 引言
        近年来,人体姿态识别已经成为了一个活跃的研究领域。一般来说,人体姿态识别可以通过多种模式,例如外观、深度、光流和人体骨架。[1]其中,动态人体骨架通常包含重要信息,对人体骨骼关键点进行实时分析能有效实现人体姿态的检测和识别。
        2 相关工作
        目前,关于人体运动姿态识别与反馈模型的研究是一个活跃的研究领域。早期Wang等[2]提出利用时间步长的关节坐标形成特征向量进行基于骨架的动作识别,由于没有利用人体关节之间的空间关系特征,检测识别效果有限。Du等[3]提出使用神经网络的方法来学习人体骨架关节点之间的空间关系。该模型表现出了强大的学习能力,但难以泛化。
        2.1 OpenPose
        越来越多的计算机视觉和深度学习应用要求二维人体姿态估计作为系统输入[4],[5],[6]。为了帮助研究人员推进他们的工作,Cao等[7]公开发布了第一个实时多人分析系统OpenPose,该系统可以在单个图像上联合检测人体、脚、手和面部关键点(总共135个关键点)。OpenPose由三个不同的模块组成:(a)身体+脚检测,(b)手检测,(c)人脸检测。核心模块是组合体和脚关键点探测器。它也可以使用在COCO和MPII数据集上训练的原始身体模型[8]。基于身体检测器的输出,可以从身体的某些部位,特别是耳朵、眼睛、鼻子和颈部,粗略地估计出面部的边界框建议。类似地,手的边界框建议是由手臂关键点生成的。
        2.2 BPE神经网络模型
        BPE模型是一种基于数据集的人体二维运动相似度测量的嵌入模型。它通过学习时空姿态的隐嵌入从而实现将姿态转换到相应的表征空间,最后使用DTW时间对齐算法计算出相似度计算出隐向量的相似度,从而得到两种不同时空姿态的相似度。[9]
        3 深度学习运动姿态反馈模型流程
        3.1关键点识别
        为了平衡实时性要求和网络性能的考量,我们将摄像机最近0-0.5s的视频作为输入对于骨骼关键点的构建,使用openpose网络(Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 2019)提取2D骨骼关键点后,获得时空姿态骨骼数据,每一帧拥有25个关键点。将关键点根据身体部分分为五个部分
        3.2预处理
        同时,考虑到用户拍摄的视频质量环境干扰等诸多因素,我们还需要对原生的视频的关键点进行降噪处理,再根据模型需要,进行一定的数据预处理。



        3.3相似度判断模型
        通过步骤一所获得的骨骼数据后,我们使用BPE(A Body Part Embedding Model With Datasets for Measuring 2D Human Motion Similarity 2021)模型来判断相似度。BPE是一种嵌入式图神经网络,预训练后的模型利用2维的时空骨骼姿态数据,能够实现对短时间的骨骼姿态时空数据进行相似度判断,即使是摄像机拍摄得到的骨骼姿态角度不同,大小,深远不同,或是两个不同的人,也能进行较好得识别两个不同时空骨骼数据的每时每刻的姿态相似度。输出为整体姿态相似度以及各个身体部分的相似度。,N代表骨骼识别关键点个数,T为帧数。
        3.4 反馈流程
        空间归一化的效果会限制机械提示法的准确性,对于拉弓的动态时刻,AI提示的时差也难免会导致移动不到位。同时,运动员的姿态往往牵一发而动全身,是较为专业的领域。所以,如果让专业教练提前设计错误标签会更好。因此,错误预设法让专家专门作出诸多标准错误动作示范(如射箭拉弓不够深,核心未收稳,转身过度等等),这样的标签既专业,运动员又易懂。将诸多典型错误的骨骼姿态数据和正确数据一起和用户姿态数据进行对比,最高的相似度即为用户表现,AI直接返回标签结果。神经网络模型可以并行运算,因此只要算力足够,网络速度依旧和判断一次的速度相同。
参 考 文 献
[1] Chen C, Liu K, Kehtarnavaz N. Real-time human action recognition based on depth motion maps[J]. Journal of Real-Time Image Processing, 2016, 12(1):155-163.
[2] WANG J, LIU Z, WU Y, et al. Mining actionlet ensemble for action recognition with depth cameras[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway IEEE, 2012: 1290-1297.
[3] DU Y, WANG W, WANG L. Hierarchical recurrent neural network for skeleton based action recognition[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway IEEE, 2015: 1110-1118.
[4] X. Qian, Y. Fu, T. Xiang, W. Wang, J, et al. “Pose-normalized image generation for person reidentification,” in ECCV, 2018.
[5] A. Bansal, S. Ma, D. Ramanan, and Y. Sheikh, “Recycle-gan: Unsupervised video retargeting,” in ECCV, 2018.
[6] H. Joo, T. Simon, and Y. Sheikh, “Total capture: A 3d deformation model for tracking faces, hands, and bodies,” in CVPR, 2018.
[7] Z Cao, Hidalgo G, Simon T, et al. OpenPose: Realtime Multi-Person 2 D Pose Estimation using Part Affinity Fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019: 172-186.
[8] Z Cao, Simon T, Sheikh Y, S.-E. Wei, “Realtime multi-person 2d pose estimation using part affinity fields,” in CVPR, 2017.
[9] A Body Part Embedding Model With Datasets for Measuring 2D Human Motion Similarity Digital Object Identifier 10.1 109/ACCESS.202 1.3063302 in IEEE 2021

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: