英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
基于加权动态时间规整的骨架数据的手势识别
SAIT雪拉比,泰米兹阿里·艾登,Talha·T和塔里克明确
自然科学和应用科学研究生院,伊斯坦布尔Sehir大学,伊斯坦布尔,土耳其
工程和自然科学学院电气工程系,伊斯坦布尔Sehir大学,伊斯坦布尔,土耳其
关键词:手势识别,动态时间规整,Kinect
摘要:在微软推出的Kinect 2010和Kinect SDK 2011的扩展中,众多的应用和研究项目,在人机交互的新方式的探索已启用。手势识别是一种常用于人机交互的技术应用程序。动态时间规整算法(DTW)是一个模板匹配算法及其在手势识别中的应用。认出一个手势,DTW扭曲一个关节的位置参考时间序列和时间序列产生一个相似值。然而,所有的身体关节是不一样重要的计算相似性的序列。我们建议加权DTW方法通过优化权重节点判别率。最后,我们展示了相对于传统的DTW和国家对我们提出的加权DTW识别性能—艺术。
1引言
使用人体运动与电脑的交互作用常用于人机交互(HCI)的应用。融入人类的方法之一运动到人机交互的应用程序是使用一个预定义的人类关节运动的集合,即手势。手势识别一直是一个活跃的研究领域(亮和Ouhyoung,1998;D.格里克和舒尔茨,2009;雷耶斯et al.,2011;Wilson和Bobick,1999),和涉及国家的最先进的机器学习技术能力在不同环境下可靠工作—要求。已经提出了各种方法手势识别,范围从使用动态时间规整(雷耶斯等人,2011)到隐马尔可夫模型(D.格里克和舒尔茨,2009)。DTW方法—两个时间序列之间的相似性措施可能是通过采样的源与不同的—ING的采样率或记录相同的现象—现象发生变化的速度(维基百科,2012)。例如,DTW算法用于语音识别—利用经演讲时间能够应付不同—不同的说话速度(阿明马哈茂德,2008;梅尔斯,1980)。DTW也用于数据挖掘信息检索处理与时间相关的数据(Rath和manmatha,2003;亚当斯等,2004)。在手势识别,DTW的时间扭曲所观察到的运动序列的身体关节预先存储的手势序列(Rekha et al.,2011;李文君et al.,2010)。
传统的DTW算法本质上是一个动态规划算法,它使用了一个重复的—通过增加距离是DTW成本性更新—每一个序列的映射元素递归步骤。元素间的距离常常是欧氏距离,使等权的所有尺寸的序列山姆—PLE。然而,根据问题的加权在评估类似的距离会有更好的表现—性测试序列与参考序列之间。例如,在一个典型的手势识别问题,在一个手势中使用的身体关节可以有不同的姿势类到手势类。因此,不是所有的关节都是平等的重要的是认识一个手势。
我们提出了一种加权DTW算法成本计算中的加权距离。这个权重的选择,以便最大限度地判别基于DTW的成本比。权重是—获得的参数化模型取决于一个关节在一个手势类中是多么的活跃。模型参数是通过最大限度地将优化—优势比。这样做,一些关节将被加权最多和一些关节将加权下降到最大—使类间
图1:前任节点使用Bellman原理
方差和最小之间—类变异。作为一个结果,不相关的关节的手势类(即,不涉及手势的部分类)将有助于其物流费用在较小的前—帐篷,但在同一时间之间的阶级差异保持大。
我们的系统首先提取身体关节功能一套骨骼数据,由六个关节的位置—全文是左,右手,手腕和一个—科瑞思。我们已经观察到了我们训练中的姿势—有相当不同的运动模式,需要使用所有或一个子集,这六个关节只有。从骨架帧中得到的这些功能随着时间积累,用于识别系统—特征匹配与预先存储的参考SE—结果。匹配,然后进行分配—将测试序列与参考序列进行最小的物流费用。DTW对齐两序列时间,加快或加快在一个序列中时间。
2背景
HMM模型的时序数据的统计模型(鲍姆等,1970,鲍姆,1972),因此可以可用于手势识别(D.格里克和舒尔茨,2009)(斯特纳和Pentland,1996)。一个国家隐马尔可夫模型和状态转移概率是从训练数据中学习。然而,定义手势的状态不是一件容易的事,因为手势可以由一个复杂的相互作用形成的不同关节。另外,模型的参数,即学习,Tran—位置的概率,需要大量的训练集,这可能不总是可用。另一方面,DTW不需要培训,但需要很好的参考—序列对齐。接下来,我们提出了更多的—尾论DTW。
2.1动态时间规整
DTW模板匹配算法寻找最佳匹配的参考模式的测试模式,在模式被表示为时间序列测量的测量或特征—要求。
设r(i), i = 1,2,...,I,和t(j), j = 1,2,...,J参考和测试向量序列,分别。这个目的是通过一个时间序列来调整序列的时间序列非线性映射(翘曲)。这样的翘曲是有序集的元组如下
数组((i, j)表示的是r(i)到t(j)的映射,f 1是映射的数目。R和T相对于距离函数d之间的映射的总成本d(i, j),定义为映射序列元素之间的距离的总和
d(i, j)衡量了元素r(i) 和 t(j)之间的距离。
一个映射也可以被看作是一个路径上的I times;J大的二维网格的大小,在这里网格节点(i, j)指的是r(i)和t(j)之间的通信。二维网格上的每一条路径与(1)中的总成本相关联。如果路径是一个完整的路径定义如下:
然后一个完整的路径对齐的整个序列的研究r和t。
二维网格上的最小成本路径是运算—两序列优化调整。一种方式找到最小的成本路径是测试每一个可能的从左下角到右上角的路径。然而,这具有指数的复杂性。动态编程降低了广告的复杂度—贝尔曼(Bellman原理的优势,1954)。Bellman的最优性原理指出,最优路径从起始网格节点到结束节点通过一个中间点可以是前—按最优路径的连接从到 和最佳路径从到 。这意味着,如果我们给出的优化—从到,我们只需要搜索从到的最佳路径,而不是寻找从到。
让我们在总成本的计算采用Bellman原理—方法。如果我们表示节点的最小总成本,然后由Bellman原理可以计算出,通过使用成本的成本前任的节点,即一套,如下:
因为所有的元素都是有序的,集合的前身节点的左和底部的一个当前节点。前人的一个例子只包括其紧邻的邻居在图1中给出。最后,最小成本路径对准2序列具有成本和最小值,和测试序列匹配的参考序列,具有最小的所有参考序列的成本。
虽然方程(3)输出的最小成本之间的序列,它不输出的最佳路径。寻找最优路径,可用于图测试序列元素的参考序列的元素,需要回溯的最优路径,从最后的结。如果整个测试序列被映射到整个参考序列比。
在进行成本计算采用加权方案已经提出了手势识别(reyeset al.,2011)。提出的方法(雷耶斯等,2011)采用DTW成本计算类内变化与身体的每发现一个重量关节。这些重量是在这个意义上的全球权重只有一个重量计算为一个身体接缝。然而,我们所提出的方法计算每个身体关节的重量和每个手势类。这提高了DTW成本判别力因为在一个手势类中是主动的联合可能不活跃在另一个手势类。因此重量必须进行相应的调整。这有助于特别类内变异的处理。为了避免减少类间方差,我们计算权重通过优化一个判别比使用一个参数化模型,取决于身体关节活动。在下一节我们将讨论数据采集和特征预处理
3数据采集及特征预处理
我们使用微软的Kinect传感器(肖顿et al.,2011)获得关节位置。Kinect SDK追踪20个身体关节图2实时三维坐标(每秒30帧)。自机器学习算法使用深度图像来预测关节位置,骨架模型对颜色、纹理等都有很好的鲁棒性,和背景。
我们已经观察到,只有20个六个关节有助于识别手势:左手,右手,左腕,右手腕,左肘,右肘。一个特征向量由三维坐标这六个关节和18的尺寸如下:
图2:Kinect 关节
N是骨架帧的索引的时间点。一个手势序列是N这样的特征向量级联。
在n个特征向量级联创建手势序列,它们是预处理DTW的成本计算。这个预处理阶段消除由于一个特征向量的变化人的大小或其位置在相机的领域视图。首先,所有的特征向量与左右肩膀之间的距离,考虑到由于一个人的大小变化。二次标准化如下,减去从所有元素中的肩中心,这占用户不在中心的深度的情况下图像。
4加权DTW
传统的DTW计算不同在两个序列的基础上,通过对准一个基于样本的距离。如果序列样本是多维(18维的手势识别问题),使用欧氏距离给出了所有维度的同等重要。我们建议使用加权距离一种基于人体的成本计算关节是一个特定的手势类。关联性被定义为一个共同对运动的贡献手势类的模式。要推断出一个共同的贡献,我们计算出它的总位移,在这一姿态的表现一个训练有素的用户:
g是手势指数,j是联合指数是骨架号。是使用两个连续的特征节点来计算位移手势g的向量。
计算总位移后,我们过滤掉噪音(例如,颤抖,颤抖)和从底部和顶部的门槛。这可以防止我们的参数权重模型的输出太高或低于如下所给定的低权重:
和是阈值。
通过计算类的权重使用节点的总位移值:
是关节的重量值的手势类g。请注意,在这个配方中,一个共同的重量值可以变化取决于手势类。例如,右手推高姿态,有人会期待右手,右肘和右腕关节有大的权重,但要有较小的权重左手推高姿态。
将这些权值为成本,距离函数在式(3)定义为:
其中给出了一对之间的距离,,在那里,是一个已知的序列手势类是一个未知的测试序列。
从给定的模型得到的权重在(7),它有一个单一的参数。我们的目标是选择一个beta;值最小的类内变化,类间方差最大化。类间变异最大可以实现最小化类内变化通过使不相关的关节贡献较少的成本(例如,减少左手的右手的重量),并没有减少(或可能在—压痕)关节可以帮助区分不同的手势的权重。我们试着去实现这个目标通过最大化一个判别率类似基姆等人,2005的判别率。
首先,我们定义了作为平均加权所有样品的手势类M之间的物流费用用给定的函数计算得到的权值。然后在类间的差异是平均的所有:
类内不同平均DTW成本所有样本序列的类克相对于每个其他。判别率是通过:
有一模型参数来找到权重在大田使用成本计算。最佳beta;,beta;lowast;被选为一个最大限度地提高:
5结果
我们测试了我们所提出的方法的性能我们的手势数据库和比较对传统的DTW方法和加权DTW方法提出的(雷耶斯等人,2011)。我们的数据库已创建使用微软Kinect由八28个样本,每个手势类的手势类。每个手势类的八个样本进行培训用户,而剩下的20个样本进行训练的用户。这八个样本用于学习的总距离措施的每一个每节课的联合,这是我们的体重所需要的模型(7)。这20个样本比较吵手势的开始,手势结束,和关节运动过程中的手势性能。双样本手势如图3所示。手势数据库用于实验,源代码,用于可视化手势,源代码用于产生结果在本文中,更多的结果是公开提供1。物理因素(例如,从Kinect的距离传感器的用户,在房间里的照明)记录中的常量。由于不良记录一个坏的姿态表演或Kinect的人体姿态识别失败,被用手删除一个基于OpenGL的姿态观测仪。每一个手势样本包括20个共同的立场,每帧,和连续帧间的时间差。这个手势数据库是在线的,我们希望它可以用于测试手势识别算法。
我们已经测试了三种算法,即传统的DTW算法,加权DTW的(雷耶斯等人。2011),我们提出的方法对我们的手势数据库。在表1、2和三中给出了3种算法的混淆矩阵。创建的混乱矩阵后,我们计算的整体根据以下公式识别精度:
图3:手势:右手推高左手波。
一个表示的准确性,并表示反对—融合矩阵。
我们所提出的方法优于加权DTW方法(雷耶斯等,2011)的大幅度如表4。原因是他们的体重是全局权重,即,一个关节的重量是独立的手势类。然而,在我们的建议方法一个关节可以有不同的重量,这取决于我们正在尝试调整的手势类。计算相关的自由度物流费用增加物流费用的可靠性显著。
6结论
我们已经开发出一种提高加权DTW方法DTW成本的分类能力,并显示性能显著增加。这个权重是基于一个参数化模型,这取决于一个手势类的关节的贡献水平。通过最大限度地优化模型参数判别率,这有助于最小化类内变化和最大类间方差。在今后的工作中,我们将使用线性判别分析(LDA)来计算权重,但事实特征向量可能会根据不同的长度手势类是一个困难,我们将不得不处理。
参考文献:
亚当斯,新罕布什尔州,圣安东尼奥,M.A.,Shifrin,J.,菲尔德,G. H.(2004)。音乐信息检索的时间序列比对。在以斯迈。
阿明,T. B.马哈茂德,即(2008)。动态时间规整的语音识别。在空间技术方面的进展会议。
鲍姆,L(1972)。概率函数马氏过程的一个统计估计不等式及其最大化技术。不等式,3:1–8。
鲍姆,L,E,佩特里,T,灵魂,and Weiss,N(1970年)。最大发生概率统计技术的马尔可夫链分析的概率函数。数学统计年度会议,41 : 164–171。
贝尔曼,R(1954)。动态规划理论。布尔.Amer。数学。60(6):515 - 503。
D.格里克,H汉克
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[148006],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。