英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
手势识别综述
Sushmita Mitra,高级成员,IEEE,Tinku Acharya,高级成员,IEEE
摘要
手势识别涉及到识别人类有意义的动作表达,包括手、臂、脸、头和/或身体。它对于设计智能高效的人机界面至关重要。手势识别的应用是多种多样的,从手语到医学康复,再到虚拟现实。本文对手势识别进行了综述,重点介绍了手势和面部表情。详细讨论了隐马尔可夫模型、粒子滤波和凝聚、有限状态机、光流、肤色和连接模型等应用。还强调了现有的挑战和未来的研究可能性。
索引项——人脸识别,面部表情,手势,隐马尔可夫模型(HMMS),软计算,光流。
1导言
在当今交互智能计算的框架下,高效的人机交互在我们的日常生活中占据着极其重要的地位。手势识别可以说是一种朝这个方向发展的方法。它是用户所做的手势被接收者识别的过程。
手势是有表现力的、有意义的身体动作,包括手指、手、手臂、头、脸或身体的物理动作,目的是:1)传达有意义的信息或2)与环境互动。它们构成了人类可能动作的一个有趣的小子空间。环境也可以将手势视为信息的压缩技术,以便将信息传送到别处,然后由接收器重建。手势识别有着广泛的应用[1],例如:
发展助听器;
使非常年幼的儿童能够与计算机交互;
法医鉴定技术设计;
识别手语;
医学上监测病人的情绪状态或压力水平;
测谎;
在虚拟环境中导航和/或操纵;
视频会议通信;
远程学习/远程教学协助;
监控汽车驾驶员的警觉/困倦程度等。
一般来说,存在从概念到手势的多对一映射,反之亦然。因此,手势是模棱两可和不完全指定的。例如,为了表示“停止”的概念,可以使用一些手势,例如手掌朝前的举起的手,或者双手在头上轻轻地挥动。与言语和笔迹类似,手势在不同的个体之间也有所不同,甚至同一个体在不同的实例之间也有所不同。
处理手势识别的方法多种多样[2],从基于隐马尔可夫链的数学模型[3]到基于软计算的工具或方法[4]。除了理论方面,任何实际的手势识别实现通常需要使用不同的成像和跟踪设备或小工具。这些包括带仪器的手套、紧身衣和基于标记的光学跟踪。传统的面向键盘、笔和鼠标的二维图形用户界面通常不适合在虚拟环境中工作。相反,感知身体(如手、头)位置和方向、凝视方向、言语和声音、面部表情、皮肤电反应和人类行为或状态的其他方面的装置可用于模拟人类与环境之间的通信。
手势可以是静态的(用户采用特定的姿势或配置)或动态的(具有预行程、行程和行程后阶段)。有些手势也有静态和动态两种元素,如手语。再次,自然连续手势的自动识别需要对其进行时间分割。通常需要根据动作的帧来指定手势的开始和结束点,无论是在时间上还是在空间上。有时一个手势也会受到前一个手势和后一个手势的上下文的影响。此外,手势往往是语言和文化特有的。它们大致可以是以下类型:
- 手势和手臂动作:识别手势、手语和娱乐应用程序(允许儿童在虚拟环境中玩耍和互动);
- 头部和面部姿势:例如:a)点头或摇头;b)眼睛注视的方向;c)扬起眉毛;d)张开嘴说话;e)眨眼,f)张开鼻孔;g)惊讶、快乐、厌恶、恐惧、愤怒、悲伤、蔑视等表情。;
- 3) 身体姿势:全身运动,如:a) 跟踪两个人在户外互动的动作;b) 分析舞者的动作以产生匹配的音乐和图形;以及c)识别用于医疗康复和运动训练的人体步态。
通常,手势的含义取决于以下内容:
空间信息:发生的位置;
路径信息:它所走的路径;
符号信息:它所构成的符号;
情感信息:它的情感品质。
面部表情包括从面部地标中提取敏感特征(与情绪状态相关),如标准化图像的嘴、鼻子和眼睛周围的区域。通常这些区域的动态图像帧被跟踪以生成合适的特征。面部动作的位置、强度和动态对识别表情很重要。此外,自发面部表情的强度测量往往比摆姿势面部表情的强度测量更困难。更微妙的线索有时会被使用,如手的紧张,整体肌肉紧张,自我接触的位置,瞳孔扩张。
为了确定所有这些方面,需要感知人体位置、配置(角度和旋转)和运动(速度)。这可以通过使用连接到用户的传感设备来实现。这些设备可以是磁场跟踪器、仪表(数据)手套和紧身衣,也可以是使用摄像机和计算机视觉技术。
每种传感技术都有不同的维度,包括准确性、分辨率、延迟、运动范围、用户舒适度和成本。基于手套的手势界面通常要求用户佩戴笨重的设备,并携带连接设备和计算机的大量电缆。这妨碍了用户与计算机之间的轻松自然的操作。基于视觉的技术在克服这一问题的同时,还需要解决与用户身体部分遮挡相关的其他问题。当用户的手在移动时,跟踪设备可以检测到指挥员的快速和微妙的移动,而基于视觉的系统最多能获得指挥员运动类型的一般感觉。同样,基于视觉的设备可以处理诸如纹理和颜色等属性来分析手势,而跟踪设备则不能。基于视觉的技术在以下方面各不相同:1)使用的摄像机数量;2)其速度和延迟;3)环境结构(如照明或移动速度等限制);4) 任何用户要求(用户是否必须佩戴任何特殊物品);5)使用的低级特征(边缘、区域、轮廓、力矩、直方图);6)是否使用二维或三维表示;以及7)是否表示时间。然而,当三维图像投影到二维平面时,信息中存在固有的损失。同样,复杂的三维模型包含了禁止性的高维参数空间。跟踪器还需要处理生成对象(在个体之间变化)、背景中其他移动对象和噪声的更改形状和大小。文献[5],[6]对人体运动分析有很好的综述。
本文对手势识别的各个方面进行了综述。第二节概述了常用于手势识别的各种工具。第三节专门讨论手势和手臂动作,特别强调隐马尔可夫模型(HMM)、粒子过滤和凝聚、有限状态机(FSM)和神经网络。接下来是第四节中的面部手势识别,包括使用HMMs、主成分分析(PCA)、轮廓模型、特征提取、Gabor滤波、光流、肤色和连接模型的方法。最后,第五节指出了一些现有的挑战和未来的研究可能性。
2手势识别工具
手势识别是多学科研究的一个理想范例,基于统计建模、计算机视觉和模式识别、图像处理、连接系统等方法的手势识别有很多不同的解决方法,其中大部分问题都是基于统计建模来解决的,如PCA、HMMs[3],[7] ,[8],卡尔曼滤波[9],更先进的粒子滤波[10],[11]和凝聚算法[12]–[14]。FSM已经被有效地应用于人体手势建模[15]-[18]。
计算机视觉和模式识别技术[19]涉及特征提取、目标检测、聚类和分类,已经成功地应用于许多手势识别系统。图像处理技术[20]如形状、纹理、颜色、运动、光流、图像增强、分割和轮廓建模的分析和检测[21]也被认为是有效的。连接论方法[22]涉及多层感知器(MLP)、时延神经网络(TDNN)和径向基函数网络(RBFN),也被用于手势识别。
虽然静态手势(姿势)识别通常可以通过模板匹配、标准模式识别和神经网络来完成,但动态手势识别问题涉及到时间压缩模板、动态变形、HMMs和TDNN等技术的使用这些常用的手势识别工具。在本节的后面,我们将讨论一些常用的手势识别工具的原理和背景。
2.1. HMM
如果给定所有当前和过去事件的当前事件的条件概率密度仅依赖于第j个最近事件,则时域过程证明了马尔可夫性质。如果当前事件仅依赖于最近的过去事件,则该过程称为一阶马尔可夫过程。这是一个有用的假设,当考虑手势者的手在时间中的位置和方向时。
HMM[3],[7]是一个双重随机过程,由以下因素控制:1)具有有限状态数的潜在马尔可夫链;2)一组随机函数,每个随机函数与一个状态相关。在离散时间瞬间,处理处于其中一种状态,并根据对应于当前状态的随机函数生成观察符号。状态之间的每个转换都有一对概率,定义如下:
- 转换概率,提供了进行转换的概率;
- 输出概率,定义给定状态时从有限字母表发出输出符号的条件概率。
隐马尔可夫模型具有丰富的数学结构,以一种自然的方式被认为是一种有效的时空信息。这个模型被称为“隐藏的”,因为所能看到的只是一系列的观察结果。它还包括优雅而有效的算法,如Baum–Welch和Viterbi[23],用于评估、学习和解码。HMM表示为lambda;=(A,B,pi;),描述如下:
图1.用于手势识别的从左到右的五态隐马尔可夫模型。
- 一组观察字符串O = {O1,...,OT},其中t =1,...,T;;
- 一组N个状态{s1,...,sN};
- 一组k个离散观测符号{v1,...,vk};
- 状态转移矩阵A = {aij},其中aij是从时间t的状态si到时间t 1的状态sj的转移概率
A={aij}=Prob(sj at t 1|si at t), for1 le; i,j le; N.
- 观测符号概率矩阵B = {bjk},其中bjk是从状态sj生成符号vk的概率;
- 状态的初始概率分布
Pi;={pi;j},j=1,2,...,N, 其中 pi;j = Prob(sj 在t = 1时).
HMM的广义拓扑是一个全连通结构,称为遍历模型,其中任何状态都可以从任何其他状态到达。当用于动态手势识别时,如图1所示,状态索引仅随时间从左向右转换。图中显示了N=5时的开始状态s1和最终状态sN。这里,如果jlt;i,状态转移系数aij=0,并且。维特比算法用于评估一组HMM和解码,只考虑每个时间步长的最大路径而不是所有路径。
HMM的全局结构是由每个HMM(lambda;1,lambda;2,...,lambda;M)席的并行连接构造的,其中一个新的(或存在的)HMM很容易完成插入(或删除)。这里,lambda;对应于为每个手势构造的HMM模型,其中M是被识别的手势总数。
HMMs已被应用于手和人脸识别。通常从手或脸的三维模型中提取二维投影,并通过实验提取一组输入特征。动态手势的空间成分通常被忽略,而时间成分(具有开始状态、结束状态和一组观察序列)则通过具有适当边界条件的HMM分类进行映射。一组数据用于训练分类器,测试数据用于预测验证。
给定一个观察序列,以下是HMM使用中的关键问题:
- 评估:确定模型生成观测序列的概率(前向-后向算法);
- 训练或估计:调整模型以最大化概率(鲍姆席韦尔奇算法);
- 解码:恢复状态序列(Viterbi算法)。
2.2粒子滤波与凝聚算法
基于粒子滤波的跟踪及其在手势识别系统中的应用最近非常流行[10]-[14]。粒子滤波器在利用传感器信息估计动态系统状态方面非常有效。其核心思想是用样本集表示概率密度。因此,它能够表示广泛的概率密度,允许对非线性、非高斯动态系统进行实时估计。这种技术最初是为了有效地跟踪杂波中的目标而开发的[12],[13]。被跟踪物体在时间t时的状态由向量Xt描述,其中向量Yt表示观测{y1,y2,···,yt}的所有样本。后验密度P(Xt|Yt)和观测密度P(Yt|Xt)通常是非高斯的。
基本上,粒子过滤器是基于样本的Bayes过滤器。关键思想是通过加权样本集St =.近似概率密度分布。这里,每个采样表示对象的假设状态,表示样本的相应离散采样概率,使得
粒子滤波在其基本形式上是根据采样过程实现递归Bayes滤波的,通常称为带重采样的序列重要性采样(SISR)[14]。样本集的迭代演化是通过根据系统模型传播每个样本来描述的。根据观测值对集合中的每个样本元素进行加权,并通过选择后验概率为wt(i) = P(yt|<em
剩余内容已隐藏,支付完成后下载完整资料</em
资料编号:[234123],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。