基于ROI分割和相干映射的裸手字母手势识别.doc_第1页
基于ROI分割和相干映射的裸手字母手势识别.doc_第2页
基于ROI分割和相干映射的裸手字母手势识别.doc_第3页
基于ROI分割和相干映射的裸手字母手势识别.doc_第4页
基于ROI分割和相干映射的裸手字母手势识别.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于 ROI 分割和相干映射的裸手字母手势识别 周航 阮秋琦 北京交通大学 信息科学研究所 北京 100044 摘 要 提出了实时条件下裸手单目的手部定位和跟踪算法 结合改进的差分法提出了实用的手部约束条件 从每帧图像中提取手部图像 确定感兴趣区域 ROI region of interesting 得到较为满意的手部分割结果 再 对手部图像特征进行深入分析和提取 利用改进的相干映射算法 VCM vector coherence mapping 进行跟踪 针对手的运动增加了约束 保证了顽健性 在这个基础上 提出了时间相关的运动预测模型 满足了实时性的 要求 保证前后分析结果的一致性 实验结果证明 在不同光照和复杂背景下系统有最高达 99 的识别率 与 已有的系统相比 性能显著提高 关键词 手势识别 相干映射 感兴趣区域 人机交互 中图分类号 TP18文献标识码 B文章编号 1000 436X 2007 05 0094 08 Bare hand alphabets gesture recognition based on VCM and ROI segmentation ZHOU Hang RUAN Qiu qi Institute of Information Science Beijing Jiaotong University Beijing 100044 China Abstract A bare hand gesture location and tracking system with single camera in real time was introduced By employing improved difference method restrictions of hand are used to location region of Interesting ROI Then on the basis of relatively satisfied segment result the thesis analyzed and extracted the hand features combined with the improved vector coherence mapping VCM whose constraint was enhanced to overcome the illegibility for robust results Furthermore a time correlation forecasting model proved the demand of real time and the consistency of the results now and before The experiment results show the system has a high recognition rate up to 99 in different illuminations and backgrounds and has more efficient performance compared with existing other systems Key words gesture recognition vector coherence mapping region of interesting human computer interface 1 引言 1 手势识别是和掌纹 指纹 人脸识别具有同 等重要地位的识别方式 手部由指节和手掌两部 分组成 指节间的角度变化和手指与手掌间曲度 的变化形成了蕴含丰富意义的手势 基于视觉的 裸手手势识别具有自然直接的特点 提供了更自 然和非接触的解决方案 符合人机通信条件下对 收稿日期 2007 02 13 修回日期 2007 05 05 基金项目 国家自然科学基金资助项目 60472033 硬件和操作的需求 但由于千变万化的个体特征 背景以及光照的强烈影响 使得基于该技术一直 存在很大难点 所以到目前为止在人机交互方面 的应用很少 单目条件下 轮廓和边缘可以作为通用特征 应用于任何基于模型的识别技术中 关于手形的 分析 J Lee 1 详细分析其解剖模型 提出了 27 个 自由 第 28 卷第 5 期通 信 学 报Vol 28 No 5 2007 年 5 月Journal on CommunicationsMay 2007 第 5 期周航等 基于 ROI 分割和相干映射的裸手字母手势识别 95 度的 3D 骨架模型 最早利用运动约束捕捉自然手 部的尝试是利用静态和动态约束条件对运动模型进 行修正 见文献 2 3 前者规定参数的波动范围 后者分析关节角之间的相互关系 对于单目裸手 的手语字母识别 在文献 4 中 Grobel 处理了 31 个字母和 7 个手势 提出了一种经典的通过颜色 分割和计算重心的方法 在文献 5 中 Birk 等人 用经典的 PCA 算法对于 25 个手势进行识别 离线 识别率达到 99 在文献 6 中 Nguyen 等人用伪 二维隐马尔科夫模型 P2D HMM 建模 使用 Kalman Filter 和手部块分析进行手部跟踪和运动描 述 对 36 个 ASL 手势 取得了 98 的高识别率 以上这些尝试都取得了较好的结果 但也存 在不足 首先 能够真正实现实时条件下识别的 系统不多 有些更是在离线条件下的静态识别 其次 很多方法需要依靠配戴标记手套进行定位 影响了舒适性 再次 对于识别问题 很多方法 转向经典的 HMM 的衍生算法来简化模型构建 例如 P2D HMM 这固然能充分表现二维模型 的统计特性 但结构复杂 运算量大和高识别率 的代价使运算时间增加 影响了实时效果 为了 克服以上这些问题 本文提出了分割感兴趣区域 ROI region of interesting 结合相干映射算法的 跟踪识别 得到了较好的结果 文章结构如下 第 2 节为手部特征的分析和感兴趣区域 ROI 的 获取 包括分割和相干映射算法 第 3 节为手部 跟踪预测 第 4 节为实验结果 分析 第 5 节是 结束语 2 手势分割和感兴趣区域 ROI 的获取 作为一个追踪问题 首先需要找到最近一帧 手的位置 结合一定的约束条件 再利用跟踪算 法进行跟踪 需要对大多数的帧图像使用跟踪算 法 这样就和处理速度的要求产生了矛盾 2 1 预处理和约束 为了减少处理量 需要分割手势 先得到局 部图像 对感兴趣区域部分进行选取 2 1 1 明亮前景差分法 有效的方法是 通过比较相继帧所得图像的 灰度值 把图像中发生运动的部分从静态的图像 背景中分离出来 根据文献 7 公式如下 1 1 1 yxI N yxR N N yxR tt 1 yx 而式 1 中的 N 可以由式 2 求得 1 1 1 0 500 0 tt tt Ix yI x y N x y Ix yI x y 当 当 2 yx 1 500 N x y 这样一来 可以得到前景和背景最大的对比度 2 1 2 手部区域的约束 当摄像头捕捉到肤色信息之后 手部的检测 开始 规定所有测试都使用右手 肤色分布规律 如图 1 所示 参见图 5 的字母手势图像 本文的 手势具有如下特点 手腕朝上方 大多数手势手 指展开或者关节突出 并且手掌或手背所在平面 与摄像头所在平面平行 本文中把具备上述特点 的图像区域定义为感兴趣区域 RIO region of interest 需要分割为单色背景的只包含皮肤轮廓 的单连通区域 判断 ROI 最大响应值是否符合下 列标准 132211 1 0 jxxxxj kffffTw c 其他 其中 阈值 T1j是感兴趣区域 ROI 宽度 w 的函数 此约束条件适用于手指空间中 21231232 22j max min 0 96 通 信 学 报第 28 卷 位置的参数 例如 c4 c5 相对那些表示测量相对 位置的参数 得到的权重更小 这样可以保持约 束之间的均衡 计算出约束值之后 便计算累积 值 这个值可以看作是中间 5 1 i i Cc 图 1 肤色色调在 RGB 空间的分布 3 个手指是否被找到的一个标志 即 ROI 的顶峰 这里也有可能是蜷曲的手显露出的骨关节 此外 如果这个值超过了预设的阈值 则认为找到了拇 指或者其蜷曲产生的骨关节 拇指的公式来检测 有关的相应滤波器峰值的相对值 11 t pI t 如果 p1 p2 0 和 p1 p2 Tt则值为 1 即 22 t pI t 认为找到拇指 如果 p1 0并且没有第二个峰值出现 则值为 0 即表示没找到 这里的阈值是根据经 t T 验确定的 图 2 展示了分割结果 2 2 特征的深入提取 2 2 1 图像差值计算 设在时间 t 1 t 和 t 1 相应的 3 帧图像分别 为 I i j t 1 I i j t 和 I i j t 1 相继两帧图像的差 值为 1 1 1 B i j tTI i j tI i j t B i tTI i j tI i j t 3 具体计算参见文献 7 a 原始图像 b IF c IT 图 2 手部定位的结果 十字标志表示找到的外缘 2 2 2 手部运动轨迹提取 由于手部的形状多种多样 再者运动中会发生 模糊和手指的回转 需要采用向量相干映射 VCM vector coherence mapping 来进行轨迹跟 踪 增加稳定性 定义一般关联映射 NCM normal coherence mapping 为图像 中以点为中心的矩形区域和图像中的环 tt I t i p t I 绕的区域建立映射 使用绝对差值关联法 t i p 第 5 期周航等 基于 ROI 分割和相干映射的裸手字母手势识别 97 absolute difference correlation 计算 有 ee ee xNyN tttt i m xN n yN N pu vI m nIum vn 4 yyxx DvDDuD 这里空间 2N 1 是关联模板的大小 而和 x D 表示点在时间内和的位移 在 y D i ptt xy 点定义 VCM为 i p t i pV 5 1 1 1 t t P tttt ijij P tt j ij j V pS p Tp Tp 其中 0 1 是 NCM在点的权 1 0 t j t i pT t j pS t j p 重因子 由于运算空间随着帧图像的加大运算量 迅速增加 在运算的时候 可以在向量域 t j t i pT 增添空间约束 使用欧氏或者棋盘距离来进行约 束 6 t j t j t i pdpT t i p 7 1 1 e 1 2e 0 l Fl dll l 其中 0 e 1 而且 1 1 lF 2 e l 在点上 VCM 算法使邻点对该点的影响能 t i p 够在向量上体现出来 考虑到噪声门限 Tvcm t i v 归一化以后可以通过一个相似度表示 t i v 通过此式可以清楚地表 peak t t i i t i V p V p V p 明点上邻点对该向量的影响程度 t i p 在手势识别读取的队列中 有时会产生一定 程度的模糊 在本帧看起来非常清晰的一部分点 在下一帧有可能变得模糊 加大了识别的难度 NCM显示了很强的相干性 VCM 算法能 t j pN 保证在这种情况下计算的准确性 通过生成一个 模糊模板来加强约束 1 t iWW t i pNTTSpN 8 其中 TW为门限值 调节反曲函数的陡度 对于该模板 定义一个权重的最小平方 公 式中对于微小的变化进行抑制 dS S 为 lll SdS S A d jjj bbb 形状参数 这样 9 2 01 d Nt tP iiijj ij Txxl S xbi 其中 d d dl dS 和 dbj解如下 10 1 1 d d N ii i N i i T x T 1 1 d d N ii i N i i T y T 其中 和用来计算 dl 和 dSd d 2 1 2 1 d d d N t iii i N ii i Txxa l Tx 11 为了计算 dS 借鉴了 Arun 的单一值分解方法 8 SVD singular value decomposition 首先建立 的矩阵 H2 2 1 d N t iiii i T xxx H 然后再计算 H 的单一值分解 H U VT这样 也可以得到 dS dS VUT 抵消 dl 和 dS 的影d 响 这样得到 12 ttt iii dxl S xxdx 计算 dbj 这里由于不需要计算倒置矩阵 所 以节省了计算开销加快了速度 也可以加入迭代 但是实际在跟踪过程中已经有了对每帧的迭代运 算了 13 d d tt j j t jj T x b T 当抖动和回转现象产生后 在图像的点 tt I 的近邻点中 VCM 选取距离最近的兴趣点 t i v 保持不变并在新的兴趣点出现时被替换 改写 t i v 后继兴趣点的向量的初始值 这样具备初始值的 新向量就继承了的跟踪轨迹 于是这样就在有 t i v 关的计算中保证了相干映射能及时跟踪同时避 j i v 免了模糊和回转现象 3 手部的运动预测 得到活动像素区域的位置以后 需要制定一 定的预测规则 防止由于图像序列不完整或者目 标的拓扑形状有突变而产生信息丢失 从而使手 指轮廓出现误差 引起误识 对于下一帧手形的 位置进行预测 要通过上一帧的整体三维状态估 计的变化来得到下一帧可能出现的位置 提前得 出预测特征点的位置并把它们映射到图像上 l l 98 通 信 学 报第 28 卷 3 1 预测算法 相对于其他方法 卡尔曼滤波是基于高斯分布 的状态预测方法 可实时地进行跟踪预测 由于普 通卡尔曼滤波器是系统的线性动态模型 因此状态 转移矩阵和测量矩阵通过简单的矩阵乘法加以计算 当这些矩阵被代之以一般运动函数 则称为扩展的 卡尔曼滤波器 EKF extended Kalman filter 9 EKF 的运动方程和测量方程表示为 14 1 1 kfkk xxv 15 khkk zxw 这里函数 f 和 h 可以用来模拟任何人体 运动 过程噪声和测量噪声的处理类同于普通卡 尔曼滤波 状态的预测估计向量用下式表示 16 1 1 1 k kfkk xx 17 1 k kk kkk xxGZ 这里改进项为 1 kkhk k Zzx 18 扩展卡尔曼滤波器的增益和相关矩阵依赖于 k 和 M 用 f 和 h 替换 为了简化运算 把状态转移矩阵和测量矩阵线性化 即根据前人 的研究把其化为雅可比行列式 19 1 d d x x k k M kh x x 20 1 1 d d x x kk kf x x 这里增益矩阵和相关矩阵可以用和 k 替换 k 和 M kM 在模型中 手部在做出手势瞬间运动所具有 的加速度是和时间相关的 比如手部的图像序列 首先是静止的 然后开始向前运动 最后停止 不是一系列的持续不变的转移 但是可以视为基 于肌肉运动和惯性的具相关性的转移 这个运动 序列模型可以用一个时间相关的加速度和减速度 历程来改进 参考 Singer 的模型 9 建立如下模型 21 2 E a aa rv tv te 2 a aa etvtvEr 2 e a aa rE v tv t 这里为变量 a 为期望的加速度的指数衰 2 a 减系数 加速度的相关性由噪声 Q 和状态转移矩 阵 k 来表示 此时状态转移矩阵可以表示为 22 2 1 1 exp 1 1 01 1exp 00exp Ta Ta T a ta T a a T 这里当 a 的极限趋近于 0 状态转移矩阵退化 成传统的牛顿力学模型 在卡尔曼滤波等式中 过程噪音表示为一个连续变量构成的模拟矩阵 具体表示为 q 值由文献 9 10 给出 23 1 11 21 3 2 1 22 22 3 1 32 33 3 2 m qqq aqqq qqq Q 为了使用这些运动模型 定义了参数来计算 衰减常量和变量 和 a 2 m 平均运动持续时间 1 a 24 41 3 0max max 2 PP A m 这里 Amax是系统的最大加速度 该最大加速 度以概率 Pmax出现 并且 P0是系统加速度为零时 的概率 如图 3 所示 加速度的概率密度函数包 括了概率曲线的两个顶点 Pmax和 P0以及所有出现 的加速度分布 图 3 加速度的概率密度函数 4 实验结果 在普通光照的实验室中 使用 CCD 摄像机 在 PVI3 0 1GB 内存的计算机上对于未加任何标 记的右手进行识别 利用图像差分算法和基于 ROI 的手指快速定位从图像序列的开始几帧着手 得 到手的基本位置 用扩展卡尔曼滤波器的预测算 法在接下来的图像序列处理中对未来帧的感兴趣 区域进行预测 同时很好地克服了丢帧以及图像 个别信息丢失的问题 使用向量相干映射进行轨 第 5 期周航等 基于 ROI 分割和相干映射的裸手字母手势识别 99 迹跟踪 较好地解决了运动模糊 提高了识别率 表 1 和表 2 列出了经过预测模型对帧序列进 行手指定位后 各个帧中手指伸展的长度 单位 为像素 用矩形框标记手指的位置 数据为矩形 框的长度 这个长度对应于实际手指的长度 所 以通过对手指在运动中长度的变化可以得到手指 的运动情况 在 1 4 帧手指长度基本不变 手面 不存在相对运动 在 5 10 帧中 无名指和小指的 长度发生了急剧的变化 在 12 帧和 14 帧分别开 始出现了无名指和小指的跟踪丢失 说明此时小 指和无名指的运动已经到了跟踪的临界点 之所 以产生跟踪丢失 是由于在光照强烈的情况下 手部较亮 阴影较少 当运动到一定程度后产生 了遮盖 在界限模糊的情况下 遮盖的手指无法 继续被系统判断 故 认为手指已经消失 停止追踪 当阴影足以区分 手指时 追踪可以继续 表 1手指长度变化 a 单位 像素 帧数食指中指无名小指 111812612394 212012812299 3142122118102 4140112119104 513212412096 611911612492 712910912584 812712111676 913013010268 101321258759 111181167957 1212711870 表 2手指长度变化 b 单位 像素 帧数食指中指无名小指 1312411668 14129109 15124112 16133123 17125128 18122120 19117118 20130115 21122125 22116126 23114119 24122108 类似以前的实验 11 在表 3 中 记录了在 3 8 15 19 和 25 帧时手指之间的夹角情况 角 度 1 表示无名指和小指的夹角 角度 2 表示无名 指和中指的夹角 角度 3 为中指和食指的夹角 通过对其变化的分析可以得到手之间的相对运动 在第 3 帧以前 手指间基本平行 随后开始舒展 在第 15 帧时角度 1 2 因为遮挡而无法得到 惟 有角度 3 不断增加到 36 通过结合手部的独有 特征和前面的手指伸展变化 可以提取出手的动 作参数 由于拇指的运动具有相对独立性 所以 作为一个独立的参数加以判断 不在此列出 这 些参数与手势库中的标准参数对比即可以得到手 势的语义 限于篇幅不再详述 对一般 CCD 摄像 头采集到的图像 每秒的采样帧数低于专业的摄 像头 但由于采用了上面所说的算法 使手形跟 踪可以非常顺利的进行 而且相对传统方法提高 了处理速度 实验关键帧的定位结果如图 4 所示 从实验得到的图像分析 除了 5 4 严重遮盖的手 势 其他大多数能够得到有效的识别 对手指 4 个方向伸展定位的平均偏差度进行了两组实验 结果见表 4 手指轮廓定位与实际位置的重合度见 表 5 表 3手指夹角变化 单位 度 帧数38151925 角 1412 角 2210 角 3315192336 表 4 4 个方向的平均偏差度 单位 度 序列上下左右 A2 13 21 08 7 B0 45 32 13 6 表 5 手指轮廓定位与实际位置的重合度 序列拇指食指中指无名小指 A87 2 94 5 94 3 92 4 95 B 96 1 98 5 97 6 96 5 100 通 信 学 报第 28 卷 图 5 给出了识别的 26 个英文字母手势和 5 个 控制手势 相似于其他文献 为了凸现研究重点 参照 ASL 把动态手势 J 和 Z 更改为如图 5 所示 另外有 5 个控制手势用来对输入进行简单 的编辑 并控制识别的起止 通过手指指尖定位 以及关节角度和伸展长度的测定 可以翻译为相 应的英文字母 实现基于单目视觉的英文字母输 入和控制系统 经过训练和初始化 用所述算法 在自然和实验室光照环境下得到不同的识别率结 果 如表 6 所示 最后 表 7 对比了本算法得到 的结果和引言中提到的国际上出现的一些类似实 验的结果 从表 7 可以看到 对比国际最新研究 成果 本文方法在实 表 6不同情况下的系统识别率 识别时间8 0010 0014 0016 00平均 单纯背景99 5 99 1 98 9 99 4 99 45 复杂背景98 98 2 97 9 98 3 98 1 平均识别率98 75 表 7算法指标比较 算法作者 手势 数目 手套 标记 实时性 复杂 背景 识别率 1H Birk 5 25无离线否99 2R Feris 12 26无离线否96 2 3经典 Canny 算法26无离线否88 4Grobel 13 31有实时否93 1 5A Geramifard 13 9有离线是95 8 6Nguyen 6 36无实时是98 7本文方法31无实时是98 2 a 字母 e b 字母 v c 字母 w d 字母 z 图 4 序列手指定位实验结果 图 5 26 个英文字母及 5 个控制手势 时性和背景顽健性指标上都是领先的 表中不少 方法还依然借助于对手进行颜色标记来提高跟踪 识别的准确率 而且实验时依然借助于现成的无 干扰字母图像序列来测试 而本文真正做到了基 于裸手单目复杂环境实时的手势输入 识别率也 令人满意 Nguyen 的方法 虽然也可以达到 98 的识别率 但需要复杂的初始化过程 初始化失 败则会停止跟踪 而且测试时跟踪步骤和识别步 骤分开进行 运算量也非常大 本系统的主要特 色在于不但可以用手势进行字母的输入 也可以 通过手势发出命令来控制计算机的常规操作 真 正实现了脱离鼠标键盘的人机交互 5 结束语 目前进行基于视觉的 ASL 英文字母输入的研 究成果还不多 该领域具有很强的挑战性 在本 文中 在单目视觉条件下 利用手部的生理约束 和运动机制对实时手势进行分析 由于手指在手 势运动中的特殊性 可以从指尖和手的形状特征 找到突破口 迅速实现手部区域的定位 同时利 用向量相干映射等跟踪算法能够确保在复杂背景 下识别的顽健性 提高了系统的稳定性 实验证 明 对于一般的运动和较复杂的背景下 系统可 以较为精确地提取出手的位置 实验得到的数据 对于手势识别和手语研究有着关键的意义 通过 对其长度和相互角度的分析 可以惟一地确定其 表述的语义 实验也说明基于视觉的手势识别完 全有可能达到高顽健和实时处理的要求 为人机 交互的研究提供了新的思路 在未来的研究中将 着重考察快速运动下系统的实时跟踪能力 并且 考虑把其他表观特征 例如阴影 加入以辅助识 别 第 5 期周航等 基于 ROI 分割和相干映射的裸手字母手势识别 101 参考文献 1 LEE J KUNII T L Model based analysis of hand posture J IEEE Computer Graphics Application 1995 5 5 77 86 2 LEE J KUNII T L Constraint Based Hand animation Models and Tech ni ques in Computer Animation M Springer Tokyo 1993 110 127 3 KUCH J J HUANG T S Human computer interaction via the human hand a hand model A Twenty Eighty Asilomar Conference on Signal Systems and Computers C Mathews Urbana USA 1994 1252 1256 4 KRISTI G HERMANN H Video based recognition of fingerspelling in real time A Proceedings Aachener Workshops an Bildverar beitung Medizin Algorithmen Systeme C Anwendungen Germany 1996 197 202 5 BIRK H MOESLUND T B MADSEN C B Real time recognition of hand alphabet gestures using principal component analysis A Proc Scandinavian Conf Image Analysis C Finland 1997 261 268 6 BINH N ENOKIDA S EJIMA T Real time hand tracking and gesture recognition system A International Conference on Graphics Vision and Image Processing GVIP 05 C Egypt 2005 362 368 7 周航 阮秋琦 结合手部特征的单目相干映射手势识别 J 兰州 交通大学学报 2004 23 1 71 75 ZHOU H RUAN Q Q Research of single camera gesture recognition applied with vector coherence mapping and hand features J Journal of Lanzhou Jiaotong University 2004 23 1 71 75 8 ARUN K HUANG T BLOSTEIN S Least squares fitting of two 3d point sets J IEEE Transactions on Pattern Analysis and Machine Intelligence 1987 89 5 698 700 9 SINGER R A Estimating optim

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论