(模式识别与智能系统专业论文)唇型提取及识别的图像处理算法研究.pdf_第1页
(模式识别与智能系统专业论文)唇型提取及识别的图像处理算法研究.pdf_第2页
(模式识别与智能系统专业论文)唇型提取及识别的图像处理算法研究.pdf_第3页
(模式识别与智能系统专业论文)唇型提取及识别的图像处理算法研究.pdf_第4页
(模式识别与智能系统专业论文)唇型提取及识别的图像处理算法研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(模式识别与智能系统专业论文)唇型提取及识别的图像处理算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内蒙古大学硕士学位论文 唇型提取及识别的图像处理算法研究 摘要 生物特征识别技术已经随着计算机技术的飞速发展,而逐步发展起来。唇 读技术作为一种生物特征识别技术,它不仅应用于传统的聋哑人交流、情报获 取,还广泛应用于现代身份识别领域,已经成为国内外研究及应用的热点。 唇读的研究内容包括基本口型特征的提取、描述与表示方法,以及口型识 别与理解,包括对来自多个通道的相关信息的综合理解。 本文重点研究唇的特征分割及边缘提取:在深入分析、比较当前主流的唇 读方法基础上,结合神经网络方法与灰度阈值方法进行唇的特征分割,经过多 次训练并根据经验选取适当阈值,得到效果较好的唇分割二值图像;在得到唇 形二值图像后,构造模板对图像进行平滑及边缘提取,并选取适当数量的边缘 特征点;最后应用神经网络,反复对边缘特征点进行拟合训练,得到平滑的边 缘拟合曲线。 本文尝试建立简单的汉语元音唇形库,对元音唇形能够进行比较准确的识 别。并且应用m a t l a b 的g u i 制作了一个唇读系统用户界面,能够实现预览视频 图像、选取图像、进行唇分割、唇识别等一系列功能。 关键词:图像处理算法,唇读,神经网络,曲线拟合,g u i 内蒙古大学硕士学位论文 a l g o r i t h ms t u d ya b o u tl i pf i g u r ee ) 汀ra c o na n d r e c o g n i t 【o nb a s e do ni m a g ep r o c e s s i n gt e c h n o l o g y a b s t r a c t t h eb i o m e t r i ci d e n t i f i c a t i o nt e c h n o l o g yh a sd e v e l o p e dg r a d u a l l yw i t ht h er a p i d d e v e l o p m e n to ft h ec o m p u t e rt e c h n o l o g y a sab i o m e t r i ci d e n t i f i c a t i o nt e c h n o l o g y , l i p - r e a d i n gi sn o to n l yu s e di nt r a d i t i o n a ld e a fc o m m u n i c a t i o n s ,i n t e l l i g e n c ea c c e s s , b u ta l s ow i d e l yu s e di nt h ef i e l do fm o d e mi d e n t i t y ,a n dh a sb e c o m eah o tr e s e a r c h a n da p p l i c a t i o nb o t ha th o m ea n da b r o a d l i p r e a d i n gr e s e a r c hi n c l u d e s :t h eb a s i cc h a r a c t e r i s t i c so ft h em o u t hf i g u r e e x t r a c t i o n ,d e s c r i p t i o na n ds a i d ,a sw e l la sl i pf i g u r er e c o g n i t i o na n du n d e r s t a n d i n g , i t st h ec o m p r e h e n s i v eu n d e r s t a n d i n go ft h er e l e v a n ti n f o r m a t i o nf r o mn u m b e ro f c h a n n e l s t h ec h a r a c t e r i s t i c ss p l i ta n de d g ee x t r a c t i o nf r o mt h el i pf i g u r e sf o c u so nt h i s p a p e r b a s e do na n a l y s i sa n dc o m p a r e so ft h e c u r r e n tm a i n s t r e a mm e t h o do f l i p r e a d i n gd e e p l y ,t h ec h a r a c t e r i s t i c so ft h el i p ss e p a r a t e db yc o m b i n i n go fn e u r a l n e t w o r ka n dg r a yt h r e s h o l d a f t e rs e v e r a l t r a i n i n g a n ds e l e c tt h e a p p r o p r i a t e t h r e s h o l dv a l u e sa c c o r d i n ge x p e r i e n c e ,ab e t t e rl i ps e g m e n t a t i o nb i n a r yi m a g ew i l lb e o b t a i n e d a n dt h e ns m o o t h i n gt h ei m a g e ,e x t r a c t i n gt h e e d g eo f t h ei m a g eb y s t r u c t u r eo ft h et e m p l a t e ,a n ds e l e c t i n ga m o u n to fa p p r o p r i a t ep o i n t sf r o mt h ee d g e f e a t u r e s ;f i n a l l y ,as m o o t h i n gf i t t i n gc u r v e sw i l lb eo b t a i n e db yt r a i n i n go ft h ee d g e 内蒙古大学硕士学位论文 f e a t u r eu s i n go fn e u r a ln e t w o r k s a s i m p l el i b r a r yo fc h i n e s ev o w e ll a m i a e e a ei se s t a b l i s h e di nt h i sp a p e rt o c a r r yo u tm o r ea c c u r a t er e c o g n i t i o n u s i n gt h eg u io ft h em a t l a bt om a k eau s e r i n t e r f a c ef o rl i p r e a d i n gs y s t e mw h i c hc a np r e v i e wv i d e oi m a g e s ,s e l e c ti m a g e , s e p a r a t ea n du n d e r s t a n d i n gl i p ,e t c k e y w o r d s :i m a g ep r o c e s s i n ga l g o r i t h m ,l i p r e a d i n g ,n e u r a ln e t w o r k ,c u r v e f i t t i n g ,g u i 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取 得的研究成果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得凼墓直太堂及其他教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示谢意。 学位论文作者签名: 日期: 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古 大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论 文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其 他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间 取得的研究成果属于内蒙古大学。作者今后使用涉及在学期间主要研究内容或 研究成果,须征得内蒙古大学就读期间导师的同意;若用于发表论文,版权单位 必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名:妇为指导教师签名: 日 期:迎g :玉:彳 f t 期: 内蒙古大学硕士学位论文 第一章绪论 1 1 生物特征识别技术 数字图像处理技术的应用范围越来越广,航天和航空技术方面、生物医学工程方面、通 信工程方面,运用数字图像处理技术的身份验证更是由于其在公安、安全验证系统、信用卡 验证等方面的巨大应用前景而越来越成为当前图像处理和模式识别领域的一个研究热点。传 统的身份验证有很多,技术已经成熟的如条形码、i c 卡、a t m 卡等,这些身份验证的优点是 可以采用各种加密手段加以保护,但所有这些都有可能丢失、被窃取甚至被伪造,因为从根 本上说,这些标识手段所依赖的都是后天赋予人的信息,而不是人的固有信息。这些潜在的 问题已经给用户造成许多不良后果和重大损失。因此,我们急需一种更加方便、有效、安全 的身份识别技术来代替传统的身份识别技术,生物特征识别技术则应运而生。 1 1 1 生物特征识别技术的概念 生物特征识别技术【1 ,2 捌是根据每个人独有的可以采样的和测量的生物学特征和行为学特 征而进行身份识别的技术。 生物特征识别可分为基于生理特征识别和基于行为特征识别两大类:生理特征包括面部 特征、指纹、虹膜、视网膜、手型、掌纹、基因( d n a ) 以及人体热辐射等,这些特征都是 人体先天赋予的固有特征;而行为特征包括签名、声纹、步态、击键等,这些特征与后天环 境养成的行为习惯有关。 与传统的身份识别手段相比,基于生物特征的身份识别具有以下优点:不易遗忘或丢失; 防伪性能好,不易伪造或被盗;“随身携带”,随时随地的使用。但并不是所有的生物特征都 能够用来进行身份识别,能够用于身份识别的特征应具有以下的特点:( 1 ) 广泛性:每个人 都应该具有这种特征;( 2 ) 唯一性:每个人拥有的特征应该各不相同;( 3 ) 稳定性:所选择 的特征应该不随时间发生变化;( 4 ) 可采集性:所采用的特征应该便于测量。 1 1 2 几种生物特征识别技术比较 1 人脸识别 人脸识别是当前模式识别和人工智能领域的一个研究热点。人脸自动识别系统作为一种 重要的个人身份鉴别方法,可以广泛地应用于公安部门的犯人档案管理、安全验证系统、信 _ 1 内蒙古大学硕士学位论文 用卡验证、医学、视频会议、人机交互系统、保安监视、通道控制乃至自动取款机( 朋【 m ) 等多种场合。与其它身份鉴别方法相比,人脸识别具有直接、友好、方便、用户接受程度高 和鲁棒性强等特点。但人脸识别易受到化妆、表情、姿势、光照变化等影响。 人脸自动识别技术经过多年来的研究,已经积累了大量研究成果。但是,非约束环境下 的人脸识别仍然面临着很多困难,除了要准确快速的检测并分割出人脸部分,有效的变化补 偿、特征描述和准确的分类和快速性将成为今后的主要研究主题。在这里面,最为重要的就 是识别的准确率和快速性。要达到非常高的准确性,必须获取足够大的信息量,但是信息量 的增大,必然导致了运算量的增大,这样势必就降低了速度。所以说我们必须在识别率和速 度方面找到一个平衡点。 2 指纹识别 指纹识别是使用最早也是最成熟的身份验证方法,由于指纹具有个人不同的唯一性和终 身不变的稳定性,所以指纹也被公认为是一种可靠的身份验证方法。指纹是指人手指末端掌 面皮肤乳突线隆起所形成的花纹,其中突起的纹线称为脊,脊之间的部分称为谷。与一般的 图像相比,指纹图像有自己的特点,它的内容比较单一,通常由交替出现的宽度大致相同的 脊和谷组成。 指纹识别具有很好的可靠性,目前在刑侦领域、人口安全系统以及驾照注册等方面应用 十分广泛。但是指纹识别系统的输入传感器对大约5 的人的指纹不能提供足够高质量的指纹 图像以用于识别。其原因包括手指上的皮肤有伤疤、长茧、皮肤干燥、病态皮肤、皮肤老化、 输入传感器受污染等。 3 虹膜识别 使用虹膜进行身份鉴别是近年来研究的又一热点。虹膜是瞳孔与巩膜间的环形可视部分, 人在出生前的随机生长过程中,造成了各自虹膜组织结构的差异。 在虹膜识别系统中,首先捕获被识别者的眼睛图像,然后分割提取出虹膜图像,同时加 以校准,再对其进行特征的提取与编码,最后进行匹配识别。 尽管虹膜扫描识别系统能够取得很高的识别率,但也存在如下的缺点:当前的虹膜识别 系统没有进行过现实世界的唯一性认证的试验:图像获取设备复杂、昂贵;虹膜因受到眼睑, 睫毛的遮挡,准确捕获虹膜图像是很困难;黑眼睛的虹膜极难读取;虹膜一旦有病变或损伤 会影响识别,对盲者和患有如白内障等眼部疾病的人无效。目前为止,虹膜识别的错误率是 各种生物特征中最低的。 4 掌纹特征识别 一2 - 内蒙古大学硕士学位论文 掌纹指手掌内侧表面的纹线图案,一般由3 5 条明显的屈肌纹、众多皱纹和乳突纹交错 构成。掌纹形态受遗传基因控制,一旦形成终生不变。每个人的掌纹形态均不相同,掌纹纹 理复杂,所提供的信息量较指纹丰富,利用掌纹的线特征、点特征、纹理特征及几何特征完 全可以确定人的身份。掌纹主要特征明显是可在低分辨率图像中提取,不易受噪声干扰特征 空间小可实现快速检索和匹配。乳突纹形成的细节特征与指纹相似,但比指纹纹型丰富。从 理论上说有更高的鉴别能力,但需要在较高分辨率图像中获得,因掌纹面积大,导致图像数 据量及特征空间太大,为图像处理带来一定难度。掌纹采集方便,设备成本低,可接受度高, 是很具潜力的身份识别方式,但因研究起步晚,理论和应用上都还有待进一步深入。 5 语音识别 语音识别又称声纹识别,是一种基于人的行为特征而进行的识别技术,每个人都有自己 的发音器官特征以及说话时的特殊的语言习惯,这些都反映在声音信号当中。 语音识别的优点是:系统的成本非常低廉;对使用者来说是非接触性的,因为说话是一 件很自然的事情,更易被用户接受,最适于通过电话来进行身份识别。其缺点是:容易受到 背景噪声、被检查者的身体状况的影响;语音可能是所有生物特征中最容易被伪造的,很难 达到基于指纹或虹膜等识别系统的准确识别率。 6 人脸温谱图识别 温谱图是利用红外传感器可以获得人体各部分辐射热量的图像。通过分析不同个体的红 外感应图像来识别身份。由于人脸温谱图识别方法是一种非接触性的、非侵犯性的鉴别方法, 因此这种方法容易被人们接受。温谱图识别方法受周围环境温度的影响较大。另外,红外传 感器价格较高,这就大大限制了这种方法的应用和推广。 1 1 3 生物特征识别技术市场发展现状与前景 在经历了近1 0 年缓慢的自然增长后,生物特征识别技术即将迎来一个跳跃性发展的黄金 时期。专家们保守估计,未来5 年,我国将有近百亿元的市场等待着企业去开拓。 美国r r 专门调查机构预测并指出生物识别作为具有划时代意义的新兴产业,未来世界 1 0 0 0 强企业中的1 5 将运用生物识别技术。随着社会结构不断多元化、专业化,对人员的有 效管理、保安出入管理有更高需求,特别是近些年p c 机信息管理、网络信息化管理、电子 商务等r r 领域对安防要求的不断提高,生物特征识别技术的应用范围正不断扩大。 目前世界生物识别的市场份额每年以1 0 0 的惊人速度迅速发展,而在环太平洋地区则是 以超过3 0 0 的增长速度迅猛发展。 3 - 内蒙古大学硕士学位论文 自2 0 0 2 年至2 0 0 5 年,中国生物识别行业的市场平均增长率都在6 0 以上,预计到2 0 1 0 年,中国生物识别行业的市场规模将可能达到¥3 0 亿以上。中国生物识别产业相对国际生物 识别产业具有后发性,因而其未来增长潜力将更甚于全球生物识别产业。目前,整个中国生 物识别行业的发展在广度和深度两方面都呈现出了高速增长的局面。广度方面,包括政府、 军队、金融、电信、信息、制造、教育等多个行业都开始呈现大规模应用生物识别技术的前 景。而以p c 和手机为代表的个人应用也呈现极为美好的前景。深度方面,传统的以门禁、 考勤等为主的低端应用开始向信息安全、金融支付等高端应用演化。 1 2 1 唇读技术的研究背景 1 2 唇读技术 唇读【4 j ( 1 i p r e a d i n g s p e e c h r e a d i n g ) ,是指通过观察说话者的口型变化,“读出或“部分 读出”其所说的内容。唇读最早由w h s u m b y 于1 9 5 4 年提出。第一个唇读感知模型则由 e d p e r a j a n 于1 9 8 4 年给出。而唇读的主要研究内容有:基本唇形、唇形的视觉特征、唇形特 征提取,唇形的描述与表达方法及唇形的识别与理解。 在生活中,人和人交流时,不仅要依靠声音来传递信息,还要观察说话者的眼睛、嘴、 表情,以获得更全面、准确的信息;听力弱者或听力障碍者会从视觉中得到更多的暗示,有 的甚至已经达到了完美听觉的程度。即便是正常人也利用视觉信息来提高语音感知,尤其在 噪音环境下。一些音素在语音上难于区别而在视觉上却易于分辨,反之依然。因此,视觉信 号通常对语音噪声敏感的音素提供更多可区分的信息。而唇动信息即使在没有噪音的情况下, 也是有用的,它能提高对说话人语义的正确理解。在某些特殊的场合,我们需要通过计算机 的分析识别来判断一些视觉、听觉信息。所以,唇读技术源于听力弱者或者听力障碍者学习、 了解正常人的表达的一种技巧,它亦可用于特定场合的信息获取( 如情报等) 。 现在,全世界从事唇读研究的科研机构很多,美国加利福尼亚大学,加利福尼亚r i c o h 研 究中心,卡耐基梅隆大学( c m u ) ,麻省理工大学( m 1 1 r ) 人机交互研究所,斯坦福大学,伊 利诺伊斯大学,福罗里达大学,明尼苏达州立大学,德克萨斯州立大学,加州圣地亚哥大学 认知学系,华盛顿大学电子工程系信息处理实验室,乔治亚工学院电子工程院a t & t 实验室, 德国斯图加特大学,卡尔斯鲁厄大学,瑞士i d i a p 人工智能感知研究所、英国舍菲尔德大学 电子电气工程系、东安格列大学、日本大板大学、雄本大学、n , 盯( 日本电报电话公司) 人 机交互研究所、意大利科学技术研究所、国立研究会声学研究所,法国国际高级通信中心、 内蒙古大学硕士学位论文 e u r e c o m 欧洲通讯研究所多媒体通信部、芬兰的赫尔辛基大学,都在唇读研究方面有一定 的研究;国内的有哈尔滨工业大学、中国科学院声学研究所、杭州大学、大连理工大学、北 京理工大学、北京航天航空大学、北京大学视觉与听觉信息实验室等都有人做了大量的工作。 总的来说,唇读技术的研究目前还处于研究与探索的初级阶段。 1 2 2 唇读技术的应用现状 随着研究方法的改进,唇读的应用范围也逐渐扩宽。最常见的唇读应用是听力弱( 障碍) 者交流时所采用的读唇术,它是经过长期的人工训练并脱离计算机技术的一种唇读技术;其 它如信息提取、情报获取等唇读方法都是作为语音识别、手语识别、身份特征识别等的其它 通道的辅助识别手段和必要的补充形式。唇读的主要应用有: ( 1 ) 辅助语音识别 唇读首当其冲的应用就是与语音进行融合,辅助提高语音识别率。在噪音环境和多话者 条件下,将唇读和语音进行融合能明显改善语音识别率。 ( 2 ) 辅助手语识别 手语和唇读是分不开的,唇动是手语的一个组成部分。对于聋哑人来说,看手语的时候, 不仅看手的动作和形状,也要看人脸表情和唇动。所以,对口型序列识别的研究是手语识别 不可缺少的组成部分,它有助于对手语的正确理解。其融合方法和语音融合的方法很类似。 ( 3 ) 聋人辅助教育 聋人通过后天练习可以恢复其说话能力。开发一个口型与语音相对应的系统能够帮助聋 人学校教师对其学生进行发音练习。 ( 4 ) 口型合成 目前在计算机动画口型合成方面研究上,主要集中在文本驱动的口型合成。其方法就是 将音素( 元音和辅音) 的口型进行分类,定义几个基本口型( 主要是单韵母的发音口型) ,并 根据基本口型集,衍生出一个音素口型库,然后将切分出的文本转化为拼音,通过查询韵母 口型库,得到文本发音时对应的口型。但是目前还没有文献提及用声音驱动口型合成,这方 面的工作在可视电话中有着重要的意义。 ( 5 ) 口型编码 将发音的口型特征如果能按照某种标准进行描述和编码的话,无疑对数据压缩和通讯有 着极其重要的意义。m p e g 4 给出了这种标准,在m p e g 4 视频编码标准中定义了人脸部的合 成编码,通过定义人脸的模型及运动参数,在编码过程中只传输模型和运动参数,这样能极 - 5 一 内蒙古大学硕士学位论文 大地提高编码效率。例如在虚拟电话会议系统和视频电话中,人们最感兴趣的是人的脸部。 根据m p e g 4 中定义的人脸模型参数和人脸的运动参数,对于面部视频对象定义了面部动画 参数f a p s ( f a c e a n i m a t i o n p a r a m e n t e r s ) 和面部定义参数f d p s ( f a c e s d r f i n i t i o n p a r a m e n t e r s ) , 以及缺省值。采用s n i - i c 面部和身体运动编码可以获得l k b p s 的超低码率。对于像可视电话 等低宽带应用是非常有价值的。另一方面,纹理、形状和运动的独立描述为充分利用视频对 象素材,制作新的面部和身体对象提供了方便。 已有的唇读识别系统,也根据其各自独特的功能应用于各个领域: ( 1 ) a v s r ( a u d i ov i s u a ls p e e c hr e c o g n i t i o n ,声音视觉化语音辨识) 软件是2 0 0 3 年4 月英特尔推出了一款能让计算机读唇语的软件。它可以跟踪演讲者的脸部及嘴部的动作,借 由比对这些动作和演讲者的声音,应用程序可向计算机提供足够的数据对语音识别指令做出 回答,即使是在噪声很大的环境中也可以进行辨识。a v s r 软件程序是o p e n c v 电脑视觉图 书馆的一部分,这个图书馆专门搜藏有助于电脑解读视觉资料的各种开发原始码与工具。 ( 2 ) n 【1 d o c o m o 研发的读唇手机,可透过其感测器读取使用者说话时,牵动嘴部肌 肉所发出的电波。因此,使用者无须发出声音,仅需动唇即可通话,使用这种手机,不仅在 噪音嘈杂中可以与人通话,也消除了在人群中高声打电话对旁人的干扰,适用于某些不便出 声的场合。据测试,该款手机对于日语元音的辨识度几乎达百分之百,对于日语子音的辨识 也没有问题。 ( 3 ) s i m f a c e 软件,可创造一张动画脸孔配合在电话另一端讲话的人,协助有听觉困难 及会读唇语的人利用视觉与对方交谈。根据英国皇家全国聋人学院最近完成的实验,此系统 协助了8 4 的参与实验者在电话中认字及正常交谈。s i m f a c e 需时约1 5 秒产生动画信号,但 此系统把声音信号延迟一点点,使其能达到画音同步的效果。s i m f a c e 在普通的手提电脑上 操作,可接驳包括手机等任何电话,它利用一种神经系统网络使声音和口部动作配合,这是 模仿脑部神经细胞运作方式,经训练可辨认模式。应用的神经系统网络可辨认特别的声音或 “音素”,而非辨认整个字,这是一个配合字与动画的方法。这种技术主要是帮助那些有听觉 障碍的人士,在西方国家7 个人中便有一个属于这一类。到目前为止,s i m f a c 已可用于英 语、瑞典语和荷兰语,更可调校到辨认不同的地区方言。 ( 4 ) b r e g l e r 于1 9 9 7 年开发了基于音频驱动视频的电影编辑系统。该系统记录下一段说 话人的视频脚本,并根据不同音位找出相应的视频片段。当有新的一段音频输入,系统能够 找出与之相匹配的那一小段嘴型视频序列,然后与原图像背景做拼合,从而合成出一段新的 视频。 - 6 - 内荤古大学硕士学位论女 ( 5 ) 瑞士i d i a p 人工智能感知所于1 9 9 5 1 9 9 8 年开发了一个多模型身份认证系统,以 唇的张开速度、唇的关闭速度和时空面积作为识别特征,采用孤立词以来进行身份认证,只 对几个人进行识别,目前该系统在特定数据库视觉认证能达到8 5 - 9 0 ,合并视觉和语音认 证能达到9 9 的精确度。 ( 6 ) 图像变形技术( i m a g ew a r p i n g ) :改变一张静止的图像来产生说话人的口型序列, 在参考图像中嘴音l f 图像用一个矩形框住,然后剖分成三角网格。然后根据口型参数移动这些 三角网格顶点,每个三角形内的图像随之变形。 1 23 唇读识别的研究内容 唇读”】( 1 i p r e a d i n g s p e e c h r e a d i n g ) ,是指通过观察说话者的口型变化,“读出”或“部 分读出”其所| 兑的内容。唇动( l i pm o v e m e n t ) 是一个与唇读密切相关的概念,也是唇读的 另一种提法,它强调口型的町视化过程,意在跟踪和识别,而唇读侧重于理解。唇读研究的 内容大约可分为两个层而:一方面着重于口型变化序列的识别与理解,另一方面强调对口型 进行编码和描述,以配合可视化输出。下图所示是一个完整的唇读识别系统流程图: 毒威鬻 蹲早 j4j - - - - 一“m * “l j 、了一 恒嘲黧7 、( 9 圈1 1 唇读识别系统 f i gl 1l i p - r e a d i n gr e o f - g n i t i o ns y s t e m 124 唇读识别方法概述 唇读识别的第一步就是进行唇定位,目前已有的唇定位方法主要有: ( 1 ) 模板匹配方法,这种传统的方法通过训练己有图像来得到定位脸部各位置的模板 内蒙古大学硕士学位论文 此方法精度高,但计算复杂; ( 2 ) 脸部灰度图像投影法,这种方法只利用了灰度信息,抗光线变化的能力差。 ( 3 ) 用分类的方法确定每一个像素是否是唇上点。 ( 4 ) 对彩色图像进行颜色空间变换或颜色处理的方法,这些方法较为简单和快速。 ( 5 ) 直接像素法,直接像素法就是将包含嘴的区域灰度图像作为特征向量的方法【2 2 】。该 方法能有效地减少数据量,提高了计算速度和识别精度。为了缩小该类方法的盲目性,减少数据 冗余,可以选用有较高针对性的矢量量化方法。 ( 6 ) 矢量量化,矢量量化的方法【6 7 】是在训练中手工选择建立码本矢量,通过对图像的直 方图平滑、均衡化,以及图像平移与码本矢量间的失真测试,得到图像的量化表示。但该方 法对开唇的宽度和高度的差值极为敏感,对牙齿的露与否亦极其敏感。 特征唇,特征唇方法通常是把整个唇部区域作为一个向量,通过大量的样本进行主 成分分析( p c a ) 。这种方法的优点是保留了唇部的大部分信息;缺点是对唇的变形、旋转非 常敏感,而且没有直观的中间处理结果,即定位、跟踪的结果很难检验,一旦识别结果不理 想,很难找到问题所在。 ( 8 ) 光流法,光流法是一种基于运动的方法。它的思想是从二维图像序列检测唇运动, 提取运动参数,分析运动规律,主要研究的是唇动的瞬时位置速度场,也称为光流场。 完成唇定位仅仅是唇读识别的开始,这个过程始终贯穿着一些重要的图像处理方法,根 据不同的方法,可能需要对图片进行灰度变换、尺度归一、滤波、平滑等预处理,为唇识别 做好充分的准备。 唇读识别方法也由最初的静态模板匹配逐步发展至现在,经历了静态特征提取、模板匹 配、d t w 、h m m 模型、t d n n 模型、b z 链,到现在的融合方法。 从静态图像提取特征与存好的模板比较进行匹配,只能对简单元素分类,贡献不大。m a s e 和p e n t l a n d 采用线性时间归正技术进行模板匹配,大大改进了识别效果。d t w ( d y n a m i c t u n e w a r p i n g ) 其实质是动态规划( d p ) 概念的扩展,但当识别连续语音时就有了限制。随后h m m 模型、t d n n 模型就相继取代了模板匹配方法。 1 h m m 模型 k a z u h i r on a k a m u r a 、n o r i a k im u r a k a m i 等人就利用h m m 模型进行唇读的识别。h m m 隐 马尔可夫模型( h i d d e nm a r k o vm o d e l ) s 9 a o 的基本思想是:读信号在极短时间内是线性的, 用线性模型参数表示,再将许多线性模型在时间上串接起来组成一条马尔可夫链。h m m 过 程是一个双重的随机过程,这与人的语言唇动过程是相吻合的。唇动信息本身就是一个可观 一8 - 内蒙古大学硕士学位论文 察的序列,因此,唇动信息精确模型化必须用h m m 来描述才行。h m m 方法一般采用一个 半连续的h m m 模型,它是吸收型的,并且一个状态只能转移到当前状态或下一个状态,即 无跨越从左向右模型。 图1 2 无跨越的自左向右模型 f i g 1 2l e f tt of i g h tm o d e l w i t h o u ts u r m o u n t ( 2 ) t d n n 模型 t d n n ( t i m e d e l a yn e u r a ln e t w o r k ) 是一种延迟神经网络,采用多层结构,输入层是一 个随时间变化的时序窗,它同h m m 一样非常适合于识别序列特征。 德国斯图加特大学与美国c m u 合作的交互系统实验室n l i p 小组1 9 9 2 年开始进行唇读 研究,使用神经网络对连续拼写的德语字母进行识别。b r e g l e r 到b e r l d e y 市国际计算机科学 研究中心工作,继续从事交互式视觉语言系统的视觉语言模型的研究,并开发一个b e r p 系 统,这是一个交互式连续语言理解媒体字典系统,其中采用唇读改善语音识别率。b r e g l e r 等 人使用的t d n n 包含一个输入层、一个隐层和一个音素状态层,网络训练采用b p 算法。 ( 3 ) b z 链 b o l t z m a n n 机是h o p f i e l d 网的推广形式,它属于神经网络的一种。时间序列模型可以被 看成大量点的外表现,即观察序列的联合概率分布。b o l t z m a n n 链是对上述模型的一种综合。 1 2 5 唇读识别的技术优势与存在的难点 1 技术优势 无论是多么优秀的系统,是噪声环境或多说话人的条件下,其识别率都将大大下降。从 人类心理学及生理学的角度讲,人们在噪声或多说话人环境中,通常都会不自觉的使用唇动、 表情、手势等视觉信息来提高语音信息的理解力,即使是在无噪声的条件下,唇动信息也能 够大大提高语言认知的准确性。唇读就是在这种情况下应运而生,并引起越来越多的关注。 2 唇读识别的主要难点 ( 1 ) 技术特点 唇读研究的难点在于口型和语音是一个一对多的对应关系,单从口型来映射语音是不确 定的。如果没有其他相关知识,比如语言学、音韵学的规律、相关领域的专业知识背景,要 识别是绝对不可能的。而这些知识库的建立和支持并不是一件容易的事。另一方面,是唇读 内蒙古大学硕士学位论文 研究不可避免的计算机视觉问题,如光照变化、深度信息的缺乏,给唇的描述及识别都带来 了一定的困难。但我们相信,随着计算机视觉、知识描述及推理技术的发展,视觉语言一定 会被人类完全掌握应用。 ( 2 ) 环境的影响 应用计算机视觉语言进行唇读识别时,环境影响是识别效果的最大障碍。我们待识别的 图像可以是一个人,可以是很多人;背景可能是固定的,也可能是运动变化的;由于人头部 旋转、光照不均匀以及采集设备等硬件条件各方面的影响,图像会有大量的噪声点,有过多 的干扰信息。这些干扰影响都需要在处理前期做足准备,也就是图像预处理阶段,为后面的 精确处理打好基础。 1 3 本论文的内容安排 本课题的研究目的是对现有的各种唇读研究方法进行分析总结,在人脸识别的基础上, 重点研究对唇的分割及唇形的边缘提取,在建立简单汉语元音唇形库的同时,实现对元音唇 形的特征识别。 1 3 1 主要研究工作 1 人脸图像的预处理,唇的定位; 2 唇的分割及唇形的边缘提取; 3 建立简单元音唇形库,得到各种语音唇形的特征描述; 4 实现语音唇形的识别 1 3 2 论文结构安排 本文主要根据所做工作的顺序安排论文内容: 第一章,绪论;这一章主要介绍了唇读的研究背景及应用的领域和前景、唇读研究的内 容和国内外研究唇读的主流方法,最后列出本文的研究工作和论文结构安排。 第二章,唇读图像预处理;在详细比较各种图像预处理方法后,介绍了唇读图像预处理 的步骤,讨论了人脸定位及唇部定位的处理方法。 第三章,唇分割及特征提取;这一章详细介绍了应用神经网络进行唇分割、以及提取唇 部特征后应用神经网络对唇部边缘特征点进行曲线拟合的方法、步骤。 第四章,汉语元音唇形库的建立; 内蒙古大学硕士学位论文 第五章,用户界面制作; 第六章,总结与展望; 参考文献; 致谢; 攻读学位期间发表的学术论文; 攻读学位期间参与的科研项目。 - l l 内蒙古大学硕士学位论文 第二章唇读图像预处理 预处理是模式识别过程中的一个重要的步骤。在唇读识别系统中,因为,首先进入系统 的图像并不是准确的唇图像,有可能是嘈杂环境中的多个人脸图像或歪曲的人脸图像,所以 唇部的预处理主要包括目标人脸图像的检测及在人脸图像中对唇的定位。 2 1 预备知识 2 1 1 人脸图像灰度化 我们通常得到的人脸图像一般可分为彩色图像和灰度图像。 彩色图像的像素点是由r ( 红色) 、g ( 绿色) 、b ( 蓝色) 三元色混合而成,不同含量的 r 、g 、b 组成不同的颜色。r g b 颜色模型基于笛卡尔坐标系统,三维空间的三个分轴分别对 应r 、g 、b 三基色。任何颜色都能用三维空间中的第一象限中的一个点表示,该点的三维坐 标即为其r 、g 、b 颜色值。在r g b 颜色空间的原点上,三基色均为0 ( 没有亮度) ,即原点 对应黑色;而离原点最远的顶点上,三基色都达到其最大值( 最高亮度) ,表现为白色。因此, 从黑到白得灰度值分布在从原点到离原点最远顶点的对角线上,而彩色立方体内的其余各点 则分别对应不同的颜色,可用从原点到该点的矢量表示。 灰度图像是指只含亮度的信息,不含色彩信息的图像,就好像我们平常看到的由暗到明 的黑白照片,变化是连续的。因此,要表示灰度图像,就需要把亮度值进行量化。通常划分 为0 到2 5 5 共2 5 6 个级别,0 最暗( 全黑) ,2 5 5 最亮( 全白) 。 利用彩色图像的颜色信息进行识别往往受到复杂背景( 特别是肤色背景) 影响,存在很 多缺陷。灰度图像则易于处理,所以大多数经典的人脸图像处理算法都以灰度图像为研究对 象。这就涉及到将彩色图像如何进行灰度化处理。 灰度化就是使彩色的r 、g 、b 分量相等的过程。常见灰度化处理方法主要有以下3 种: 1 最大值方法 使r 、g 、b 的值等于3 个值中最大的一个,即: 尺一g b m a x ( r ,g ,b ) ( 2 1 ) 2 平均值法 一1 2 内萤自大学硕上学位论立 使r 、g 、b 的值等于3 个值的平均值,即: r - g b 一( r + g + b ) 3 ( 2 2 ) 3 加权平均值法 目前广泛采用的颜色信息表达方法都是建立在t y o u n 9 1 8 0 2 所提出的理论基础之上的。 该理论指出,任何彩色都可以用3 种基本颜色按不同的比例混合而得到,即: r gbm + b g + 胡 ( 23 ) 其中- r 、g 、b 分别表示三基色,4 ,b ,c 分别表示权值。 由于是大值的方法会形成亮度很高的扶度图像,平均值法会形成较柔和的狄度图像,所 以一般采用第三种加权平均值扶度变化处理法。灰度化处理效果如图21 所示。 2 12 二值化 ( a ) 彩色图像( b ) 度度图像 a ) c o l o rr g bi m a g e( b ) g r a y s c a l ei m a g e 图2 1 灰虚化处理效果 f i g2 1e f f e c t o f g l a y s c a i e p r o 皤s s i n g 用扫描仪或者摄像机获取的原始图像是扶度图像,经过灰度直方图线性变换以后的图像 仍然是多值图像。 多值图像:是指具有多个灰度级的单色图像。为了突出图像特征和便于进行特征提取, 需要将多值图像转换成二值圈像。 二值图像:只具宵黑白两个灰度级的图像。将罔像进行二值化处理后,可得到灰度值仅 为0 ,1 的二值化图像。 图像的二值化:是指通过设定闽值把扶度图像变成仅用两个值分别表示图像的目标和背 景的二值图像。 殴一幅灰度图像,o ,) 中物体的扶度分布在区间k ,瓦 内,经过阈值运算后的图像为二值 一1 3 内蓥古大学顾学位论女 图像b 0 ,) ,即 圳唯私鼎竭 国2 2 为二值化处理效果。 ( 2 4 ) ( a ) 原始图像( b ) 二值化图像 0 ) 0 d g l m i 【n 8 9 eb i n a 叮i m a g eo f t h e o r i g i n a l i m a g e 圈2 2 二值化处理效果 f i 9 2 2 e f f e c to f b i n a r y p r o c e s s i n g 在国内外图像处理实践中,涌现出数十种图像二值化的方法,不同的图像二值化方法各 青特点,对于同一幅图像的处理可取得不同的二值分割效果。二值化效果的好坏取决于闺值 的选择。文献详细叙述了几种常用的二值化方法,如整体阐值法、局部闽值法和动态闽值 法等。 2 13 蘸量归一化 能量归化的目的是保证每个模式样本的能量统到单位能量上,咀利于不同模式样本 的统一分析。除此之外,能量归一化在一定程度上能够减小光照的影响。在实际的人脸识别 问题中,光照变化在很大程度上影响了人脸识别的性能。对于一个_ 】l fx n 的人脸图像p b ,y ) , 其- p 图像的能量定义如下: 怕卜舳) 广 能量归一化后罔像p b ,y ) 为: 如小眢 能量归一化可以减轻具有线性光强度对识别性能的影响 ( 2 5 ) ( 26 ) 内蒙古大学硕士学位论文 2 1 4 平滑与中值滤波 平滑采用的是图像的区域处理方法,它是以某一像素为中心从图像中取出一个小区域, 然后用该小区域的像素值经过某种运算变换得到该中心像素的新值。所以,中心像素新值与 邻域内的像素密切相关,邻域像素均对中心像素的新值做出贡献。平滑所用的方法往往用卷 积的方法实现。 1 二维卷积法 卷积的种类繁多,从卷积函数的连续性来一说可分为:线性系统卷积、连续函数的卷积、 离散函数的卷积。从卷积函数的维数来分,可分为一维卷积、二维卷积、多维卷积等。我们 所要处理的人脸图像像素函数,属于离散的二维函数。 所以我们主要研究二维离散卷积。其定义如下: p 幻胁帅而1m 磊- 1 n 岳- 1 p 咖妒g - m , y - n ) ,s 芝焉二三 眩7 ) 式中,p ( x ,y ) 为人脸的原始图像,f g ,y ) 为作用的平滑算子。m xn 表示作用平滑的区域。 2 邻域平均法 在邻域平均法中,有加权的平滑算子和不加权的平滑算子。加权的平滑算子既可以体现 中心像素的地位,又克服了非加权邻域平均法平等看待窗口的每一元素带来的缺点。所以通 常使用加权的邻域平均法。 设一幅图像为p g ,y ) ,宽度和高度分别为形和日,其中有一点g ,甩) ,m h ,以 w , 取以该点为中心点的d x d 大小的邻域,令邻域的加权因子为q k ,n ) ,则加权后的输出雪似,万) 可表示如下: 雪似,以) 2 丁与x m 互+ k 。七,i 茎i + k 芦g ,y 妇b ,以) c 2 其中ki d 2 。 实验表明:在降低噪声的同时,也使得图像变得模糊,特别是边缘和层次细微变化的部 位。通常d 取得越大,平滑的效果越好,但是计算量也越大,同时造成的模糊也越明显。邻 域平均法处理结果如图2 3 所示。 1 5 - ( c ) 5 x 5 的部域平均滤波图像 和) s m o o t h e d w g ha5 5a v e r a g i n g f i l t e r ( d ) 7 x 7 的邻域平均滤波图像 f d ) i m a g es m 0 0 t h e d w i t ha 7 7a v e r a g i n g f i l t e r 图23 邻域平均滤波效果图 f i 9 23 a v e r a g i n g f i l t e r s 3 中值滤波 经过平滑处理之后,人脸中的大多数噪声被去除了,但仍可能存在少许孤立的噪声。这 些噪声的存在大大影响定位效果,尽量去除这些孤立的噪声是非常必要的。为了进一步去除 这衅噪声实验中进行了中值滤波处理。 中值滤波是一种非线性处理技术,能抑制图像的噪声。在一维情况下中值滤波器是一 个含有奇数个像素的窗口。处理后,位于窗口正中像素的灰度值,用窗口内奇数个像素灰度 值的中值代替。中值滤波不影响阶跃函数和斜坡函数,因而对图像边界有保护作用,但将抑 制持续期小于窗宽i 2 的脉冲,因而可能有损某蝗图像细节。二维的中值滤波器是最常用的 滤波器。它足种邻域运算,类似于卷积,但计算的不是加权求和,而是把邻域中的像素接 班度缴进行排序,然后选择该组的中间值作为输出像素值。具体步骤是: ( 1 ) 将模板在图像中漫游,并将模板中心与图像中某个像素的位置重合; ( 2 ) 读取模板下各对应像素的灰度值; ( 3 ) 将这些灰度值从小到大排成一列: 一1 6 一 国戮囵 内盆古大学顾t 学位论文 ( 4 ) 找出这些值中排在中问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论