(计算机应用技术专业论文)汉语语音验证码技术及应用.pdf_第1页
(计算机应用技术专业论文)汉语语音验证码技术及应用.pdf_第2页
(计算机应用技术专业论文)汉语语音验证码技术及应用.pdf_第3页
(计算机应用技术专业论文)汉语语音验证码技术及应用.pdf_第4页
(计算机应用技术专业论文)汉语语音验证码技术及应用.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)汉语语音验证码技术及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 摘要 摘要 验证码技术是当今计算机安全领域与人机交互领域的前沿课题之一,在互联 网领域有着广泛的应用。日常使用的验证码大部分是基于视觉图片验证码方式, 给残疾人中的视力障碍者造成了很多不便。由于目前互联网上将语音验证码作为 常规功能网站的较少,并且相关语音验证码都是以英文信息为基础的,对我国国 内大部分视力障碍者和部分外语程度不高的群体造成很多不便。 残疾人是社会上特殊困难的群体,残疾人事业是我国社会主义现代化事业的 重要组成部分。无障碍环境是残疾人参与社会生活的重要保证,信息无障碍作为 无障碍环境的核心内容,理应受到社会广泛重视与关怀。验证码作为互联网的窗 口技术,已经成为互联网技术与信息无障碍课题交叉领域中的一个重要课题,必 须能够既满足健全人类群体的需求又能够适用于残疾人群体。 基于此,本文首先引入了语音验证码的概念,提出了汉语语音验证码这一研 究课题。此课题的研究需要考虑到两个重要的因素,即汉语语音验证码鲁棒性和 实用性。本文首先收集纯净语音文件,并依次将其进行变调、混合背景噪音与调 整信噪比处理,从而生成汉语语音验证码。在验证码生成后,本文使用三种常用 语音分类识别算法,对汉语语音验证码进行性能测试,并将相同测试样本通过实 验者进行人工识别。将两种测试所得到的数据进行分析研究,确定其中最适合人 类使用的汉语语音验证码生成方法,从而解决了信息无障碍与验证码技术中存在 的问题。 最后本文将研究结果基于w e b s e r v i c e 平台在残疾人网上家园网站中进行了 应用展示。 本文的主要研究工作和贡献如下: ( 1 )率先提出汉语语音验证码混合加噪技术。适用于中国国内视力障碍者 和健全大众群体的验证码一直是一个空缺,汉语语音验证码的提出很好的解决了 这一问题。 浙江大学硕士学位论文 摘要 ( 2 )提出基于真人语音库的汉语语音验证码技术。采用多种生成方法生成 汉语语音验证码。 ( 3 )提出基于多识别器和人工识别的汉语语音验证码性能测试技术。对汉 语语音验证码进行性能测试,并将测试结果进行数据分析,根据分析结果得出最 符合本文要求的汉语语音验证码生成方法。 ( 4 )提出将研究结果在w e b s e r v i c e 中进行部署的方法。 关键词:验证码,汉语语音验证码,信息无障碍,残疾人 浙江大学硕士学位论文 a b s t r a c t a b s t r a c t a so n eo ft h em o s tp o p u l a rt e c h n i q u e si nt h ef i e l do fc o m p u t e rs e c u r i t ya n d h u m a n c o m p u t e ri n t e r a c t i o n ,c a p t c h a ( c o m p l e t e l ya u t o m a t e dp u b l i c lu t i n gt e s tt o t e l lc o m p u t e r sa n dh u m a n sa p a r t ) i sw i d e l yu s e di nt h ei n t e m e tf i e l d m o s to ft h e c a p t c h at e c h n i q u e st h a th a sb e e ni n v o l v e di nt h ed a i l yl i f ei sv i s u a l - b a s e d h o w e v e r , t h i st y p eo fv i s u a l b a s e dc a p t c h a i sc o n s i d e r a b l yi n c o n v e n i e n tf o rt h e v i s u a li m p a i r e dp e o p l e c u r r e n t l yt h e r ea r eo n l yl i m i t e da m o u n to fw e b s i t e sw h i c ht a k e t h ea u d i oc a p t c h aa st h eg e n e r a la p p l i c a t i o n m o r e o v e r , m o s to ft h ea v a i l a b l e a p p l i c a t i o n sa l eb a s e do ne n g l i s h t h ea f o r e m e n t i o n e df a c t sr e s u l t si ns i g n i f i c a n t i n c o n v e n i e n c ew h os p e a ka sf o r e i 凹l a n g u a g e a sas p e c i a lg r o u pi nt h es o c i e t y , t h ec a r e e rf o rd i s a b l ep e o p l ei sa ni m p o r t a n t p a r to fc h i n a ss o c i a l i s tm o d e r n i z a t i o n a c c e s s i b i l i t yi so n eo ft h ek e yp o i n t st oe n s u r e t h a td i s a b l ep e o p l ec a nb ei n v o l v e di n t ot h es o c i a ll i f e i n f o r m a t i o na c c e s s i b i l i t ya st h e k e r n e lo fa c c e s s i b i l i t ye n v i r o n m e n td e s e r v e sm o r ea t t e n t i o na n dc a r e a sc r o s sp o i n to f i n t e m e tt e c h n o l o g ya n di n f o r m a t i o na c c e s s i b i l i t y , an e wc o n c e p to fc a p t c h an e e d s t ob ed e v e l o p e df o rb o t hd i s a b l ea n dh e a l t h yp e o p l e i nt h i sd i s s e r t a t i o n ,t h ed e s i g na n dd e v e l o p m e n to fc h i n e s ea u d i oc a p t c h a w e r ep r o p o s e d ,a n dt w oi m p o r t a n tp a r a m e t e r so fc a p t c h a ,n a m e l yt h er o b u s ta n d t h ep r a c t i c a b i l i t y , w e r ea n a l y z e d t h ep u r ea u d i of i l e sw e r ec o l l e c t e da n dt h et o n e so f a u d i ow e r em o d i f i e d a f t e rt h a t ,t h ef i l e sw e r em i x e dw i t hs e l e c t e dk i n d so fn o i s e s , g e n e r a t i n gt h ec h i n e s ea u d i oc a p t c h a t h r e ec l a s s i f i e ra l g o r i t h m sw e r ee m p l o y e d t o c l a s s i f yt h ec h i n e s ea u d i oc a p t c h a t h er e s u l t sw e r ea l s oc o m p a r e dw i t h o u t c o m eo b t a i n e df r o me x p e r i m e n t e r s ,t oo b t a i nt h em e t h o d o l o g yt h a tw a sa b l et o g e n e r a t et h ea u d i oc a p t c h a w i t ht h em o s te n h a n c e dr o b u s t n e s sa n dp r a c t i c a b i l i t y t os u mu p ,t h ek e yc o n t r i b u t i o n si nt h i sd i s s e r t a t i o na r el i s t e db e l o w : ( 1 ) p r o p o s i n gt h et e c h n i q u eo fa d d i n gn o i s ei nt oc h i n e s ea u d i oc a p t c h a , w h i c hc o u l du s e db yb o t hc h i n e s ev i s u a l - d i s a b l e d p e o p l ea n dh e a l t hp e o p l e ( 2 ) d e v e l o p i n gt h et e c h n i q u eo fc h i n e s ea u d i oc a p t c h a w h i c hb a s e do nt h e 浙江大学硕士学位论文 a b s t r a c t l i v ev o i c el i b r a r y ( 3 ) p r o p o s i n gt h et e c h n i q u eo fe v a l u a t i o no fc h i n e s ea u d i oc a p t c h ab y m u l t i c l a s s i f i e r sa n dm a n u a lc l a s s i f i e r e v a l u a t et h ec h i n e s ea u d i oc a p t c h a a n d a n a l y s i s t h er e s u l td a t at op r o o ft h eb e s tm e t h o dt o g e n e r a t ec h i n e s ea u d i o c a p t c h a ( 4 ) p r o p o s i n gt h em e t h o do fd e p l o y i n gt h er e s e a r c h r e s u l to nw e b s e r v i c e p l a t f o r m k e y w o r d s :c a p t c h a ,c h i n e s ea u d i oca p t c h a ,i n f o r m a t i o na c c e s s i b i l i t y , d i s a b l e dp e o p l e 浙江大学硕士学位论文 图目录 图目录 图1 1 a l t a v i s t a 验证码【6 】2 图1 2 y a h o o ! 验证码【】3 图1 3 p a y p a l 验证码【1 2 1 4 图1 4 h o t m a i l 验证码【13 1 4 图1 5 p i x 验证码【1 0 】5 图1 6 动态验证码【16 1 一5 图2 1 汉语语音验证码生成原理图1 3 图3 1 生成流程图1 9 图4 1 流程图2 9 图4 2 人识别率与机器识别率之差4 3 图4 - 3 人机识别率散点图4 3 图5 1 系统主要模块结构。4 5 图5 2 残疾人语音验证码用例图。5 2 图5 。3 汉语语音验证码应用5 3 i l i 浙江大学硕士学位论文 表目录 表目录 表4 1 h t k 参数范围及默认值31 表4 2 h m m 参数设置3 2 表4 3 s v m 参数设置3 4 表4 4 纯净语音测试结果3 8 表4 5 h t k 识别器未降噪识别率3 9 表4 6 s v m 识别器未降噪识别率3 9 表4 7 a d a b o o s t 识别器未降噪识别率3 9 表4 8 实验者未降噪识别率4 0 表4 9 h t k 识别器降噪后识别率4 0 表4 1 0 s v m 识别器降噪后识别率4 0 表4 11 a d a b o o s t 识别器降噪后识别率4 0 表4 1 2 信噪比为1 0 d b 时,各识别器识别率比较4 1 表4 1 3 信噪比为1 5 d b 时,各识别器识别率比较4 1 表4 1 4 信噪比为2 0 d b 时,各识别器识别率比较4 l 表5 1 模块列表( 1 ) 4 9 表5 2 模块列表( 2 ) 5 0 j 畏5 3 c a p t c h a w e b 5 0 表5 4 c + + 文件a u d i o m a k e 5 1 表5 5 c a p t c h a w e b 5 1 j 获5 6 c a p t c h a 4 j 5 2 i v 浙江大学硕士学位论文第1 章绪论 第1 章绪论 1 1 课题背景 验证码( c a p t c h a s 1 ,2 1 :c o m p l e t e l ya u t o m a t e dp u b l i ct u n n gt e s tt o t e l l c o m p u t e r sa n dh u m a n sa p a r t ) ,是一种自动化测试机制,它通过向用户展示一种 人类可以解决而电脑程序不能解决的问题来区分使用者是电脑还是人类。由于验 证码技术操作简单、易于实现、数据传输量小,因此被各类网站广泛使用以防止 自动化程序进行大规模的恶意攻击。验证码技术可以用来防止机器人程序在联机 选举中进行违背公平原则的连续投票、自动发送成千上万的垃圾邮件从而使得服 务器速度缓慢、通过自动投票的方式来迫使一个投票提前项目终止甚至是暴力破 解用户密码使用户信息泄露等【3 ,4 1 。因此,验证码技术一直是当前计算机安全与人 机交互研究工作的一个重要课题。 由于验证码技术在人类生活中的广泛使用,验证码必须具有很好的鲁棒性和 实用性。验证码的鲁棒性体现在能够免疫或者抵抗攻击,这一点在其研究领域里 倍受关注。而验证码的实用性则体现在能够为绝大多数人提供服务,并且在使用 者使用时能够很好的完成预期功能。 随着科技发展和社会进步,“残疾人无障碍”这一话题逐渐走进了人们生活, 在日常生活中社会为残疾人创造了很多方便之处,残疾人可以通过一系列辅助的 手段使得他们的生活方式与健全人类一致。残疾人是社会上特殊的群体,残疾人 事业是我国社会主义现代化事业的重要组成部分。由于我国残疾人数量众多,其 中视力障碍群体又占了很大比例,仅以浙江省为例,根据浙江省统计局发布信息, 浙江省内相关人口1 0 0 0 多万,其中残疾人人口总数为3 1 1 8 万,己达到全省总 人口数的6 3 6 ,而视力障碍者在残疾人总人数的约1 3 5 7 t 5 1 。对于残疾人中的 视力障碍者而言,浏览网页是一项非常困难的事情。视力障碍群体需要通过读屏 软件来获取页面上的信息,而读屏软件的作用原理则是将页面上面的文本信息转 化成语音信息或者盲文信息反馈给视力障碍者。然而当视力障碍者上网遇到随处 浙江大学硕士学位论文第l 章绪论 可见的图片验证码时,他们的浏览进程则不得不中止。因为,一般来说,读屏软 件无法识别图片验证码,因此,设计一种适合于视力障碍者使用的验证码方式是 非常必要的,并且有着相当大的社会意义。 语音验证码很好的解决了这一问题,通过语音验证码,视力障碍者可以以听 觉的方式获取验证码内包含的信息。语音验证码与普通基于视觉验证码虽然在表 现形式上有所不同,但是实际功能却一致,都是通过在有效信息上混合一些噪音 从而达到一定抗机器识别的效果并且能让使用者获知其内容。 为了使中文用户中的视力障碍者能够方便的上网,本文提出了一种新颖的、 基于混合噪音的汉语语音验证码,它可为我国广大的视力障碍者扫除上网冲浪的 一道障碍,还具有较好的适用性、安全性,也可以使正常入在使用验证码时多一 种选择。 1 2 相关研究及存在的问题 1 2 1 验证码技术 c a p t c h a 最早被人们所认识,是在1 9 9 7 年由a n d r e ib r o d e r 设计提出的 c a p t c h a 思想。在同一年里,a l t a v i s t a 网站使用这个思路来区分电脑程序和人 类使用者【6 】。根据这种思路,一个个扭曲的英文字母背呈现在使用者面前,并且 要求使用者正确识别并且正确输入。由于字母扭曲的程序比较剧烈,以至于当时 的o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o ns y s t e m ,文字识别系统) 程序无法对其进 行正确识别【7 】。如图1 1 所示: 图i i a l t a v i s t a 验证码【6 】 目前常见的验证码技术类型主要有基于视觉验证码和基于听觉验证码两种 方式。 2 _ 一 一 = 0 一 一 一 。气一 一 “ b 一 q 浙江大学硕士学位论文第l 章绪论 1 基于视觉验证码 基于视觉验证码主要有图片验证码和文本验证码两种,它们要求人们识 别图片或者文本上的信息,然后将信息正确输入。它们一般是由文字信息经 过变色、边缘处理、扭曲等方式进行处理,再附加上一些干扰线组成的。在 识别基于视觉验证码的过程中,最重要的就是对其进行分割,确保分割出来 的每个碎片中包含一个完整信息,文字识别软件就可以较为容易的识别出文 字信息。 以下是基于视觉的验证码中的几个典型用例或原型。 a ) g i m p y 验证码 g i m p y 验证码【1 ,9 1 是采用的卡耐基梅隆大学( c m u ) 准备用来人类使用者 和电脑程序所提出的一种思想。根据g i m p y 方法,首先需要从字典里提取出 一个字出来,加上一些白色或者黑色的线,再经过线性变化等处理生成最终 的验证码。由于g i m p y 方法主要是采用的字典里面的8 6 0 个字作为验证码基 础,因此比较容易被破解【l o l 。 2 0 0 4 年,y a h o o ! 网站率先使用了为了防止恶意电脑程序注册连续用户账 户从而采用了基于g i m p y 思想的一个简单版本来区分人类使用者和电脑程 序。图1 2 显示了y a h o o ! 在2 0 0 4 年之后使用的验证码。 图1 2 y a h o o ! 验证码【川 b ) p a y p a l 验证码 p a y p a l 网站【1 2 】提供货币的电子交易服务,因此必须使用验证码来区分人 浙江大学硕士学位论文第l 章绪论 类使用者和电脑程序。图1 3 展示的是p a y p a l 网站所使用的验证码。 然而,p a y p a l 网站并没有将其使用的验证码算法公开化,但是考虑到其 验证码文字间间隔距离较大,o c r 仍然较容易对其进行识别。 图1 3 p a y p a l 验证码【1 2 】 c ) h o t m a i l 验证码 在微软公司h o t m a i l 邮件注册服务【1 3 】中,采用的是与前文不同的一种验证 码形式。这种验证码,首先提取的是一串英文字符,然后将每个字符进行变 形,添加上干扰线,将最后的图片展现给用户使用。 这个思路来源于o c r 系统,采用的是o c r 系统中识别正确率较低的字 符作为字典库,因此其相对于其他验证码鲁棒性更强。图1 4 显示的是 h o t m a i l 所采用的验证码。在这个验证码里面,由于字符排列扭曲幅度大, 因此较为难以对图片进行分割识别。这表明了作为一个更适用的验证码所必 须具备的特点,即人类很容易识别但是程序难以识别。 砸穆嘭够 弋一毪e l f 图1 4 h o t r n a i l 验证码【1 3 】 d ) p i x 验证码 p i x 验证码采 1 0 用的是图片内容作为验证码信息而非上述几种验证码 4 浙江太学璜士学盘论文第1 章绪论 采用的文字信息。在使用p 验证码的时候,系统会展示出数张相互之间有 共同点的图片,用户则需要列出图片中的共同点或相似之处,以通过验证码 检测。然而这种验证码需要大量存储空间并且在响应效率上不尽如人意。图 l _ 5 展示的是p i x 验证码。 图i s p l x 验证码【i e l e ) 动态验证码 动态验证码【1 ”的方式是提供一个包含许多信息的动态图片,在这个图片 中包含许多图片内容及一段提示信息。用户需要根据提示信息选中图片中的 相应内容,即可通过验证码检测。图1 6 展示的是动态验证码的一个例子。 2 基于语音验证码 礴 s e l e c t t h ec 越i m a g e 匿1 6 动态验证码 浙江大学硕士学位论文第l 章绪论 基于语音验证码采用的是通过听力的方法来获得验证码信息中的有效内 容,并将其正确输入反馈给服务器以便通过测试。无论怎样的输入法,其生 成方法基本相同,即将包含信息的语音文件随机组合生成一个完整的语音文 件。 以下是基于听觉的验证码中的几个典型用例或模型。 a ) 文本朗读验证码 文本朗读语音验证码【1 4 】( t t s :t e x t t o s p e e c h ) 采用的是语音信息替代文 本信息作文验证码检测的内容。在访问验证码的时候,系统提供一段由t t s 程序生成的语音信息文件,用户需要分辨出其中所包含的信息,并将内容通 过键盘正确输入。由于目前语音识别技术非常成熟,而这种结构简单的语音 验证码鲁棒性较弱。目前g o o g l e l l 5 】即采用的此技术。 b ) 语音识别验证码 在语音识别验证码【17 】中,系统首先播放一段语音文件,在语音文件中包 含一个关键字信息或一个简单提问,用户需要在听完语音文件后采用语音输 入的方式通过麦克风用声音完成信息输入。在完成输入后系统会对用户发音 进行识别,确认内容正确以完成验证码检测。由于此验证方式的复杂并且对 外界硬件条件的依赖程度较大,因此难以广泛使用。 在以上两大类验证码不断的更新换代的同时,还有多位专家学者对验证码技 术的展现形式提出了诸多建设性的思路,如j o n a t h a nh o l m a n 和j o n a t h a nl a z a r 等 人【1 8 】提出的思路是在提供语音验证码的时候同时提供一副相关图片,对验证码进 行补充提示,如当验证码语音提示b i r d 的时候,页面会同时显示一副鸟的图片, 并提供备选答案,用户根据图片和语音验证码信息选择答案。j e f f r e yp b i g h a m 和 t e s s al a u 等人 1 9 】提出一种种更使用于残疾人验证码方式,但该方式贡献点在于网 页设计方向,在视力障碍者使用读屏软件时遇到按钮时会主动报知使用者,方便 他们对互联网进行浏览。 由于现有的验证码技术全部基于较好的人类感知能力,通过基于视觉的形式 对验证码进行应用,然而对视力障碍者无法起到很好的辅助作用,因此本文将在 6 浙江大学硕士学位论文 第l 章绪论 本文中提出一种新的语音验证码方式,通过实验以证明其实用性与鲁棒性,为社 会和残疾人群体服务。 1 2 2 语音处理技术 语音处理技术是指通过指定程序人为生成、改变语音信号的技术。语音处理 是- - f l 跨学科的前沿技术,涉及到语言学、语音学、信号处理、心理学、声学等 诸多学科。 语音处理技术需要对人类的发音进行分析研究,寻找其特点以便于能够通过 人工手段使语音信号发生改变。在语音学中,音长是语音最重要的韵律特征之一, 它对于合成语音的感知自然度有着重要的意义。音素长度的变化可以有助于人们 对于音素本身的认知,同时也有助于人们在一个连续的语流中能够确定词、短语 的划分,从而提高语音的自然度和可懂度。基频也是最重要的韵律特征之一,它 对于汉语尤其重要,因为汉语是有声调的语言。基频对于合成语音的感知自然度、 可懂度有着重要的意义。 在自然语流中,音素的长度和基频与该音素前后的语境是高度相关的。许多 上下文的因素如音素自身的类型、前后音素的类型、前后韵律边界等级、重读与 否等均对音素的时长和基频都有着制约作用。音长预测研究和基频预测研究的基 本目的就是试图去描述这些上下文因素对于音素时长和基频的影响,从而提高一 个语音合成系统的自然度。 语音学研究结果表明,语音感知的声学特征主要由语音的共振峰决定。音色 各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数, 可以构成共振峰滤波器,然后用若干个共振峰滤波器的组合来模拟声道的传输特 性( 频率响应) ,对激励源发出的信号进行调制,再经过辐射模型得到合成语音。 1 9 3 9 年,贝尔实验室h d u d l e y 制造出第一台电子合成器v o d e r ,并在在美国 纽约的博览会上展出,引起社会很大反响,它即是利用共振峰原理制作的语音合 成器,能产生连续的语音。 1 9 6 0 年,瑞典语言学家和言语工程学家g f a n t 在( a c o u s t i ct h e o r yo f s p e e c h 7 浙江大学硕士学位论文第l 章绪论 p r o d u c t i o n ) 中系统阐述了语音产生的理论,推动了语音合成技术的发展。2 0 世纪 7 0 年起,专家学者开始利用线性预测技术进行语音编码和识别并且可根据线性预 测参数用多种方法来合成语音。 1 9 8 0 年,麻省理工大学教授d k l a t t 设计了串并联混合共振峰合成器。它 用串联通道产生元音和浊辅音、并联通道产生轻辅音,并且可对声源作出各种选 择和调整,模拟产生不同的嗓音。 2 0 世纪8 0 年代末,m o u h l i e se 和c h a r p e n t i e rf 提出基于时域波形修改的语 音合成算法p s o l a ( p i t c hs y n c h r o n o u so v e r l a pa d dm e t h o d ) 。p s o l a 技术着眼 于对语音信号超时段特征的控制,如基频、时长、音强等,而这些参数对于语音 的韵律控制及修改至关重要。因此,p s o l a 技术与l p c 技术相比具有可修改性 更强的优点,可以合成出高自然度的语音。p s o l a 算法的提出推动了波形拼接语 音合成与文语转换技术的发展和应用。 由于本文此方向研究的对象是中文语音即汉语发音,而此方向研究的目标是 增加语音验证码的鲁棒性,即使语音验证码难以被识别,因此,本文所采用的语 音验证码有必要进行变调处理。除此以外,本文还根据语音识别的原理,采用了 不同种类噪音叠加,以及调整语音验证码的信噪比来对汉语语音验证码进行多重 加噪处理。 1 2 3 语音识别技术 语音识别技术,也被称为自动语音识别( a s r :a u t o m a t i cs p e e c hr e c o g n i t i o n ) , 其目标是将人类语音中的内容信息转换为计算机可读的数字信号。语音识别技术 的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数 据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相 结合,可以构建出更加复杂的应用,例如语音到语音的翻译等【2 0 1 。 早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期 的声码器可被视作语音识别及合成的雏形。而1 9 2 0 年代生产的”r a d i or e x ”玩具 狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹 浙江大学硕士学位论文第l 章绪论 出来【2 1 1 。最早的基于电子计算机的语音识别系统是由a t & t 贝尔实验室开发的 a u d r e y 语音识别系统,它能够识别1 0 个英文数字,其识别方法是跟踪语音中的 共振峰,测试结果表明该系统得到了9 8 的正确率【2 2 1 。1 9 6 0 年,人工神经网络被 引入了语音识别。这一时代的两大突破是线性预测编码l i n e a rp r e d i c t i v ec o d i n g ( l p c ) ,及动态时间弯折d y n a m i ct i m ew a r p 技术。 语音识别技术的最重大突破是隐含马尔科夫模型( h m m :h i d d e nm a r k o v m o d e l ) 的应用。经过b a u m 、l a b i n e r 等人的研究,卡内基梅隆大学的李开复实 现了第一个基于隐马尔科夫模型的大词汇量语音识别系统s p h i n x 2 3 1 。在此之后的 都是以h m m 为框架进行设计开发的。 目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于 统计模式识别方法的语音识别系统由以下几个基本模块所构成【2 4 】: ( 1 )信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特 征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低 环境噪声、信道、说话人等因素对特征造成的影响。 ( 2 )统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。 ( 3 )发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典 实际提供了声学模型建模单元与语言模型建模单元间的映射。 ( 4 )语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正 则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种 系统普遍采用的还是基于统计的n 元文法及其变体。 在本文第3 章的性能评价中,将对汉语语音验证码分别通过语音识别和人工 识别进行测试,对二者识别率进行分析,得到生成汉语语音验证码的最优方法。 1 3 研究目标和研究内容 本文主要是在已有的验证码技术基础上,着力于汉语语音验证码的研究,通 过分析语音识别技术的特点,经过不同方式的混合添加噪音处理方式生成汉语语 音验证码,而后将人类使用者和机器识别器对生成的汉语语音验证码分别进行识 9 浙江大学硕士学位论文第l 章绪论 别,分析研究两者识别结果,获取最适合人类使用的汉语语音验证码生成方式, 并将该生成方法所生成的汉语语音验证码在汉语语音验证码系统中进行应用实 现。 针对当前研究中所存在的问题,总的来说,本文的主要研究工作和贡献如下: ( 1 )率先提出汉语语音验证码混合加噪技术。适用于我国视力障碍者的验 证码一直是一个空缺,汉语语音验证码混合加噪技术的提出很好的解决了这一问 题。 ( 2 )提出基于真人语音库的汉语语音验证码技术。本文所述语音验证码采 用真人语音文件作为基本文件,并在此基础上经过混合加噪技术生成最终的汉语 语音验证码。 ( 3 )提出基于多识别器和人工识别的汉语语音验证码性能测试技术。本文 采用的是多识别器和人工识别技术对汉语语音验证码进行性能测试,通过多识别 器结果间横向对比和与人工识别结果的纵向对比,来分析汉语语音验证码的性能, 得到鲁棒性与实用性最为优秀的汉语语音验证码生成方法。 本文共分五章,第1 章为绪论,第5 章为总结与展望,第2 章至第4 章为本 文研究内容。 第1 章介绍本文的研究背景及意义,给出当前研究存在的问题,提出本文的 研究目标和研究内容。 第2 章介绍了汉语语音验证码的生成方法与过程。 第3 章主要对汉语语音验证码进行性能测试。通过对比分析机器识别与人类 识别的结果发掘出性能最好的汉语语音验证码生成方式。 第4 章将本文所研究汉语语音验证码进行应用展示。 第5 章总结本文完成的主要工作及成果,阐述了本文的主要贡献和创新点, 最后指出在此基础上需要进行的下一步研究工作。 1 0 浙江大学硕士学位论文 第3 章相关技术基五 第2 章相关技术基础 2 1 验证码基础 验证码c a p t c h a 这个词最早是在2 0 0 2 年由卡内基梅隆大学( c a r n e g m e l l o nu n i v e r s i t y ) 的l u i sv o na h n 、m a n u e lb l u m 、n i c h o l a sj h o p p e r 以及i b 的j o h nl a n g f o r d 所提出。卡内基梅隆大学曾试图申请此词使其成为注册商标,1 该申请于2 0 0 8 年4 月2 1 日被拒绝。c a p t c h a 实际上是一种自动化的图灵测试, 它通过向用户展示一种人类可以解决而电脑程序不能解决的问题来区分使用者 是电脑还是人类。基于这个原理,验证码被各类网站广泛使用,以防止自动化程 序进行大规模的恶意攻击。验证码技术可以用来防止机器人程序在联机选举中进 行违背公平原则的连续投票、自动发送成千上万的垃圾邮件从而使得服务器速度 缓慢、通过自动投票的方式来迫使一个投票提前项目终止,甚至是暴力破解用户 密码使用户信息泄露等。一种常用的c a p t c h a 测试是让用户输入一个扭曲变形 的图片上所显示的文字或数字,扭曲变形是为了避免被光学字符识别( o c r , o p t i c a lc h a r a c t e rr e c o g n i t i o n ) 之类的电脑程式自动辨识出图片上的字母数字而失 去效果。由于这个测试是由计算机来考人类,而不是标准图灵测试中那样由人类 来考计算机,因此也可以称c a p t c h a 是一种反向图灵测试。 目前常见的验证码类型主要有基于视觉验证码和基于听觉验证码两种。 1 ) 基于视觉验证码。基于视觉验证码主要有图片验证和文本验证两种方式, 由于文本验证类型鲁棒性较弱,容易遭到恶意破解,因此目前基于视觉验证码绝 大多数是基于图片的验证码类型。基于图片验证码的生成原理可描述为系统从已 经存在大量图片列表中随即取出n 张不重复的图片,并将图片有效像素的分布保 存在一个二维矩阵中,组合成为一章图片作为验证码图片显示在对话框中反馈给 使用者;用户在使用图片验证码进行验证过程中,正确描述出页面中显示的n 张 图片中所表述的内容时,则验证通过,否则系统将提示验证码输入错误的信息。 2 ) 基于听觉验证码。基于听觉验证码适用于视力障碍者群体,其优越性体 现在于可通过多重方式向用户传达信息。基于听觉验证码可称为语音验证码,其 浙江大学硕士学位论文 第3 章相关技术基础 生成原理可以描述为第一步建立语音验证码系统,该系统应包括以下组件:1 、 语音验证页面,该页面需要实现人机对话功能;2 、语音验证码数据库,该数据 库由一系列中英文字符、词组和0 - 9 数字其中部分内容组成,并且在其中随机选 取n 个字符组成字符组合,将每个组合与对应的语音文件组合,然后加上进行干 扰的背景声音,从而生成语音文件,将所述字符组合与对应语音文件存入数据库 中;3 、语音输出组件,其功能为输出对应语音文件;4 、验证组件,其功能为判 断用户输入信息是否与对应验证码信息一致。第二步,运用第一步所述语音验证 码系统实现语音验证,其流程应为:1 、当用户发出访问请求时,将数据库中随 机字符组合与其相对应语音文件发至验证组件,并通过语音输出组件将语音文件 信息发送至使用者;2 、当使用者获得相关语音信息并输入其中所包含内容时, 验证组件判断语音文件所附文本信息是否与用户输入信息一致,若一致则验证通 过,若不一致,则提示验证错误并重复流程l 所述内容,再次要求使用者验证。 本文所要表述的汉语语音验证码属于基于听觉验证码,但所设计的语音验证 码生成方法与前文不同。本文首先考虑到使用者的英语能力参差不齐,因此采用 汉语语音文件作为基本语音库文件,采用汉语发音0 - 9 作为基本语音信息文件, 该语音库可以充分照顾中国用户及残疾人用户,在国内具有更好的普及型。第二 步在此基础上,考虑到目前存在的语音验证码鲁棒性较弱的特点,本文采用多重 语音信号处理的方式对验证码信息进行加噪处理,在不影响使用者正常使用的同 时尽量增强语音验证码的鲁棒性,使其更难以被恶意程序暴力破解。与此同时, 本文所设计汉语语音验证码采用的即时生成的方式,即当用户发送访问请求的时 候,系统将随机抽取语音库中的n 个孤立字,将其依次进行拼接、加噪、变调、 信噪比调整处理方式,生成语音验证码,并且将该n 个孤立字信息以文本方式发 送至验证机构。第三步通过输出组件将第二步中生成的语音文件发送至前端提供 给使用者。第四步通过验证组件验证用户输入信息是否与世纪信息一致。图2 1 所展示的为本文实现汉语语音验证码的原理图。 1 2 浙江大学硕士学位论文第3 章相关技术基础 图2 1 汉语语音验证码生成原理图 本文所述汉语语音验证码可以防止网络中浏览页面被恶意程序攻击,可以防 止人为的恶意注册,增强网络信息的安全性,相对于同类语音验证码而言更适合 于国内视力障碍者使用,具有优秀的鲁棒性与实用性。 2 2 语音识别基础 语音识别技术,也可称为自动语音识别a u t o m a t i cs p e e c hr e c o g n i t i o n ,( a s r ) , 其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进 制编码或者字符序列。与说话人识别及说话人确认不同之处在于后者尝试识别或 确认发出语音的说话人而非其中所包含的语音信息内容。 语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检 浙江大学硕士学位论文 第3 章相关技术基础 索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译 及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、 发声机理和听觉机理、人工智能等等。 早在计算机发明之前,自动语音识别的设想就己经被提上了议事日程,早期 的声码器可被视作语音识别及合成的雏形。于1 9 2 0 年代生产的”r a d i or e x ”玩具 狗可能是最早的语音识别器,当该玩具狗的名字被呼唤的时候,它能够从底座上 弹出来。最早的基于电子计算机的语音识别系统是由a t & t 贝尔实验室开发的 a u d r e y 语音识别系统,它能够识别1 0 个英文数字,其识别方法是跟踪语音中的 共振峰。经过测试该系统得到了9 8 的正确率。2 0 世纪5 0 年代末,伦敦学院 ( c o l l e d g eo f l o n d o n ) 的d e n e s 将语法概率加入语音识别中。 2 0 世纪6 0 年代,人工神经网络被引入了语音识别。这一时代的两大突破是 线性预测编码l i n e a rp r e d i c t i v ec o d i n g ( l p c ) ,及动态时间弯折d y n a m i ct i m ew a r p 技术。 语音识别技术的最重大突破是隐含马尔科夫模型h i d d e nm a r k o vm o d e l 的应 用。从b a u m 提出相关数学推理,经过l a b i n e r 等人的研究,卡内基梅隆大学的 李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统s p h i n x 。 严格来说,此后的语音识别技术发展并没有脱离h m m 框架。 目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于 统计模式识别方法的语音识别系统由以下几个基本模块所构成: 1 信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征, 供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境 噪声、信道、说话人等因素对特征造成的影响。 2 统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。 3 发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实 际提供了声学模型建模单元与语言模型建模单元间的映射。 4 语言模型。语言模型对系统所针

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论