




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南阳师范学院2012届毕业生毕业论文(设计) 题 目: 语音识别技术及发展 完 成 人: 陈 哲 班 级: 软件工程20班 学 制: 2 年 专 业: 软件工程 指导教师: 赵艳丽 完成日期: 2012-04-14 目 录摘要(1)1绪论(1)1.1本课题研究的背景与意义(1)1.2国内外研究概况(3)1.3目前仍存在的问题(5) 1.3.1语音识别的方言和口音问题(5) 1.3.2信道问题(5) 1.3.3背景噪音问题(5) 1.3.4自然语音理解领域(5) 1.3.5语音合成(5)2语音识别技术概述(6)2.1语音识别的类型(6)2.1.1以所要识别的单位来分(6)2.1.2以说话人来分(6)2.1.3以识别方法来分(6)2.2语音识别的原理(7)2.3语音识别的基本过程(7)3语音识别的基本方法(8)3.1基于语音学和声学的方法(9)3.2模版匹配的方法(9)3.2.1动态时间规整(DTW)(9)3.2.2隐马尔可夫法(HMM)(9)3.2.3矢量量化(VQ)(9)3.3神经网络的方法(10)4语音识别系统的结构和所面临的问题(10)4.1语音识别系统的结构(10)4.1.1语音信号预处理与特征提取(10)4.1.2声学模型与模式匹配(11)4.1.3语音模型与语音处理(12)4.2语音识别所面临的问题(12)4.2.1算法模型方面(12)4.2.2自适应方面(12)4.2.3强健性方面(13)4.2.4多语言混合识别已经无限词汇识别方面(13)4.2.5多语种交流系统的应用(13)5语音识别的应用(14)5.1语音识别的应用简介(14)5.2语音识别在公安工作中的应用(15)5.2.1历史背景和现状(15)5.2.2在侦查工作中的应用(15)5.2.3在抓捕中的应用(16)5.2.4在取证中的应用(16)5.2.5在执行取保候审、监视居住等强制措施中的应用(17)6总结(17)参考文献(18)Abstract(18) 语音识别技术及发展作 者:陈 哲指导教师:赵艳丽 摘要:语音是人们相互之间交流最直接最有效的方式,作为一种人机界面,语音与键盘、鼠标输入相比是最自然的输入方式。语音识别技术从上世纪50年代开始到现在已经有了巨大进展,促使人们迫切把它推向实用领域,而不满足于只是理论研究。人们期望通过在移动通讯设备中引入语音识别系统使得语音识别技术真正从实验室走向日常生活。关键词:语音识别;低代价;实时;端点检测;说话人自适应 1绪论1.1本课题研究的背景与意义 随着现代科学的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式,而语言是人类最重要、最有效、最常用和最方便的通信形式。这就很容易让人想到能否用自然语言代替传统的人机交流方式(如键盘、鼠标等)。人机自然语音对话就意味着机器应具有听觉,能“听懂”人类的口头语言,这就是语音识别(Speech Recognition)的功能。语音识别是语音信号处理的重要研究方向之一,它是一门涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学、模式识别、声学和人工智能等学科都有密切的联系。它还涉及到生理学、心理学以及人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解) 1。 语音识别技术以语言为研究对象,涉及生理学、语言学、计算机及信号处理等多个领域,是语言信号处理的一个重要研究方向,在智能控制、多媒体、人机对话等方面有着极其广泛的应用前景。特别是在各种智能机器人领域,基于语音识别技术的导航控制为人机交流、合作提供了有效的途径,成为当前智能机器人的热点之一。 语音是语言信息的载体,语音识别的基本任务是将输入的语音转化为相应的语言代码。这样,不仅使存储或传输这样的语言代码时的数码率比起存储或传输原来有语音信号来大幅度降低,而且还在于它把一种连续的语音信号变成了一种有限符号,这样的符号容易被计算机(或专用信息处理单元)理解其含义,并且便于与人进行交流,因而语音识别得到十分广泛的应用2。 随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在工业、军事、交通、医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。当今,语音识别产品在人机交互应用中已经占到越来越大的比例3。 语音识别技术发展到今天,除了PC机的语音识别系统正趋于成熟外,随着语音算法的深入研究和集成电路技术的发展,出现了一些具有实用价值和市场前景的语音识别芯片。近年来,随着消费类电子产品对低成本、高稳健性的语音识别芯片的需求快速增加,使得语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。通过研究者的不断努力,现在嵌入式非特定人语音识别系统识别精度已经达到98%以上,而对特定人语音识别系统的识别精度就更高了4。 嵌入式语音识别系统与PC机的语音识别系统相比,虽然其运算速度和存储容量有限,但它具有自己的一些特点。首先,它是一个完整的语音识别系统。除语音识别功能外,为了有一个友好的人机界面和对识别正确与否的验证,该系统还具备语音提示(语音合成)及语音回放(语音编码记录)功能。其次,嵌入式语音识别系统多为实时系统。即当用户说完待识别的词条后,系统立即完成识别功能并有所回应。第三,嵌入式语音识别系统具有体积小、可靠性高、耗电省、投入少、价格低便携性好、可支持移动作业等优点。这是嵌入式语音识别系统与PC机的语音识别系统相比最大的优势。嵌入式语音识别系统的优点使得其应用的领域十分广泛5。 语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。这样使用者就真正做到“君子动口不动手”。 在西方经济发达国家,大量的嵌入语音识别产品已经进入市场。一些用户电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。 可以预测在近五到十年内,嵌入式语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。据美国专家预测到2008年,具有语音识别功能的产品可达50亿美元,同时人们也将调整自己的说话方式以适应各种各样的识别系统。但在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,但我们正一步步朝着改进语音识别系统的方向迈进6。1.2国内外研究概况 语音识别技术是语音处理技术的一个分支。语音处理技术发展过程也就是语音识别技术的发展史。由此可以将语音识别分为三个阶段。 第一个阶段是萌芽阶段,在这一阶段(20世纪30年代至50年代),人们对语音处理的研究主要是根据语音学知识,提取若干特征参数,并利用这些参数制作成模拟电路来模仿人的发音过程,实现简单的语音处理功能。语音识别的研究工作始于50年代,它开始的标志是AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统Audry系统。第二个阶段是发展阶段,在这一阶段(20世纪60年代至80年代初),随着集成电路技术和计算机技术的发展,语音识别的理论和技术亦日趋完善和成熟。60年代,提出了用动态规划(DP)方法来解决语音识别中不等长的问题。70年代,出现了基于线性预测倒谱和动态时间规整技术(DTW)技术的特定人孤立语音识别系统。80年代,最显著的特征是隐马尔可夫(HMM)模型和人工神经元网络(ANN)在语音识别中的成功应用。第三个阶段是实用阶段,在这一阶段(20世纪90年代至今),随着遵循摩尔定律的超大规模集成电路技术的迅速发展,极大地促进了计算机多媒体技术和人工智能技术的迅猛发展,使人类社会进入到数字信息时代。在此社会背景下,人们对语音识别技术的实际需求愈发迫切,这极大地促进了语音识别技术的不断深入和发展,使语音识别系统从实验室走向实用,从而不断出现利用现语音识别技术的产品7。 嵌入式语音是在20世纪六七十年代以来,科研人员一直致力于研究的热门课题。但当时研究出来的嵌入式语音识别专用芯片大多数识别性能差,不能符合实用要求。直到近10年来,随着语音识别算法的深入研究和集成电路技术的发展,才出现了一些具有实用价值和市场潜力巨大的语音识别专用芯片。 我国的语音识别系统的研究起步比较晚,但也取得了很好的成绩,研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国PC机语音识别技术的研究水平己经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,但独立开发的专用汉语语音识别芯片还是较少,多数都是与国外研究机构合作开发研制的8。 我国所研究的最有代表性的语音识别芯片有清华大学与华录集团合作研究开发的国内第一个具有自主知识产权的语音识别专用芯片。该芯片能够识别2030条特定人语音命令,同时具有语音合成(提示)与语音编码、解码(回放)功能,语音识别率为98%以上,由于优先考虑了语音识别技术在玩具业的应用,与国际上同类芯片相比,其语音识别在基于汉语的SI(不依靠说话者语音)技术的应用方面有明显的优势。同时,它还增加了其他同类芯片没有的自带LCD驱动功能,更吸引人的是比其他的芯片的功耗低12倍5。 此外,清华大学还与 Infineon公司合作开发了的语音芯片UniSpeech。 UniSpeech芯片是为语音信号处理开发的专用芯片,采用0.18 um工艺生产。它将双核(DSP+MCU)、存储器、模拟处理单元(ADC与DAC)集成在一个芯片中,构成了一种语音处理SoC芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11 bit的DAC,采样后的数据在芯片内部均按16bit格式保存和处理。对于语音识别领域,这样精度的ADC/DAC己经可以满足应用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制6。1.3目前仍存在的问题 21世纪作为“语音的世纪”除了蕴含无限的商机以外,也表明了它们存在发展的空间。概括地讲,有这样一些问题急需解决。1.3.1语音识别的方言和口音问题中文有八大方言区,现在很多语音识别系统,对标准普通话的识别性能很好,但是一旦有方言或者口音,性能就会马上下降。解决这个问题有着非常重要的意义,这将极大地拓展该技术的使用空间,因此必须下力气解决好这个问题。1.3.2信道问题我们知道在无线互联应用中,涉及到的信道种类可能会很多,比如固定电话、手机、IP、网络、车载系统等等,各种各样的信道都有不同的特性。语音识别、声纹识别和语音理解如何去适应不同信道的差异是一个不得不面对的问题。1.3.3背景噪音问题语音识别、声纹识别、语音理解等系统往往在有背景噪音时就不能正常工作了,这是由于背景噪音破坏了原始语音的频谱,或者说把原始语音部分或全部掩盖在噪音当中,因而无法准确地分离出来的缘故。解决好背景噪音的问题也是技术上面临的挑战之一。1.3.4自然语音理解领域我们必须有很好的理论和技术去解决口语语言现象,比如口语中的重复、改正、强调、倒叙、省略、拖音、韵律等等。1.3.5语音合成应该说现在的语音合成技术做得很好,能够把给它的文本正确地发出声音来,但是其中存在着一个很大的问题,就是它的声音不够自然。语音合成当中,怎样能够很好地把感情色彩、情绪等正确地表达出来,也需要进一步去研究。首先要解决的一个问题就是必须先对这句话(甚至整个段落)进行理解,理解之后才能够知道如何把韵律加进去,如何表达感情和情绪等9。2语音识别技术概述近些年来,随着计算机、通讯技术的飞速发展,语音识别技术的重要性进一步得以体现。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。现在,语音技术的应用已经成为一个具有竞争力的高新技术产业,语音识别正逐步成为信息技术中人机接口的关键技术。将语音识别技术应用于机器人,使机器人能够按照人的语音命令进行操作,这就是机器人听觉。机器人听觉是机器人智能水平的一个重要标志。因此,学习语音识别技术的基本原理和方法,对进一步研究开发智能机器人的功能有重要作用。2.1语音识别的类型在语音识别系统中,主要有以下几种分类方法:2.1.1以所要识别的单位来分有孤立词识别、音素识别、音节识别、单句识别、连续语言识别和理解。语音理解是在语音识别的基础上,用语言学知识来推断语音的含义。语音理解系统是更高一级的语音识别系统。这类语音识别的发展情况是先从最原始的单音节识别,到限定数量的单词识别,再到对内容进行某种程度限制的会话识别。目前已进入实用的语音识别系统是单词语音的识别,以几百个限定单词为识别对象,现已有性能较好的产品在市场上出售。2.1.2以说话人来分有单个特定说话人、有限的说话人和无限的说话人。特定说话人的语音识别比较简单,能得到较高的识别率,目前商品化的识别设备多属此种。后两种为非特定说话人,这种识别系统不容易得到高的识别率。研究人员正在为提高识别率而努力,这种系统如果能够实用化,将会有很高的经济价值和深远的社会意义。2.1.3以识别方法来分有模板匹配法、随机模型法和概率语法分析法。这三种方法都属于统计模式识别方法。其他的识别方法还有句法模式识别、用模糊数学的识别、用人工神经网络的识别等10。2.2语音识别的原理一般的语音识别系统都采用了模式匹配的原理。从图2-1中可以看出语音识别一般分两个步骤。第一步是系统“学习”或“训练”阶段。这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型,即构建参考模式库。第二是“识别”或“测试”阶段。根据识别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方法所需要的语音特征参数,按照一定的准则和测度与参考模式库中的模型进行比较,通过判决得出结果1。图2-1 语音识别系统的原理结构2.3语音识别的基本过程任何语音识别系统的基本识别过程如图2-2所示。由图可见,语音识别的基本过程包括:(1)采样,将模拟信号数字化;(2)确定输人信号(单元或词)的起始端和终止端,通过语音检测器对语音信号的幅度值是否超过最低限值来判定;(3)由数字滤波器直接地或由模拟滤波器间接地计算语音谱;(4)音调轮廓图估价;(5)分解输人信号,鉴定语音的特征;(6)单词识别,既可利用“自底朝上”技术将输人的语音特征与所需要词汇的特征比较而确定,也可以利用“自顶朝下”技术在数据库的模式中确定全部输人单元代表的词语;(7)对输人信息做出响应,即显示相应的词汇或字符串等10。 输入的正字法表示确定输入单元首尾采样和量化SPCE061A单词识别(产生词典式或数码式书写的形式)计算语音谱估价音调轮廓说话者或语音发生器拾音器分解鉴定语音特征噪声对信息的响应信息存储图2-2 语音识别的基本过程3.语音识别的几种基本方法一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。3.1基于语音学和声学的方法该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。 通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现: 第一步,分段和标号 把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号。 第二步,得到词序列 根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。3.2模版匹配的方法模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。3.2.1动态时间规整(DTW)语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。 3.2.2隐马尔可夫法(HMM)隐马尔可夫法(HMM)是70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。 3.2.3矢量量化(VQ) 矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。 核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说编码器本身存在区分能力。 在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。3.3神经网络的方法利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。 由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别。4.语音识别系统的结构和所面临的问题4.1语音识别系统的结构一个完整的基于统计的语音识别系统可大致分为三部分: (1)语音信号预处理与特征提取; (2)声学模型与模式匹配; (3)语言模型与语言处理。 4.1.1语音信号预处理与特征提取选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。 单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。 音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。 语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。 线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。 Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。从目前使用的情况来看,梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性(Robustness)。 也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。 4.1.2声学模型与模式匹配声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。 以汉语为例: 汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种,按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时,将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词,最后再由词构成句子。 目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节,包括轻音字,共有1282个有调音节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常采用声韵母建模。 基于统计的语音识别模型常用的就是HMM模型(N,M,A,B),涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。4.1.3语音模型与语音处理语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。 语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。4.2语音识别所面临的问题4.2.1就算法模型方面而言需要有进一步的突破。目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。此外,随着硬件资源的不断发展,一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改进。可以相信,半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。4.2.2就自适应方面而言语音识别技术也有待进一步改进。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。并且,不能指望将来的消费电子应用产品也针对单个消费者进行训练。因此,必须在自适应方面有进一步的提高,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的,就声音特征来讲有男音、女音和童音的区别,此外,许多人的发音离标准发音差距甚远,这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征,那可能比提高一二个百分点识别率更重要。事实上,ViaVoice的应用前景也因为这一点打了折扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。4.2.3就强健性方面而言语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机能听懂你的话,来自四面八方的声音让它茫然而不知所措。很显然这极大地限制了语音技术的应用范围,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓(NoiseCancellation)麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术也能达成这一点呢?这的确是一个艰巨的任务。 4.2.4多语音混合识别以及无限词汇识别方面简单地说,目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。如果突然从中文转为英文,或者法文、俄文,计算机就会不知如何反应,而给出一堆不知所云的句子;或者用户偶尔使用了某个专门领域的专业术语,如“信噪比等,可能也会得到奇怪的反应。这一方面是由于模型的局限,另一方面也受限于硬件资源。随着两方面的技术的进步,将来的语音和声学模型可能会做到将多种语言混合纳入,用户因此就可以不必在语种之间来回切换。此外,对于声学模型的进一步改进,以及以语义学为基础的语言模型的改进,也能帮助用户尽可能少或不受词汇的影响,从而可实行无限词汇识别。4.2.5多语种交流系统的应用最终,语音识别是要进一步拓展我们的交流空间,让我们能更加自由地面对这个世界。可以想见,如果语音识别技术在上述几个方面确实取得了突破性进展,那么多语种交流系统的出现就是顺理成章的事情,这将是语音识技术、机器翻译技术以及语音合成技术的完美结合,而如果硬件技术的发展能将这些算法进而固化到更为细小的芯片,比如手持移动设备上,那么个人就可以带着这种设备周游世界而无需担心任何交流的困难,你说出你想表达的意思,手持设备同时识别并将它翻译成对方的语言,然后合成并发送出去;同时接听对方的语言,识别并翻译成已方的语言,合成后朗读给你听,所有这一切几乎都是同时进行的,只是机器充当着主角。 任何技术的进步都是为了更进一步拓展我们人类的生存和交流空间,以使我们获得更大的自由,就服务于人类而言,这一点显然也是语音识别技术的发展方向,而为了达成这一点,它还需要在上述几个方面取得突破性进展,最终,多语种自由交流系统将带给我们全新的生活空间。5.语音识别的应用5.1语音识别的应用简介在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。 可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。5.2语音识别在公安工作中的应用5.2.1历史背景和现状由于语音的可行性、可用性,并且具有诸多有点,在国外,电子监听技术很早就作为安全部门侦查破案的技术手段而被采用。世界上最早将语音识别技术用于安全工作是1963年4月发生在东京的拐卖幼儿案中。该案唯一的线索就是犯罪嫌疑人打电话威胁的声音。声纹专家通过对其语音材料的分析,推断出犯罪嫌疑人年龄、职业、出生地,为发现嫌疑人提供了既有价值的线索。初步确定犯罪嫌疑人后,办案人员秘密获取了嫌疑人的语音材料,并将电话录音和嫌疑人的声纹进行比对,参加声纹鉴定的专家们一致对两次录音做出同一认定的结论,办案人员据此成功破了这桩轰动一时的案件。尽管国内对这项技术一直存在着质疑甚至否定,但是,目前语音识别技术作为一种有效的手段在公安和司法部门已经得到比较广泛的应用,声纹鉴定结论也作为初始证据在刑事诉讼中获得认可。公安机关如果能掌握和利用好这项技术,合理地把它用到公安警务工作的各个方面,必然能使其为提高工作效率和增强公安实战能力做出更大的贡献。5.2.2语音识别在侦查工作中的应用某些案件中,在受案和侦查的初始阶段,公安机关所能掌握的线索可能只有一段录音。例如绑架案和敲诈案,犯罪嫌疑人往往通过电话来作案,其语音就成了唯一的线索。而提取嫌疑人的语音特征,通过语音识别和说话内容分析,对说话人身份进行判断,是侦查工作的重要突破口。1996年河北省发生一起绑架杀人案,警方所能利用的只有一盘由录音电话录制的录音带,被绑架者家属称其无任何仇人,也没有怀疑目标。而录音里嫌疑人使用的是普通话,家属听着比较陌生。面对这种情况,办案人员委托有关的声纹鉴定专家对该录音进行了分析。专家们经过认真、反复的声音辨听,发现嫌疑人普通话的语音里有三处山西方言成分,并通过对该语音音色和用词情况的分析推断,做出如下认定:打电话的嫌疑人是一男性,从小生活在山西,后在北京生活过较长一段时间,有初中以上文化程度,年龄在26-29岁之间,身高1.75米左右。侦查人员根据这一结论,迅速展开调查,终于发现了犯罪嫌疑人,并追踪破获了一个绑架勒索杀人的犯罪团伙。5.2.3语音识别在抓捕中的应用抓捕是公安机关在侦破案件中危险最大的一个环节,也是比较幸苦和消耗时间的。在线索不多、对犯罪嫌疑人情况了解不足的情况下,容易发生危险或者是抓错人。将语音识别用在公安机关的抓捕过程中,可以很好地解决这些难题。在进入抓捕现场前,先通过技术监听设备实现对犯罪嫌疑人所藏匿的房间进行监听,并进行语音识别,确认是不是要抓捕的犯罪嫌疑人,并初步判断房间内人员数量、类型、所处状态和拥有的武器情况,以便指定正确的抓捕方案,合理布置警力,变被动为主动,减少不必要的伤亡和损失。在有些案件中,犯罪分子在某处作案后往往未被及时抓获,可能潜逃并流窜到其他地点再行作案。而如果犯罪分子在作案前后留有录音,我们就可以提取其留下的语音信息,并发到全国各地的公安机关,由民警携带存有犯罪分子语音信息并能自动识别的仪器,在犯罪分子可能出现的地方守候或者安置在其最有可能出现的场所。如果犯罪分子出现并发出声音时,仪器捕捉其语音并通过与已有的信息进行比对,确认是要抓捕的犯罪嫌疑人后,民警可以及时将其抓获。5.2.4语音识别在取证中的应用录音作为视听资料的一种,是民事诉讼法规定的七种法定证据形式之一。语音识别和语音资料的司法鉴定,除了可以用在上面提到的绑架案、敲诈案中外,在诬告陷害、威胁恐吓、诽谤谩骂骚扰他人的案件中,还有贪污、行贿、受贿案件,经济交往中的钱物、财产纠纷案,以及谎报火警、匪警等恶意扰乱机关办公秩序的案件中,也是重要的取证手段。这些都可以利用语音识别来协助破案。2000年4月8日,河北省某市发生一起绑架案。事主张明的儿子被绑架。绑匪打来匿名电话,让事主马上准备20万元,第二天晚上8点送到某路口的圆盘下面,并且强调要按时送到,不准报案,否则就撕票。办案民警对其家中的电话进行了技术监听,在绑匪再次打电话时进行了录音。通过对录音进行分析,确定了一个嫌疑对象何方华,并将其传唤到案,经过8个多小时的讯问,何方华始终没有承认打过电话,更不承认已经撕票的行为。最后,民警将匿名电话录音和传讯录音送到声纹鉴定部门,经过专家的听辨和用仪器进行声谱分析,电话录音和传讯录音中相同字词在共振峰模式、基频、振幅、音强等特征参量上符合较好,反映了同一个人的语音特征,认定何方华就是打电话的人。面对强有力的证据,犯罪嫌疑人何方华的心理防线被彻底摧毁,终于低头认罪并坦白交待了自己绑架杀人的全部罪行。5.2.5语音识别在执行取保候审、监视居住等强制措施中的应用根据中华人民共和国刑事诉讼法第五十条至五十八条之有关规定,公安机关可对某些犯罪嫌疑人采取取保候审或监视居住的强制措施。但要求犯罪嫌疑人不得离开一定的区域,公安机关要对其行为进行监控。而由于公安机关严重的警力不足,如果办案民警每天到现场对这些被采取强制措施的犯罪
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025二手房屋全款买卖协议附房产证变更手续
- 2025对外承包项目借款合同范本:工程进度款支付与监管协议
- 2025版农业合作社股权变更与农业产业链金融服务协议
- 2025版禽类产品保险代理服务合同
- 2025年地暖系统安装与售后服务保障协议
- 异构网络认证-洞察及研究
- 2025独立董事服务期限与续聘协议
- 2025年度服装定制加工与销售合同
- 2025版基础设施建设土石方工程合同协议书下载
- 2025年度物流运输与城市配送协同服务合同
- 六年级家长会课件
- 2025年党建党史知识竞赛测试题库及答案
- 2025年教科版新教材科学二年级上册教学计划(含进度表)
- GB/T 45859-2025耐磨铸铁分类
- 临床基于ERAS理念下医护患一体化疼痛管理实践探索
- 2025年河北交警三力测试题及答案
- 2025贵州贵阳供销集团有限公司招聘笔试历年参考题库附带答案详解
- 人教版(2024)新教材三年级数学上册课件 1.2 观察物体(2)课件
- GB/T 19519-2014架空线路绝缘子标称电压高于1 000 V交流系统用悬垂和耐张复合绝缘子定义、试验方法及接收准则
- 计算机网络技术论文(优秀6篇)
- 化学史课件讲课教案
评论
0/150
提交评论