语音识别技术.doc_第1页
语音识别技术.doc_第2页
语音识别技术.doc_第3页
语音识别技术.doc_第4页
语音识别技术.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音识别1 摘要语音识别对于多年的研究人员来说一直是迷人、有趣的话题。过去几年在这一领域已经取得了很大进展,主要是由于多年的研究和高性能系统和算法的可用性。语音识别是一个声音信号转换为一组词的过程。许多不同的技术和应用都参与了识别的过程。该模板和统计方法是两大模式识别模型。首先是这样一个模型,它采用平均程序派生出词组和一个距离测度的比较模式。隐马尔可夫模型(HMM)是一种广泛使用的统计方法的例子,这是基于语音信号的特点可以作为参数随机过程的想法。语音识别被几种不同类别的用户使用。那些使用他们的手型有困难的人、专业人士,和有学习障碍的人是它的主要使用者。语音识别既有的优势也有局限。该软件可以给各种各样的使用者和许多因技术的提高而有生活乐趣的人提供了福利。尽管几十年的研究和技术的显着改善,但仍需要很大的努力,必须采取进一步的研究以应付存在的限制,重要的缺点是,使用者对处理器的功耗和低准确率的高要求。2 目录1 摘要13简介34语音识别的一般问题34.1历史回顾亮点34.2过程概述44.3用户和使用领域45语音识别过程55.1难点55.2工艺步骤55.2.1数字化65.2.2代表65.2.3搜索65.3鲁棒性65.4识别模型65.4.1隐马尔可夫模型(HMM)65.4.1.1声学模型75.4.1.2字和单元模型75.4.1.3语言模型75.5系统的范例75.6 优点和局限性86结论93简介现在和几乎过去的五十年,由机器实现自动语音识别是语音科学家和工程师的最终目标。在过去几年中,在语音识别技术已经发生了戏剧性的好转。这是由于有效的系统和算法有很大的进步,以及多年的研究。语音输入,对于有或没有残疾的人似乎都有很大的潜力。语音识别可用在不同的领域,如在电话网络的自动化,提高运营商服务。在过去的今年中这项研究已经取得了不断的进展。但是我们仍然远未达到让一个智能的机器可以理解任意发言者讲的每一句话的期望目标。基本的和语音识别过程都是本报告的考虑范围。4语音识别的一般问题4.1历史回顾亮点许多对声学语音学的基本思路的研究都发生在20世纪50年代。这是第一步,用机器建立自动语音识别装置系统。1952年在贝尔实验室,一个分离单扬声器的数字识别系统建成。尝试识别10个不同的音节,体现在10个单音节词,这是一个演讲者1956年在RCA实验室做成的。1959年,在英国大学学院,建成了一个音素识别器,它能识别四元音和九常数。频谱分析仪和模式匹配被用表彰这个仪器。另一个亮点是在1959年,元音识别器在麻省理工学院林肯实验室被建造出来。这种识别器可识别嵌入在任意一个音箱/ b/-vowel-/t 中的10个元音。几个基本的突破发生在1960年。识别器的硬件和硬件元音音素识别都于1962年在京都大学建成。1963年在NEC实验室建立了硬件数字识别。这十年包括三个关键研究项目,它们是在过去20年对语音识别的研究和开发的主要问题。首先,一套基本的时间归一化方法,伴随着降低变量作为任务识别的分数,在RCA实验室被创建。第二,Vintsyuk提出了一种对话语进行修辞调整的时间动态规划方法。在20世纪70年代孤立词的识别是研究领域的关键。在俄罗斯,美国和日本的研究产生了“孤立词” 技术的效用。在过去的20年里,IBM的研究人员在“大词汇量语音识别”领域研究了三个不同的任务。在ATT贝尔实验室中进行了“真正的扬声器独立扬声器识别系统”的实验1。1980年,连字识别成为了一个重要的焦点。许多连字算法制定和实施了意图识别流利口语话的字符串匹配,这是基于单个单词的级联模式。在这十年中通过了两项新技术。首先,统计建模方法是关注的焦点。隐马尔可夫模型尤为广为传播。使用神经网络来解决问题被重新提出。国防高级研究计划局(DARPA)社区实施了大词汇量连续语音识别系统的研究1。DARPA的项目是一直持续到20世纪90年代。在这十年中,语音识别技术被广泛应用在电话网络1。4.2过程概述语音识别是声音信号转换成一组词的过程。该语音输入设备是麦克风或电话。在诸如文件的编写应用程序的最终结果是公认的词语。公认的词语也可以作为输入,以进一步实现语音理解语言处理的意图。在许多不同的技术和应用中都涉及语音输入的过程。(见图1)不同的语音识别工具使用与语音输入不同的信息。对于识别说话人的例子,语言和口头语言的内容是没有影响的。在识别说话人的过程中,唯一有用的是找出扬声器,例如使用这个信息来建立受控访问的语言环境。诸如银行服务等的一些领域,语音识别语言都是有用的2。图1显示了一个典型的传统系统,其中用户和计算机是活动的。首先发言的输入处理,通过语音识别组件。接下来,自然语言组件和识别器产生一个代表的意义。代表的含义,可用于检索相应的在文本,表格和图形的形式的信息。为了产生口语反应,你可以使用自然语言生成技术和语音合成。在整个过程中,如下图所示是话语信息的维护和反馈到语音识别和语言理解组件。反馈的目的是为了确保句子在上下文中的正确理解2。Figure 1: Overview of a speech recognition interface4.3用户和使用领域语音识别软件帮助计算机用户把所说的话转变成书面文字。该软件被很多具有不同需求和目标的人使用。三种典型的用户类别3:用户与握手问题有困难使用他们的手型,但能说话清楚的人这些用户有肌肉的问题或协调性差,例如因受伤或后天的神经系统问题,或只是那些打字不好的人。另外一些用户是那些被截肢的人。专业那些没有时间输入或没有好的打字员的人。这组人包括商界人士,医疗或法律领域和一些经常需要书面报告沟通的人,并聘请誊写键入它们。该软件可以节省时间,金钱,让使用者能在纸上获得信息。这些典型的用户有医生,律师,心理学家,销售代表等等。有学习障碍的用户有学习障碍的人们从这些清晰的字迹中防止那些情况。5语音识别过程5.1难点语音识别的主要问题之一是它的无规则性。它跨越多个领域,但研究人员往往能从自己的领域方向与之匹配。下列学科已应用于语音识别的问题9。信号处理从语音信号提取相关信息的过程要尽可能有效和有力。这包括频谱分析,以及预处理和后处理的信号。物理它主要用于处理声学和人类语言的生理机制(声道和听觉机制)。模式识别该组算法用于为原型模式的簇数据,并匹配其特征为基础的模式对。通信与信息理论检测特定的语音模式的方法。语言学声音,句法,语义,语用学,以及它们之间的关系。当然还有语法和语言分析。生理了解在人类神经系统中生产和感知言语的机制。计算机科学在软件或硬件上创建用于实施各种方法的有效的算法。心理学理解使技术在实际工作由人类所使用的因素。5.2工艺步骤语音识别是由几个组件技术组成。5.2.1数字化称之为取样的过程是用于数字化的模拟信号。在自动语音识别这通常的速度是6.6- 20千赫。5.2.2代表数字化的信号可以表示许多不同的方式。这些陈述的目的是保护信号中的试图渗透的因素的语音信息,如坏电话线引入噪声,或演讲者的情绪状态,和尽可能的紧凑。更常见的表现之一是谱图。5.2.3搜索测量的结果是用来寻找最有可能的候选字。缩小搜索是利用声,词汇和语言模型。在整个过程中训练数据用于确定模型的参数值。5.3鲁棒性语音识别的一个重要目标是实现鲁棒性。换句话说,系统在困难的条件下具有良好的识别,即当输入的语音质量是差的。鲁棒性的另一个特点是一个强大的系统出现故障,并逐步正常,而不是在某一点出现灾难。这些目标是能够达到使用最优估计程序,以获取新的参数,赔偿的程序,并通过培训系统使用过滤信号。5.4识别模型语音识别有两个主要的模式识别模型。第一种模式是模板方法,它是基于语音帧序列的模式(如一个字)是根据一些平均程序的想法,提倡使用局部谱距离的措施去比较模式。第二个模型包括统计方法。这些方法都是基于语音信号可以很好地描述为一个参数随机过程这样的假设。在随机过程的参数估计也可能是一个定义良好的方式。隐马尔可夫模型(HMM)是众所周知的和广泛使用的统计方法4。5.4.1隐马尔可夫模型(HMM)它是一个每10-30毫秒的复合载体。对声学参数向量序列被视为是声词用于计算观察序列的载体时,词序列W是明显的概率模型观测。给定一个序列,一个词序列W是由ASR(自动语音识别)系统生成的,其中:W对应一个最大后验概率(MAP)的候选对象。是声学模型的计算方法,是语言模型的计算方法。如何执行搜索取决于对词汇的大小。搜索过程分两个步骤来完成。首先N-最佳词序列字格是生成简单的模型来计算近似实时的可能性的。在第二阶段更准确的可能性是比较有限的假设。一些系统伴随着这个步骤产生一个字序列的假说。这个搜索导致了一个字序列的假说。例如生成一个虚拟词序列的搜索,如果该任务是听写5。5.4.1.1声学模型该模型包含了用于构建字表述语言单位的基本概率模型。一个序列的声学参数从口语表达形式中提取。该序列被看作是一个由隐马尔可夫模型所描述的基本过程的级联实现。一个HMM的是两个随机过程的结合,隐马尔可夫链和过程分别观察。隐马尔可夫链描述了时间上的变化,而进程是一个可观察的光谱变化5。该模型是强大的,它的灵活性使含有数万字的目录可以被识别5。5.4.1.2字和单元模型音素网络代表的字,和路径代表对这个词的发音。音位变体,或字,模型是该模型在不同情况下发音音素。许多因素影响的选择是有多少变体,应考虑给定音素。它存在的大量变体模型。三种模型的例子是多音,分布和集聚。音位变体模型是状态,转换和概率分布作出的HMM模型。5.4.1.3语言模型该模型计算了一个单词序列的概率。通过词语的生成假说需要的概率已收到。生成的结果可以是一个字的顺序,在的N-最佳词序列的集合,或在一个假设的部分重叠的字格5。5.5系统的范例图2显示了所谓的“目录听检索”,它提供了从口语拼写地名信息来访问目录的应用程序。一个典型的用例包括以下步骤:1.通过电话,用户使用“STOP”拼写名字,姓氏和说些之间,以及之后的首字母:RABINER- STOP - LR - STOP2语音识别决定了在特定目录的名字,它是最匹配的口语输入3语音识别者讲该名称的目录信息给用户。出于这个原因,拼写字母的识别是非常容易出错。电话簿提供了一个功能强大的任务语法形式,自动检测并纠正不当。例如,字符串“RJVYMZR急STOPLRSTOP”将被解码成正确的字符串,由于限制该字符串必须同时匹配字母拼写的声学特性,并成为一个有效的字符串目录6。随着18000名在一个独立的扬声器系统目录操作并拨打行动电话线,还有利用孤立词拼写的名称,一个正确的名字的正确率可超过98。Figure 2: A Directory listing retrieval system based on spoken names5.6 优点和局限性语音识别方法有两个缺点和优点。仍然有许多悬而未决的问题,从而导致而来该技术的局限性。首先,该技术适合工作在受控制的和安静的环境下。高分贝噪音,就不可能找到有用的技术优势。旧纯语音识别并没有需要考虑语境。这样导致了一个只是文字结合的输出,它仅仅是由用户利用他们的感觉。这也很容易在使用大量的词汇时混淆一个识别器。词汇量越大,越容易使系统变得混乱。由于识别需要这么多的可用的处理能力,所以应用程序的其余部分就是一个负面的影响。另一个问题是,它是很容易识别到不同的字长之间,而研究显示,大多数正常讲话都由简单的字组成。尽管使用方言识别,但语音识别工具还是不能保证为每一个人服务。有些人可以使用这个工具,即使在最嘈杂的环境下,而别人却无法确认,甚至在最安静的环境下。这种现象被称为“绵羊和山羊“(好的和坏的研究员),目前并能解释这一现象的方法尚未被发现。有些语音识别工具的设备无法处理完整的频率范围。在这些不全面的输入设备中,特别是不包括在内的高频率,输出的结果是不可靠的。这就是为什么男性的声音是最好的女性声音的原因。最后,重量和最后的限制处理了识别能力的水平。即使在一个完美的环境下运作一个良好的识别也将会不断出现一些错误。识别器可以听到错误的话,跳过发音单词和误解的话。这个词准确率达到95。但是要记住,一个95的准确率在统计学上的观点意味着8-10单词的句子中至少有一个错误的时间超过一个半或者更多7。图3中对限制和尚未解决的问题进行了总结。首先,语音识别已经成为残疾人士工作场所和教育住宿的巨大潜力。在大多数情况下,当一个语音识别工具不“工作”,这取决于用户的行为和知识。有两项措施的存在以防止这种类型的知识不足。用户必须充分准备,通过语音系统操作,并熟悉现有技术8。6结论语音识别似乎有很大的潜力在积极的未来发展,无论是在用户或研究人员的观点。我们认为,用户数量,有或没有残疾的人,将有一个持续,稳定的增长。一个例子是在电话网络中对语音识别的未来整合。这对增加技术在世界范围内使用是伟大的一步。研究与语音识别系统中存在的局限性的解决方案是必须满足所有类型的领域的任意用户。其中的一个重要问题的例子是处理能力的高要求。摆脱这个瓶颈需要申请一个满意的方式进行同时启用。为了让语音识别系统的故障率几乎为零,对整体的识别能力提高

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论