




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语音识别技术综述语音识别技术综述The summarization of speech recognition张永双苏州大学苏州江苏摘要本文回顾 了语音 识别技 术的发 展历史 ,综述 了语音 识别系 统的结 构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。关键词:语音识别;特征;匹配AbstactThisarticlereviewthecoursesofspeechrecognitiontechnologyprogress,summarizethe structure,classificationsand basicmethods ofspeechrecognitionsyste
2、mandanalyzethedirectionandtheissueswhich speech recognition technology development may confront with.Key words:speech recognition;character;matching引言语音识别 技术就 是让机 器通过 识别和 理解过 程把语 音信号 转变为 相应的文本或 命令的 高技术 。语音识 别是一 门交叉 学科, 所涉及 的领域 有信号处理、模式识别、概率论和 信息论、发声机理和听觉机理、人工智能等等,甚至还涉 及到人 的体态 语言(如 人民在 说话时 的表情 手势等 行为
3、动 作可帮助对方理 解)。 其应用 领域也非 常广, 例如相 对于键 盘输入 方法的 语音输入系统、可 用于工业控制的语音控制系统及 服务领域的智能对话查询系统 ,在信息高 度化的 今天, 语音识别 技术及 其应用 已成为 信息社 会不可 或缺的重要组成部分 。1.语音识别技术的发展历史语音识别技术的研究开始二十世纪50 年代。 1952 年, AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统: Audry 系统。第1页共7页语音识别技术综述60 年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(Dynamic Planni
4、ng, DP) 和线性预测分析(Linear Predict,LP) ,其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。70 年代, 语音识 别领 域取 得突 破性 进展 。 线性 预测 编码 技术 (LinearPredict Coding , LPC) 被 Itakura 成功应用于 语音识别; Sakoe 和 Chiba 将动态规 划的思 想应用 到语音识 别并提 出动态 时间规 整算法 ,有效 的解决了语音信号的 特征提取和不等长语音匹配问题 ;同时提出了矢量量化 ( VQ )和隐马 尔可夫模型( HMM )理 论。在同一时期 ,统计方法开始 被用来解决
5、语音识别 的关键 问题, 这为接下 来的非 特定人 大词汇 量连续 语音识 别技术走向成熟奠定 了重要的基础。80 年代,连续语音识别 成为语音识别 的 研究重点 之一 。 Meyers 和Rabiner 研究出多级 动态规划语音识别算法 (Level Building,LB) 这一连续语音识别算法。 80 年代另一 个重要的发展是概率统计方法成为语音识别研究方法的主流,其显著特征是HMM 模型 在语音识别中的成功应用。1988 年,美国卡内基 梅隆大学 (CMU) 用 VQ/HMM 方法实现了 997词的非特定人连续语音识别系 统 SPHINX 。在这一时期, 人工神经网络在语音识别中也得到
6、成功应用。进入 90 年代后,随着多媒体时代的来临,迫切要求语音识别系统从实验走向实用,许多发达国家如美国、日本、韩国以及IBM 、 Apple 、 AT&T 、NTT 等著 名公司都为语音识别系统实用化的开发研究投以巨资。最具代表性的是 IBM 的 ViaVoice 和 Dragon公司的 DragonDectate 系统。这些系统具有说 话人自 适应能 力,新用 户不需 要对全 部词汇 进行训 练便可 在使用中不断提高识 别率。当前,美 国在非 特定人 大词汇 表连续 语音隐 马尔可 夫模型 识别方 面起主导作用 ,而日 本则在 大词汇表 连续语 音神经 网络识 别、模 拟人工 智能进行语
7、音后处理 方面处于主导地位。国在七十 年代末 就开始 了语音 技术的 研究, 但在很 长一段 时间内 ,都处于缓慢 发展的 阶段。 直到八十 年代后 期,国 内许多 单位纷 纷投入 到这项研究工作 中去, 其中有 中科院声 学所, 自动化 所,清 华大学 ,四川 大学和西北工业 大学等 科研机 构和高等 院校, 大多数 研究者 致力于 语音识 别的基础理论研 究工作 、模型 及算法的 研究和 改进。 但由于 起步晚 、基础 薄弱,计算机水 平不发 达,导 致在整个 八十年 代,我 国在语 音识别 研究方 面并没有形成自 己的特 色,更 没有取得 显著的 成果和 开发出 大型性 能优良 的实验系
8、统。但 进入九 十年代 后,我国 语音识 别研究 的步伐 就逐渐 紧追国 际先进水平了, 在“八 五”、 “九五” 国家科 技攻关 计划、 国家自 然科学 基金、国家 863 计划的支持下, 我国在中文语音技术的基础研究 方面也取得了一系列成果 。在语 音合成 技术方面 ,中国 科大讯 飞公司 已具有 国际上 最领先的核心技 术;中 科院声 学所也在 长期积 累的基 础上, 研究开 发出颇 具特色的产品: 在语音 识别技 术方面, 中科院 自动化 所具有 相当的 技术优 势:社科院语言 所在汉 语言学 及实验语 言科学 方面同 样具有 深厚的 积累。 但是,这些成果 并没有 得到很 好的应用
9、,没有 转化成 产业; 相反, 中文语 音技术在技术、 人才、 市场等 方面正面 临着来 自国际 竞争环 境中越 来越严 峻的挑战和压力。第2页共7页语音识别技术综述2.语音识别系统的结构主要包括 语音信 号的采 样和预 处理部 分、特 征参数 提取部 分、语 音识别核心部分以 及语音识别后处理部分,图 2-1 给出了语音 识别系统的基本结构。语音信号输入语音识别基本识别结果预处理特征提取模式匹配训练参考模式库图 2-1 语 音识别系统的基本结构图语 音识别 的过程 是一个 模式识 别匹配 的过程 。在这 个过程 中,首 先要根 据人的 语音特 点建立 语音模型 ,对输 入的语 音信号 进行分
10、 析,并 抽取所需的特征 ,在此 基础上 建立语音 识别所 需的模 式。而 在识别 过程中 要根据语音识别 的整体 模型, 将输入的 语音信 号的特 征与已 经存在 的语音 模式进行比较, 根据一 定的搜 索和匹配 策略, 找出一 系列最 优的与 输入的 语音相匹配的模 式。然 后,根 据此模式 号的定 义,通 过查表 就可以 给出计 算机的识别结果。3.语音识别系统的分类根据识别的对象不同,语音识别任务大体可分为 3 类,即孤立词识别( isolated wordrecognition) ,关键词识别(或称关键词检出, keywordspotting) 和连续语 音识别。其中,孤立词识别的任
11、务是识别事先已知的孤立的词,如 “开机 ”、 “关机 ”等;连 续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别 全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测 “计算 机 ”、 “世界 ”这 两个词。根据针对的发 音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别 ,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然 ,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困 难得多。另外,根据语 音设备和通道,可以分为桌面(PC )语音识别、电话语音识别和嵌入 式设备(手机、 P
12、DA 等)语音识别。不同的采集通道会使人的发音的声学 特性发生变形,因此需要构造各自的识别系统。第3页共7页语音识别技术综述4.语音识别系统的基本识别方法一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模式匹配的方法以及利用人工神经网络的方法。4.1 基于 语音学和声学的方法该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段还没有达到实用的阶段。4.2 模式 匹配的方法模式匹配方法 的发展比较成熟,目前已达到实用阶段。在模式匹配方法中,需经过 四个步骤:特征提取、模式训练、模式识别和判决。4.2.1 特征提取特征提取方法 主要采用
13、以下三种:基于 LPC 的倒谱参数 (LPCC) 分析法,基于 Mel 系数的 Mel 频标倒谱系数(MPCC) 分析法, 基 于现代处理技术的小波变换系 数分析法。在这些方法中,MFCC 方法比 LPCC 方法的识别效果稍好一些 ,而且 MFCC 符合人们的听觉特性,在有信道噪声和频谱失真的情况下具 有较好的稳健性, 其不足之处是MFCC 方法中多次用 到 FFT ,故算法的复杂 程度远大于 LPCC 方法。因 此,在安静的环境下,目前比较成熟和最常用 的语音特征提取方法还 是 LPCC 方法。在条件不好的环境下,则宜选 用 MFCC 方法。 而小波变换法则是一种新兴的理论工具,要获得较高的
14、识别率还 有许多问题有待研究,但与经典的方法相比,小波变换法有着计算量小、 复杂程度低、识别效果好等许多优点,研究前景十分乐观,是研究发展的 一个方向。4.2.2 模式识别模式识别常用 技术有三种:动态时间规整(DTW )、隐马尔可夫模型( HMM )、矢量量化( VQ )。(1) 动态时间 规整( DTW )语音信号的端 点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基 础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素 ) 的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主 要依据是能量、振幅和过零率。但效果往往不明显。上世纪 60 年代日本学者
15、Itakura 提出了动态时间 规整算法。算法的思想就是把未知量均匀地伸 长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间 轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。在连续语音识别 中仍然是主流方法。同时,在小词汇量、孤立字(词 ) 识别系统中,也已有 许多改进的 DTW 算法提 出。第4页共7页语音识别技术综述(2) 隐马尔可 夫模型(HMM )隐马尔可夫模 型是 20世纪 70年代引入语音识别理论的,它的出现使得自然语音识 别系统取得了实质性的突破。目前大多数大词汇量、连续语音的非特定人 语音识别系统都是基于HMM模型的。 HMM 是对语音信号的时间序列结构 建立统
16、计模型,将之看作一个数学上的双重随机过程 :一个是用具有有限状 态数的 Markov 链来模拟语音信号统计特性变化的隐含的随机过程,另一 个是与 Markov 链的每一个状态相关联的观测序列的随机过程。前者通过 后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是 一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据 语法知识和言语需要(不可观测的状 态 ) 发出的音素的参数流。可见 HMM 合理地模仿了这一过程, 很好地描述了语音 信号的整体非平稳性和局部平 稳性,是较为理想的一种语音模型。(3) 矢量量化 ( VQ )矢量量化是一 种重要的信号压缩方法。与 HMM
17、 相比,矢量量化主要适用于小词汇 量、孤立词的语音识别中。其过程是:将语音信号波形的 k个样点的每一帧 ,或有 k 个参数的每一参数帧,构成 k 维空间中的一个矢量,然后对矢量进 行量化。量化时,将k 维无限空间 划分为 M 个区域边界,然后将输入矢量 与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值 。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出 发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的 搜索和计算失真的运算量,实现最大可能的平均信噪比。4.3 人工 神经网络的方法利用人工神经网络的方法是80 年代末期提出的一种新的语音识别方法。人
18、工神经网络 (ANN) 本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的 分类能力和输入- 输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。由于ANN 不能很好的描述语音信号的时 间动态特性, 所以常 把 ANN 与传统识别方法结合 , 分别利用各自优点来进行语 音识别。5.语音识别所面临的问题(1) 就算法 模型方面而言, 需要有 进一步的突破。 目前使用 的语言模型只是一种概率 模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人 类的语言,就必须在这一点上取得
19、进展。(2) 就自适 应方面而言, 语音识别 技术也有待进一步改进,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进一步改进。第5页共7页语音识别技术综述(3) 就强健 性方面而言,语音识别技术需要能排除各种环境因素的影响。目前,对 语音识别效果影响最大的就是环境杂音或嗓音,个人能有意识地摒弃环境 嗓音并从中获取自己所需要的特 定声音,如何让语音识别技术也能达成这 一点是一个艰巨的任务。(4) 多语言 混合识别以及无限词汇识别方面 :将来的语音和声学模型可能会做到将多 种语言混合纳入,用户因此就可以不必在语种之间来回切换。此外,对于声 学模型的进一步改进,以及以语义学为基础的语言模型的改进,也能帮助用户尽可能少或不受词汇的影响,从而可实行无限词汇识别。(5) 多语种 交流系统的应用 :是将语音识别技 术、机器翻译技术以及语音合成技术的 完美结合,全世界说不同语言 的人都可以实时地自由地交流,不存在语言障 碍。可以想见,多语种自由交流 系统将带给我们全新的生活空间。(6) 语音情 感识别 :近年来随着人工智能的发 展,情感智能跟计算机技术结合产生了 情感计算这一研究课题,这将 大大的促进计算机技术的发展 。情感自动识别 是通向情感计算的第一步。语 音作为人类最重要的交流媒介 ,携带着丰富的 情感信息。如何从语音中自动识 别说话者的情感状态
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年机关财务招聘面试模拟试卷
- 2025年无机化工生产工考试重点题及答案集解析集集解析集
- 2025年社会福利会计能力题集
- 课件APP介绍教学课件
- 2025年宠物销售代表面试题及答案
- 2025年风险管理师职业素质评估试题及答案解析
- 2025年快递企业安全实务题及答案
- 2025年志愿服务基金会笔试模拟考试试卷
- 机电专业班长培训知识课件
- 机泵检修基础知识培训课件
- GA 979-2012D类干粉灭火剂
- 第五讲中日关系课件
- 消防安全检查记录表(完整详细版)1
- (完整)动画运动规律动物ppt
- 光伏电站项目监理旁站方案
- 2022年家用空调安装合同范本
- 二手车鉴定评估的报告书
- 教学课件 金属学与热处理-崔忠圻
- 多智能体系统教材课件汇总完整版ppt全套课件最全教学教程整本书电子教案全书教案课件合集
- 艺术欣赏完整版课件全套ppt教程(最新)
- 北师大版五年级数学上册全册教案含反思
评论
0/150
提交评论