已阅读5页,还剩58页未读, 继续免费阅读
(精密仪器及机械专业论文)语音识别技术在语言教学软件中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t a n d i n c r e a s i n gp o p u l a r i z a t i o n o fc o m p u t e r t e c h n o l o g y , c o m p u t e r - a s s i s t e di n s t r u c t i o n ( c a i ) h a s b e e nw i d e l yu s e di nt h e t e a c h i n gp r o c e s s m o r ea n dm o r ee d u c a t i o ns o f t w a r eb e c o m ep o p u l a ri nh e l p i n g p e o p l et oa c q u i r ek n o w l e d g e ,e s p e c i a l l yi ns t u d y i n gl a n g u a g e t h em u l t i m e d i a a b i l i t yo fc o m p u t e rw i l lp l a ya ni m p o r t a n t r o l ei nl e a r n i n gf e a t u r e db yv i v i dv o i c e a n dp i c t u r e ,a sw e l la st h el a r g es t o r a g eo f i n f o r m a t i o n r i g h tn o w , i n t h er e s e a r c h f i e l do fl a n g u a g es t u d y i n g ,m u c hm o r ea t t e n t i o nh a sb e e np a i dt o d e v e l o pv a l i d v o i c er e c o g n i t i o n ( a b b r v r ) s t r a t e g ys oa st om a d ep e o p l es t u d yl a n g u a g ee a s i e r b u ti ti sap i t yt h a tl a n g u a g ee d u c a t i o ns o f t w a r eh a sr a r e l yv a l i dv o i c er e c o g n i t i o n f u n c t i o n s o ,i nt h i sp a p e r , t h et h e o r ya n da l g o r i t h mo f v r a r eb e i n g d e v e l o p e d i nt h i sp a p e r , s e v e r a lk e y p r o b l e m si nv rp r o c e s sa r eb e i n g d i s c u s s e db o t hi n t h e o r ya n da p p l i c a t i o n ,w h i c hi n c l u d ep r e p r o c e s s i n g ,f r a m ed e c o m p o s i n go fr a w v o i c e s i g n a l ,c h a r a c t e r i s t i c s e l e c t i o na n d c a l c u l a t i o n ,d y n a m i cm a p p i n g o f c h a r a c t e r i s t i c s l i n e a rp r e d i c t i o nm o d e l ,m o d e lc o e f f i c i e n t s ( l p c ) ,a sw e l la s c e p s t r u mc o e f f i c i e n t s a r ew e l la n a l y z e db o t hi na n a l y s i sa n dc a l c u l a t i o na s p e c t s d y n a m i cm a p p i n ga l g o r i t h mi s a l s oi l l u s t r a t e di nd e t a i l s t h r o u g ht h ec o m p u t e r s i m u l a t i o nt os o m er e a ls h o r t - t i m ev o i c es i g n a ls a m p l e su s i n gm a u a bl a n g u a g e t h er e s u l ts h o w st h a tt h e r e c o g n i t i o ne f f i c i e n c yu s i n gc e p s t r u m c o e f f i c i e n t s m a p p i n gi s b e t t e rt h a nw h a tm a d eb yl p cm a p p i n g t h i sc o n c l u s i o ni sm o r e a t t r a c t i v ei nt h e a p p l i c a t i o nd e v e l o p m e n to fl a n g u a g ee d u c a t i o ns y s t e mu s i n g d i g j t a ls i g n a lp r o c e s s o r ( d s p ) k e y w o r d s :v o i c er e c o g n i t i o n ,l i n e a rp r e d i c t i o nc o d i n g ( l p c ) ,c e p s t r u m c h a r a c t e r i s t i c ,d y n a m i cm a p p i n g 第i i i 页 国防科学技术大学研究生院学位论文 第一章绪论 1 1课题的提出及意义 随着国际交流的增加,语言学习越来越引起人们的重视。语言能力已成为 一个人受教育程度的标志,也是个人掌握知识、运用知识,取得事业成功的 关键。而语言的学习,由于缺乏相应的学习生活环境,对初学者是十分困难的 事情,对东方人来讲更是如此。因此,探索有效的语言学习方法,有效开发学 习语言的工具,已成为许多学者倍受重视的研究课题。 由于计算机技术的发展,以及电脑的不断普及,计算机辅助教学已成为现 代教育技术在教育领域运用的一个重要方面。越来越多的学习软件已经在帮助 人们学习语言。计算机丰富的图形、图象、声音处理功能有力促进了人们的语 言学习效果。但是,目前大多数学习软件仍停在训练人们的听力、词汇、阅读 技巧上,而口语训练软件相对较少。口语能力的提高又是熟练掌握语言的关键。 因此,开发具有语音识别判别能力的教学软件,把语音识别技术与多媒体技 术相结合,已成为这一类语言教学的热点。 本课题是基于外协项目:多媒体全数字式语音学习系统。此系统的软件 部分主要分三个模块:备课、讲课与考试。其中备课模块功能包括:语音与音 乐录音、试听,语音文件的编辑、检索,编辑学生姓名。讲课模块功能有:全 通话、播两套以上节目,语音与音乐节目、组会议、组通话、个别通话、监听 录任意学生、教师插话、语音的跟读、复读功能、鼠标控制音量、帮助功能。 考试模块功能有:考试功能、试卷编辑、视频播放、语音质量鉴别。整个系统 的主体框架如图1 1 1 。系统是基于微机和d s p 构建的网络系统。其中学生机 的主要组成单元为:以d s p 为核心的插卡、网卡、语音数据采集卡与控制卡、 存储卡。 系统工作过程是:任何音源( 声音的输入、声音的输出) 经过微机上的 p c i 声卡进入到主控计算机,由主控计算机再经过中央控制卡传递给学生单 元。从主体框架图可以看出,实现系统功能的核心技术是语音数据采集、数据 存储与管理、语音数据实时网络传递。能够满足语言课程教学的大部分需要。 第1 页 国防科学技术大学研究生院学位论文 第一章绪论 1 1课题的提出及意义 随着国际交流的增加,语言学习越来越引起人们的重视。语言能力已成为 一个人受教育程度的标志,也是个人掌握知识、运用知识,取得事业成功的 关键。而语言的学习,由于缺乏相应的学习生活环境,对初学者是十分困难的 事情,对东方人来讲更是如此。因此,探索有效的语言学习方法,有效开发学 习语言的工具,已成为许多学者倍受重视的研究课题。 由于计算机技术的发展,以及电脑的不断普及,计算机辅助教学已成为现 代教育技术在教育领域运用的一个重要方面。越来越多的学习软件已经在帮助 人们学习语言。计算机丰富的图形、图象、声音处理功能有力促进了人们的语 言学习效果。但是,目前大多数学习软件仍停在训练人们的听力、词汇、阅读 技巧上,而口语训练软件相对较少。口语能力的提高又是熟练掌握语言的关键。 因此,开发具有语音识别判别能力的教学软件,把语音识别技术与多媒体技 术相结合,已成为这一类语言教学的热点。 本课题是基于外协项目:多媒体全数字式语音学习系统。此系统的软件 部分主要分三个模块:备课、讲课与考试。其中备课模块功能包括:语音与音 乐录音、试听,语音文件的编辑、检索,编辑学生姓名。讲课模块功能有:全 通话、播两套以上节目,语音与音乐节目、组会议、组通话、个别通话、监听 录任意学生、教师插话、语音的跟读、复读功能、鼠标控制音量、帮助功能。 考试模块功能有:考试功能、试卷编辑、视频播放、语音质量鉴别。整个系统 的主体框架如图1 1 1 。系统是基于微机和d s p 构建的网络系统。其中学生机 的主要组成单元为:以d s p 为核心的插卡、网卡、语音数据采集卡与控制卡、 存储卡。 系统工作过程是:任何音源( 声音的输入、声音的输出) 经过微机上的 p c i 声卡进入到主控计算机,由主控计算机再经过中央控制卡传递给学生单 元。从主体框架图可以看出,实现系统功能的核心技术是语音数据采集、数据 存储与管理、语音数据实时网络传递。能够满足语言课程教学的大部分需要。 第1 页 国防科学技术大学研究生院学位论文 为了进一步增强多媒体全数字式语音学 - - 3 系统的功能,在现有系统的 基础上,加入语音识别功能,进一步提高智能化程度,使系统成为一个既能满 足现有功能要求,又能形成独立的自主学习软件,以辅助学生练习口语,提高 口语水平。其关键技术要求:由计算机来判别受训者的口语发音是否标准,并 给出判别结果。这就涉及到计算机对语音识别的问题。本课题的任务是:着重 对语音识别算法中的关键技术问题进行深入的理论分析和仿真研究,以比较各 方法的优缺点,为开发语音识别产品作理论上的准备。 耳机话筒组厂j b 主控计算机 中央控制 卡( 主d s p ) 学生机单元一学生机单元一学生机单元 学生机单元 ( 主d s p )( 主d s p ) ( 3 e d s p )( 主d s p ) 图1 1 1 数字语音学习系统的主体框架 1 2 课题研究内容 从语音识别理论研究到产品的开发、实用化,语音识别技术已经走过了几 第2 页 国防科学技术大学研究生院学位论文 为了进一步增强多媒体全数字式语音学 - - 3 系统的功能,在现有系统的 基础上,加入语音识别功能,进一步提高智能化程度,使系统成为一个既能满 足现有功能要求,又能形成独立的自主学习软件,以辅助学生练习口语,提高 口语水平。其关键技术要求:由计算机来判别受训者的口语发音是否标准,并 给出判别结果。这就涉及到计算机对语音识别的问题。本课题的任务是:着重 对语音识别算法中的关键技术问题进行深入的理论分析和仿真研究,以比较各 方法的优缺点,为开发语音识别产品作理论上的准备。 耳机话筒组厂j b 主控计算机 中央控制 卡( 主d s p ) 学生机单元一学生机单元一学生机单元 学生机单元 ( 主d s p )( 主d s p ) ( 3 e d s p )( 主d s p ) 图1 1 1 数字语音学习系统的主体框架 1 2 课题研究内容 从语音识别理论研究到产品的开发、实用化,语音识别技术已经走过了几 第2 页 国防科学技术大学研究生院学位论文 十年的时光,尽管它取得了许多进展,但就计算机语音识别性质而言,是一个 极其复杂的,跨学科的边缘性研究。其技术涉及到计算机科学、信息处理、通 信、模式识别语言学、心理学、统计学等诸多学科,是一个综合性学科。语音 部分的多交性和不确定性,随时间而变化的随机性,致使实现以不受限的自然 语言为基础的语音人机通讯目标还相差甚远。因此,根据多媒体全数字式语 音学习系统项目要求,语音识别算法必须从以下几个方面做工作。 ( 1 ) 如何建立合理,逼近、真实的声音模型? 一般来说,计算机语音识别是一个模式匹配的过程。在这个过程中,计 算机首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析并抽 取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中 要根据语音识别的整体模型,将计算机中存放的语音摸板与输入的语音信号的 特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音 匹配的摸板。然后,据此摸板号的定义,通过查表就可以给出计算机的识别结 果。 一个完整的语言通信系统和过程总是涉及到说( 产生语言) 和听( 接收 语言) 两个方面,因而对于语音信号的产生及其表征的分析只有与它的感知过 程有机联系起来,才能更好地解决语音识别问题。因此,对语音产生机理的深 入研究,建立合理,逼真的声音模型,是语音识别技术的关键。 ( 2 ) 如何提取语音信号中稳定的有代表性的特征值? 在语音识别系统中,输入的语音信号都是有关信息和无关信息的混合体。 如输入的语音信号既包含说话人本身的个人特征信息,还包含了一些基于声学 环境、话筒、信道等可变性因素这些就是无关信息。特征选取应尽可能地摒弃 无关信息并且以严密而合理的形式描述有关信息。因此,提取语音信号中最能 有效、可靠地表征语音特征或特征变换的信息,对于语音识别效果至关重要。 在语音识别系统的设计过程中,特征选择是首先要考虑的重要环节。 ( 3 ) 如何提高语音识别系统的鲁棒性? 计算机要对受训者的口语发音是否标准进行判别,并给出判别结果。首先 要采集受训者语音,在采集过程中,不可避免地会受到来自周围环境、传输媒 第3 页 国防科学技术大学研究生院学位论文 介引入的噪声,以及其他讲话者的干扰,这些干扰噪声使所识别的语音信号已 变成非纯净的原始语音信号。如何在带噪语音信号中提取原始语音信号,是提 高语音识别准确率的首要条件。 本文研究的内容是:针对以上语音识别算法的关键问题,要进行如下研究 工作。 a 建立合理,逼近、真实声音的数学模型: b 研究语音识别技术中特征值的提取技术,采用多种方法提取语音信号 的特征值,找出有效的语音信号特征参数; c 从理论上分析动态匹配方法,并研究最佳匹配算法,提高计算机的识 别率: d 用m a t l a b 仿真语言实现各语音信号预处理、各特征分析、与识别算法, 从理论上分析、比较其有效性,为在d s p 上进行语音识别算法开发提 供了理论分析与仿真实验依据。 1 3 论文总体安排 论文共分为七章。第一章绪论:介绍课题的提出及其语音识别技术的发展 情况;第二章文献综述:介绍与语音识别技术相关的基本知识,包括语音识别 技术的分类、构成、以及主要识别方法;第三章课题研究方案与理论分析:主 要介绍课题研究方案、工作思路和技术路线:第四章语音信号特征提取及处理 算法研究:介绍语音特征提取及处理算法。包括频域特征参数提取,时域特征 参数提取;第五章语音特征匹配算法研究:第六章仿真实验过程及结果:第七 章课题结论与展望。 第4 页 国防科学技术大学研究生院学位论文 介引入的噪声,以及其他讲话者的干扰,这些干扰噪声使所识别的语音信号已 变成非纯净的原始语音信号。如何在带噪语音信号中提取原始语音信号,是提 高语音识别准确率的首要条件。 本文研究的内容是:针对以上语音识别算法的关键问题,要进行如下研究 工作。 a 建立合理,逼近、真实声音的数学模型: b 研究语音识别技术中特征值的提取技术,采用多种方法提取语音信号 的特征值,找出有效的语音信号特征参数; c 从理论上分析动态匹配方法,并研究最佳匹配算法,提高计算机的识 别率: d 用m a t l a b 仿真语言实现各语音信号预处理、各特征分析、与识别算法, 从理论上分析、比较其有效性,为在d s p 上进行语音识别算法开发提 供了理论分析与仿真实验依据。 1 3 论文总体安排 论文共分为七章。第一章绪论:介绍课题的提出及其语音识别技术的发展 情况;第二章文献综述:介绍与语音识别技术相关的基本知识,包括语音识别 技术的分类、构成、以及主要识别方法;第三章课题研究方案与理论分析:主 要介绍课题研究方案、工作思路和技术路线:第四章语音信号特征提取及处理 算法研究:介绍语音特征提取及处理算法。包括频域特征参数提取,时域特征 参数提取;第五章语音特征匹配算法研究:第六章仿真实验过程及结果:第七 章课题结论与展望。 第4 页 国防科学技术大学研究生院学位论文 第二章文献综述 本章简要介绍语音识别技术的发展、分类以及语音识别的主要方法,比较 了各方法的优、缺点。 2 i 语音识别技术的发展 语音识别技术的研究工作起始于1 9 5 2 年,当时贝尔实验室的d a v i s 等人 成功研制了世界上第一个能识别十个英文数字的语音识别系统一a n d r y 系 统,开创了语音识别技术研究的新时代。 6 0 年代,计算机的应用推动了语音识别的发展,开始使用电子计算机进 行语音识别,提出了一系列语音识别技术的新理论,动态规划和线性预测分析 技术,较好地解决了语音信号产生模型的问题,成功实现了第一个计算机语言 识别系统,对语音识别的发展产生了深远的影响; 7 0 年代,美国i b m 研究中心和c m u 的研究人员在语音技术研究理论成熟 的基础上,又取得了突破,提出了矢量量化( v q ) 和隐马尔可夫模型( 删) 理论,并将栅模型和矢量化( v q ) 理论引入实践,实现了基于线性预测理论 和动态规划技术的特定人孤立语音识别。使语音识别技术取得了突破性的进 展。 8 0 年代,语音识别研究进一步走向深入,语音识别技术的研究进入工程 化。欧美、日本等发达国家加大力度研究,并把人工神经网络( a n n ) 理论应 用于语音识别技术研究,使得整个研究技术的发展历程,由初始的特定人,孤 立词识别系统到达了非特定人,大词汇量,连续词的识别系统,而且识别率和 准确率有了极大的提高,而大公司则着眼于市场的需要,致力于开发实用化的 语音识别技术产品。成熟的产品有:d e c 公司的d e ct a l k 一文本到语音转换器, 它能提供易懂,简单自然发音语,用作天气、航行、火车及其其它报告服务、 m i t 公司的民航定票系统a t i s ( a i rt i c k e ti n f o r m a t i o ns y s t e m ) ,提供语音 自动定票、语音查询、语音技号等服务;用于实现全球自由通讯多种语言智能 翻译机;工业自动化控制系统,军事上的语音指挥,军事情报分析、银行上的 声信鉴定等领域保密系统等等。 第5 页 国防科学技术大学研究生院学位论文 第二章文献综述 本章简要介绍语音识别技术的发展、分类以及语音识别的主要方法,比较 了各方法的优、缺点。 2 i 语音识别技术的发展 语音识别技术的研究工作起始于1 9 5 2 年,当时贝尔实验室的d a v i s 等人 成功研制了世界上第一个能识别十个英文数字的语音识别系统一a n d r y 系 统,开创了语音识别技术研究的新时代。 6 0 年代,计算机的应用推动了语音识别的发展,开始使用电子计算机进 行语音识别,提出了一系列语音识别技术的新理论,动态规划和线性预测分析 技术,较好地解决了语音信号产生模型的问题,成功实现了第一个计算机语言 识别系统,对语音识别的发展产生了深远的影响; 7 0 年代,美国i b m 研究中心和c m u 的研究人员在语音技术研究理论成熟 的基础上,又取得了突破,提出了矢量量化( v q ) 和隐马尔可夫模型( 删) 理论,并将栅模型和矢量化( v q ) 理论引入实践,实现了基于线性预测理论 和动态规划技术的特定人孤立语音识别。使语音识别技术取得了突破性的进 展。 8 0 年代,语音识别研究进一步走向深入,语音识别技术的研究进入工程 化。欧美、日本等发达国家加大力度研究,并把人工神经网络( a n n ) 理论应 用于语音识别技术研究,使得整个研究技术的发展历程,由初始的特定人,孤 立词识别系统到达了非特定人,大词汇量,连续词的识别系统,而且识别率和 准确率有了极大的提高,而大公司则着眼于市场的需要,致力于开发实用化的 语音识别技术产品。成熟的产品有:d e c 公司的d e ct a l k 一文本到语音转换器, 它能提供易懂,简单自然发音语,用作天气、航行、火车及其其它报告服务、 m i t 公司的民航定票系统a t i s ( a i rt i c k e ti n f o r m a t i o ns y s t e m ) ,提供语音 自动定票、语音查询、语音技号等服务;用于实现全球自由通讯多种语言智能 翻译机;工业自动化控制系统,军事上的语音指挥,军事情报分析、银行上的 声信鉴定等领域保密系统等等。 第5 页 国防科学技术大学研究生院学位论文 进入9 0 年代,随着多媒体时代的来临,语音识别技术已广泛应用于实际 中,语音识别系统进入了商品化开发阶段,具有语音识别能力的高科技产品已 成为商业竞争中优先考虑的问题。美国、日本、韩国,i b m ,a t & t ,n t t ,a p p l e , b b n 等著名公司都为语音识别系统的实用化投入巨资,至使语音产品市场日趋 成熟,相继推出了识别率很高,具有商业价值的语音产品。如美、英、德、法、 意、西等6 种语音的孤立听写系统v i s t 、日语v o i c et y p e3 0 声导和孤立词 听写系统,美国b l e d s p e a k 连续语音听写系统;1 9 9 7 年9 月i b m 公司在北京推 出中文连续语音识别产品v i a v o i c e 。据统计数据,语音识别应用软件连续几 年在全球范围内取得6 0 的增长率,同期的销售额也达到2 5 的平均幅度。 据市场调查报告,美国未来四年内,以语音识别产品的代替个人电脑的市场年 增长率达5 0 。 无庸置疑,有巨大市场前景的语音识别技术再一次给我们带来了机遇和挑 战。不断涌现和日新月异的新产品将证明,语音识别产品将是继电话、计算机、 i n t e r n e t 之后,信息产业的又一次革命。 在我国,语音技术的研究起步较晚,早期投入的研究单位和人员比较少, 早在“十五”期间,由清华大学和中科院声学所就对语言输入和语言识别进行 了研究。并取得了一定的成绩。8 0 年代中期,清华大学,中科院声学所、自 动化所、北京大学、哈尔滨工业大学、北方交通大学等十余家单位,结合 汉语语言学和语言学的特点,开始了汉语语言系统的数学模型和算法的基础理 论研究,并为实用系统的开发作了大量的工作,取得了一定的成绩,但距产品 市场化程度还较远。近几年来,由于中国在国际市场上的国际地位与日俱增汉 语识别越来越受到重视,国外i b m ,d r a g o n ,p h i l i p s ,m o t o r o l a ,a p p l e ,i n t e r 等公司都相继投入到汉语语音识识别系统的开发中,我国在该领域的研究亦受 到国家的高度重视,得到了国家8 6 3 资助,使研究工作正跟踪先进国家的动态, 缩短与先进国家技术水平的距离,研究单位已超过了几十个,研究水平由最初 的十个数字识别发展到特定人连续语音识别,台湾的一些学术机构在汉语语音 识别方面也作了大量的研究及实用化的工作。 第6 页 国防科学技术大学研究生院学位论文 2 2 语音识别技术的分类 2 2 1 语音识别的研究分类 语音识别的目的从根本上来说,就是使计算机能“听”懂自然语音。 识别的基本过程一般分两步:第一步建立标准语音库( 语音摸板) ,也称 模型训练;第二步将输入的语音信号经过处理后与语音摸板匹配,称为识别。 建立语音摸板的方法是根据语音识别系统的设计要求选择一种识别方法,然后 从输入的语音信号中提取这种识别方法要求的语音特征参数,将这些特征参数 储存起来,就形成语音摸板。第二步识别过程包括失真估计、识别决策和专家 知识运用等三部分。 不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术 相似。一个典型的语音识别系统的实现过程如图2 2 - 1 图2 2 1 语音识别系统框图 果 语音识别系统的分类方式及依据如下: 根据对说话人说话方式的要求,可分为孤立词语音识别系统和连续语音 识别系统 根据说话人的依赖程度,可分为特定人语音识别系统和非特定人语音识 别系统 根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量及无限词 汇量语音识别系统 归纳起来,主要分为以下三个方面 a 孤立语音和连续语音识别系统 第7 页 国防科学技术大学研究生院学位论文 在语音识别系统中,按照语音输入方式,要求说话者以单字、单词或是短 语为发音单位,发音期间必须有明显略微停顿,否则识别就会有问题。以单字 或单词为单位的识别系统,称为孤立语音识别系统。连续发语音词表中的几个 单字或单词,识别时再进行切分,最后给出连续发音的识别结果,称为连续语 音识别系统,这种识别需要用到词与词之间的联接信息。自然语音最大特点就 是连续语音,这是语音识别是最困难的课题,因此,连续语音识别系统的较复 杂。 b 大词汇量和小词汇量的语音识别系统 根据能识别词汇量的多少,来划分。一般来说,能识别词汇量小于i 0 0 的,称为小词汇量识别,大于1 0 0 的称为中等词汇量识别,大于i 0 0 0 的称为 大词汇量识别。 c 特定人和非特定人语音识别系统 特定人系统是指系统在使用前必须由用户输入大量的发音数据,对其进行 训练。这样的系统只能识别训练者的声音。非特定人系统是指系统构建成功后, 不必经使用者训练就可以识别各种发音者的语音的系统,这种系统的学习和训 练过程相当复杂。 语音识别研究的最终目标是实现大词汇量,非特定人、连续语音的识别, 这样的系统才能完全听懂、并理解人类自然语言。 根据本课题的特定情况,主要是进行小词汇量,非特定人连续语音的识别。 2 2 2 语音识别技术的构成 根据语音识别系统的实现过程( 图2 2 i ) ,语音识别技术主要包括特征提 取技术、模式匹配准则及模型训练技术三个方面。 a 特征参数提取技术 所谓特征参数提取,就是从语音信号中提取用于语音识别的有用信息。 特征提取方式需要根据语音单元的特点选取。语音识别单元有单词、音节、音 素三种,具体选哪种,由研究任务决定。 单词单元适用于中小词汇语音识别系统,不适用于大词汇系统。因为庞 大的模型库意味着繁重的模型训练任务和复杂的模型匹配算法,难以满足实时 第8 页 国防科学技术大学研究生院学位论文 性要求。 音节单元多见于汉语识别,因为汉语是单音节结构的语言,而英语等语 言是多音节,所以,对于大词汇量汉语识别系统而言,以音节为识别单元较为 合适。 音素单元多用于英语语音识别研究,因为英语是多音节语言。对于非特 定人的语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话 人的个人信息。 b 模式匹配 模式匹配是指根据一定准则,使未知模型与模型库中某一模型获得最 佳匹配。 c 模型训练技术 模型训练是指按照一定准则,从大量已知模式中提取表示该模式特征的 模型参数。 语音识别所应用的模式匹配和模型训练技术有:动态时间规整技术 ( d t w ) 、隐马尔可夫模型( h 删) 、人工神经网络( a n n ) 。 2 3 语音识别的主要方法 根据语音识别系统的要求,可选择不同的语音识别方法。经过多年的研究 探索,出现了许多的语音识别方法,其中比较成功并具有一定代表性的有:( 1 ) 模式匹配法。其主要代表是动态规划方法( d pd y n a m i cp r o g r a m i n g ) 也叫 时间弯折方法( d t w :d y n a m i ct i m ew a r p i n g ) ;( 2 ) 统计概率模型的识别方法。 其主要代表是隐马尔可夫模型( h 唧:h i d d e nm a r k o vm o d e l ) ,v q h 删方法。 其中v q h 删方法成了语音识别的主导方法。( 3 ) 人工神经网络方法( n n , n e u r a ln e t w o r k ) ,是一种类似人类的独特学习处理方法。 2 3 1 基于模式匹配的语音识别技术 模式匹配法是一种统计模式识别法。它是将未知语音( 训练语音) 的特征 参数与标准语音特征参数一一进行比较,再根据模式匹配准则即失真测度最小 的原则来判断匹配结果。当识别判断失败时,可运用专家知识作出判决。 第9 页 国防科学技术大学研究生院学位论文 性要求。 音节单元多见于汉语识别,因为汉语是单音节结构的语言,而英语等语 言是多音节,所以,对于大词汇量汉语识别系统而言,以音节为识别单元较为 合适。 音素单元多用于英语语音识别研究,因为英语是多音节语言。对于非特 定人的语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话 人的个人信息。 b 模式匹配 模式匹配是指根据一定准则,使未知模型与模型库中某一模型获得最 佳匹配。 c 模型训练技术 模型训练是指按照一定准则,从大量已知模式中提取表示该模式特征的 模型参数。 语音识别所应用的模式匹配和模型训练技术有:动态时间规整技术 ( d t w ) 、隐马尔可夫模型( h 删) 、人工神经网络( a n n ) 。 2 3 语音识别的主要方法 根据语音识别系统的要求,可选择不同的语音识别方法。经过多年的研究 探索,出现了许多的语音识别方法,其中比较成功并具有一定代表性的有:( 1 ) 模式匹配法。其主要代表是动态规划方法( d pd y n a m i cp r o g r a m i n g ) 也叫 时间弯折方法( d t w :d y n a m i ct i m ew a r p i n g ) ;( 2 ) 统计概率模型的识别方法。 其主要代表是隐马尔可夫模型( h 唧:h i d d e nm a r k o vm o d e l ) ,v q h 删方法。 其中v q h 删方法成了语音识别的主导方法。( 3 ) 人工神经网络方法( n n , n e u r a ln e t w o r k ) ,是一种类似人类的独特学习处理方法。 2 3 1 基于模式匹配的语音识别技术 模式匹配法是一种统计模式识别法。它是将未知语音( 训练语音) 的特征 参数与标准语音特征参数一一进行比较,再根据模式匹配准则即失真测度最小 的原则来判断匹配结果。当识别判断失败时,可运用专家知识作出判决。 第9 页 国防科学技术大学研究生院学位论文 识别的基本过程一般分为两步:第一步,建立标准语音库( 标准语音模板) , 系统首先建立有若- y - j l l 练语句的标准语音数据库,供训练者使用的,此过程也 称为训练;第二步,将输入的语言信号( 训练语音信号) 经过处理后与标准语 音模板匹配,此过程也称为识别。 2 3 1 1 识别系统的构成 模式匹配的整个训练和识别过程如图2 3 1 所示 图2 3 1 模式匹配识别系统的构成 语音信号输入 语音是以声波的形式传播的,它在时间上和幅度上都是连续的。要使用计 算机进行语音信号的处理、识别,第一步就要使语音信号能在计算机内表示出 来,需要采样。语音采样,使连续的模拟声波信号变成离散的数字信号,存入 计算机。采样用到的硬件设备是话筒,再加上a d c 。由于语言信号的频率成份 一般在5 k h z 以下,有的也可达7 5 k h z 甚至更高的频率,所以语音采样率一般 取i o k h z 一2 0 k h z 之间。另外,无论是识别单字还是识别连续字都必须进行语 音分段,即语音端点检测。对采样后的语音信号要进行语音起止点判定,确定 真正的语音信号的有效起始和终止点,以便为特征参数的提取作好准备。起点、 终点的判定正确与否,较大地影响着语音识别。 预处理 主要作用去噪声,除去掺杂在语音信号中的噪声信号。即采用反混叠带通 滤波器去噪;和进行高频提升,提高高频信号的作用。 特征参数的提取 经过语音采样,语音信号在计算机内的表示是一个数字序列。如何从中提 第l o 页 国防科学技术大学研究生院学位论文 取对语音识别有用的信息呢? 特征提取就是完成这项工作,通过对此序列信号 进行分析处理、去除对语音识别无关紧要的冗余信息,获取重要的特征参数信 息,用它来表征语音信号。求取特征参数的基本过程如图2 3 2 图2 3 2 求取特征参数的基本过程 语音输入信号经分段、预处理后,可采用线性预测编码( l p c ) 法提取模 型特征参数:采用语音信号数字处理中的短时分析技术提取时域特征参数。 标准模板 对标准语音库中的训练语句进行特征提取后,将特征值存储在计算机中的 模式模板库中,形成标准模板,作为识别标准。 模式匹配 训练语音信号进行采样预处理,特征值提取后,将特征值存储在计算机中 的模式模板库中,形成训练模板。通过模式匹配算法将训练模板与标准模板进 行匹配,计算二者之间“失真度”的大小,以判别两者的相似程度。 模式匹配算法有d p 或d t w 匹配法。动态规划d p ,是一种数学的规划方法, 用来解决一些具有顺序性质的优化问题。由于语音信号或语音音素在时间轴上 的顺序性质,d p 法能够比较好地解决不同长度的语音序列的非线性匹配问题。 由于各种因素的影响,如环境、情绪、健康状态,不同的人发音时的轻重缓急 不相同,即使是同一个人的两次发音,其语音序列的长度也不会相等,那么如 何进行不同长度语音序列的匹配计算呢? 采用d p 法或d t w 方法。 识别决策 经过d p 法匹配后,训练语音信号与标准语音信号是否匹配,即标准语库 中的某一标准语句语音特征与训练语音信号特征是否相似,若相似度高,说明 训练者的发音与标准语句一致,否则说明训练者发音与标准语句不一致。由识 别决策来判断。通过识别决策,最后输出识别结果。 第l l 页 国防科学技术大学研究生院学位论文 2 3 2 采用隐马尔可夫模型h m m 的语音识别技术 隐马尔可夫模型( h m m ) 是采用概率统计的方法来描述时变信号。与模式 匹配算法方法不同的是,删不是以训练语音序列与标准语音序列之间的距 离,度量来进行语音识别的。而是通过计算语音序列是某个语言模型产生的概 率大小来进行语音识别的。在舢方法中,语音序列被看作是一种叫m a r k o v 随机过程的输出。如果描述了这个m a r k o v 随机过程的参数,也就描述了这个 m a r k o v 随机过程所对应的语音序列。这种用m a r k o v 随机过程对语音序列进行 建模从而进行语音识别的方法称为h 州方法。 一个h 删模型由若干个状态组成,状态之间由状态转移概率联接着,每个 h 州模型都具有二个概率:一个是状态转移概率( 它决定了一个状态转移到另 一个状态的概率) :另一个是输出概率( 它决定当处于一个状态时输出一个值 或符号的概率) 。 一个h 删模型包括以下三部分: 状态的集合fs 状态转移概率矩阵( a 。,) ,a 。表示从状态s 。转移到状态s j 的概率。 输出概率矩阵( b ,( k ) ) ,b ,( k ) 表示当处于状态s ,时,输出符号k 的概率。 h 捌方法用于语音识别的结构框图如图2 3 3 图2 3 3 语音识别的结构框图 训练过程和识别过程主要采用向前向后概率算法。 2 3 3 采用神经网络n n 的语音识别技术 神经网络用于语音识别是近年来重新兴起的一个研究热点,与传统的语音 识别方法相比,是一种全新研究思想。由于神经网络的结构特性具有模拟人脑 听觉机能的特点,从而使神经网络具有完成复杂模式识别的能力,为很好地解 第1 2 页 国防科学技术大学研究生院学位论文 决语音识别这样一个复杂模式分类问题提供了新的途径。 采用神经网络的语音识别与传统的语音识别是有区别的。传统的模式匹配 法、h m m 法,在对语音信号作过处理之后,通过特征参数的提取及模式匹配完 成。而神经网络的语音识别方法在提取了语音特征参数之后,不是输入模式与 标准模式的比较匹配,而是靠神经网络中大量的连接权对输入模式进行非线性 计算,产生最大兴奋的输出点就代表了输入模式对应的分类。 2 3 3 1 神经网络识别系统的构成 采用人工神经网络技术进行语音识别其过程包含两部分如图2 3 4 :一是 网络学习过程,二是语音识别过程。网络学习过程是将已知语音学习信号作为 学习样本,通过神经网络的自学习,最终得到一组连接权和偏置;语音识别过 程是将待测语音信号作为网络输入,通过网络的联想得出识别结果。这两个过 程的关键是求取语音特征参数和神经网络学习。 特器霉音h 语音分段信号i7 l “ 特征参数 求取神篓骂络h 辩识结果学习广1 ”“”5 图2 3 舀中经网络识别系统的构成 神经网络的自学习原理基于人工神经网络模型,如图2 3 5 是一个三层b p 网络的结构图。 输入层输入n 一1 个输入向量,隐层有1 1 2 个神经元,最后输出层有m 个神 经元。输入层与隐层之间,隐层与输出层之间都有各自的连接权和阈值。其学 习的目的是得到各神经元之间的连接权和阈值,使其映射获得成功。 b p 算法的学习过程由正向传播和反向传播两部分组成。在正向传播过程 中,输入样本从输入层经隐层处理并传向输出层,每一层神经元状态只影响下 一层神经元状态,如果在输出层得不到期望得输出,则转向反向传播。此时, 第1 3 页 国防科学技术大学研究生院学位论文 误差信号从输出层向输入层传播,并沿途调整各层间连接权值以及各层神经元 的偏差值,以使误差信号不断减小。最终收敛于最小点。 隐层 0 l n 图2 3 5 三层神经网络结构 以上介绍了3 种语音识别的方法,这些方法各有其优缺点: d t w 法的优点是保留了语音序列的时序信息,识别算法简单又有效。但是 d p 法计算量比较大,不能进行动态训练,即不能用多次的发音来训练一个语 音样本,只能采用多套样本,一般用于中小字表,特定人,孤立词的语音识别 系统上。 h 删方法的特点:便于建立各种层次的语音识别基元( 音素、音划、字、 词组和句子) 的语音模型,容易综合各种不同性质的参数信息( 声道参数、基 因周期、语法、语义、语音模型等) 适用于非特定人,大字表、连续语音的识 别。但是,不足之处是:建模本身就存在不完善的地方;需要大量的训练数据; 计算量、存储量大,对于语音信号的时序反映能力较低。 从发表的文献看,神经网络技术在语音识别中主要用来完成分类工作,且 多半时用于小字表的分类识别,对于复杂的识别问题( 例如大字表、非特定人、 噪声环境等) ,神经网络方法还普遍存在收敛缓慢、局部最优、和推广能力差 的缺点,而在端点检测、非线性特征参数提取和预处理方面,其效果和模式匹 配法类似。 根据本课题的任务要求,作者主要研究了采用“模式匹配法”进行语音识 别的方法。 第1 4 页 国防科学技术大学研究生院学位论文 2 3 本章小结 本章主要介绍语音识别的基本原理和识别方法。介绍了基于模式匹配的 语音识别技术、采用隐马尔可夫模型h 删的语音识别技术、采用神经网络n n 的语音识别技术,以及基于以上三种识别方法的语音识别系统的构成,并比较 了它们的优、缺点。这些内容为开展课题研究打下了必要的基础。 第1 5 页 国防科学技术大学研究生院学位论文 第三章课题研究方案与理论分析 本章主要介绍课题研究所采用的方案、对语音识别过程及主要方法进行 了全面的理论分析。 3 1 总体方案设计 3 1 1 硬件构成方案 本课题作为实现语音识别的方法,选择模式匹配法。其硬件构成方案如 图3 1 1 所示: 图3 1 1 硬件构成图 训练语音通过语音拾音器1 ,经预处理、数据采集后变成离散数字信 号进入计算机。根据语音识别算法提取特征值并存储后,形成训练语音 模板:同理,形成标准语音模板。两模板进行动态匹配后,输出识别结 果。音拾音器即为话筒,数据采集板为声卡。 3 1 2 软件流程 根据模式匹配法的基本原理,首先要建立标准模板,训练模板,由 识别方案可知建立过程如下:训练语音、标准语音通过拾音器1 、拾音器 2 ,经去噪预处理,数据采集后,转变成离散数字信号,进入计算机,计 算机对离散语音信号进行如下计算处理:端点检测分帧;提取特征值并存 储,形成训练模板、标准模板:建立两模板之后,对其进行模式匹配:由 识别决策作出判断,最后输出识别结果。识别算法软件流程图如图3 1 2 所示: 第1 6 页 国防科学技术大学研究生院学位论文 第三章课题研究方案与理论分析 本章主要介绍课题研究所采用的方案、对语音识别过程及主要方法进行 了全面的理论分析。 3 1 总体方案设计 3 1 1 硬件构成方案 本课题作为实现语音识别的方法,选择模式匹配法。其硬件构成方案如 图3 1 1 所示: 图3 1 1 硬件构成图 训练语音通过语音拾音器1 ,经预处理、数据采集后变成离散数字信 号进入计算机。根据语音识别算法提取特征值并存储后,形成训练语音 模板:同理,形成标准语音模板。两模板进行动态匹配后,输出识别结 果。音拾音器即为话筒,数据采集板为声卡。 3 1 2 软件流程 根据模式匹配法的基本原理,首先要建立标准模板
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物业签订劳动合同范本
- 物业股份收购合同范本
- 物业过户物业合同范本
- 冀人版 (2017)六年级下册第一单元 昼夜和四季第1课 昼夜的形成教案
- 灯笼采购安装合同范本
- 物业公司分红合同范本
- 潜江废油收购合同范本
- 运输车队采购合同范本
- 灯具买卖合同协议模板
- 网架生产出售合同范本
- 2025下半年四川乐山市井研县国有企业招聘15人考试笔试备考题库及答案解析
- 2025年电子商务行业社交化购物与智能客服研究报告及未来发展趋势预测
- 2025-2026新苏教版小学1一年级数学上册(全册)测试卷(附答案)
- 安徽省皖东县中联盟2025-2026学年高二上数学期末综合测试试题含解析
- 2025中国智能交通行业市场趋势分析及未来发展预测报告
- 电力需求侧管理-洞察与解读
- 2025年山东省济南市中考数学真题
- 2025年跨境电商税务合规服务合同协议(2025年)
- 2025年(完整)护理三基知识考试必考题库及答案
- 中小学实验教学基本目录(2023 年版)
- 无人机制造工厂建设施工方案
评论
0/150
提交评论