已阅读5页,还剩68页未读, 继续免费阅读
(计算机软件与理论专业论文)自动语音应答系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学颂扣学位论文 摘要 摘要 自动语音应答系统是呼叫中心平台中非常重要的一个组成部分。浚系统采 用语音卡技术,自动对用户的电话进行应答,并根据用户的选择和指令进行相应 的操作,并把结果通过语音播放给用户。自动语音应答系统就象一个不知疲倦的 机器人,为用户提供7 * 2 4 小时的服务,用来完成各种复杂的、重复的劳动,减 轻呼叫中心人员的工作量,提高工作效率。自动语音应答系统的技术发展趋势是 采用语音合成技术、语音识别技术、v o i c e x m l 技术、w w w 技术等等,进一步 提高软件的智能和易用性,并且适应新的通讯技术的发展趋势。 本论文介绍了自动语音应答系统的技术路线和系统结构。在这个系统的开 发过程中,我主要负责系统结构设计和主要的技术路线,在此之前,我研究了解 国内外相关技术的发展、参考了国外的类似软件的功能,提出了自己的设计思路 和系统结构。主要的技术路线包括:1 ) 采用工作流技术:2 ) 采用多线程技术; 3 ) 采用了异步处理方式;4 ) 采用分布式组件技术。在系统功能设计方面,我们 初步实现了:1 ) 语音卡操作;2 ) 传真组件;3 ) 通讯组件;4 ) 数据库组件:5 ) 电子邮件组件;6 ) c t i 组件;7 ) 文件操作组件等。 本文还特别介绍了在本系统中非常重要的两个接口:流程定义接口和组件 调用接口。这两个接口在系统中非常关键,流程定义接口是在进行流程定义的时 候,根据不同的组件,调用不同的定义界面,这样就可以实现各个组件的特殊参 数设置;组件调用接口是在系统运行的时候调用,我决定采用的微软的d c o m 技术,当流程运行到一个特殊的节点的时候,根据用户的定义。就可以调用特殊 的组件来服务。有了这两个接口,自动语音应答系统就具有非常好的可扩充性, 当用户有特殊要求的时候,只需要根据这两个接口开发出新的组件,就可以立即 把它们应用到流程中去,而不需要对系统本身作任何修改。 本文还简单地介绍了我设计的一个系统组件的通用模型,有了这个模型, 其它用户要在本系统中增加新的功能就更加方便了。因为这个通用的模型解决了 很多通用的问题如系统接口、任务管理、队列管理、线程池管理等等。 【关键词】c t i 语音识别语音合成 作流自动语音应答呼叫中心 东北大学坝l 学位论文 a b s t r a c t a b s t r a c t w r sm e a n si n t e l l i g e n tv o i c er e s p o n s es y s t e m ,i ti st h ev e r yi m p o r t a n tp a r to f c a l lc e n t e rp l a t f o r m i v r su s e sv o i c ec a r dt e c h n o l o g y , a u t o n m t i c a l l ya n s w e r st h e p h o n e c a l lo f y o u rc u s t o m e r , a n d e x e c u t e s p e c i a lo p e r a t i o na c c o r d i n g a st h e c u s t o m e r sc o m m a n d ,t h e np l a y st h er e s u l tt ot h ec u s t o m e r i v r sw o r k sl i k e a n i n e x h a u s t i b l er o b o t ,p r o v i d e s7 4 2 4s e r v i c et oy o u rc u s t o m e r , c o m p l e t ev e r yc o m p l e x a n d r e p e a t e dt a s k s ,s ot oi m p r o v ey o u rc o m p a n y se f f i c i e n c y i nf u t u r e ,i v r s w i l lu s e t t s ( t e x t t o s p e e c h ) a s p ( a u t o m a t i cs p e e c hr e c o g n i s e ) ,v o i c e x m l ,w w w t e c h n o l o g y ,e t c s o t h es y s t e mw i l lb ev e r y e a s y t ou s e i nt h i s t h e s i s ,ii n t r o d u c e d t h ea r c h i t e c t u r ea n dd e s i g no fo u ri v r s ,t h a t d e v e l o p e db yo u r s e l f b e f o r ed e v e l o p m e n tt h i ss y s t e m ,w er e s e a r c h e dt h er e l a t i v e t e c h n o l o g ya n d o t h e ri v r s ,s ow ed e c i d e dw h a t t e c h n o l o g yw e w i l lu s ei nt h es y s t e m t h e ya r e ;1 ) w o r k f l o wt e c h n o l o g y , 2 ) m u l t it h r e a dt e c h n o l o g y , 3 ) a s y n c h r o n i s m t e c h n o l o g y ,4 ) d i s t r i b u t e dc o m p o n e n tt e c h n o l o g y f o r t h ef u n c t i o n so ft h es y s t e m ,w e p r o v i d e :1 ) v o i c eo p e r a t i o n ,2 ) f a xc o m p o n e n t s ,3 ) c o m m u n i c a t i o nc o m p o n e n t s ,4 ) d a t a b a s ec o m p o n e n t s ,5 ) e m a i lc o m p o n e n t s ,6 ) c t ic o m p o n e n t s ,7 ) f i l eo p e r a t i o n i nt h i s t h e s i s ,w ea l s o i n t r o d u c e dt w ov e r yi m p o r t a n ti n t e r f a c e s ,t h e y a l e w o r k f l o wd e f i n ei n t e r f a c ea n dc o m p o n e n ti n t e r f a c e t h i st w oi n t r e f a c e sa l ec o m e f r o mw o r k f l o wt e c h n o l o g y , i t sv e r yi m p o r t a n tf o rt h ed e s i g no f t h es y s t e m b e c a u s e o ft h i st w oi n t e r f a c e s ,w ec a na d dn e w c o m p o n e n t t ot h es y s t e mv e r ye a s i l y , a n dw e d o n tn e e dt oc h a n gt h es o u r c ec o d eo ft h es y s t e m s ot h es y s t e mh a sv e r yg o o d e x p a n s i b i l i t y w ea l s oi n t r o d u c e d 锄c o m m o nm o d e lo ft h ec o m p o n e n ts e r v e r w h e nu s et h i s c o m m o nm o d e l w ec a na d dn e w c o m p o n e n t t ot h es y s t e mv e r ye a s i l y b e c a u s et h i s c o m n m nm o d e lp r o v i d e si n t e r f a c ei m p l e m e n t a t i o n ,t a s km a n a g e m e n t ,m u l t i - t h r e a d p o o l ,e t c k e yw o r d s c t i a s rw o r k f l o wi v rc a l l c e n m r i i 声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标志和致谢的地方外,不包含其他人已经发表或 撰写过的研究成果,也不包括本人使用过的其它材料。与我一同工作 的同志对本研究所作的任何贡献均已在论文中作了明确的说明并表 示致谢。 本人签名: 日期: 东北大学硕十学位论文第1 章绪论 第1 章绪论 1 1 自动语音应答系统开发背景 随着改革开放的深入和社会经济的发展、随着中国经济和全球经济的接轨、随着中 国加入世界贸易组织脚步的临近,国内的企业越来越面临着来自世界范围的激烈的竞 争。因此采用新的技术和手段来提高工作效率、提高企业竞争能力、提高服务质量,成 为企业迎接挑战的非常重要的手段。 c t i ( 计算机电话集成) 技术正是这样一种技术,它集成了计算机技术、通讯技术 和电话技术,使电话网与计算机网无缝地结合在一起,对语音流和数据流进行统一监控 和处理。对于企业来讲,应用c t i 技术,为客户提供优质,方便,可靠的服务,拓展业 务范围,提高工作效率,成为提高企业竞争能力的必然手段。 c t i 技术的应用在国外已经非常成熟,很多企业都已经建立了自己的呼叫中心系 统而且发展出一套成熟的应用和管理模型,很多的企业不仅用呼叫中心来提供服务, 而且还通过呼叫中心进行产品销售,由成本中心转型为利润中心。目前的发展趋势是走 外包式呼叫中心,也就是由独立的呼叫中心运营商来建立呼叫中心平台、培训呼叫中心 人员、呼叫中心的管理和运行维护,企业只需要租用一定的线路就可以得到呼叫中心服 务,比企业自己建立呼叫中心成本更低,而且管理更专业;另外一个技术的发展趋势是 和i n t e r n e t 技术相结合,很多企业已经开始提供w e b 呼叫中心,也就是说不走传统的 电话通讯方式,而是通过i n t e r n e t 进行通讯,如v o i p 、c h a t 、电话回叫、伴随浏览等 等。 国内的c t i 技术应用才刚丹4 起步,很多企业才。意识到呼叫中心的重要性。但由于我 国经济和文化的特殊性,国外成熟的系统在国内不一定好用,也就是说不能照办国外的 东西,而且国外的系统价格昂贵在国内的竞争优势也不是十分明显。在这样的条件下 我们决定开发自己的呼叫中心平台,自动语音应答系统是呼叫中心的一个非常重要的组 东北人学坝士学位论文第1 章绪论 成部分。 1 2 自动语音应答系统综述 1 2 1 硬件基本构成 硬件部分主要包括:电脑、电话语音卡、外线( 普通市话线路) 或内线。硬件部分 的安装过程极为简单。只要将电话语音卡插入电脑的扩展槽中,再将电话线接至电话语 音卡提供的电话插座上,即可构成电话语音查询系统的硬件部分。在电话语音卡的选择 方面,首先应选择符合国家电信标准和国际电信标准,达到原邮电部入网规范,同时动 态范围大、信噪比高、音质好的电话语音卡产品。其次应选择采用电话接口模块与语音 处理板分离结构的产品,以便可以根据实际需要灵活配置电话线数和内外线比例。电话 接口模块分用户模块( 也称内线模块) 和中继模块( 也称外线模块) 两种。其中用户模 块可以直接驱动电话,所连电话一摘机即可开始工作,常用来调试程序或放到营业大厅 供用户使用。中继模块连接市话网的电话线或小型程控交换机的用户线,本身相当于一 部电话机。 东北大学坝”t 学位论文 笫i 章绪论 图1 1 呼叫中心结构示意图 f i g u r e1 1c a l lc e n t e rs y s t e ma r c h i t e c t u r e s 一 东北人学碳 学位论文笫l 章绪论 1 2 2 软件基本构成 软件一般由操作系统、电话语音卡底层驱动软件和二次开发接口软件、电话语音查 询系统应用软件三部分构成。由于目前电话语音卡的国际标准尚未制订,因此不同生产 厂家仍需随卡提供支持各种电话语音功能( 如录音、放音、接收和发送双音频码等) 的 底层驱动软件。驱动软件与应用软件的接口一般采用软件中断调用方式( 如i r t9 f h ) , 可以直接在汇编语言或c 语言等高级语言编写的程序中调用。此外,很多生产厂家还提 供了方便用户进行二次开发的各种编程语言接口。 电话语音处理程序模块是系统中的一个关键组成部分,主要任务是负责完成( 通过 调用底层驱动软件) 每条线路的摘挂机控制、放音、录音、接收由用户按键产生的双音 频信号以及发送双音频信号等功能,并能够检测各种信号音,如占线忙音等。d t m f ( d u a l t o n em u l t if r e q u e n c y ) 双音多频( 简称双音频) 信号由c c i t t 制订并推荐作为按键式 电话的标准。目前广泛用于电话拨号。双音频信号由两种频率组合而成,每个d t m f 信 号由一个低频信号和一个高频信号组成,一共可以产生1 6 种信号,分别代表0 9 、术、 抖等。电话语音处理程序模块中信号音检测部分用于确定电话线路的状态,如拨号音、 占线忙音( 即被叫用户忙音) 、振铃音( 外线振铃或内线摘挂机) 、挂机忙音( 检测对方 是否挂机) 等。 数据处理服务器是系统中的另外一个非常重要的组成部分,主要是对各种计算机上 的数据进行操作,包括对数据库的增、删、改操作外,还必须同时对用户通过电话提出 的各种数据处理要求( 可能包括写数据库操作) 进行实时响应。 自动语音应答系统作为呼叫中心的一个组成部分,具有如下用途: 一将简单重复性的作业从人工转到降低单位业务成本的自动化服务上; 减少呼叫放弃率以及排队时间; 一通过先进的个人化服务以及快速的反应增加客户保持率: 一用相同数量或者更少的业务代表处理更多呼叫,因而提高效率: 东北人学砸l 学位论文第l 审绪论 一扩大企业的运营规模,而不增加更多的业务代表。 一可以负担重复性强、耗时而且让业务代表感觉乏味的作业 一业务代表将有更多时间、灵活性以及经验去加强顾客关系: 一支出减少,这是由于呼叫中心生产效率的增加、加强客户服务。 自动语音应答系统作为独立应用,具有如下用途: 银行:帐户查询、信用认证、电话银行、利率、汇票、帐号余额及信用卡电话 服务、支票转帐、外汇买卖、贷款与利息的自动查询与催交 保险:索赔资格认证、投保信息查询、共同赔付信息、受益人信息、i d 卡申 请、保单申请、健康咨询、险种宣传、销售策略指导、佣金查询、条款咨询、奖惩信息、 业务存档、续保咨询。 运输:航班离港到港时间查询、固定顾客信息、订票信息、智能呼叫处理、 预定机票座位确认、自动取消航线通知、货运监督、装运申请及重量确认、装运跟踪、 到货日期查询、员工司机计划表、地点查询、 证券:股票电话交易、股票信息查询、行情信息查询。 电信:特种电信服务、费用查询、姓名住址变更、营业网点查询、1 1 2 障碍台、 1 1 4 查号台、1 6 8 声讯台、各种卡类电话服务、话费查询催交、自动寻呼。 政府:举报电话、投诉电话、民意调查,完成自动应答、自动录音、自动处理 等功能。 教育:用于招生培训信息介绍、自动报名系统、成绩查询、录取通知等多种服 务。 企业:用于构成电话商场,完成商品信息查询、电话订货、电话购物等功能。 1 3 开发自动语音应答系统的价值 本课题属于公司自立项目。东软股份是一个提供全面i t 解决方案的公司,在电信、 余融、保险、电力、政府、制造等行业具有非常强的竞争能力,除了提供核心业务系统 外,也提供其他增值业务系统和服务。随着呼叫中心技术在国内的应用越来越普及,我 们也需要在这些行业提供呼叫中心解决方案,如果采用国外的呼叫中心平台,成本非常 一一 东北大学坝f j 学位论文第1 章绪论 昂贵,缺乏技术支持;另一方面,由于我们要在很多行业提供呼叫中心解决方案,也值 得我们开发自己的呼叫中心平台,掌握核心技术。 本课题的任务是: ( ”解决自动语音应答系统中涉及到的关键技术。 ( 2 ) 完成自动语音应答系统的整体设计。 ( 3 ) 组织人力完成自动语音应答系统的开发和产品化。 - - 6 - - 东北人学硕l 学位论文 第2 章相关技术研究 第2 章相关技术研究 2 1 语音合成技术n 2 3 语言合成包含着二个方面的可能性:一是机器能再生一个预先存入的语音信号,就 象普通的录音机一样,不同之处只是采用了数字存储技术。简单地将预先存入的单音或 词组拼接起来也能作到“机器开口”,但是“一字一蹦”,机器味十足,人们很难接受。 然而如果预先存入足够的语音单元,在合成时采用恰当的技术手段挑选出所需的语音单 元拼接起来,也有可能生成高自然度的语句,这就是波形拼按的语音合成方法。为了节 省存储容量,在存入机器之前还可以对语音信号先进行数据压缩。另一种可能是采用数 字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声 道谐振特性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况下的声带 振动,或者是随机噪声序列,代表不出声的清音调整滤波器的参数等效于改变口腔及 声道形状,达到控制发不同音的目的,而调整激励源脉冲序列的周期或强度,将改变合 成语音的音调、重音等因此,只要正确控制激励源和滤波器参数( 一般每隔1 0 3 0 m s 送一组) ,这个模型就能灵活地合成出各种语句来,因此又称作为参数合成的方法。根 据时变滤波器的结构形式不同,又有l p c 合成和共振峰合成器等之分。 按照人类言语功能的不同层次,语言合成也可分成三个层次,它们是:( 1 ) 从文字 到语音的合成( t e x t t o s p e e c h ) ;( 2 ) 从概念到语音的合成( c o n c e p t t o s p e e c h ) :( 3 ) 从意向到语音的合成( i n t e n t i o n t o s p e e c h ) 。这三个层次反映了人类大脑中形成说话 内容的不同过程,涉及人类大脑的高级神经活动。不难想象,即使是按规则的文字到语 音合成( 文语合成) 也已经是相当困难的任务。为了合成出高质量的语言,除了依赖于 各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的 理解这将涉及自然语言理解的问题从这一点讲,文语转换系统实际上也可看作一个 人工智能系统。文语转换过程是先将文字序列转换成音韵序列,再由语音合成器生成语 音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律 控制规则;第二步需要先进的语音合成技术能按要求实时合成出高质量的语音流。因 - 9 - 东北夫学颂卜学位论文第2 章相关技术研究 此一般晚来,文语合成系统都需要一套复杂的文字序列到音素序列的转换程序,也就是 况,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。 当然其中语音合成终究还是最基本的部分,它相当于“人工嘴巴”,任何语言合成系统 包括文语转换系统,都离不开语音合成器。 从应用需求出发,语音合成系统可分为: ( 1 ) 特定应用的语音输出系统 这种系统适合于特定场合的要求。它可以采用录音重放技术,或针对有限词汇采 用某种拼接技术,不需要语言理解。如用于航班信息发布、语音报时、汽车报站等。 ( 2 ) 文字一语音转换( t t s ) 系统 这是基于语音合成技术实现的文字到语音的转换,是通用计算机语音输出系统。它 并不只是文字到语音的简单映射,还包括了对文字的理解,以及对语音的韵律处理。t t s 系统能适应各种应用的需求,应用领域极为广泛。 从合成技术来划分,有基于规则或拼接合成两种技术: ( 1 ) 基于规则的合成 主要是计算参数的轨迹,形成规则,完成语音的参数合成。采用的参数有: 发音器官参数语音合成这种方法对人的发音过程进行直接模拟。它定义了唇、舌、 声带的相关参数,由这些发音参数估计声道截面积函数,进而计算声波。 声道模型参数语音合成它基于声道截面积函数或声道谐振特性合成语音,如共振 峰、l p c 、l s p 等参数合成器。这类合成器的b e 特率低,音质适中,易于实现韵律修改。 ( 2 ) 拼接语音合成技术 它的基本思想是存储语音的基元合成时读取基元、拼接、韵律修饰。拼接语音合 成直接把语音基元相互拼接在一起,输出连续语流。这些语音基元取自自然语音的词或 句子,它隐含了声调、重音、发音速度变化时的细微特性,合成的语音清晰自然,其质 量普遍高于规则合成,但韵律参数修改范围受限。 近年来。规则合成逐渐转向拼接合成。其原因是语音基元的存储不再受限,某些声 音如呼吸或爆破音很难由规则合成实现。特别是8 0 年代术,e m o u l i n e s 和 东北大学硕士学位论文第2 章相关技术研究 f c h a r p e n t i e r 提出了基于波形修改的语音合成算法p s o l a ,使拼接合成得到很大的发 展与广泛的应用。 基于拼接合成算法中需要解决的问题 ( 1 ) 声学基元的选择 声学基元是指拼接的基本单位。它可能是音素、双音子( d i p h o n e ) 、三音子 ( t r i p h o n e ) 、半音节( 首音、尾音) 、音节、词语、语句等。基元越小,语音数据库越 小,拼接越灵活,韵律修饰的规则就越复杂。 ( 2 ) 声学基元的样板数 对于同一个基元,由于语境不同和重音表现不同,其声学特征有很大差别。为了减 小韵律修饰的负担,可以建立多样板语音数据库。合成时,根据某种规则或模型选择最 为理想的基元。 ( 3 ) 韵律修饰 通常t t s 系统的基元平滑是必须的,其目的是改善合成语音的自然度。而韵律修饰 则反映该系统的功能。韵律修饰就是修改语音数据的声学参数,如基频、时长、音强等。 通过韵律修饰能力,进行重音、语调的模拟,实现语速、调高的变化。也有一些基于拼 接合成的系统,通过多样板的选择来体现韵律特征,不含有韵律修饰功能。这就是近年 流行的基于数据驱动方法的t t s 系统。在这种系统中,语音数据库非常大,是以尽量多 的基元样板数来满足韵律的需求,而它的基元选择算法也非常复杂。 语音合成系统基本构成 ( 1 ) 文本分析 语音合成系统首先处理的是文字,也就是它要说的内容。文本分析的主要功能是使 计算机能从这些文本中认识文字,进而知道要发什么音、怎么发音并将发音的方式告 诉计算机另外,还要让计算机知道,在文本中,哪些是词哪些是短语或句子,发音 时应该到哪里停顿及停顿多长时间等。其工作过程可以分为三个主要步骤: 将输入的文本规范化。在这个过程中。要查找拼写错误,并将文本中出现的一些不 规范或无法发音的字符过滤掉。 分析文本中词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、 衷北人学硕小学位论文 第2 章相关技术研究 特殊字符、专有词语以及各种多音字的读音方式。根据文本的结构、组成和不同位罨上 出现的标点符号,确定发音时语气的变换以及不同音的轻重方式。 传统的文本分析主要是基于规则( r u l eb a s e d ) 的实现方法。其主要思路是尽可能 地将文字中的分词规范、发音方式罗列起来,并总结出规则,依靠这些规则进行文本处 理,以获得需要的参数。具有代表性的方法有:最大匹配法、反向最大匹配法、逐词遍 历法、最佳匹配法、二次扫描法等。这些方法的优点在于结构较为简单、直观,易于实 现;缺点是需要大量的时间去总结规则,且模块性能的好坏严重依赖于设计人员的经验 以及他们的背景知识。由于这些方法能取得较好的分析效果,因此,直到目前,它们依 然被广泛使用。 但是近几年来,随着计算机领域中数据挖掘技术的发展,许多统计学方法以及人工 神经网络技术在计算机数据处理领域中获得了成功的应用,计算机从大量数据中自动提 取规律已完全可能并正在实现。在此背景下,出现了基于数据驱动( d a t ad r i v e n ) 的 文本分析方法,具有代表性的有:二元文法法( d ig r a m m a r l e t h o d ) 、三元文法法( t r i g r a m m a r m e t h o d ) 、隐马尔可夫模型法( h l m m e t h o d ) 和神经网络法 ( n e u r a l n e t w o r k m e t h o d ) 等。一些比较著名的系统,如i b m 的语音产品就采用了隐马尔 可夫模型法。这类方法的特点是,设计人员根据统计学或人工神经网络方面的知识,设 计出种可训练的模型,并用大量已经存在的数据去训练,将训练得到的模型用于文本 分析,而系统设计人员并不需要太强的语言学背景知识。对于工程技术人员来说,这类 方法无疑减轻了他们研究语言学的负担。目前,这类方法在文本分析精度上,已达到或 部分超过了基于规则系统的分析结果,且容易实现多语种的混合,因而越来越广泛地被 接受并使用。这类方法的缺点在于,尽管系统容易获得文本信息的共同特征,但忽略了 一些个性,而往往这些个别因素对最终的发音方式影响很大。因此,有些系统采取了两 类方法相结合的方式。 ( 2 ) 韵律生成 任何人说话都有韵律特征,比如在汉语中,音节有不同的声调、语气和停顿方式, 发音长短也各不相同,这些都属于韵律特征。韵律参数则包括了能影响这些特征的声学 东北人学砸卜学位论文第2 章相关技术w f 究 参数,如基频、时长、音强等。 文本分析的结果只是告诉了计算机发什么音,以及以什么方式发音,这种发音方式 还只是抽象的。而要发音的声调是二声还是三声,是重读还是轻读,到哪里停顿,等等, 这些最终系统用来进行声信号合成的具体韵律参数还要依靠韵律生成模块。与文本分析 的实现方法相类似,韵律的生成方法也分为基于规则和数据驱动两种方法。 早期的韵律生成方法均采用基于规则的方法。这种方法要求研究人员有大量的音韵 学背景知识,需要对在各种特定的情况下,如声音在句子中的不同位置、不同声调及句 子的不同语气甚至是不同的词性下,对基频、时长和音强等各个声学参数变化的详细情 况加以总结、归纳。由于各个语种的韵律特征不同,因此,针对不同的语种,必须找出 与该语种相关联的韵律特征。目前,基于规则的方法仍然被认作是行之有效的方法,大 部分汉语语音合成系统依然采用这种方法。虽然经过研究者的努力,这种方法能达到较 好的韵律生成效果,但它也受到很多限制。如前所述,基于规则的方法要求系统设计人 员花费大量的时间和精力去研究不同语种普遍存在的韵律特征,而这是一个非常耗时的 工作,且由于规则的复杂性,其生成语音的自然度也受到较多的限制,也就限制了它的 一些性能。另外,基于规则的系统方法往往只追求发音的自然,而掩盖了人的个性。如 让系统模拟某一特定人的发音,就显得无力,除非是针对专人设计的一些专用模型。 目前,通过神经网络或统计驱动的方法进行韵律生成已获得成功的应用。s i e m e n s 和m o t o r o l a 公司均采用或试验了此技术。在国内,清华大学计算机系在这方面也进行 了大量的研究,其研究成果已接近实用阶段。其实现步骤是:首先设计或收集一个包含 大量语音和文本信息的数据,然后建立一个训练模型,并用从数据库中提取出的韵律参 数对模型进行训练,通过训练而得到最终的韵律模型。这种模型的优点在于:在保持甚 至增强了系统的韵律生成能力的同时,极大地改善了整个语音合成系统的灵活性,便于 模拟某一特定人的韵律特征,且为在同一个语音合成系统中整合多语种创造了条件。事 实上有关研究人员f 在尝试使用这一方法将汉语和其他西方语言整合到一套系统上。 ( 3 ) 语音生成 东北人学磺f j 学位论文 第2 帝相关挫术研究 系统知道了要说什么并掌握了韵律控制参数后,它是如何使计算机发声的呢? 系统 产生的合成语音是通过一个声学模块来具体实现的。早期语音合成系统的声学模型多是 通过模拟人的口腔的声道特性来产生的。其中比较著名的有k l a t t 的共振峰( f o r m a n t ) 合成系统,后来又产生了基于l p c 、l s p 和l h a 等声学参数的合成系统,这些都可以归 结为参数合成系统。使用这些方法建立声学模型的过程是:首先录制声音,这些声音涵 盖了人发音过程中所有可能出现的读音;然后,提取出这些声音的声学参数,并整合成 一个完整的音库。在发音过程中,首先根据发音需要从音库中选择合适的声学参数,然 后根据从韵律模型中得到的韵律参数,通过合成算法产生语音。参数合成方法的优点是 其音库般较小,并且整个系统能适应的韵律特征的范围较宽,但其合成语音的音质却 往往受到一定的限制。 近i o 年来,采用波形拼接( p s o l a ) 合成语音的方法越来越被广泛应用。这种方法的 核心思想是直接对存储于音库的语音运用p s o l a 算法进行拼接,从而整合成完整的语音。 有别于传统概念中只是将不同的语音单元进行简单拼接,该系统首先要在大量语音库 中,选择最合适的语音单元用于拼接,并且在选音过程中往往采用多种复杂的技术,包 括多项统计学上的技术或神经网络技术,最后在拼接时,使用p s o l a 算法,对其合成语 音的韵律特征进行修改,而使合成的语音达到了很高的音质。如日本a t r 推出的多语种 语音合成系统,就采用了统计学上的隐马尔可夫模型来进行选音。其他的一些主要语音 产品,如s i e m e n s 的p a p a g e n o 系统,也采用了类似或相关的技术。 但基于波形拼接方法的系统仍存在一些问题,即它的音库往往非常庞大,需要占据 较大的存储空问。这对将系统推广到掌上型电脑或一些小的终端设备上非常不利。另外, 在拼接时,两个相邻的声音单元之间谱的不连续,也容易造成合成音质的下降。目前, 解决这些问题较好的途径是将其与参数合成方法相结合。在此基础上又诞生了些新的 模型,如基音同步的s i n u s o i d a l 模型等,这些对进一步改善系统的性能提供了帮助。 但目前这些工作还基本处于研究或实验室阶段。 计算机语音合成技术经过近1 0 年的飞速发展,从传统的规则合成技术发展到现在 的基于大语料和数据驱动的技术系统也从单一语种发展到多语种,而且越来越灵活 一1 4 东北人学顶l 学位论文第2 章相关控术研究 进一步提高合成语音的自然程度,依然是研究工作者的主要目标之一。目前,其他计算 机领域的研究发展,如数据挖掘技术、自然语言理解技术、信号处理技术等,正不断地 向语音合成领域加速渗透,并极大地推动着语音合成系统朝着像人一样自然流畅地说 话、学习并自动模拟的方向发展。 2 。2 语音识别技术n 2 3 语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别 的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域, 甚至还涉及到人的体态语言( 如人在说话时的表情、手势等行为动作可帮助对方理解) , 其最终目标是实现人与机器进行自然语言通信。 语音识别主要技术 语音识别技术主要包括特征提取技术、模式匹配准则及模型训i 练技术三个方面。此 外,还涉及到语音识别单元的选取。 ( 1 ) 语音识别单元的选取 选择议别单元是语音识别研究的第一步。语音识别单元有单词( 句) 、音节和音素 三种,具体选择哪一种,由具体的研究任务决定。单词( 白) 单元广泛应用于中小词汇 语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模 型匹配算法复杂,难以满足实时性要求。 音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音 节,并且汉语虽然有大约1 3 0 0 个音节,但若不考虑声调,约有4 0 8 个无调音节,数量 相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是 可行的。音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识 别系统也在越来越多地采用。原因在于汉语音节仅由声母( 包括零声母有2 2 个) 和韵 母( 共有2 8 个) 构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母 的不同而构成细化声母,这样虽然增加了模型数目但提高了易混淆音节的区分能力。 东北火学硕卜学位论文 第2 章相关技术研究 由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。 ( 2 ) 特征参数提取技术 语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢? 特征提 取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信 息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能 多的反映语义信息,尽量减少说话人的个人信息( 对特定人语音识别来讲,则相反) 。 从信息论角度讲,这是信息压缩的过程。 线性预测( l p ) 分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系 统都采用基于l p 技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类 听觉系统对语音的处理特点。m e l 参数和基于感知线性预测( p l p ) 分析提取的感知线性 预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一 些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高也有研究者尝 试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。 ( 3 ) 模式匹配及模型训练技术 模型训练是指按照定的准则,从大量已知模式中获取表征该模式本质特征的模型 参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹 配。语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术( d t w ) 、隐马 尔可夫模型( h m m ) 和人工神经元网络( a n n ) 。d t w 是较早的一种模式匹配和模型训练技 术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在 孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目 前已被h 删模型和a n n 替代。 i i m i h 模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描 述信号的统计特性,其中一个是隐蔽的( 不可观测的) 具有有限状态的m a r k o r 链另 一个是与i d a r k o r 链的每一状态相关联的观察矢量的随机过程( 可观测的) 。隐蔽m a r k o r 链的特征要靠可观测到的信号特征揭示这样,语音等时变信号某一段的特征就由对应 东北人学硕十学位论文第2 章相关技术研究 状态观察符号的随机过程描述,而信号随时间的变化由隐蔽m a r k o r 链的转移概率描述。 模型参数包括h m m 拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。 按照随机函数的特点,h m m 模型可分为离散隐马尔可夫模型( 采用离散概率密度函数, 简称d h m m ) 和连续隐马尔可夫模型( 采用连续概率密度函数,简称c h m m ) 以及半连续 隐马尔可夫模型( s c h m m ,集d h m m 和c h m m 特点) 。一般来讲,在训练数据足够的,c h m m 优于d h m m 和s c h m m 。 h m m 模型的训练和识别都已研究出有效的算法,并不断被完善,以增强h m m 模型的 鲁棒性。人工神经元网络在语音识别中的应用是现在研究的又一热点。a n n 本质上是一 个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、 推理和概括能力。这些能力是h m m 模型不具备的,但a n n 又不个有h m m 模型的动态时间 归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型 的鲁棒性。 语音识别的困难 目前,研究工作进展缓慢,主要表现在理论上一直没有突破。虽然各种新的修j 下方 法不断涌现,但其普遍适用性都值得商榷。具体来讲,困难主要表现在: 语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集 到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是 对用户的错误输入不能正确响应,使用不方便。 高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高, 语速变慢,音调及共振峰变化等等,这就是所谓l o m b a r d 效应,必须寻找新的信号分析 处理方法。 语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、 建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语 音识别中是非常重要的。 我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等 分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别还有一个艰难的过 程。 东北人学碳卜学位论立 第2 章柙关技术 i f 究 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解 决,识别速度、拒识问题以及关键词( 旬) 检测技术( 即从连续语音中去除诸如“啊”、 “唉”等语音,获得真正待识别的语音部分) 等等技术细节要解决。 为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练,基于最大互 信息准则( m m i ) 和最小区别信息准则( m d i ) 的区别训练和“矫正”训练;应用人耳对 语音信号的处理特点,分析提取特征参数,应用人工神经元网络所有这些努力都取 得了一定成绩。 今天,许多用户已经能享受到语音技术的优势了,可以对计算机发送命令,或者要 求计算机记录下用户所说的话,以及将文本转换成声音朗读出来。尽管如此,距离真正 的人机自由交流的前景似乎还远。目前,计算机还需要对用户作大量训练才能识别用户 的语音。并且,识别率也并不总是尽如人意。换言之,语音识别技术还有一段路需要走, 要做到真正成功的商业化,它还必须在很多方面取得突破性进展,这实际就是其技术的 未来走向。 语音识别技术发展方向 ( 1 ) 就算法模型方面而言,需要有进一步的突破。目前能看出它的一些明显不足, 尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型f 是听写识 别的基础,这方面没有突破,语音识别的进展就只能是一句空话。目前使用的语言模型 只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人 类的语言,就必须在这一点上取得进展,这是一个相当艰苦的工作。此外,随着硬件资 源的不断发展,一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改 进。可以相信。半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。 ( 2 ) 就自适应方面而言,语音识别技术也有待进一步改进。目前,象i b m 的v i a v o i c e 和a s i a w o r k s 的s p k 都需要用户在使用前进行几百句话的训练,以让计算机适应你的声 音特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦, 而且加大了系统的负担。并且,不能指望将来的消费电子应用产品也针对单个消费者进 一l $ - - 东北大学坝 “学位论文第2 章相关技术研究 行训练。因此,必须在自适应方面有进一步的提高,做到不受特定人、口音或者方言的 影响,这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的, 就声音特征来讲有男音、女音和童音的区别,此外,许多人的发音离标准发音差距甚远, 这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征, 那可能比提高一二个百分点识别率更重要。事实上,v i a v o i c e 的应用前景也因为这点 打了折扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满 意的成绩。 ( 3 ) 就强健性方面而言,语音识别技术需要能排除各种环境因素的影响。耳前,对 语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机 能听懂你的话,来自四面八方的声音让它茫然而不知所措。很显然这极大地限制了语音 技术的应用范围,目前,要在噌杂环境中使用语音识别技术必须有特殊的抗嗓 ( n o i s e c a n c e l l a t i o n ) 麦克风才能进行,这对多数用户来说是不现实的。在公共场合中, 个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术 也能达成这一点呢? 这的确是一个艰巨的任务。 此外,带宽问题也可能影响语音的有效传送,在速率低于1 0 0 0 比特秒的极低比特 率下,语音编码的研究将大大有别于正常情况,比如要在某些带宽特别窄的信道上传输 语音,以及水声通信、地下通信、战略及保密话音通信等,要在这些情况下实现有效的 语音识别,就必须处理声音信号的特殊特征,如因为带宽而延迟或减损等。语音识别技 术要进一步应用,就必须在强健性方面有大的突破。 ( 4 ) 多语言混合识别以及无限词汇识别方面:简单地说,目前使用的声学模型和语 音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。如果突然从中文 转为英文,或者法文、俄文,计算机就会不知如何反应,丽给出一堆不知所云的句子: 或者用户偶尔使用了某个专门领域的专业术语,如”信噪比等。可能也会得到奇怪的反 应。这一方面是由于模型的局限,另一方面也受限于硬件资源。随着两方面的技术的进 步将来的语音和声学模型可能会做到将多种语言混合纳入,用户因此就可以不必在语 种之间来回切换。此外,对于声学模型的进一步改进以及以语义学为基础的语言模型 东北大学颂f :学位论文销2 章相关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年6月银行从业中级银行管理真题及答案
- 2026-2031中国泡沫镍市场动态监测及竞争战略研究报告
- XX加油站应急预案演练记录(加油机起火)
- 2025年体育教育专业考试试卷及答案
- 2025年疾病防控常识科普试题及答案解析
- 金融监管数字化转型的政策与挑战分析
- 2026年建筑材料供应协调协议
- 安全风险控制手册考试试题及答案
- 2025年燃气管网运行工技能大赛竞赛题库及答案
- 医影2025放射技术主管专业知识试题含答案
- 小学生保险知识课件下载
- 2025版国家心力衰竭诊断和治疗指南(完整版)
- 土木工程力学基础课件 项目2 平面力系的平衡
- 天然气巡线员培训
- 小学校本课程-硬笔书法教材
- 实训二槐米中芸香苷及槲皮素的提取分离检识技术课件
- 遇见白玉兰(2024年江苏盐城中考语文试卷散文阅读试题)
- 福建省南平市2024-2025学年九年级上学期期末考试英语试题
- 骨质疏松症讲解
- 如何培养临床思维
- 科室委员会设立与管理制度
评论
0/150
提交评论