![(电路与系统专业论文)口语对话航班查询系统的研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/de9118f3-af2e-4a26-b031-667099279716/de9118f3-af2e-4a26-b031-6670992797161.gif)
![(电路与系统专业论文)口语对话航班查询系统的研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/de9118f3-af2e-4a26-b031-667099279716/de9118f3-af2e-4a26-b031-6670992797162.gif)
![(电路与系统专业论文)口语对话航班查询系统的研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/de9118f3-af2e-4a26-b031-667099279716/de9118f3-af2e-4a26-b031-6670992797163.gif)
![(电路与系统专业论文)口语对话航班查询系统的研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/de9118f3-af2e-4a26-b031-667099279716/de9118f3-af2e-4a26-b031-6670992797164.gif)
![(电路与系统专业论文)口语对话航班查询系统的研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/de9118f3-af2e-4a26-b031-667099279716/de9118f3-af2e-4a26-b031-6670992797165.gif)
已阅读5页,还剩97页未读, 继续免费阅读
(电路与系统专业论文)口语对话航班查询系统的研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 在一个信息技术高速发展的时代,如何获取信息和传递信息是值得关注的两 大问题。人机对话系统的研究正是聚焦在这两大问题上,力图使信息的获取和传 递变得更加轻松自然,使人们可以更加方便自如地与计算机进行信息交互。 人机口语对话系统是目前国际上在自然语言处理领域中热门的研究领域,利 用人机1 3 语对话系统可以实现人和机器之间的智能交互。这在旅游导航、票务查 询、电话预约等方面都有很好的应用前景。 本文首先介绍了语音识别、人机对话、语音合成技术的研究意义、研究背景 以及国内外的研究状况,在此基础上阐明了本课题的研究内容和意义。 其次,根据语音识别系统的基本构成模型,讨论了预处理、端点检测到模板 生成及模板管理和模板匹配各部分所涉及到的语音数字信号处理、模式识别等方 面的基本原理。 之后,进行了h w 建模的语音识别系统的构建与研究。主要研究在实际应用 中,使用隐马尔可夫模型建模时,对于传统算法的改进。 最后,在对人机对话系统所需技术进行深入研究的基础上,实现一个面向受 限领域的人机口语对话系统,研究重点是语言处理技术的应用、对话管理方法的 选择以及系统框架的构建。 系统以语音为接口,将用户的语音信息识别成文字信息,并通过自然语言理 解、对话策略、语言生成及语音合成等模块,与用户进行一问一答地交互式对话。 当系统所需的查询条件满足时,自动查询航班数据库,并将查到的航班信息反馈 给用户。 关键词语音识别;对话系统;对话策略;自然语言理解 北京工业大学工学硕士学位论文 a b s t r a c t w 弛t h eb i 归叩c e d 【l c v e l o p m m to fi n l 删t c c l m o l o g y , h o wt or e c , c i v ea n ds e n d i n f o r m a t i o l t i e i c n t l yh a sb 咄缸u r g e n tr e q u i r e m e n t t h er e s e a r c ho fh w - m a e h i d i a l o g i l e 帮s t e mi sj l 】s tf o e u s e x l s u c hm 地航t h ea i mo ft h er e s e a r c hi st om a k ct h e c o m m u n i e 撕o nb e t w e e nh u m a na n dm a c h i n ee a s i 既 s p o k e nd i a l o g u es y s t e m ,a t c c h n o l q g y 砌d h 啪r e a l i 髓t h eh t m l a n - m a e l a i n ed i a l o g u e , sh o t 缸s p e e c hr e e o g n i f i o l d 砒p r e 髓n lt h e i sav e r yg o o d 印p n 谢p r o 删j nt r a v e l i n g m m g a t i o n , f i e k 武鞠f v i 觚d t e i e p l 贼m a p p o m 衄e n t , 如 f i r s t l y ,t h i sp a p e ri n l l o d u c l t h eb l c g r o u n c ks i 鲥血a n a n dd e v e l o p m e n to fs p e e c h r e c o g n i t i o n , 岫- m a c h i n od i a l o g u e i dt h es p e e c hs y n t h e 豳e l 眦i d a t o st b es i g n i t i e a n o f l k r e a r c ha n dt h ed i f f l e d t i e sw ef a c e d s e c o n d l y , a c c 0 i - d i n gt 0t h em o d e lo fs p e e c hr e c o g n i t i 姐s y s t e m , i td e s c r i b e s 也cf u n d a m e n t a l o fe v e r yp a r t ( i n c l u d i n gp r e t r e a t m e n t , e n dp o i n td e t e e t i 0 蚰,t e m p l a t el , r o d u e t i a n dt e m p l a t e m a t c h i n g ) s u c h 也es p e e c hd a t as i g n a lp r o e 嘲a n dt h em o d er c c o g n i f i o 也 t h i r m y ,i n t r o d u c eas p e e c hr e e o g n i f i s y s t e mb a s i n go nr l m m , a n d1w o r ko v 口m o s t l yh o w t om e n dt r a d i f i o n a la 1 9 0 f i i l l m sw h e nm o d e l i n g 谢_ l hh m m i n 虹 f i n a l l y ,ac h i n e s es p o o n 删o g u es y s t e mb e t w e e nl a t u l ma n dm a e l a i n ej ns p e e i a l i z e d d o m a i ni sr e a l i z e db a s e x lo nt h ed e e pr e s e a r c ho ft h en e e e s s a r ya n dp o 鼹i m et e c l m i q u ej n8 d i a l o g u es y s t e m t h em p h a s o ft h ct m a r e h 戢t h ea p p f i c a t i o no f 血et e c h n i q d e a l i n gw i l l a l a 啦4 l a 鲈,t h ec h o i o f t h em e t h o do f d i a l o g u em a n a g 锄眦如d 删t e e t u r eo f d i a l o g u es y s t e m m t l f i s p 獬a s p e e e h - b a s e de o n v o r s a t i o n a l i n t e r f a c e 掣s t e m d 髓,e l o p e d 细i n f o r m a l i o n a b o m n j 班如h e d i i l e sa n d 蛐e i n gi sp r e s e n t e d t h ei i s e ,sv d i i sr e e o g n i 捌a n dt r a n s f e r r e di n t o 腻 t h es y s t e mp r o c e s s e sd i a l o g u ew i t ht h eu s 盯蚵as e r i 鹳o ff t m e t i o n a lm o d e l s , s u c h t h en a t u l l l l a i l g u a g e 删1 d 豇s t 锄d i n gm o d e lt h ed i a l o g t 帕s t r a t e 咖m o d e la n dt h es p e e c hr e c o g n i z ea n d s ) 劬i sm o d e l a c c o r d i n gt 0t h eu s e sc l a i m ,t b e 夥s t e ms r e h e sf 研t h em o l t k :d l l 】髂 i n f o r m a t i f r o mt b ed a t a b a s e 砒ap r o p e rd 加旧 k o o r d $ s p e e c hr e e o g n i d o n ;d i a l o g u es y s t e m ;d i a l o g u e 曲咖嘲n a t u r a lh 理孵 l d a 豇龃d i n g 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:塞噬垩日期:趔:堑 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 建a 噬季 导师签名:弛日期:皇幽:堑 第一章绪论 1 1 课题研究意义 第一章绪论 计算机技术发展的最终目的是为了应用于日常生活和商业服务,使之更加方 便与高效,以提高整个社会的运转效率。随着语音识别和合成技术的成熟,语音 理解逐渐成为语音处理领域的一个重要研究方向。本课题研究的是语音识别系统 及如何有效的建立基于语音的人机对话系统。让人一机对话完全达到人一人对话那 样自然,固然不可能,但在限定任务( 可以是内部具有复杂关系,多主题的任务) 背景下,在双方都具有合作意愿的前提下,令人一机对话达到相当的自然度,却 是可能达到的目标。口语对话系统的研究,从早期的菜单式系统,再到多主题知 识主导系统,尽管在场景受限的约束之下,但始终向着令对话过程更自然,用户 具有更多主导能力这个方向发展。与此系统相关的技术包括:语音识别、语言理 解、对话管理、语言生成和语音合成等。 图卜1 口语对话系统 f i g u r e1 - 1s p o k e nd i a l o g u es y s t e m 1 1 1 语音识别及其应用 语音识别简单地说,就是让电脑听懂人的话,并做出正确反应,这是电脑在 拟人化上迈出的一大步。 作为一门综合学科,语音识别又是以语音为研究对象,是语音信号处理的一 个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计 算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言( 如人在说话时 的表情、手势等行为动作可帮助对方理解) ,其最终目标是实现人与机器进行自 然语言通信。 语音识别技术是计算机技术重要的发展方向,多媒体时代的来临迫切要求解 决自动语音识别的难题。语音识别技术已经成为计算机在亿万百姓中普及的关键 技术,并且必将成为信息产业的标志性技术和未来计算机的重要特征。 语音识别技术难题的解决不仅将使计算机成为普通百姓得心应手的工具,而 且对于许多机器的操作、生产过程的控制,还有通信、口语机器翻译等领域来说, 语音识别都大有用武之地。 语音识别听写机在一些领域的应用被美国新闻界评为1 9 9 7 年计算机发展的 十大事件之一;比尔盖茨认为下一代的操作系统和应用程序的用户界面将是语音 识别;计算机行业巨头g o d d e nm o o r e 说:“语音技术将改变计算机的设计,它将 使现在尚未使用计算机的人中的8 5 用上计算机”;i b m 总裁l o ug e r s t n e r 指出, “有朝一日,将有数十亿的人运用自然语言( 利用语音识别和语音合成) 在 i n t e r n e t 上浏览、查询”;a b i ( a l l l e db u s i n e s si n t e l l i g e n c e ) 认为,在未 来的网络化世界中,语音识别技术将扮演越来越重要的角色,新的语音识别技术 可以让用户更为轻松地收发电子邮件,获取股市行情,了解天气、交通和道路情 况,不久的将来,它将提供更为全面的更有价值的应用服务。 语音识别技术的渗透性很强,它已经悄悄进入我们的生活,并将无处不在地 改变我们的生活方式。现在大多数的手机提供了“语音拨号功能”,使用“语音 拨号”,只需一次性地输入( 读入) 人名和电话号码,在使用时便可以直接对着电 话“说出”要通话人的姓名,经语音识别后,查出该姓名所对应的号码,然后自 动地进行“拨号”。 语音查询是语音识别的又一个应用领域,可用于旅游业及服务业的各种查询 系统。如语音自动导游系统,游客只要说出自己当前的位置和感兴趣的景点名称, 系统便自动显示出图文并茂的最佳路线、乘车方案、费用及其他相关信息。如果 游客还需要进一步了解更为详尽的资料,则可以同系统进行交互式的对话,系统 将对用户的问题一一给予答复。另一个有代表性的应用就是在医疗查询中,医疗 改革推行后,大多数的医院都配备了电脑查询系统,供患者查询药品价格及医护 人员简介,对于键盘输入非常陌生的大部分患者来说,语音输入提供了最方便快 捷的查询方式。 语音识别还可以应用在工业控制方面,在一些工作环境恶劣、对人身有伤害 的地方( 如地下、深水及辐射、高温等) 或手工难以操作的地方,均可通过语音发 出相应的控制命令,让设备完成各种工作。 语音识别技术在帮助伤残人的各种设备中也将发挥其难以替代的作用。对于 一些肢体伤残者或盲人,若全部用声音控制,则给伤残者或盲人提供极大的生活 便利。一些办公设备加上语音功能后,即使是伤残者也可以足不出户地在家里工 作。 此外嵌入式语音识别软件具有语音识别、声控、用字母语音输入的语音键盘 等功能,可应用于手提电话、掌上电脑、电子记事本、声控设备及便于残疾人的 自助设备等,应用前景非常广阔 1 1 2 语音识别系统简介 总的来说,语音识别的过程是一个模式识别匹配的过程在这个过程中,首 先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需 的特征,在此基础上建立语音识别所需的模板。而在识别过程中要根据语音识别 的整体模型,将输入的语音信号的特征与已经存在的语音模板进行比较,根据一 定的搜索和匹配策略,找出一系列最优的与输入的语音相匹配的模板。然后,根 2 第章绪论 据此模板号的定义,通过查表就可以给出计算机的识别结果。图1 2 为语音识别 的基本结构。 果 图1 屹语音识别系统的基本结构 f i g u r e1 - 2t h ef r a m eo f s p e e c hr e c o g n i t i o ns y s t e m 与常规模式识别系统一样,语音识别系统包含特征提取、模式匹配、参考模 式库三个基本单元。但是,由于语音识别系统所处理的信息是结构非常复杂、内 容极其丰富的人类语音信息,因此,它的结构比通常的模式识别系统要复杂得多。 语音识别系统的设计要考虑服务对象、词表大小、工作环境、发音方式、任 务性质等许多因素,不同的应用需要采用不同的方法实现,才能达到理想的效果。 以这些因素为依据,可以将语音识别系统分为不同的类别。 ( 1 ) 按发音方式 发音方式指的是采用孤立字发音方式还是连续语音发音方式。按发音方式可 分为孤立字语音识别系统、连接词语音识别系统和连续语音识别系统。孤立字语 音识别系统指人在发音时,以单字的发音方式向语音识别系统输入语音,词与词 之间要有足够的时间间隙,以便系统能够检测到始末点。采用这种方式的语音识 别系统实现起来较为容易,识别率也可以做得很高。但是,这种发音方式显然不 够自然且输入速度较慢。目前,孤立字语音识别系统只有在系统内部的特征测试 比较时才会采用,没有太大的实用价值。 连接词语音识别系统指以词或词组为发音单位向系统输入语音。与孤立词发 音相比,这种发音方式显然是比较自然的,且输入效率也比较高。中小词汇量连 接词语音识别系统的识别率目前可以做得很高,并达到了实用水平。目前常见的 各种语音命令控制系统大都属于这种识别方式。 连续语音识别系统指在输入语音时,完全按照人的最自然的说话方式输入。 这种系统是最方便的输入系统,但是,实现起来也是最复杂和最困难的。 ( 2 ) 按服务对象 服务对象是指语音识别系统是提供给特定的人使用,还是不确定的任意人使 用的。按服务对象可分为特定人和非特定人识别系统。特定人的语音识别系统, 对于每一个使用者都必须建立专用的参考模板库。非特定人语音识别原则是事先 用许多人( 通常3 0 - 4 0 人) 的语音样本训练系统,使用者无论是否参加过采样训练 都可以共用一套参考模板,使用该系统进行语音识别。 这两类系统的服务对象大不相同,为了达到良好的识别效果,其系统结构、 特征参数选择、识别方法都可能有极大的差别。对于非特定人的语音识别系统来 说,由于要考虑各种复杂因素,实现起来要比特定人的语音识别系统难得多。 ( 3 ) 按词汇表的大小 每个语音识别系统都有一个词汇表。系统只能识别此表中包含的词条。按词 汇表的大小可分为小词汇表识别系统、中等词汇表识别系统、大词汇表识别系统 和无限词汇表识别系统。 随着词汇数目的增加,潜在的词间相似性会增加,系统的搜索运算开销及存 储开销相应增加,识别系统的难度一般会增加。当系统所能识别的词汇量越大时, 实现起来就越困难。 目前代表连续语音识别技术最高水平的语音识别系统是非特定人无限词汇 的连续语音识别系统。 1 1 3 人机对话 众所周知,我们正处于一个信息技术高速发展的时代,如何获取信息和传递 信息是值得关注的两大问题。人机对话系统的研究正是聚焦在这两大问题上,力 图使信息的获取和传递变得更加轻松自然,使人们可以更加方便自如地与计算机 进行信息交互。 由于人机对话系统研究的交叉性,通过对它的研究可以促进相关领域学科的 发展。而且,人的思维与语言是紧密相关的,人机对话系统的研究对于揭开人体 大脑的秘密有着极其重要的意义。同时,它也有着广泛的实际应用价值,将使计 算机更普遍地应用到人们的日常生活中。 人机对话系统的研究需要用到声学、语言学、计算机科学等多领域学科的知 识,其发展也与这些学科的知识发现、技术更新密不可分。随着基于隐马尔可夫 声学模型的语音识别技术以及信号处理大规模集成电路技术的迅速发展,语音识 别系统性能不断提高,系统实时实现成为可能;同时,语音合成技术也已步入实 际应用阶段。在语音技术有了极大发展的今天,要使得整个系统的性能有大幅度 提高,对语言处理技术也提出了更高的要求。人机对话系统中的自然语言理解模 块与一般面向书面语言的自然语言理解相比有其自身的特点。这主要是由于口语 与书面语的诸多不同之处引起的。口语理解中的语言分析更强调分析的鲁棒性, 即在出现不连贯的语言现象和不符合语法的成分时仍能正确地获取说话人的意 思,能够容忍语音识别结果中的错误和不确定性。正是因为口语自身的某些特点 使得我们有必要投其所好地采取一些新的策略来进行口语理解处理,以提高自然 语言处理的准确率,从而提高整个系统的性能。 人机对话系统,是指可以完成从接收用户的语音输入到给用户相应反应( 包 括语音的或非语音的) 的全过程,能够用语音与用户进行交流的系统。一个典型 的人机对话系统如图1 - 3 所示m 。 4 第一章绪论 应用域知识处理 介 u 话语分析p = = 刮对话管理b = = = 刮对话箢略 自然语言理解自然语育生成 千i i语音识别语音合成( 3 c 语转换) i 众鸯 用户 图1 - 3 典型的人机对话系统结构图 f i g u r e1 - 3t h ef r a m eo f h u m a n - m a c h i n ed i a l o g u es y s t e m 由图可知,整个系统可分为四个层次:人机交互层,自然语言处理层,对话 管理层,应用程序层。人机交互层主要进行语音处理,包括语音识别和语音合成。 一方面接受用户的语音输入,利用语音识别器产生候选句子或词序列,将之传给 句法语义解释模块;另一方面接受语言生成模块产生的自然语言,利用语音合成 技术给予用户语音回答。在自然语言处理层中,句法分析与语义解释模块对候选 的识别结果进行分析,产生相应的内部概念结构用于表示用户话语的含义。由于 口语中省略、指代、结构歧义等现象的存在,使得分析的结果往往具有歧义,所 以还需要话语分析( d i s c o u r s ea n a l y s i s ) 模块利用上下文语境和相关的领域知 识进行排歧才能得到最后的语义表示。在需要语音应答的情况下,口语生成模块 将系统的相应的反应用自然语言加以表达,并将其传递给语音合成器。而对话管 理层是系统的核心部分,它根据一定的对话策略,对整个会话过程进行组织,负 责模块之间的通讯,根据相应的决策准则做出系统的反应,以使得人机交互在预 期效果下正常进行。最高层的应用领域知识处理则可根据应用背景的不同而变 化,或是执行系统命令,或是对数据库操作而提供查询的信息内容。 1 1 4 语音合成技术 语音合成,又称文语转换( t e x tt os p e e c h ) 技术,它涉及声学、语言学、 数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技 术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像 人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设 备( 系统) 有着本质的区别。传统的声音回放设备( 系统) ,如磁带录音机,是 北京工业大学工学硕士学位论文 通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、 存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合 成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机 器“像人一样开口说话”。 文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语 言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须 对文字的内容有很好的理解,这也涉及到自然语言理解的问题。图卜4 显示了一 个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列, 再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、 字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术, 能按要求实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套 复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数 字信号处理技术,而且必须有大量的语言学知识的支持。 图1 - 4 文语转换系统示意图 f i g e r e1 - 4t h e 鼬m c t l i o f t e x tt o 叩髓曲s y s t e m 1 2 国内外目前研究情况 1 2 1 语音识别的发展历史和现状 ( 1 ) 语音识别的发展过程。语音识别的研究工作大约开始于2 0 世纪5 0 年代 机器翻译研究热潮时期,当时a t & b e i1 实验室实现了第一个可识别十个英文数字 的语音识别系统- a u d r y 系统。 2 0 世纪6 0 年代,计算机的应用推动了语音识别的发展。这时期的重要成果 是提出了动态规划( d p ) 和线性预测分析技术( l p ) ,其中后者较好地解决了语音信 号产生模型的问题,对语音识别的发展产生了深远影响。 7 0 年代,伴随自然语言理解的研究以及微电子技术的飞速发展,语音识别领 域取得了突破性进展。在理论上,线性预测分析技术( l p ) 得到进一步发展,动态 时间弯折技术( d t w ) 基本成熟,特别是提出了矢量量化( v q ) 和隐马尔可夫模型 6 第一章绪论 ( 删吣理论。在实践上,实现了基于线性预测倒谱和d t w 技术的特定人孤立词语 音识别系统。 8 0 年代,新一代智能计算机的研制,以及模式识别、自然语言理解等技术的 成熟,为语音识别技术的突破打下了基础,语音识别研究进一步走向深入,其显 著特征是h m m 模型和人工神经元网络( a n n ) 在语音识别中的成功应用。h m m 模型 的广泛应用应归功于a t & tb e l l 实验室r a b i n e r 等科学家的努力,他们把原本艰 涩的舢纯数学模型工程化,从而为更多研究者了解和认识。 进入9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走 向实用。许多发达国家如美国、日本、韩国以及i b m 、a p p l e 、a t & t 、m i c r o s o f t 等著名公司都看好语音识别的应用前景,为语音识别系统的实用化开发研究投以 巨资,语音识别技术实用化进程大大加速,并出现了许多实用化的研究方向。i b m 公司率先推出的v i a v o i c e 标志着大词汇量、非特定人、连续语音识别技术正在 趋于成熟。v o i c e x m l 作为新的行业标准,和s p e e c ho b j e c t s 、w 3 c 一起为语音 识别技术注入了新的活力。v o i c e x m l 使通过语音创建互联网网页和信息更为容 易,s p e e c ho b j e c t s 可以提高语音应用程序的运行速度,而语音浏览器w 3 c 则 允许人们通过语音指令访问互联网。微软也推出了语音识别引擎和s d k 模块。 语音识别今后的发展方向,将由连续语音进入自然话语识别与理解,并着手 解决语音识别中的一系列难题,如鲁棒性问题,难度还会加大,但前景是乐观的。 我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语 音识别的研究列入“8 6 3 ”计划,由中科院声学所、自动化所及北京大学等单位 研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美 国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到 相当高的水平。因此,国内除了要加强理论研究外,更要加快从实验室演示系统 到商品的转化。 ( 2 ) 国内外的研究成果和商品化研究经过近半个世纪的研究历程,语音识别 领域的研究取得了巨大的成果,已经有大量的语音识别实用系统投入商业运营, 进入市场。 i 酬是全球语音识别技术领域的领导厂商。i b m 在语音识别技术领域己进行 了近三十年的研究,获得了近百项专利,先后推出英文、法文、德文等近十种文 字的语音识别技术。1 9 9 6 年,i b m 公司发布了v o i c e t y p e 中文语音识别软件,首 次将其语音识别产品介绍给中国用户。1 9 9 7 年9 月,i b m 推出了v i a v o i c e 中文 连续语音识别系统,标志着中文语音识别技术商业化进程开始启动。但是i b m 深 知汉语语音识别技术艰难( 因为汉语结构复杂,单音节为主,同音字多,方言多, 语法亦不规范) ,自身难以攻克,就以较低的价格,或技术互换的方式向全世界 二次开发商、科研机构提供软件内核,目前国内的很多研究机构都是在i b m 的核 心模块基础上进行开发研究的。在1 9 9 7c o m d e x 展上,m i c r o s o f t 宣布与l e r n o u t h a u s p i es p e e c hp r o d u c t s 公司建立联盟,共同加速实施语音识别技术在操作 系统上的实现。b i l lg a t e s 在勾画i t 事业的发展宏图时,首先提出下一代操作 系统和应用程序的用户界面将是语音识别。展会上,m i c r o s o f t 与合作伙伴联袂 推出了语音识别产品v o i c e e x p r e s s ,将原语音指令和控制程序与连续语音识别 技术结合在一起。 7 北京工业大学工学硕士学位论文 o l y m p u s 公司也推出了最新手持听写设备d p l 0 0 0 ,并在1 9 9 7c o m d e x 上,向 世人展示了这一领域的最新成果:集成了i b m 的v i a v o i e e 软件,使用与p c 兼容 的闪存卡,可记录1 小时的语音,这些语音可下载到p c 上,并自动转换成文字 因为汉语的一些特性( 同音字较多等) ,汉语的语音识别技术难度相对而言更 大一些。我国的语音识别技术和国外相比,有一定的差距,但国内清华大学、中 科院声学所以及台湾的电脑与通讯工业研究所在这方面也取得了一定的成果。到 目前为止,在国内商业化较成功的非特定人连续语音识别系统是i b mv i a v o i c e 4 0 中文语音识别系统,国内许多厂家的语音识别产品都是基于该系统的,如方 正的文友系统及北京瑞驰安公司d u t t y + + 语音识别系统。 理论研究基础和科技上的突破,为汉语“能听会说”的电脑问世提供了前提。 以中国科技大学研究机构为依托成立的国家8 6 3 智能计算机成果转化基地研究 院、安徽硅谷天音信息科技有限公司对已取得的高新技术产品进行了产品化,其 第一个语音输入和控制计算机产品“天音话王”已投放市场,月销量达百万元, 港、台地区总销量逾1 0 万套。 在新的世纪里,语音识别将迅速走进大众的生活,它将改变人们学习、工作 和生活娱乐的方式,正如尼葛洛庞帝所说:“在广大浩瀚的宇宙中,数字化生存 能使每个人变得更容易接近,孤寂者能够发出他们的心声。” 1 2 2 语音识别实用化过程中面临的困难 尽管各种语音识别产品层出不穷,但与语音识别的最终目标还有一定的距 离,且目前研究工作进展缓慢,主要表现在理论上一直没有突破。虽然各种新的 修正方法不断涌现,但其普遍适用性都值得商榷。具体来讲,困难主要表现在以 下几个方面。 语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采 集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一 个问题是对用户的错误输入不能正确响应,使用不方便。 高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高、 语速变慢、音调及共振峰变化等等,这就是所谓l o m b a r d 效应,必须寻找新的信 号分析处理方法。 虽然语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识 量化、建模并用于语音识别还需研究。而语言模型、语法及词法模型在中、大词 汇量连续语音识别中是非常重要的。 我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理 等方面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个 艰难的过程。 因此,语音识别系统要从实验室演示系统转化到商品还需要解决许多具体问 题,如识别速度、拒识问题以及关键词( 句) 检测技术( 即从连续语音中去除诸如 “啊”、“唉”等语音,获得真正待识别的语音部分) 等等。为了解决这些问题, 研究人员提出了各种各样的方法,如自适应训练,基于最大互信息准则( 删i ) 和 最小区别信息准则( 如i ) 的区别训练和“矫正”训练;应用人耳对语音信号的处 理特点,分析提取特征参数,应用人工神经元网络等,所有这些努力都取得了一 s 第一章绪论 定成绩。 不过,如果要使语音识别系统性能有大的提高,就要综合应用语言学、心理 学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。 1 2 3 口语对话 美国m i t 大学口语系统小组很早就开始了口语对话系统方向的研究。1 9 8 9 年 推出的v o y a g e r 系统提供b o s t o n 地区交通和导航信息查询服务,标志着口语对话 系统研究的开端。其后又推出了一系列面向不同领域任务应用的系统。 中科院自动化所的旅游信息查询系统是国内较早的口语对话系统,有较好的 演示效果。清华大学、中科院声学所、北京交通大学等研究机构近年来也开展了 口语对话系统的研究。 从目前的理论和技术现状看,通用的、高质量的口语对话系统,仍然是较长 期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经 出现,有些已商品化,甚至开始产业化“1 。较成熟的应用领域有:智能语音导游 系统、智能语音查询系统、智能语音订票系统等多个领域。 语音对话航班信息查询系统是一种通过人机交互完成某种特定任务的对话 系统。在此类系统的对话过程中,用户和系统生成的话语都是围绕该任务的,即 对话话题都是关于完成一个任务或者目标的。因此用户话语涉及的范围通常是有 限的并且是可预测的。从国内外相关的研究来看,基本上是研究如何利用期待模 型来指导和约束对话系统的各个模块,如语音识别、语言理解以及进行计划识别 等 1 2 4 语音合成技术现状 语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音 合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让 计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中, 早期的研究主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形 拼接的合成方法。 参数合成:调整灵活,但音质差。在语音合成技术的发展中,早期的研究主 要是采用参数合成方法。值得提及的是h o l m e s 的并联共振峰合成器( 1 9 7 3 ) 和 k l a t t 的串并联共振峰合成器( 1 9 8 0 ) ,只要精心调整参数,这两个合成器都能 合成出非常自然的语音。最具代表性的文语转换系统当数美国d e c 公司的 d e c t a l k ( 1 9 8 7 ) 。但是经过多年的研究与实践表明,由于准确提取共振峰参数比 较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语 音的音质难以达到文语转换系统的实用要求。 波形拼接:音质好,自然度高,但受调整算法限制,只能作有限调整。自八 十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加( p s o l a ) 方法的提出( 1 9 9 0 ) ,使基于时域波形拼接方法合成的语音的音色和自然度大大 提高。九十年代初,基于p s o l a 技术的法语、德语、英语、日语等语种的文语转 换系统都已经研制成功。这些系统的自然度比以前基于l p c 方法或共振峰合成器 的文语合成系统的自然度要高,并且基于p s o i a 方法的合成器结构简单易于实时 9 北京工业大学工学硕士学位论文 实现,有很大的商用前景。 国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研 究同步发展。大致也经历了共振峰合成、l p c 合成至应用p s o i a 技术的过程。在 国家8 6 3 计划,国家自然科学基金委,国家攻关计划,中国科学院有关项目等支 持下,汉语文语转换系统研究近年来取得了令人举目的进展,其中不乏成功的例 子:如中国科学院声学所的k x - p s o l a ( 1 9 9 3 ) ,联想佳音( 1 9 9 5 ) ,清华大学的 t hs p e e c h ( 1 9 9 3 ) ,中国科技大学的k d t a l k ( 1 9 9 5 ) 等系统。这些系统基本上 都是采用基于p s 0 1 a 方法的时域波形拼接技术,其合成汉语普通话的可懂度、清 晰度达到了很高的水平。然而同国外其他语种的文语转换系统一样,这些系统合 成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度, 从而制约了这项技术的大规模进入市场。 1 3 本文的研究工作及组织结构 1 3 1 研究目标及内容 本文的工作主要是研究基于h m m 的语音识别系统、人机对话系统的构建以 及对话系统中语言处理技术的应用。如前所述,一个完整的对话系统通常由语音 识别、语言理解、对话管理、语言生成、语音生成等几大部分组成,涉及到语音 处理、语言处理、知识表示等多方面技术,而本文的研究目标集中在语音识别和 对话系统构建上。 深入学习并研究语音识别系统的基本原理,包括语音信号预处理阶段的预加 重和端点检测方法、信号的特征提取方法、模板训练和识别的算法,并对基于 h 删建模的语音识别系统,进行对传统隐马尔可夫模型建模方法的改进。 在进行端点检测算法研究时,本人首次采用频能比的方法。虽然用基于能量 一过零率的两级判别法、多门限过零率法等传统方法来做端点检测,能提供较优 良的端点检测效果,但是在噪音环境下,系统的鲁棒性太差。后在噪音环境下反 复实验,发现使用频能比来检测,在实验中得到了很好的端点检测效果,证明了 该方法在较低信噪比的情况下的性能,增加了系统的鲁棒性。 在训练模型时,常常不能有充足的训练数据的情况,这时可采用改进的平滑 的处理方式;说话者的影响也是不容忽视的,也可以在原有模型的基础上进行调 整,既适应了原来的数据,又可识别新的说话者语音。 本文的目标是要设计出一个面向受限领域、有友好人机交互功能、基于口语 输入的对话系统。之所以选择受限领域,一是考虑到实用需求,二是考虑到技术 条件。面向任务的对话是人机交互中最迫切需要实现的。而且以目前的技术水平, 还很难做到一般性的语言理解,广义的对话系统非常复杂,尚难以获得计算模型 的心理、行为过程。考察现有比较成熟的人机对话系统,多数局限于信息咨询对 话系统,如电话语声查号、旅游信息咨询、航空铁路票务查询、调查问卷自动获 取等特定领域。当领域受限时,系统的知识库设计相对明确,可以结合面临的任 务设计出高效的语法语义词典、文法规则及查询数据库,从而使系统获得较好的 1 0 笫章绪论 性能。本文所选择的特定领域是航班信息查询系统。 系统在v c n e t 环境下开发,数据库采用s q ls e r v e r2 0 0 0 ,主程序采用a d o 数据源连接方式与数据库连接,查询时直接将s q l 关系查询语言传递给数据库, 利用数据库自身的查询机制进行查询从而有效地提高系统的查询效率。已完成的 传统航班信息查询系统可以满足以下查询需求:若提供所查航班的一些基本信息 ( 通过语义理解、分析模块从用户语言中提取出) ,则可以得到关于此航班的其 他相关信息( 起始地点和时间、到达地点和时间、机型、不同等级机仓的座位及 票价信息等) 。数据库涵盖首都国际机场所有国内航班信息。 1 3 2 论文的组织结构 本论文共分六章: 第一章为绪论,介绍了人机对话系统的基本概念,语音识别、人机对话、语 音合成的研究意义、国内外研究现状,本文的研究内容及论文的组织结构。 第二章,主要讨论了语音识别系统的基本原理。介绍了语音信号预处理阶段 的预加重和端点检测方法、信号的特征提取方法、模板训练和匹配的算法。 第三章,研究基于h 删建模的语音识别系统,研究在实际应用中,使用隐马 尔可夫模型建模时,对于传统方法的改进。主要是在端点检测、模型特征参数的 确定等这些方面进行了算法改进及对比实验。 第四章,以确定待查询航班的日期的对话为例,研究了如何设计对话系统及 相应的对话策略,即系统如何与使用者互动,定义了系统在所处的各种状态下, 应该响应使用者的方式;研究架设对话系统的方式以及运用强化学习来设计对话 策略。 第五章,首先讨论了h m m 模型实现过程中,主要参数万,a ,b 的取值、设定 算法。系统参数的取值直接影响到系统的识别效果,因此找到一个好的途径来解 决这个闯题是十分重要的,是实现基于隐马尔可夫模型建模的语音识别系统的重 点工作之一。之后,对有关训练数据不足问题和说话者对模型的影响问题进行讨 论及算法改进。由于语音的动态性很强,不同说话者的语音,或者同一说话者在 不同时间、不同场合的说话,都大有不同,所以在训练h m m 时,应充分考虑说话 者的影响。通过改进算法,使得h m m 参数估计的过程具有良好的自适应性和很强 的自学习能力,只要增加新的训练数据,产生的最后模型就能反映新的数据的信 息。最后,以连续数字语音识别为例介绍了我们所构建的咖语音识别系统的软 件架构及系统各模块处理流程、程序算法等。 第六章,介绍人机对话航班查询系统的总体架构,包括利用m i r c o s o f ts p e e c h s d k 实现的语音识别、语音合成;语言理解;对话管理;语言生成;航班数据库 等各模块的实现。 最后,对本课题做了总结并指出将来进一步的研究工作方向。 附录部分,介绍了攻读硕士学位期间,本人在语音识别、人机智能交互方面 所做的其他工作 北京工业大学工学硕士学位论文 第二章语音识别系统的基本原理 2 。1 语音识别系统的构成 语音识别系统本质上属于模式识别的范畴。根据模式识别的原理,未知语音 的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结 果。图2 - l 是根据模式匹配原理构成的语音识别系统的原理框图。 图2 1 语音识别系统的原理框图 f i g u r e2 - 1t h ef r a m co f s p e e c hr e c o g n i t i o ns y s t e m 未知( 待识别) 语音经过话筒变换成电信号( 即图中语音信号) 后加在识别系 统的输入端,首先要经过预处理,预处理包括反混叠失真滤波、预加重和端点检 测。经过预处理后,语音信号的特征被提取出来。常用的特征包括:短时平均能 量或幅度、短时平均过零率、短时自相关函数、线性预测系数、倒谱、共振峰等。 根据实际需要选择语音特征参数,这些特征参数的时间序列便构成了待识别语音 的模式,将其与已经存储在计算机内的参考模式逐一进行比较( 模式匹配) ,获得 最佳匹配( 由判决规则确定) 的参考模式便是识别结果。参考模式是在系统使用前 获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参 考模式,这一过程称为训练过程咖。 显然,最佳匹配结果的获得与特征的选择、语音模型的好坏、模板是否准确 都有直接的关系,这也是目前语音识别过程中的一个难点 2 2 语音识别系统的预处理 在对语音信号进行分析和处理之前,必须对其进行预处理。预处理包括数字 化、反混叠失真滤波、预加重、加窗及端点检测。 2 2 1 语音采样 要用计算机分析人的语音,就要将话筒中传来的语音信号转换成计算机所能 处理的数字信号。这个从模拟量到数字量的转变过程称模一数变换。在计算机上 只需要利用声卡外接一个话筒就可以很容易地将话筒中传来的模拟语音信号采 第二章语音识别系统的基本原理 集成数字信号存入计算机。 根据n y q u i s t 采样定理,如果模拟信号的频谱带宽是有限的( 例如不包含高 于j 一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论