(计算机软件与理论专业论文)汉语语音识别文本的自动纠错研究.pdf_第1页
(计算机软件与理论专业论文)汉语语音识别文本的自动纠错研究.pdf_第2页
(计算机软件与理论专业论文)汉语语音识别文本的自动纠错研究.pdf_第3页
(计算机软件与理论专业论文)汉语语音识别文本的自动纠错研究.pdf_第4页
(计算机软件与理论专业论文)汉语语音识别文本的自动纠错研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉语语音识别文本的自动纠错研究 摘要 汉语语音识别文本的自动纠错研究 摘要 自然语言处理已历时三十年了,热潮莫过于机器翻译。机器翻译的热潮过去后, 运渐进入平静、现实的务实阶段。近期人们将目标定在资料整理、因特网上检索、 摘要、过滤以及限定应用领域的人机对话、语言服务等方面。本文介绍汉语语音识 别文本自动纠错的研究。 汉语语音识别技术己发展到一定阶段,但连续汉语语音识别的效果离实用还有 一定差距,表现之一是识别文本含错多。 目前,学术界尚未明确提出语音识别文本的自动纠错技术。从形式上看,语音 识别文本的自动纠错也可以看成是文本自动校对技术在语音输入方面的应用。文本 自动校对技术研究汉语输入( 键盘、o c r ) 的自动查错和纠错。但无论现象和原因 语音输入出错都比键盘、o c r 复杂,语音识别错误的恢复绕不开对语音识别系统 所用语言模型的研究。所以本质上,语音识别文本的自动纠错属于语音识别后处理 过程。本文虽题为文本纠错,但不拘泥于文本层面,而是深入到语音识别系统内部, 从语音识别系统所用语言模型的角度研究出错和纠错。本文的工作,也围绕语言模 型和文本校对两条主线展开。 本文以主流产品i b m 公司的v i a v o i c e 9 8 中文连续语音昕写系统和v i a v o i c e t e l e p h o n y 电话语音识别系统作为研究系统实例。前者用于通用领域文本的输入, 后者用于限定领域( 交通查询) 的信息提取。考虑到目标的难度,用特定人和新闻 稿测试前者,以获得较高的文本正确率和纠错起点。 汉语语音识别文本的自动纠错研究摘要 通用领域句式复杂多变,不深入语音识别系统内部寻找规律的话很难有所作 为。v i a v o i c e 9 8 单纯使用3 元词法模型,忽略了词性和语义搭配信息。本文提出的 后处理方法,通过大规模语料训练设计出增强的语言模型,利用v i a v o i c e 系统语音 识别时生成的中间结果w o r d l a t t i c e ( 词网格) 作为工作起点,用动态规划法生成 n b e s t 候选句,并以该增强的语言模型评优。利用w o r d l a t t i c e 既能充分利用语音 识别系统的中间信息,又避免了介入语音识别系统内部形成干扰。提出的语言模型 针对v i a v o i c e 所用语言模型的不足而设计,保证了纠错的效果。引入词性类和语义 类的概念,回避了含错文本的词性和语义兼类排歧问题。 限定领域句式相对简单,出错也较有规律,但统计法所必需的大规模训练语料 不易获取。本文就上海市内交通电话查询特定领域用规则法处理纠错。通过总结识 别文本中的出错规律,定义了相应的用于查错和纠错的词形、语义和语用规则。识 别文本经切分、语义标注,逐次检查词形、语义标记搭配和语用信息,一俟匹配查 错规则就激发纠错。针对识别文本含错严重的现状,该法更多地依赖对出错现象的 分析和对领域信息的应用。在本实验室开发的s h a n g h a i q u e s t ( 上海市电话语音交 通查询系统) 中使用该法后,大约半数的识别错误能够被自动纠正,显著地支持了 后续理解。 由于汉语查错纠错问题的特殊性,实际系统仅依赖基本方法尚难达到实用。在 本文的最后,提出了纠错系统实用化的设计原则,并针对本文中两个系统实例的不 足,给出了进一步改进的侧重点和方法。 关键字:自然语言处理,语音识别后处理,文本校对,自动纠错,词网格 l i r e s e r a c ho na u t o m a t icc o r r e c t j0 no fc hin e s es p e e c h r e c o g n l t i o no u t p u tt e x t a b s t r a c t n a t u r a ll a n g u a g ep r o c e s s i n gh a sb e e nd e v e l o p e df o rd e c a d e s i t sc l i m a xi sm a c h i n e t r a n s l a t i o n a t i e rt h a ti t sr e s e a r c hb e c o m e sm o r er e a l i s t i c c u r r e n tr e s e a r c h e sf o c u so i l a u t o m a t i ca b s t r a c t i n g ,i n f o r m a t i o nr e t r i e v a la n dd o m a i n s p e c i f i cd i a l o g u es y s t e me t c t h i sp a p e rp r e s e n t st h er e s e a r c ho nt h ea u t o m a t i cc o r r e c t i o no fc h i n e s es p e e c h r e c o g n i t i o no u t p u tt e x t t h et e c h n o l o g yo fc h i n e s es p e e c hr e c o g n i t i o nh a su n d e r g o n ec o n s i d e r a b l e d e v e l o p m e n t d e s p i t eo ft h ee f f e c ti th a sa c h i e v e d ,t h e r es t i l le x i s t ss o m ed r a w b a c k s w h e nc o n t i n u o u sc h i n e s es p e e c hr e c o g n i t i o ni sp u ti n t ou s e o n eo ft h e s ed r a w b a c k si s t h ee r r o n e o u s n e s so f s p e e c hr e c o g n i t i o no u t p u tt e x t n o w a d a y s ,t h ea u t o m a t i cc o r r e c t i o no fs p e e c hr e c o g n i t i o no u t p u tt e x th a sn o tb e e n e x p l i c i t l yp r e s e n t e d a l t h o u g hi tl o o k sa si fa u t o m a t i cc o r r e c t i o no fs p e e c hr e c o g n i t i o n t e x ti sj u s to n et y p i c a la p p l i c a t i o no fa u t o m a t i ct e x tc o r r e c t i o ni nt h ef i e l do fs p e e c h i n p u t , t h ef a c ti st h a tt h ee r r o r sc a u s e db ys p e e c hi n p u ti sm o r ec o m p l e xt h a no t h e ri n p u t t e c h n o l o g i e ss u c ha sk e y b o a r da n do c i n b o t hp h e n o m e n aa n dc a u s a t i o n t h es p e e c h i n p u te r r o r sc a n n o tb er e c o v e r e dw i t h o u tt h ea i do fr e s e a r c ho nt h el a n g u a g em o d e l s u t i l i z e di ns p e e c hr e c o g n i t i o n s o ,e s s e n t i a l l y , t h ea u t o m a t i cc o r r e c t i o no fs p e e c h r e c o g n i t i o nt e x tb e l o n g st ot h ep o s t - p r o c e s s i n go fs p e e c hr e c o g n i t i o n t h o u g ht h i sp a p e r i st i t l e da st e 斌c o r r e c t i o n b u tt h ee x p l o r a t i o ni sn o tl i m i t e da tt h et e x tl e v e l o nt h e c o n t r a r y , t h ee x p l o r a t i o ng o e sd e e pt o t h ei n n e ro fs p e e c hr e c o g n i t i o n ,a n db a s et h e r e s e a r c ho nt h ei a n g l l a g em o d e l si ns p e e c hr e c o g n i t i o n a c c o r d i n g l y , t h i sp a p e ri s o r g a n i z e di nt w ot h r e a d s :l a n g u a g em o d e la n d t e x tc o r r e c t i o n i nt h i sp a p e r , t h es p e e c hr e c o g n i t i o ns y s t e m sc h o s e na sr e s e a r c hs a m p l ei sp o p u l a r 坠! 竺! 竺垒! ! ! 竺坐兰! ! 竺! ! ! ! ! ! ! ! 坐竺! 唑! ! 壁! ! g 竺! ! 堕! ! ! ! 竺 垒坠r 竺 p r o d u c t i o n 卜- v i a v o i c e9 8c h i n e s ec o n t i n u o u ss p e e c hd i c t a t i o ns y s t e ma n dv i a v o i c e t e l e p h o n y t h ef o r m e rs y s t e mc o n t r i b u t e st oi n p u tn o n d o m a i n s p e c i f i ct e x t sw h i l et h e l a t t e ri n f o r m a t i o nr e t r i e v a li ns p e c i f i cd o m a i n ( t r a f f i cq u e r y ) i nc o n s i d e r a t i o no f d i f f i c u l t yo f t h er e s e a r c h ,w el e ts p e c i f i cu s e rt e s tf o r m e rs y s t e m 、v i t hn e w st e x t s ,s oa st o a c h i e v ec o m p a r a t i v e l yh i g hc o r r e c t i o nr a t i o a sn o n d o m a i n s p e c i f i cs e n t e n c e sa r ef u l lo fc o m p l e x i t ya n dv a r i e t y , a u t o m a t i c c o r r e c t i o ni sq u i t eu n p r a c t i c a lw i t h o u tad e e pi n s i g h ti n t ot h em e c h a n i s mo fs p e e c h r e c o g n i t i o n v i a v o i c e 9 8u t i l i z e ss o l e l y3 - g r a mw o r dm o d e l ,n e g l e c t i n gc o l l a t i o no fp o s a n ds e m a n t i c i no u rp o s t - p r o c e s s i n g ,e n h a n c e dl a n g u a g em o d e li st r a i n e df r o ml a r g e s c a l ec o r p u sf i r s t t h e nw eb a s eo u rr e s e a r c ho nw o r d l a t t i c e t l 】em e d i a lr e s u l td u r i n g s p e e c hr e c o g n i t i o n , t h e nw ee s t i m a t et h eb e s tc o m p l e t es e n t e n c ev i at h ee n h a n c e d l a n g u a g em o d e lf r o mt h en b e s tc o m p l e t es e n t e n c e sg e n e r a t e df r o mw o r d l a t t i c e t h e u t i l i z a t i o no fw o r d l a t t i c oc r nb o t hm a k eu s eo ft h em e d i a i n f o r m a t i o nd u r i n gs p e e c h r e c o g n i t i o na n da v o i di n t e r f e r i n gs p e e c hr e c o g n i t i o n t h ee n h a n c e dl a n g u a g em o d e li s d e s i g n e da c c o r d i n gt ot h ed r a w b a c k so fs p e e c hr e c o g n i t i o nl a n g u a g em o d e l s u c ha d e s i g ng u a r a n t e e st h ee f f e c to fc o r r e c t i o n a n dt h ei n t r o d u c t i o no fp o sc l a s sa n d s e m a n t i cc l a s s ,a v o i d st h ed i s a m b i g u a t i o no f p o sa n ds e m a n t i ci ne r r o n e o u st e x t i nd o m a i n - s p e c i f i cs p e e c hr e c o g n i t i o nt e x t ,t h es e n t e n c e sa r ec o m p a r a t i v e l ye a s i e r a n de r r o r sm o r er e g u l a r , b u tt h et r a i nc o r p u si sn o te a s yt og e t i nt h i sp a p e rw eu s er u l e m e t h o dt om a k ea u t o m a t i cc o r r e c t i o ni nt h ed o m a i no ft r a f f i ci n f o r m a t i o nq u e r yi n s h a n g h a iv i at e l e p h o n y b ys u m m a r i z i n gt h er u l e so fe l t o r s ,w ea c c o r d i n g l yd e f i n ea s e r i e so f w o r d ,s e m a n t i ca n dp r a g m a t i cr u l e s a f t e rs e g m e n t a t i o na n dw o r ds e n s e t a g g i n g , w ec h e c kt h ew o r d ,s e m a n t i cc o l l o c a t i o n ,a n dt h ec o r r e c t i o nr u l e sa r et r i g g e r e do n c e e r r o r - d e t e c t i n gr u l e sa r em a t c h e d a c c o r d i n gt h ee r r o n e o u s n e s so ft e x t s ,t h i sm e t h o d d e p e n d sh e a v i l yo na n a l y z eo fe r r o n e o u s n e s sa n du t i l i z a t i o no fd o m a i ni n f o r m a t i o n i n s h a n g h a i q u e s t ,a f t e rw ea p p l yt h i sm e t h o d ,a b o u th a l f o f t h ee r r o r sc a nb ea u t o m a t i c a l l y c o r r e c t e d ,w h i c hm a r k e d l ys u p p o r t st h en e x tu n d e r s t a n d i n gs t a g e d u et ot h es p e c i a l t yo fc h i n e s ea u t o m a t i cc o r r e c t i o n ,a l la c t u a ls y s t e mc a nh a r d i l y b ep r a c t i c a li fi ts i m p l yu t i l i z e st h eb a s i cm e t h o d s i nt h es u m m a r i z a t i o no ft h ep a p e r ,w e p r e s e n ts e v e r a lp r i n c i p l e si nt h ed e s i g no fa l lp r a c t i c a ls y s t e m a l s o ,w ee x p l a i nh o wt o m a k ei m p r o v e m e n t sa c c o r d i n gt ot h ep r e s e n tt w os y s t e m s d r a w b a c k s k e yw o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g ,s p e e c hr e c o g n i t i o np o s t - p r o c e s s i n g , s p e l l i n gc h e c k a u t o m a t i cc o r r e c t i o n ,w o r d l a t t i c e 1 1 1 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等 不保密口。 ( 请在以上方框内打“4 ”) 学位论文作者签名:余;霸 解密后适用本授权书。 指剥币躲协彬 日期:2 * 拜z 月,7 日日期:年 月日 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:余蕴 日期:2 。) 年z 月,7 日 汉语语音识别文本的自动纠错研究 1 1 语音识别 1 1 1 定义 第一章绪论 语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是 模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号 处理等诸多领域,甚至还涉及到人的体态语言( 如人在说话时的表情、手势等 可帮助对方理解的行为动作) ,其最终目标是实现人与机器进行自然语言通信。 1 1 2 原理 语音识别基本技术主要包括特征提取技术、模式匹配准则及模型训练技术i l j 三个方面。此外,还涉及到语音识别单元的选取。 ( 1 ) 语音识别单元的选取 选择识别单元是语音识别研究的第一步。语音识别单元有单词( 句) 、音节 和音素三种,具体选择哪一种,由具体的研究任务决定。 单词( 旬) 单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统, 原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实 时性要求。 音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英 语是多音节,并且汉语虽然有大约1 3 0 0 个音节,但若不考虑声调,约有4 0 8 个 无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说, 以音节为识别单元基本是可行的。 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语 音识别系统也在越来越多地采用。原因在于汉语音节仅由声母( 包括零声母有 2 2 个) 和韵母( 共有2 8 个) 构成,且声韵母声学特性相差很大。实际应用中常 把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高 了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何 获得稳定的音素单元,还有待研究。 ( 2 ) 特征参数提取技术 语音信号中含有丰富的信息,特征提取对语音信号进行分析处理,去除对 语音识别无关紧要的冗余信息,获得对语音识别有用的重要信息。对于非特定 汉语语音识别文本的自动纠错研究 人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的 个人信息( 对特定人语音识别来讲,则相反) 。从信息论角度讲,这是信息压缩 的过程。 线性预测( l p ) 分析技术是目前应用广泛的特征参数提取技术,许多成功 的应用系统都采用基于l p 技术提取的倒谱参数。但线性预测模型是纯数学模型, 没有考虑人类听觉系统对语音的处理特点。 m e l 参数和基于感知线性预测( p l p ) 分析提取的感知线性预测倒谱,在一 定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究 成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。 也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述 技术相比,有待进一步研究。 ( 3 ) 模式匹配及模型训练技术 模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特 征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一 个模型获得最佳匹配。 语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术 ( d t w ) 、隐马尔可夫模型( h m m ) 和人工神经元网络( a n n ) 。 d t w 是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解 决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得 了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被h m m 模 型和a n n 替代。 h m m 模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过 程共同描述信号的统计特性,其中一个是隐蔽的( 不可观测的) 具有有限状态 的m a r k o v 链,另一个是与m a r k o v 链的每一状态相关联的观察矢量的随机过程 ( 可观测的) 。隐蔽m a r k o v 链的特性要靠可观测到的信号特征揭示。这样,语 音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随 时间的变化由隐蔽m a r k o v 链的转移概率描述。模型参数包括h m m 拓扑结构、 状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点, h m m 模型可分为离散隐马尔可夫模型( 采用离散概率密度函数,简称d h m m ) 和连续隐马尔可夫模型( 采用连续概率密度函数,简称c h m m ) 以及半连续隐 马尔可夫模型( s c h m m ,集d h m m 和c h m m 特点) 。一般来讲,在训练数据 足够时,c h m m 优于d h m m 和s c h m m 。 h m m 模型的训练和识别都己研究出有效的算法,并不断被完善,以增强 h m m 模型的鲁棒性。 人工神经元网络在语音识别中的应用是现在研究的又一热点。a n n 本质上 2 汉语语音识别文本的自动纠错研究 是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、 联想、对比、推理和概括能力。这些能力是h m m 模型不具备的,但a n n 又不 具有h m m 模型的动态时间归正性能。因此,现在已有人研究如何把二者的优 点有机结合起来,从而提高整个模型的鲁棒性。 1 1 3 分类 语音识别系统,按不同的分类原则有多种分类: 夺根据对说话人说话方式的要求。可以分为孤立字( 词) 语音识别系统、 连接字语音识别系统以及连续语音识别系统。 夺根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 夺根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限 词汇量语音识别系统。 夺根据待识别语句的复杂程度依次递增,可以分为离散式的语音( 词是一 个一个地发出来,词边界很清晰,识别率很高) 、控制命令式语音( 控 制设备所用的命令式语音可以设计成结构式的语句,这些结构是设备可 接受的) 、读式语音( 由人连续朗读印刷文字,文字词汇量较大) 1 2j 、 自然语音( 真正是日常生活中地地道道使用的自然语音,充满了间歇、 他人插话、环境噪音、未知词和不完整的词) 。 1 1 4 历史 语音识别的研究工作大约开始于5 0 年代,当时a t & t b e i | 实验室实现了第 个可识别十个英文数字的语音识别系统a u d r y 系统。 6 0 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了 动态规划( d p ) 和线性预测分析技术( l p ) ,其中后者较好地解决了语音信号产 生模型的问题,对语音识别的发展产生了深远影响。 7 0 年代,语音识别领域取得了突破。在理论上,l p 技术得到进一步发展, 动态时间归正技术( d t w ) 基本成熟,特别是提出了矢量量化( v q ) 和隐马尔 可夫模型( h m m ) 理论。在实践上,实现了基于线性预测倒谱和d t w 技术的 特定人孤立语音识别系统。 8 0 年代,语音识别研究进一步走向深入,其显著特征是h m m 模型和人工神 经元网络( a n n ) 在语音识别中的成功应用。h m m 模型的广泛应用应归功于 a t & t b e l l 实验室r a b i n e r 等科学家的努力。他们把原本艰涩的h m m 纯数学模 型工程化,从而为更多研究者了解和认识。a n n 和h m m 模型建立的语音识别 系统,性能相当。 汉语语音识别文本的自动纠错研究 进入9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走 向实用。许多发达国家如美国、日本、韩国以及i b m 、a p p l e 、a t & t 、n t t 等 著名公司都为语音识别系统的实用化开发研究投以巨资。 我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语 音识别的研究列入“8 6 3 ”计划,由中科院声学所、自动化所及北京大学等单位 研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美 国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到 相当高水平。因此,国内除了加强理论研究外,更重视的是从实验室演示系统到 商品的转化。 1 1 5 应用 语音识别技术的市场前景无量,它的应用领域非常广泛,有声控电话交换、 语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系 统、声控智能玩具、医疗服务、银行服务、股票查询服务、听写机、计算机控制、 工业控制、语音通信系统等等,几乎涉及日常生活的每一个领域。 它在一些应用领域中正迅速地成为一个关键的、而且具有竞争力的技术,并 且必将改变人们的日常生活( 图1 1 ) 1 3 j 。 u 潇f 匕 t 舟 藏靶瓣青 蝗 萋卿谴;释爵 g 建接蚓 孤丘窄w ¥ 巍i 蔓l 瀵话幕照, 翔对话蕞缝 , 同珞代拜翱广播埔甘零! 刖 蝴”夕链 獬攮矿、笃机 罐碾7 广 最话叠蕾谢 、 02 02 1 02 0 0 02 r i 0 0 0 薏限朝 靛剐摹缱的硐 l t 图1 1步骤:语音识别和说话者系统技术复杂度和当前可达到的应用能力 f i g l - l t h ec o m p l e x i t yo f s p e e c hr e c o g n i t i o ns y s t e mv s t h ea b i l i t y c u r r e n t l ya c h i e v a b l eo f s p e e c ha p p l i c a t i o n s 1 i 6 困难 语音信号本身具有多变性、动态性、瞬时性和连续性,这些特点造成了语音 识别的困难,具体来讲【i 】: 语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境 4 汉语语音识别文本的自动纠错研究 下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧 下降:另外一个问题是对用户的错误输入不能正确响应,使用不方便。 夺高噪声环境下语音识别进展困难,因为此时人的发音变化很大,象声音 变高、语速变慢、音调及共振峰变化等等,这就是所谓l o m b a r d 效应, 必须寻找新的信号分析处理方法。 夺语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识 量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型 在中、大词汇量连续语音识别中是非常重要的。 我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制 机理等方面的认识还很不清楚;其次,把这方面的现有成果用于语音识 别,还有一个艰难的过程。 夺语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题 需要解决,如识别速度、拒识问题以及关键词( 句) 检测技术( 即从连 续语音中去除诸如“啊”、“唉”等语音,获得真正待识别的语音部分) 等等技术细节要解决。 1 1 7 电话识别 电话识别( p h o n er e c o g n i t i o n ) 是语音识别的扩展。语音识别指得是使用麦 克风( 或其它直接附在计算机上的输入设备) 来对计算机讲话,而电话识别指得 是对着电话通过电话线与计算机讲话。语音识别能增强甚至替换键盘、鼠标和计 算机的交互。与之相似,电话识别能增强或替换电话按键。这一点在语音应答式 应用中尤为有用。在语音应答式应用中,复杂的语音应答菜单对于端用户来说可 能过于麻烦,也有可能需要用户输入字母信息而非数字信息。 电话识别系统除了使用语音识别引擎作为其核心之外,还包含了其它针对电 话优化过的数据文件。本研究中使用了i b m 公司的v i a v o i c et e l e p h o n yr u n t i m e 电话识别开发平台,该平台使用的就是由v i a v o i e e 提供的标准语音识别引擎【4 】。 1 2 自然语言处理 1 2 1 定义 自然语言处理是人工智能的一个分支,就是研究如何能让计算机理解并生成 人们日常所使用的语言( 如汉语、英语) ,目的在于建立起一种人与机器之间的 密切而友好的关系,使之能进行高度的信息传递与认知活动。 5 汉语语音识别文本的自动纠错研究 1 , 2 2 基本思路 自然语言处理综合语言学、计算机科学、数理逻辑、心理语言学、人工智能、 数理统计等多种学科的研究成果,通过建立形式化的计算模型来分析、处理自然 语言。其基本思路主要有两种:理性主义和经验主义。 理性主义的方法是基于乔姆斯基( n c h o m s k y ) 的语言原则( p r i n c i p l e s ) 。理 性主义认为,人的很大一部分的语言知识是与生俱有的,由遗传决定的。按理性 主义的研究思路,自然语言处理主要研究人的语言知识结构( 语言能力,l a n g u a g e c o m p e t e n c e ) 。实际的语言数据( 语言行为,l a n g u a g ep e r f o r m a n c e ) 只提供了这 种内在知识的间接证据。 经验主义的方法是基于香农( s h a n n o n ) 的信息论。它将语言事件赋予概率。 经验主义认为,人的知识通过感官输入,经过一些简单的联想( a s s o c i a t i o n ) 与 通用化( g e n e r a l i z a t i o n ) 的操作而得到的。人并不是生来就有一套有关语言的原 则和处理方法。按经验主义的研究思路,自然语言处理的研究对象是实际的语言 数据。在计算语言学中,许多研究试图从大量的语言数据中获取语言的结构知识 【5 l 。 1 3 本文的工作 信息社会发展曰新月异,电子出版物、网上在线图书馆等有着广阔的市场前 景。这些信息主要是通过o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ) 、语音、键盘录入 等方式输入计算机的。然而在目前的技术水平下,它们中的任何一种都无法保证 输入的信息准确无误,解决信息输入的准确性问题成为当务之急。本文研究的是 连续汉语语音识别文本的自动纠错。 目前,学术界提出了文本自动校对技术,但尚未明确提出语音识别文本的自 动纠错技术。文本自动校对技术研究汉语输入( 键盘、o c r ) 的自动查错和纠错。 从形式上看,语音识别文本的自动纠错是文本自动校对技术在语音输入方面的应 用。但无论现象和原因,语音输入出错都比键盘、o c r 复杂,语音识别错误的 恢复绕不开对语音识别系统所用语言模型的研究。所以本质上,语音识别文本的 自动纠错属于语音识别后处理过程。本文虽题为文本纠错,但不拘泥于文本层面, 而是深入到语音识别系统内部,从语音识别系统所用语言模型的角度展开研究。 本文的工作,也围绕语言模型和文本校对两条主线展开。 本文以主流产品一一i b m 公司的v i a v o i c e 9 8 中文连续语音听写系统和 v i a v o i c et e l e p h o n y 电话语音识别系统作为研究系统实例。前者用于通用领域文 本的输入,后者用于限定领域( 交通查询) 的信息提取。考虑到目标的难度,用 6 汉语语音识别文本的自动纠锚研究 特定人和新闻稿测试前者,以获得较高的文本正确率和纠错起点。 通用领域句式复杂多变,不深入语音识别系统内部寻找规律的话很难有所作 为。v i a v o i c e 9 8 单纯使用3 元词法模型,忽略了词性和语义搭配信息。本文通过 大规模语料训练设计出增强的语言模型,利用v i a v o i c e 系统语音识别时生成的 中间结果w o r d l a t t i e e 作为工作起点,用动态规划法生成n b e s t 候选句,并以该 增强的语言模型评优的后处理方法。利用w o r d l a t t i c e 既能充分利用语音识别系 统的中间信息,又避免了介入语音识别系统内部形成干扰。提出的语言模型针对 v i a v o i c e 所用语言模型的不足而设计,保证了纠错的效果。引入词性类和语义类 的概念,回避了含错文本的词性和语义兼类排歧问题。 限定领域句式相对简单,出错也较有规律,但统计法所必需的大规模训练语 料不易获取。本文就上海市内交通电话查询特定领域用规则法处理纠错。通过总 结识别文本中的出错规律,定义了相应的用于查错和纠错的词形、语义和语用规 则。识别文本经切分、语义标注,逐次检查词形、语义标记搭配和语用信息,一 俟匹配查错规则就激发纠错。针对识别文本含错严重的现状,该法更多地依赖对 出错现象的分析和对领域信息的应用。 本文结构如下:第二章是分析语音识别文本出错现象及原因,第三章详述语 音识别文本的自动纠错策略,第四章以本实验室开发的s h a n g h a i q u e s t ( 上海市 电话语音交通查询系统) 为例,介绍限定领域识别文本的规则法纠错,第五章是 统计法用于v i a v o i c e 9 8 的实例基于w o r d l a t t i c e 的语音识别后处理。第六章 总结,提出了纠错系统实用化的设计原则,并针对本文中两个系统实例的不足, 给出了进一步改进的侧重点和方法。 7 汉语语音识别文本的自动纠错研究 第二章连续语音识别出错的现象和原因 与其它文本输入方式( 键盘、o c r ) 相较,连续语音输入出错的现象和原因 都更为复杂。针对键盘输入而发展起来的文本校对技术,并不完全适于语音识别 文本。 2 1 连续语音输入出错的现象 连续语音输入时,语句中相邻语音单元或者识别单元( 音节、词或者词组) 相互钳制、相互影响,使得各音节间产生“吃音”、丢音现象和协同调音作用, 从而使得各个语音单元的音长、音强、音调等特征随前后相邻的语音单元不同而 发生不同的变化。另外,连续语音使得语音单元的界限模糊,再加上计算机并不 知道每次发音会包含多少各语音单元数目,这些都给语音单元的正确切割造成极 大的困难。语音单元不能正确切割,势必严重影响语音识别的性能1 6 j 。以下举例 说明英文和中文连续语音输入时的出错现象。 2 1 1 连续英语语音输入 英文连续语音输入出错现象如下( 以特定领域对话系统t r a i n s 上进行的试 验【2 】为例) : ( 1 ) 虚词出错频繁 原句: s e n dt h et r a i nf r o mm i l w a u k e e1 dc h a i u 。e s t o n 识别结果:s e n dt h a t 豇h i n 4 r f r o mm i l w a u k e et oc h a r l e s t 0 n 原句:g r e a t n o w i w a n t t o g o f r o m w s h i n g t o nt o b o s t - o n 识别结果:g r e a tn o wi z 工w a n tag 0f r o mw a s h i n g t o ni nt o b o s t o n 原旬:r i g h ts e n dt h et r a i nf r o mm o n t r e a lt oc h a r l e - s t o n 识别结果:r at es e n dt h a tt r a i nf r o mm o n t r e a lt dc h a r l e - 8 汉语语音识别文本的自动纠错研究 s t o n ( 2 ) 实词也会出错 a 1 单个词替换错 原旬:g 0t o 丑4 工z m 枷e 识别结果:g ot oo u t s i d e ”单个词错分成多个短词 原句:g of r o mc h i c a g ot ot o l e d o 识别结果:g of r o mc h i c a g ot ot o l e a v e a t c 1 多个词错连成一个长词 原句:g odi r e c t l yf r o mb u f f a l ot op i t t s b u r g h 识别结果:g od i r e c t l y f r o mb u f f a l ot e n t h d 1 错误绵延数个邻接词,搅乱词边界 原句:g r e a t0 k a _ yn o ww ec o u l dg of r o m 翩1 7 m o n n 迮a l t o ,a s h i n g t o n 识别结果:i mg r e a t0 k a yn o ww e e ki tg of r o mc i t ym o n t r e a lt o 、 s h i n g t o n 原旬:s e n dt h e 刀m 上f r o mc h a r l e s t o n t ob o s t o n 识别结果:s at u r d a y a n df r o mc h a r l o t t e i n t ob o s t o n e 1 加入叹词后,这种错误绵延数个邻接词、搅乱词边界的错误特别突 出 原句:u hn o n ou m b r i n gt h et r a i nf r o mc h a r i e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论