




已阅读5页,还剩59页未读, 继续免费阅读
(信号与信息处理专业论文)基于网格的中文语音文件检索技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
c l a s s i f i e di n d e x : u d c : ad i s s e r t a t i o nf o rt h ed e g r e eo fm e n g r e s e a r c ho nm a n d a r i ns p o k e nd o c u m e n t r e t r i e v a lb a s e do nl a t t i c e c a n d i d a t e :g a oy u n x i a s u p e r v i s o r :a s s o e p r o lz h a n gl e i a c a d e m i cd e g r e e a p p l i e df o r :m a s t e ro fe n g i n e e r i n g s p e c i a l i t y :s i g n a la n di n f o r m a t i o np r o c e s s i n g d a t eo fs u b m i s s i o n :m a r c h ,2 0 1 0 d a t eo fo r a le x a m i n a t i o n :m a r c h ,2 0 1 0 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 吣59 3萋| 808 1洲y ,l 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其它个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :高逗霞 日期:2 0 l o 年弓月,6 日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :高运霞 日期:2 0 1 0 年多月1 6 日 导师( 签字) :亏。岛。 圳。年月l 日 ,lf, , l 哈尔滨工程大学硕士学位论文 摘要 语音文件检索技术,可以有效地帮助人们从海量的语音信息资源中找到 与自己需求相关的信息,是解决信息爆炸问题最有效的技术手段。随着语音 识别技术的不断发展,将语音识别技术与传统的文本信息检索技术相结合来 进行语音文件检索已经成为一个趋势。然而,语音识别系统的效果,将严重 影响语音文件检索的性能。在大多数情况下,由于模型不匹配或者语料噪声 的影响等,使得语音识别的效果往往不能令人满意。 针对如何将语音识别技术与信息检索技术有效结合这一问题,本文从语 音文件的表示形式及信息检索模型两方面进行考虑,提出了一种新的中文语 音文件检索方法。一方面,对于语音文件的表示形式,采用s y l l a b l e l a t t i c e 结构。l a t t i c e 可以提供语音识别的多候选结果,它能够一定程度上减轻语音 识别的误识对信息检索系统的影响。同时,基于子词的索引策略一s y l l a b l e ( 音 节) ,可以有效地解决查询请求中的o o v 词的问题。另一方面,对于信息检 索模型,本文研究了信息检索相关技术,在传统的查询似然信息检索模型中 引入了文件长度先验概率。 实验表明,基于s y l l a b l e 1 a t t i c e 的检索系统的检索效果大大优于传统的 o n e b e s t ,其中,在信息检索模型中引入文件长度先验概率信息,可使基于 s y l l a b l e 1 a t t i c e 的语音文件检索系统的检索效果达到最优,比基线检索模型提 高了约3 0 。实验证明了所提方法是正确的、可行的、有效的。 关键词:语音文件检索;音节网格:文件先验概率 ,lr, 饥 i 哈尔滨工程大学硕士学位论文 a bs t r a c t s p o k e nd o c u m e n tr e t r i e v a lt e c h n o l o g yc a nb ee f f e c t i v ei nh e l p i n gp e o p l e f i n dr e l e v a n ti n f o r m a t i o nf r o mt h ef l o o do fi n f o r m a t i o nr e s o u r c e s w i t ht h e a d v a n c e si ns p e e c hr e c o g n i t i o nt e c h n o l o g y ,i n t e g r a t i n gt h ei n f o r m a t i o nr e t r i e v a l t e c h n o l o g ya n ds p e e c hr e c o g n i t i o nt o g e t h e rt or e a l i z es p o k e nd o c u m e n tr e t r i e v a l s y s t e mh a sb e c o m eat r e n d h o w e v e r , i nm o s tc a s e s ,b e c a u s eo ft h em i s m a t c ho f t h em o d e l ,o rt h ei m p a c to fn o i s e ,t h eb e s tr e s u l t so fs p e e c hr e c o g n i t i o na l eo f t e n u n s a t i s f a c t o r yt ob eu s e di nt h es p o k e nd o c u m e n tr e t r i e v a ls y s t e m t os o l v et h i sp r o b l e m ,i nt h i sp a p e r , t h ee f f e c t so fb o t l lr e t r i e v a ls o u r c ea n d r e t r i e v a lm o d e la l ec o n s i d e r e d ,c o m b i n et h e me f f e c t i v e l yt or e a l i z ean e w m a n d a r i ns p o k e nd o c u m e n tr e t r i e v a lm e t h o d f o rt h er e t r i e v a ls o u r c e ,t h e s y l l a b l e l a t t i c ep r o v i d i n gm u l t i p l eh y p o t h e s i si sa d o p t e d ,w h i c hc a n a m e l i o r a t et h e e f f e c to fs p e e c hr e c o g n i t i o ne r r o ro ni n f o r m a t i o nr e t r i e v a l a tt h em e a n w h i l e ,t h e s y l l a b l e b a s e da p p r o a c hc a l le f f e c t i v e l ys o l v et h eo u t - o f - v o c a b u l a r yp r o b l e mi n t h eq u e r y f o rt h er e t r i e v a lm o d e l ,t h ed o c u m e n tl e n g t hp r i o ri sc o m b i n e dw i t l lt h e t r a d i t i o n a lq u e r yl i k e l i h o o dr e t r i e v a lm o d e l e x p e r i m e n t a lr e s u l t ss h o wt h a tt h er e t r i e v a lp e r f o r m a n c eo fl a t t i c e - b a s e d m e t h o do u t p e r f o r m st h a to fo n e - b e s tm e t h o d f u r t h e rm o r e ,i nt h er e t r i e v a lm o d e l 、析t ht h ed o c u m e n tl e n g t hp r i o r , l a t t i c e b a s e da p p r o a c hc a na c h i e v et h eb e s t p e r f o r m a n c e ,i tc a ni m p r o v ea b o u t3 0 t h en e wm e t h o di sp r o v e dt ob ec o r r e c t , f e a s i b l ea n de f f e c t i v eb yt h ee x p e r i m e n t s k e yw o r d s :s p o k e nd o c u m e n tr e t r i e v a l ;s y l l a b l e - l a t t i c e ;d o c u m e n tp r i o r s rlr 哈尔滨工程大学硕士学位论文 第1 章 1 1 1 2 1 3 第2 章 2 1 2 2 2 3 2 4 第3 章 3 1 3 2 3 3 目录 绪论l 研究背景1 语音文件检索技术的发展现状2 本文的主要研究内容4 1 3 1 主要完成的工作5 1 3 2 章节安排5 基于o n e - b e s t 的语音文件检索一7 前言7月u 青7 语音文件的前处理7 2 2 1 h t k 工具8 2 2 2 语音特征提取8 2 2 3 声学模型的h t k 实现9 2 2 4 语言学模型的h t k 实现。1 1 2 2 5o n e b e s t 的产生1 3 语音文件的后端检索1 4 2 3 1 传统的信息检索方法1 4 2 3 2 查询似然检索模型1 6 2 3 3 查询似然检索模型与t f * i d f 的关系。1 9 本章小结2 0 基于s y l l a b l e 1 a t t i c e 的语音文件检索2 1 前言2 1 1日o 舌 网格的应用2 2 网格的概念及表示2 2 3 3 1l a t t i c e 的图形表示2 2 缸 匕 哈尔滨丁程大学硕士学位论文 3 3 2 l a t t i c e 的h t k 形式2 3 3 3 3l a t t i c e 的c 数据结构实现2 4 3 4l a t t i c e 与信息检索模型2 9 3 4 1 排名公式的计算3 l 3 4 2 计算方法证明3 4 3 5 文件长度信息的引入3 6 3 5 1j - m 平滑算法与文件长度先验概率3 7 3 5 2 一种新的中文语音文件检索方法3 7 3 6 本章小结3 8 第4 章实验结果及分析4 0 4 1 实验基本设置4 0 4 2实验结果4 2 4 2 1o n e b e s t 与基线信息检索模型4 2 4 2 2 s y l l a b l e 1 a t t i c e 与基线信息检索模型4 3 4 2 3o n e b e s t 与混合形式的信息检索模型4 4 4 2 4 s y l l a b l e 1 a t t i c e 与混合形式的信息检索模型4 6 4 3实验结果对比4 6 4 4 检索软件简介4 7 4 5 本章小结4 8 结论5 0 参考文献5 2 攻读硕士学位期间发表的论文和取得的科研成果5 7 致谢5 8 _ r k l - r 、l i l i o 哈尔滨工程大学硕士学位论文 第1 章绪论 1 1 研究背景 “语言一作为最直接、最快捷的沟通方式,在人际交流与通信中占据重 要地位,更是人们在日常工作与生活中经常采用的一种沟通方式。让计算机 对人类语言进行自然、正确、流畅的识别是语音识别技术研究的最终目标。 随着计算机技术的迅猛发展,语音识别技术已经取得了阶段性的进步。基于 统计的隐马尔可夫模型技术的出现,更加快了语音识别技术发展的脚步。可 以说语音识别技术推动了人类信息化时代的进步,但同时,信息化也向语音 识别技术的发展提出了更高的要求和挑战。 近些年来,计算机技术的高速发展和多媒体技术的兴起,使得音频文件 和文本文件一样,已经成为信息保存和获取的主要方式【l 翻。如何管理、分类、 查找这些大容量的音频文件成为语音识别领域的又一挑战。如何从海量信息 中找到用户感兴趣的文件,方便用户查找和使用相关信息,已经成为亟待解 决的问题。语音文件信息检索技术可以有效地帮助人们从海量的信息资源中 找到与自己的需求相关的信息,是解决信息爆炸问题最为有效的技术手段。 语音文件检索( s p o k e nd o c u m e n tr e t r i e v a l ) 是文档库为语音文件的一种信 息检索方式,目的是从大量语音文件中找到与查询相关的一系列语音文件, 并且会根据文件与查询的相关度大小进行排名。文本形式的信息检索技术已 趋于成熟,然而语音文件形式的信息检索刚刚起步。与文本形式的信息检索 不同的是,语音文件无法直接与查询词进行对比,语音文件必须通过语音识 别转换成内容特征,例如关键词,音节串,文字等【3 】。近年来,随着语音识 别技术的飞速发展,语音文件检索技术也得到了长足的进步。其应用领域主 要包括到图书馆、报社、电台、电视台、信息中心、大中型企业等各种有电 子媒体的领域1 4 j 。 哈尔滨工程大学硕士学位论文 1 2 语音文件检索技术的发展现状 语音文件检索技术是个新兴领域,其广泛的应用前景,受到国内外许多 学者,机构的关注。许多知名的大学和研究院,如剑桥大学、c m u 、m i t 、 香港大学、微软、中科院、台湾大学语音实验室等均有投入这方面的研究。 较著名的研究计划包括剑桥大学的v o i c em a i lr e t r i e v a lu s i n gv o i c e ,a u d i o d o c u m e n tp r o c e s s i n g 以及m u l t i m e d i ad o c u m e n tr e t r i e v a l 计划。除了一些知 名的大学外,工业界有b b n 的r o u g h n r e a d ys y s t e m 、a t & t 的s c a n s y s t e m 等1 2 6 1 。但是,语音文件检索技术起步比较晚,传统的文本信息检索研 究的则比较多。国内研究语音的方向主要集中在关键词检出技术和大词表连 续语音识别技术。语音文件检索的研究主要集中在国外,而基于网格的语音 文件检索,更是风毛麟角。 就信息检索的方法而言,目前,信息检索( i n f o r m a t i o nr e t r i e v a l ) 模型可以 从两种不同的匹配策略进行划分,即基于统计的方式和语义的匹配。基于语 义的匹配策略主要有l s i ( l a t e n ts e m a n t i ci n d e x i n g ) ,p l s i ( p r o b a b i l i s t i cl a t e n t s e m a n t i ci n d e x i n g ) ,t m m ( t o p i c a lm i x t u r em o d e l ) t 5 1 。基于语义的方法试图从 语法和语义上理解自然语言来解决检索问题,但是这种方法需要投入较多的 资源,如分类体系、语义词典、推理规则等,这些资源的完善程度受人力限 制。目前在信息检索中占统治地位的仍是基于统计的方法,它不强求从语义 上理解自然语言,只是简单地观察自然语言的特征,从统计学的角度寻找某 些可以利用的信息 6 1 。向量空间模型( v s m ) 和基于概率的方法是采用统计的 方式。向量空间模型,将查询词与文件用向量的形式表示,由于它原理简单 且有令人满意的表现受到了广泛的应用。向量空间模型通过数学的方法对文 档和查询进行向量化表示,并用向量之间的相似度对文档进行排名,尽管这 种方法简洁明了,但是相似度的计算量大,当有新文档加入时,则必须重新 计算词的权值。并且文本中的词被认为相互独立,会丢掉大量的文本结构信 息【7 】o 统计语言建模技术( s t a t i s t i c a ll a n g u a g em o d e l i n g ,s l m ) ,它是基于概率的 2 一 “ 哈尔滨工程大学硕士学位论文 模型试图利用统计学和概率论的知识对自然语言进行建模,从而捕获自然语 言中的规律和特性,以解决语言信息处理中的特定问题。1 9 9 8 年p o n t e 和 c r o f t 两人首次把统计语言建模技术应用于信息检索领域,把检索问题转化 成为对语言模型的估计问题,提出一种基于查询似然( q u e r yl i k e l i h o o d ) 的文档 排名方法,并在r 领域掀起了语言模型的研究热潮嗍。在卡耐基梅隆大学 ( c a r n e g i e m e l l o nu n i v e r s i t y ) 的语言技术研究所( l a n g u a g e t e c h n o l o g i e s i n s t i t u t e ) 以及麻省大学的智能信息检索中,1 1 , ( c e n t e rf o ri n t e l l i g e n ti n f o r m a t i o n r e t r i e v a l ) 等的推动下,基于统计语言建模的检索技术得到了较快的发展。 在原有的s l m 中的查询似然检索模型的基础上,围绕着这种检索方法, 研究者们进行了拓展和改进,相继提出了一些更为复杂的检索模型,如统计 翻译模型和k l 距离检索模型。统计翻译模型,这种检索模型的一个显著特 点是其固有的查询扩展和处理同意词和多义词的能力。但是因为翻译模型是 上下文无关的,它处理词义歧义的能力有限。截至目前,统计翻译模型比基 准语言模型性能上有了显著的提高。它的弱点是需要极大的训练数据来估计 翻译模型和其对文档排序时的低效( 因为对文档中的每个词都要估计翻译模 型) 【9 】。l a f f e r t y 和z h a i 根据贝叶斯决策论和s l m 技术提出了一种基于风险最 小化的概率检索构架。在这个构架中,文档和查询各来自于两个不同的生成 模型,即文档语言模型和查询语言模型。根据贝叶斯决策理论,文档语言模 型与查询语言模型可以整合在文档排名函数中,用户的个人偏好信息由损失 函数体现,检索问题最终可转换为风险最小化问题。在k l 距离检索模型中, 因为文档和查询都被建模为相应的语言学模型,所以利用一些统计估计技术 自动地设置检索参数将是可行的,这是这种检索构架的一个重要优点。 对于中文语音文件建立索引的特征上,一般来说有三种途径:词为基础 ( w o r d b a s e d ) ,字为基础( c h a r a c t e r - b a s e d ) 和音节为基础( s y l l a b l e b a s e d ) 。根据 前人的研究,西方语言如英文,通常以词为基础做索引特征会比其它两者有 较好的索引率。而对于中文而言,是以音节为基础做索引会有比较好的效果 【1 0 1 。以词为基础的索引特征会提供较多的语义信息,而以音节为索引单位, 3 k 0 哈尔滨丁程大学硕士学位论文 在处理语音识别错误的时候,更具有鲁棒性,因此,近几年来有学者提出将 这两种检索特征相结合。对于o n e b e s t 输出,索引单位是词与音节的结合方 法主要有以下几种:( 1 ) 分别检索词为单位和音节为单位的识别结果,然后 将检索结果相加。( 2 ) 对于属于字典的查询词,搜索以词为识别结果的索引, 对于词表外的查询词,搜索以音节为识别结果的索引。( 3 ) 搜索词的索引, 如果没有结果返回,则搜索音节的索引【1 1 2 1 。 而对于语音文件检索中语音文件的表示形式通常有三种:o n e b e s t , w c n ( 混淆网络) ,l a t t i c e 。o n e b e s t 即是语音文件经语音识别系统处理过后, 语音文件的最优译本,形式上类似于传统的文本文件。w c n 为l a t t i c e 的一 种特殊结构。而语音识别结果中间结构- l 枷c e ( 网格) ,它是一种有向无环图, 在网格中可能存在多个潜在路径,这种多候选特性可以在一定程度上补偿由 于模型不匹配等原因带来的语音识别错误,提高系统的顽健性。近几年来, 在语音的关键词检出任务及语音文件的检索当中,受到了广泛的关注。台湾 大学语音实验室在中文语音文件的检索上,做了大量工作,研究者们分别将 v s m 、h m m 、t m m 、l s i 、p l s i 、p l s i + v s m 等信息检索模型,用于语音 文件检索实验中,取得了一定的成果【1 3 1 。但语音文件的表示形式均采用的是 o n e b e s t ,前面介绍的比较出名的计划及系统,也是如此。l a t t i c e 的应用, 最早出现在关键词检出任务当中,1 9 9 4 年,j a m e s 等首次在语音文件建立索 引时采用网格结构【1 4 1 。随后,1 9 9 5 年,j a m e s 在音素网格结构上统计查询词 的出现次数,应用于向量空间模型( v s m ) 中的t f * i d f 权重信息,进行语音文件 检索。随后,一些应用l a t t i c e 进行语音文件检索的方法被提出。如s i e g l e r 用基于词的网格,结合v s m 进行语音文件检索【1 5 1 ,而在国内,中科院的一 些学者也采用s y l l a b l e 1 a t t i c e ( 音节网格) 结构,结合v s m 模型的原理,实验 文档集为5 0 0 个新闻文件,进行了查询词为语音的中文语音文件检索任务【1 6 1 。 1 3 本文的主要研究内容 本文主要研究了基于s y l l a b l e 1 a t t i c e ( 音节网格) 的语音文件检索系统。如 4 哈尔滨工程大学硕士学位论文 何将语音识别的中间结果一s y l l a b l e 1 a t t i c e 与传统的信息检索模型进行有效 的结合,是本论文的研究重点。前已述及,语音文件检索存在的最大问题就 是语音识别的效果往往不能令人满意,而l a t t i c e 方法,因其可提供多候选的 识别结果,从一定程度上可以减轻语音识别错误对信息检索系统的影响,受 到越来越多人的关注。而对于信息检索模型本身而言,一些信息检索技术, 如相关反馈机制,语义平滑,文件长度先验概率等,可以有效地提高信息检 索系统的检索效果。因此,本文将从语音文件的表示方法及信息检索模型两 方面综合考虑,提出一种更加有效的语音文件检索方法。本文对于语音文件 的表示形式,将采用s y l l a b l e 1 a t t i c e 的形式,信息检索模型采用近年来备受关 注的统计语言检索模型中的查询似然检索模型,并引入文件长度先验概率, 采用混合形式的信息检索模型,力求两方面的最优的组合可以使语音文件检 索系统的检索性能得到提升。实验表明,本文所提的方法实现简单,提高了 语音文件检索系统的检索效果。 1 3 1 主要完成的工作 本文在国内外文献资料的基础上,主要完成了以下几个方面的工作: ( 1 ) 实现了基于o n e b e s t 的语音文件检索系统。主要利用信息检索的知 识,构建一个语音文件检索基线系统。 ( 2 ) 实现基于s y l l a b l e 1 a t t i c e 的语音文件检索系统。研究l a t t i c e 的结构, 利用语音识别等知识,计算词的后验概率,然后与信息检索模型相结合。 ( 3 ) 学习信息检索相关技术,将文件长度先验概率引入信息检索模型中。 ( 4 ) 实验证明所提方法的有效性。 ( 5 ) 开发一个可以实用的语音文件检索软件。 1 3 2 章节安排 本文的章节安排如下: 第l 章首先介绍了本文研究背景和应用范围,然后对语音文件检索技术 的发展概况进行了简单的介绍,最后概述了本文研究的主要内容。 s k 哈尔滨工程大学硕士学位论文 第2 章首先阐述了基于o n e b e s t 的语音文件检索系统的框架,分析检索 系统所涉及到的主要技术,然后分别对其中的关键技术进行详细地介绍。最 后,构建了语言文件检索系统的基线平台,以基线系统的形式为后来的研究 提供实验对比。 第3 章研究了本文的重要理论一基于s y l l a b l e 1 a t t i c e 的语音文件检索。根 据s y l l a b l e 1 a t t i c e 的特殊结构,采用前向后向算法计算词的后验概率等信息, 使之与信息检索系统相结合,实现了基于s y l l a b l e 1 a t t i c e 的语音文件检索系 统。并研究了语音文件先验概率对信息检索系统的影响,在基于 j e l i n e k - m e r c e r 平滑算法的语言学模型中引入了文件长度先验概率。并将此信 息检索模型与s y l l a b l e 1 a t t i c e 相结合,实现了本文最优的语音文件检索系统, 是语音识别技术与信息检索技术的有效结合。 第4 章是本文的实验部分。研究了两种语音文件的表示形式:o n e b e s t 和s y l l a b l e 1 a t t i c e ,以及两种信息检索模型:信息检索模型中是否引入文件长 度先验概率,两两组合,形成4 种语音文件检索系统。给定查询词,实验文 档集,得到各个系统的检索性能指标,并对四组实验结果进行了对比。通过 分析实验得到的数据,对比四种方法的优缺点,最后给出了实验结论。 6 k o 哈尔滨工程大学硕七学位论文 第2 章基于o n e b e s t 的语音文件检索 2 1 前言 语音文件检索系统,实际上是将语音识别技术与传统的文本信息检索技 术相结合来实现的。在本文的基线系统中,语音文件采用o n e - b e s t 的表示形 式,信息检索模型采用基于统计语言学的查询似然检索模型。基于o n e - b e s t 的语音文件检索系统的实现框图如图2 1 所示。从图2 1 中可以看出,语音文 件检索系统的实现可以分解成两个基本问题:语音文件的前端处理部分与语 音文件的后端检索部分。其中语音文件的前端处理部分即语音识别部分,包 括声学模型和语言学模型的建立,而语音文件的后端检索部分实际上就是传 统的文本信息检索。 前端处理 ,- - - - 。- - , 语音输入 后端检索 ,- 。- 。- 。- 。- - 图2 1 基于o n e b e s t 的语音文件检索系统框图 2 2 语音文件的前处理 无论是基于o n e b e s t 的语音文件检索的基线系统,还是后续章节将要讨 论的基于s y l l a b l e 1 a t t i c e 的语音文件检索系统,语音文件的前处理部分即语音 的识别一产生o n e 。b e s t 或者l a t t i c e ,都是基于h t k 工具包实现的。在此, 首先对h t k 进行简要介绍。 7 “ 哈尔滨工程大学硕士学位论文 2 2 1h t k 工具 h t k ( h i d d e nm a r k o vm o d e lt o o l k i t ) 是建立隐马尔可夫模型( h m m ) 的一 种工具,主要用于语音识别任务中。该工具包整合了一系列分析语音、训练、 测试h m m ,并进行识别结果分析的复杂函数,可读性、可扩充性好并且调 试功能强大,可以大大地缩短开发人员的编程时间,提高系统开发效率【2 1 1 。 整个h t k 工具包是由若干个带有特定执行功能的程序所组成。按照工具 包所完成的功能的不同,可以将整个工具包划分为三个部分:数据准备部分、 模型训练部分和优化、识别及性能评估部分。下面通过h t k 平台的工作流程 来介绍应用到的工具,平台工作流程如下: 2 2 2 语音特征提取 图2 2h t k 平台工作流程 数据 准备 训练 识别 分析 在语音识别中,我们不能将原始波形直接用于识别,必须通过一定的变 换,提取语音特征参数来进行识别。语音特征参数可以是能量、基音频率、 8 一 白 哈尔滨工程大学硕士学位论文 共振峰值等语音参数,m e l 倒谱系数( m f c c ) 是目前在语音识别中较为常用的 特征参数 4 0 l 。 本研究的基线系统使用g k h z 采样率、1 6 位采样量化位数。对采集到的 语音信号以2 5 m s 为一帧长进行分帧,长度为1 0 m s 。提取特征之前进行高频 预加重( 系数为0 9 7 ) ,加汉明窗。然后提取1 2 阶m f c c 和短时帧能量作为静 态特征,利用它们的一阶,二阶差分作为动态特征。静态和动态特征在加上 功率系数,共3 9 维的向量作为语音的特征矢量,统称为3 9 维m f c c 特征。 m f c c 参数的具体计算过程如下图。 剥翌擒罾区h 猕 图2 3 计算标准m f c c 参数流程框图 在使用滤波器进行滤波时,m e l 尺度上等宽的滤波器组,在正常的滤波 刻度上,会呈现出低频部分的滤波器带宽较窄,而随着频率的增加,滤波器 的带宽逐渐增宽的现象。使用非线性频率分析的另一个好处是能够在频率分 辨率和时间分辨率之间进行折衷。在低频处用窄带滤波器,具有较高的频率 分辨率,这样可以分析到一些谐波信号;而在高频处用较宽的滤波器,能够 具有较好的时间分辨率。 2 2 3 声学模型的h t k 实现 对于汉语语音识别来说,音节和音素都可以作为建模基元。每个汉字的 发音对应一个音节( 汉语中的拼音) ,汉语中共有4 0 0 多个无调音节,1 6 0 0 多 个有调音节。在连续语音识别中,如果利用有调音节作为建模基元,模型数 量太多,会使得训练比较困难。因此,在小词表或孤立词语音识别中,经常 采用音节作为建模基元,而大词汇量连续语音识别,则通常采用音素作为建 模基元。因为本语音文件检索系统的研究是建立在大词汇量连续语音识别基 础之上,所以采用音素作为建模基元。 本研究的识别平台采用5 状态,带跳转自左向右的h m m 来建模音素基 哈尔滨工程大学硕+ 学位论文 元,为了刻画协同发音影响,把单音素模型扩展成为与上下文相关的三音素 ( t d - p h o n e ) 模型,再根据字典拼接成音节模型进行识别。训练工具采用了h t k 工具包提供的命令。以单音素h m m 为例,其训练流程可由下图所示: 单音素h m m 模型 图2 4 h m m 训练过程 单音素模型的训练仅是声学模型训练的一部分。训练整个声学模型的过 程可分为四个步骤: ( 1 ) 单音素模型的训练 在训练过程中,首先利用h i n i t 工具,根据一组观察矢量序列,对单个 h m m 进行初始参数估计。 然后利用h r e s t 工具,根据一组观察矢量序列,在对单个h m m 进行 b a u m w e l c h 参数重估。 最后在通过h e r e s t 工具,利用b a u m w e l c h 算法,对h m m 进行一趟嵌 入式训练( e m b e d d e dt r a i n i n g ) 。h h e d 工具在对h m m 进行多次重估时,直接 i o 哈尔滨工程大学硕士学位论文 对h m m 进行各种编辑和优化操作。 这里的h c o m p v 工具是用来统计全局均值和方差的,提供初始化h m m 的高斯参数,而这些参数会用于h e r e s t 工具对h m m 多次进行重估的训练 步骤中。 ( 2 ) 跨词t r i - p h o n e 模型的训练 先利用h l e d 工具,把与上下文无关的单音素模型( m o n o - p h o n e ) 跨词扩 展成为与上下文相关的模型( 即t r i - p h o n e ) 。然后再利用h e r e s t 工具,重新训 练扩展后的模型。 ( 3 ) t r i - p h o n e 模型的状态绑定 通过h i - i e d 工具,在根据汉语语音学知识,来建立基于规则的问题集合, 然后将数据和规则相结合来建立聚类决策树。然后绑定属于同一个叶子节点 的t r i p h o n e 模型的状态。在状态绑定关系建立之后,再次利用h e r e s t 工具, 重新训练状态绑定的模型。 ( 4 ) 增加t r i p h o n e 模型状态上的高斯混合数 利用h h e d 工具,增加每个状态上的高斯混合数,并通过h e r e s t 工具 重新训练,增加高斯后的t r i p h o n e 模型。这个过程可以循环进行,一直到状 态上的高斯混合数达到给定数目。 2 2 4 语言学模型的h t k 实现 对于一段语音文件t = ,乞,t n ,经过特征提取之后可得到特征序列 0 ; o l ,0 2 ,q 。语音识别,就是根据得到的特征序列o ,求出最可能的 i 。可表示为: t a r g tm a x p ( t o )( 2 1 ) 其中p ( to ) 表示在特征序列0 = q ,q ,q 已知的前提下,识别结果为 t = ,乞,气的概率。根据贝叶斯公式,可以将p ( t i o ) 改写为: p ( t o ) 一1 p ( t ) 丽p ( o 广t ) ( 2 - 2 ) 其中p ( o i t ) 表示在给定语音词串t 的前提下,特征序列0 出现的概率;p ( t ) 表 哈尔滨工程大学硕+ 学位论文 示t 独立于特征序列的先验概率;p ( o ) 表示出现特征序列o 的概率。对于待 识别的语音,o 是已知的,所以识别的目的就是找到满足下式的t : t a r g 。m a xe ( ol t ) e ( t ) ( 2 - 3 ) 在式( 2 3 ) 中,p ( o l t ) 为声学概率,p ( t ) 为语言学概率【1 9 1 。 由此可见,声学概率和语言学概率共同决定着识别结果的好坏,所以训 练语言学模型同等重要。语言学模型用来建模词串的先验分布,它可以缩小 声学搜索空间,使输出的词串更符合语言规范。在语音识别中所使用的语言 模型通常是统计的n - g r a m 语言模型,因为它易于在声学解码中使用。给定词 串t 一,f :,o ,则其先验概率为: p ( t ) = p 瓴,乞,) = 丌p gh ,岛一。) ( 2 4 ) 1 _ r 其中,p i t l , - - , t + 一。) 表示给定前序词串气,一,时看到词的条件概率,m 表 示词序列的长度( 即词数) 。为了更可靠地估计语言模型参数,通常只考虑其 前序一1 个词的情况,称为n - g r a m 语言模型,即: 2 l p ( t ) 一门p k m ,一。) ( 2 - 5 ) 7 - r 在实际应用中,最大取3 ,否则声学解码的计算复杂度太高。n - g r a m 语言模型实际上可以通过大规模训练语料进行词频统计来估计。为了解决由 于数据稀疏可能造成的参数估计不充分,通常要对模型再进行平滑处理。 本研究平台中的语音识别部分,采用基于统计的b i g r a m 语言学模型,在 利用k a t z 方法进行平滑处理。语言模型的训练利用h t k 工具包完成。整个 模型训练分为三个步骤: ( 1 ) 依据已知的词典,把语料转换成为以词为单位的序列。 ( 2 ) 利用h l s t a t s 工具,结合已知的音节主标注文件以及刚生成的词序 列,创建b i g r a m 语言模型。 ( 3 ) 利用h b u i l d 工具,为b i g r a m 语言模型建立词表,同时标记出每个 词的概率得分。 哈尔滨工程大学硕七学位论文 2 2 5o n e b e s t 的产生 识别是语音文件检索系统的前端处理部分,就是对输入的语音文件进行 连续语音识别。h t k 中的声学解码是通过一个识别网络进行的。这个识别网 络由一系列由弧连接的节点组成。本研究中,利用h t k 工具包中的h v i t e 工具,来实现声音文件的识别工作。这个指令执行v i t e r b i 算法,利用上步训 练完成的模型,通过传递令牌对输入的待识别文件进行解码。解码过程中首 先生成识别网络,然后再在识别网络中,找到具有最大似然概率得分的那些 路径,即寻找最优路径。具体实现过程由如下三个步骤所示: ( 1 ) 生成识别网络 在这个过程中,生成识别网络构造搜索空间。 ( 2 ) 令牌传递 令牌上记录了到当前时刻当前状态时,部分路径上的累积得分值。在每 个时刻,对于所有词的内部状态,从前序状态向当前状态传递一个令牌,并 更新这个该令牌上的信息,然后保留每个状态上概率最大的令牌。 ( 3 ) 回溯 在所有的语音帧都处理完毕后,从最后时刻,具有最高累积概率得分的 词标号开始,将保存的每个时刻的最佳的词前缀标号进行回溯,就可以找到 最佳词串,同时可以获得词串中词的边界和得分等信息。如果每个状态上保 留并传递了多个令牌,则最后可以通过回溯可以得到多候选结果。 h v i t e 工具的输出结果有两种方式,o n e b e s t 和l a t t i c e 。语音文件经过 语音识别系统的处理后,o n e b e s t 或者l a t t i c e 就作为信息检索模型的输入, 为信息检索提供搜索空间。由于o n e b e s t 中搜索文本所需时间极少,且很容 易与信息检索模型结合。因此,在本研究的基线系统中,采用o n e b e s t 结构 作为语音文件的表示形式。 本文用h t k 搭建了一个连续语音识别的平台,用h v i t e 工具对语料进行 测试,以x x x w a v :“高周市经济建设成绩显著,但精神文明建设力度却不 够”的一段音频文件为例,得到的音节形式的o n e b e s t 识别结果如下所示: 哈尔滨工程大学硕士学位论文 表2 1o n e b e s t 结果 g a 0 1 z h o u l s h i 4 :j i n 9 1 j i 4 j i a n 4 s h e 4 c h e n 9 2 j i 4 x i a n 3 z h u
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 巷道掘进与支护 安全爆破 起爆方法
- 微机原理课件第4章(3)章节
- Access应用技术(第二版)课件第03章
- 认知症健康教育讲课件
- 2024北京育才学校高一12月月考英语试题及答案
- 《后汉书周瑜传》测试题带答案
- 《读山海经》测试题带答案
- 2024年整熨洗涤设备:洗衣房设备项目资金申请报告代可行性研究报告
- 2024年太阳能发电设备项目资金筹措计划书代可行性研究报告
- 2024年重组腺病毒P53抗癌因子项目资金申请报告代可行性研究报告
- 2025年山东省高考招生统一考试高考真题化学试卷(真题+答案)
- 2025至2030年中国月子中心行业竞争格局分析及市场前景趋势报告
- 2024-2025学年初中英语七年级下册期末考试综合测试卷及参考答案
- 四川电网新建电源并网服务指南(2025年)
- 事故隐患内部报告奖励制度
- 医院培训课件:《紧急情况下口头医嘱制度与执行流程》
- JBT 11699-2013 高处作业吊篮安装、拆卸、使用技术规程
- KTV工程预算表模板
- 园林绿化单位(子单位)工程质量竣工验收报告
- 人教版八年级美术下册纹样与生活第二课时设计纹样
- 杨式40式太极拳拳谱招式名称与动作详解
评论
0/150
提交评论