




已阅读5页,还剩59页未读, 继续免费阅读
(信号与信息处理专业论文)语音到语音的检索系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音到语音的检索系统研究 摘要 随着多媒体信息的迅速发展,越来越多的语音数据开始出现在人们的日常生活中, 语音信息检索技术应运而生。在对这类语音信息检索的查询请求可以通过文本或语音输 入方式完成。本文研究了一种通过语音输入查询的方式来检索语音文档的系统,即语音 到语音的检索。 本文所研究的语音到语音的检索系统可以分为语音识别系统和信息检索系统两部 分。对于语音识别系统,本文利用开源工具h t k 搭建了一套以汉字音节为基本单位的 语音识别系统,并从语言学模型中平滑算法的角度,将s g t ( s i m p l eg o o d t u r i n g ) 的 平滑思想和k a t z 算法结合,提出了一种改进的k a t z 算法,从而提高了语音识别系统的 正确率。对于信息检索系统,本文采用目前应用最为广泛的向量空间模型( v e c t o rs p a c e m o d e l ,v s m ) 检索技术,利用词频( t e r mf r e q u e n c y ,t f ) 和倒转文档频率( i n v e r s e d o c u m e n tf r e q u e n c y ,i d f ) 来构建词项索引,对比了在语音识别结果为o n e b e s t 和音 节网格( l a t t i c e ) 两种形式下的平均检索正确率,并研究了音节网格中声学得分对检索 系统正确率的影响。 实验表明,语音检索系统的正确率很大程度上取决于语音识别系统的正确率。基于 l a t t i c e 的语音检索系统能减小语音识别系统的误识率带来的影响,其平均正确率比 o n e b e s t 的情况下提高了5 5 4 左右。 关键词:语音检索;音节网格;向量空间模型 哈尔滨工程大学硕十学位论文 a b s t r a c t w i t l lt h er a p i dd e v e l o p m e n to fm u l t i m e d i ai n f o r m a t i o n , m o r ea n dm o r es p e e c hd a t a b e g i nt oa p p e a ri np e o p l e sd a i l yl i f e ,s p e e c hi n f o r m a t i o nr e t r i e v a lt e c h n o l o g yc a m ei n t ob e i n g i nt h i st y p eo fs p e e c hi n f o r m a t i o nr e t r i e v a l ,q u e r i e sc a l lb ee n t e r e dv i at e x to rs p e e c h i nt h i s p a p e r , as y s t e mt h r o u g ht h es p e e c hq u e r yt or e t r i e v es p o k e nd o c u m e n ti ss t u d i e d ,w h i c hi s r e t r i e v a lf r o ms p e e c ht os p e e c h t h er e t r i e v a ls y s t e ms t u d i e di nt h i sp a p e rc a nb ed i v i d e di n t ot w op a r t s ,o n ei ss p e e c h r e c o g n i t i o ns y s t e ma n dt h eo t h e ri si n f o r m a t i o nr e t r i e v a ls y s t e m f o rt h es p e e c hr e c o g n i t i o n s y s t e m ,i ti sc o n s t r u c t e db ya l lo p e ns o u r c et o o l sc a l l e dh t ka n dt h ec h i n e s es y l l a b l ei st h e b a s i cu n i to ft h i ss y s t e mi nt h i sp a p e r f r o mt h ep o i n to fs m o o t h i n ga l g o r i t h mi nl a n g u a g e m o d e l a l li m p r o v e dk a t za l g o r i t h mc o m b i n e d 、衍t 1 1t h es g ta n dk a t zs m o o t h i n ga l g o r i t h mi s p r o p o s e dt oi m p r o v et h er e c o g n i t i o n r a t eo ft h e s p e e c hr e c o g n i t i o ns y s t e m f o rt h e i n f o r m a t i o nr e t r i e v a l s y s t e m ,t h em o s tw i d e l yu s e dr e t r i e v a lt e c h n o l o g yc a l l e dv s mi s a d o p t e d ,w h o s ei n d e xi sc o n s t r u c t e db yt fa n di d ea n dt h ea v e r a g er e t r i e v a la c c u r a c yi s c o m p a r e dw h e nt h es p e e c hr e c o g n i t i o nr e s u l ti si nt h ef o r m so fo n e - b e s ta n dl a t t i c e a l s o , t h ei m p a c to fa c o u s t i cs c o r ei nt h es y l l a b l el a t t i c eo nt h ea c c u r a c yo fr e t r i e v a ls y s t e m si s s t u d i e d e x p e r i m e n t ss h o wt h a tt h ec o r r e c tr a t eo fs p e e c hr e t r i e v a ls y s t e md e p e n d sl a r g e l yo n t h ea c c u r a c yo fs p e e c hr e c o g n i t i o ns y s t e m l a t t i c e - b a s e ds p e e c hr e t r i e v a ls y s t e mc a nr e d u c e t h ei m p a c to fe r r o rr a t eo fs p e e c hr e c o g n i t i o ns y s t e m c o m p a r e dt h es i t u a t i o no fo n e b e s t ,t h e a v e r a g ep r e c i s i o nc a nb ei m p r o v e db ya b o u t5 5 4 i nl a t t i c e b a s e ds p e e c hr e t r i e v a ls y s t e m k e yw o r d s :s p e e c hr e t r i e v a l ;s y l l a b l e l a t t i c e ;v s m 第1 章绪论 1 1 研究的目的及意义 第1 章绪论 人类传播史上的第一次革命发生在1 0 万年前,那个时候,人类创造了语言,语音自 此成为最原始,也是最直接有效的沟通方式。随着人类社会的发展,人类已经不满足于 简单的人与人之间的沟通,从而导致了各种信息媒体的产生,如书籍、电视、广播,以 及目前影响力最大的互联网。 互联网的出现直接将人们带进了信息爆炸的时代,如何从海量信息中提取自己需要 的信息人们迫切的需求。信息检索技术( i n f o r m a t i o nr e t r i e v a l ,r ) 正是应运这种需求 而产生,人们越来越习惯于依靠搜索引擎,如著名的g o o g l e ,百度,y a h o o 等,来获取 自己需要的信息。目前这些搜索引擎所采用的文本检索技术已经相当成熟,因此人们提 出了更高的需求。 随着多媒体技术的发展,互联网上越来越多的信息以多媒体的形式存在。因此,多 媒体检索技术已逐渐成为新的研究热点。语音作为最直接有效的沟通方式,在人机交互 中占据着重要地位。因此,语音文档( s p o k e nd o c u m e n t ) 的检索技术显得更有意义。 目前很多科研单位已经在语音文档的检索技术上小有成效,其检索方式是通过文本形式 的查询( q u e r y ) ,检索得到语音形式的文档。然而人类最理想的检索方式应该是通过自 然的语音查询直接检索出语音文档。 语音到语音的检索技术有着非常广泛的应用前景: ( 1 ) 互联网服务 互联网的搜索引擎可以通过语音检索技术,为广大网民提供更便捷的检索服务。网 民无需通过终端输入设备( 键盘) ,直接通过与终端设备对话的方式就可以获得自己需 要的语音信息。 ( 2 ) 移动通信服务 传统的移动通信服务仅仅是人与人之间进行点对点语音通信的平台,目前的移动通 信运营商已经着手于为用户提供更加丰富的服务。通过语音检索技术,用户可以在户外 通过手持设备,以语音的方式获取到自己的信息。 哈尔滨工程大学硕士学位论文 综上所述,语音到语音的检索技术有着非常重要的意义。人类将可以解放自己的双 手,通过最自然,直接的语音方式,从海量信息中,获取到自己需要的语音文档信息。 1 2 语音检索技术的发展过程和研究现状 语音检索技术离不开语音识别技术和信息检索技术两个方面的发展。 语音识别技术的发展起源要早于计算机的发明,早期的声码器可被视作语音识别及 合成的雏形。而二十世纪二十年代生产的r a d i or e x 玩具狗可能是最早的语音识别器, 它已经实现了识别人的语音命令来执行相应的动作。最早的基于电子计算机的语音识别 系统是由a t & t 贝尔实验室开发的a u d r e y 语音识别系统,它能够识别1 0 个英文数字, 其正确率为9 8 ,这在当时看来已经是了不起的成就。 1 9 4 5 年,v a r m e v a rb u s h 的论文“a sw em a y 眦n k ”【l j 第一次提出了利用机器来实 现在大规模数据中查找所需信息的构想,这可以被称为是现在信息检索技术的起源。随 后的时间里,各国研究者开始为实现这个构想而努力。到5 0 年代中期,研究者们在文 本信息领域取得了一些成果,其中最有代表性的是h p l u l l i l 【2 】在i b m 公司工作时,提 出了一种利用词对文档构建索引,并利用查询与文档中词的匹配程度进行检索的方法, 这种方法就是目前常用的倒排索引技术的雏形。 对于语音检索技术的发展来说,1 9 9 7 年是个特殊的时间点。在这之前,语音识别技 术和信息检索一直沿着各自的方向发展,而就在这一年,美国国家标准局开始在信息检 索评钡j j ( t r e c ) 中加入了语音文档检索这一项目( t r e c s d r ) ,也就是通过文本形式的查 询来检索语音形式的文档。从此,语音识别技术和信息检索技术有了交叉。早期的检索 技术仅仅是语音识别和信息检索这两个技术的简单组合,即通过语音识别技术提取语音 文档中的内容信息,再利用文本信息检索技术来检索相关文档。这种简单的处理受语音 识别正确率的影响很大,因此研究者们开始从语音识别和信息检索两方面入手,寻找更 优的语音检索技术。 对于语音识别系统来说,研究者们进行了两方面的优化,一是语音识别系统的基元 ( 识别单位) ,二是语音识别结果的形式。 对于识别基元,可以简单的划分为词和子词,一般来说,前者的识别正确率较低, 但是在检索过程中,有着更高的检索精度,后者成功解决了语音识别中词表外词( o u to f v o c a b u l a r y ,o o v ) 的问题,提高了识别正确率。基于子词基元的检索系统采用比词更 小的单位作为语音识别系统的基元,并对较长的子词串构建索引。在t r e c s d r 评测 2 第1 章绪论 i i ii i 萱i i i i i i i i i 宣 进行的过程中,大量采用这种技术的系统加入了评测【3 】,并在随后发表了大量的文章 【4 5 6 7 】。2 0 0 0 年m i t 的k n g 的博士论文对多种利用子词基元做索引来进行语音文档检 索的方法进行了总结1 8 】。 对于语音识别结果,目前主要有三种形式:o n e b e s t ( 单候选) 、n - b e s t ( 多候选) , l a t t i c e ( 网格) 。因此,语音文档的检索大致可以分为三类:基于词基元的大词表连续语 音识别系统( l a r g ev o c a b u l a r yc o n t i n u es p e e c hr e c o g n i t i o n ,l v c s r ) 的语音文档检索技 术,基于子词基元的o n e b e s t 识别结果的语音文档检索技术,基于子词基元的l a t t i c e 识别结果的语音文档检索技术。 基于词基元的l v c s r 语音文档检索技术只是简单的把语音识别和信息检索两种技 术叠加,只有在识别正确率很理想的情况下,这种检索系统的才会表现出优秀的性能。 当查询或者文档中存在大量的o o v 词时,识别正确率就会急剧降低,检索性能也相应 降低,w o o d l a n d 9 】等人分析了查询请求中o o v 词所占的比例对语音检索性能的影响。 结果表明,1 0 1 5 的o o v 词就会导致检索性能严重下降。基于子词基元的o n e b e s t 识别系统可以解决o o v 词对识别结果的影响。子词基元可以有多种形式:音素,多音 素,音节等。对于汉语来说,共有4 0 0 多个无调音节组成1 6 0 0 多个有调音节,这么多 有调音节组成了超过6 0 0 0 个汉字简体【1 0 】。子词基元的选得越小,识别准确率就越高, 但检索时候的混淆度就越大,性能就越差。因此,本文选取识别正确率较高,又不会造 成很大混淆度的有调音节作为识别基元。 够 虽然子词基元可以很好的解决o o v 词带来的问题,但是o n e - b e s t 的识别结果形式 依然存在很高的误识率,且候选结果有限。为了解决这个问题,人们提出了采用l a t t i c e 的形式来表示识别结果。从数据结构的角度讲,l a t t i c e 是一种有向无环图,它能通过较 少的存储开销来表示大量的候选结果,是语音识别系统最常用的多候选表现形式。因此, 采用基于子词基元的l a t t i c e 结构的识别结果形式不仅能解决o o v 词带来的问题,同时 也降低了o n e b e s t 识别结果正确率低的问题且候选结果少给检索性能带来的影响。很多 文献 1 1 , 1 2 】针对汉语的特点,采用了基于音节l a t t i c e 的语音文档检索技术。 此外,带有置信度输出的混淆网络【1 3 , 1 4 , 1 5 , 1 6 1 ( c o n f u s i o n n e t w o r k ,c n ) 也是一个很 好的选择。混淆网络是一种基于l a t t i c e 结构经过聚类算法进行合并后的语音识别多候选 结果。它可以看作是对l a t t i c e 结构进行强制对齐后的紧凑表示形式。微软亚洲研究院的 c i p r i a nc h e l b a 与a l e xa e e r o 的研究表明,基于混淆网络的语音检索系比o n e b e s t 的情 况下的平均检索正确率提高接近2 0 【l7 。 确立了合适的语音识别结果形式后,国内外学者将多种传统信息检索技术应用到语 3 哈尔滨t 程大学硕+ 学位论文 音文档的检索中来。就信息检索的方法而言,目前,信息检索模型可以从两种不同的匹 配策略进行划分,即基于统计的方式和语义的匹配。基于语义的匹配策略主要有潜在语, 义索引( l a t e n ts e m a n t i ci n d e x i n g ,l s i ) 1 引,概率潜在语义索引 1 9 , 2 0 ( p r o b a b i l i s t i cl a t e n t s e m a n t i ci n d e x i n g ,p l s i ) ,t m m l 2 1 ( t o p i c a lm i x t u r em o d e l ) 。 1 9 8 8 年,来自b e l lc o m m u n i c a t i o n sr e s e a r c h 、u n i v e r s i t yo fc h i c a g o 和u n i v e r s i t y o f w e s t e r no n t a r i o 的s u s a nt d u m a i s 、t h o m a sk l a n d a u e r 、s c o t td e e r w e s t e r 等五位学者共 同提出了l s i 的自然语言处理方法 2 2 , 2 3 】。目前,很多学者开始尝试将l s i 引入到汉语语 音文档检索d p 2 4 , 2 5 】。l s i 利用截断的奇异值分解( t r u n c a t e ds i n g u l a rv a l u ed e c o m p o s i t i o n , t s v d ) ,通过降维的方法达到信息过滤和去除噪声的目的,从而得到词汇和文档的低 维表示,这种低维表示揭示出词汇( 文档) 之间语义上的联系。l s i 存在两个缺陷,首 先由于潜在语义分析过程中奇异值分解的物理意义不够明确,较难控制词义聚类的效 果;此外这个算法的空间和时间复杂度太大,在目前的计算机硬件条件下很难达到实际 应用的要求。针对这两个缺陷,加州大b e r k e l e y 分校的t h o m a sh o f m a n n 结合潜在语义 分析和传统的概率模型提出了p l s a t 2 6 1 。由p l s a 衍生出了t m m 技术,c h e n 【1 0 】在汉语 语音文档检索中引入了t m m ,取得了很好的检索效果。 基于统计的方法主要有v s m 2 7 , 2 8 】和基于概率的检索模型。其检索原理为从统计的 角度进行字面上的匹配,因此逻辑简单,应用也最广泛。 v s m 模型是s a t i o n 等人在1 9 6 8 年提出的,并被目前的搜索引擎广泛采用。其原理 上将查询和文档都表示成向量的形式,并对向量中的每一维赋予恰当的权重,同时引入 了倒转文档频率i d f 的概念来优化权重,最后通过比较查询和文档向量之间余弦距离来 计算相似度。b o r e nb a i t 2 9 】将v s m 的思想应用到语音文档检索中来,并且更进了一步, 他提出了一种语音形式的查询与语音文档的匹配方法。其实现方法为将查询与文档都转 换成音节l a t t i c e ,然后提取l a t t i c e 中的音节和相邻音节对的出现频率,倒转文档频率 和声学得分来构造向量,进而比较向量之间余弦距离,得到匹配的检索结果。 最近出现的一种技术是通过语音形式的查询来检索文本形式的信息,目前互联网市 场上已经有产品推出。2 0 0 9 年,g o o g l e 率先在手机客户端推出语音搜索功能。g o o g l e 现在已经在多款手机上配置了其语音搜索程序,包括 p h o n e 、a n d r o i d 平台的g o o g l e 手 机和黑莓手机,以及用户最多的s y m b i a n 平台手机。该功能可以通过访问g o o g l em o b i l e a p p 或者在手机上进入g o o g l e 移动版的“t a l k ”按钮来进行语音搜索。g o o g l e 工程副总 裁v i cg u n d o t r a 认为,语音搜索将有可能成为新型搜索模式并成为g o o g l e 的一项核心 业务。 4 第1 荦绪论 r -iil | i i i i i 萱i i i i i i i i i i i i i i i i i 宣宣i i i i i i i i i 国内搜索巨头也不甘落后,在2 0 1 0 年9 月2 日举办的百度世界大会上,展示了其 语音搜索的最新成果。用户只需对着手机话筒说出查询,即可获得所有搜索结果。在安 静环境下,其搜索效果与利用手机键盘输入查询的方式相近。目前百度正加大语音方面 的投入力度,并与中科院声学所建立合作关系,共同致力于语音搜索的研究,为用户提 供更便捷的服务。 1 3 本课题的系统框架 上面已经说过,语音检索系统包括语音识别和信息检索两个技术。因此,本文系统 从功能上来说,由前端语音识别系统和后端信息检索系统组成。但是从时间上来看,可 以分为离线索引阶段和在线索引阶段两部分,如图1 1 所示。 图1 1 语音到语音的检索系统框架 ( 1 ) 离线索引阶段 图中上半部分虚线框内的是离线索引阶段。在离线索引阶段,源文件为语音形式的 文档,通过语音识别系统,将语音文档转化为音节l a t t i c e ,得到所有语音文档的l a t t i c e 库。l a t t i c e 中包含有候选词的词频,以及声学得分,语言学得分信息。通过特征项统计 ( 提取词频,文档倒转频率和声学得分) ,可以构造基于l a t t i c e 的v s m 向量,从而建 立对语音文档建立索引。 ( 2 ) 在线索引阶段 检索时,与语音文档的处理过程类似,首先将输入的声音形式的查询转换为l a t t i c e 并构造v s m 向量,并对查询建立索引,并计算各文档向量与查询向量间的余弦距离来 作为文档相关度的衡量标准。最后根据文档相关度的大小对文档集进行排序,并将排序 哈尔滨丁程大学硕士学位论文 之后的结果作为检索结果返回。 1 4 本文研究重点及章节安排 在传统的文本信息检索技术已经相当成熟的情况下,一方面,人们提出了对语音文 档的检索需求;另一方面,又希望通过语音形式的查询来获取到自己所需信息。目前的 大部分研究都把这两个需求分离开来。本课题所做的工作就是将这两个需求合并起来, 整合成一套语音到语音的检索系统。本文研究的系统主要由语音识别系统和信息检索系 统组成,所以研究的重点为如何提高语音识别正确率和提高检索正确率。 在提高识别正确率方面,本文从语言学模型平滑算法的角度,通过将s g t 的平滑 思想和k a t z 算法结合,提出了改进的k a t z 算法,从而提高了前端语音识别正确率;在 检索正确率方面,利用了识别结果的l a t t i c e 形式,获得了比o n e b e s t 情况下更好的检 索效果。 本论文的章节安排如下: 第1 章绪论首先介绍本课题研究的目的及意义,国内外研究机构在此领域内的 研究成果,接下来介绍本课题的总体系统框图以及研究的重点,最后是论文的章节安排。 第2 章基于h t k 的语音识别系统搭建首先介绍基于h m m 的识别系统原理,接 着介绍利用开源工具h t k 搭建本文所用的语音识别系统的方法,最后介绍利用语音识 别结果的三种具体形式。 第3 章语言学模型平滑算法研究首先介绍k a t z 平滑算法,接着介绍结合s g t 之后的改进的k a t z 算法,最后介绍改进的k a t z 算法在基于l a t t i c e 识别系统中的应用。 第4 章基于l a t t i c e 的语音检索系统首先介绍后端信息检索采用的技术,其次介 绍实验的数据准备,然后对基于o n e b e s t 的基线检索系统,最后介绍基于l a t t i c e 的检 索系统,并与基线检索系统对比性能。 6 第2 章基于h t k 的语音识别系统搭建 第2 章基于h t k 的语音识别系统搭建 语音识别是实现语音检索的基础,它利用特定的算法提取音频中的语义信息,实现 了从音频到文本信息的转换。一个高准确率的语音识别系统对于语音检索有着极其主要 的意义。本章首先介绍语音识别的基本原理,接着介绍利用开源工具h t k 搭建语音识 别系统的方法。最后介绍语音识别结果的三种形式,o n e b e s t ,n b e s t 和l a t t i c e 。 2 1 语音识别原理 一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的 方法以及利用人工神经网络1 3 0 , 3 1 的方法。其中模板匹配的方法应用最为成熟和广泛。 在模板匹配方法中,常用的技术有三种:动态时间规整( d t w ) 口翻、隐马尔可夫 ( h m m ) 理论、矢量量化( v q ) 技术。其中,h m m 方法现已成为语音识别的主流技 术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于h m m 模型的。 对于语音识别来说,其目的是提取语音信号中的语义信息。假设当前语音信号为一 特征序列o = d 1 ,0 29 t 9 0 r ,那么语音识别的目标是根据可观察到的o 求出可能性最大的 词串w = w l ,w 2 ,w ,表示成公式就是: w = a r g m a x p ( wd )( 2 1 ) 通过贝叶斯公式,式( 2 1 ) 可以改写为: 形:a r g m a xp ( wo ) :a r g 麟警( 2 - 2 ) 对于确定的观察向量来说,式( 2 2 ) 中的e ( o ) 是确定的,并不会影响词串w 的结果。 因此,影响最终结果的因素就只剩下p ( 形) 和p ( ol 形) ,其中尸( 形) 是词串出现的概率, 其值可以通过概率统计的方法求得,也就是后面将会介绍的语言学模型的主要作用。 p ( o i 形) 是当词串为w 时,系统产生观察序列0 的概率。现在问题集中在如何在已经 w 的情况下,求得o 的概率。如果有一个模型来描述这个词串的话,那么就可以根据 改模型的参数来估计p ( o i 形) 的值,这个模型就是上面提到的h m m 。在已知h m m 的 参数的情况下,就可以求得p ( o i 形) 的值,进而求出w 的值。其中h m m 的参数求解问 题对应语音识别中的声学模型训练问题,w 的求解问题对应语音识别中的解码问题。 7 哈尔滨工程大学硕士学位论文 隐马尔可夫模型( h m m ) 是7 0 年代引入语音识别理论的,它的出现使得自然语音识 别系统取得了实质性的突破。r a b i n e r 3 3 1 等人建立起了基于h m m 的语音识别理论框架, 解决了解码、学习、识别三个主要问题。而李开复等人研究的s p h i n x t 3 4 】语音识别系统, 则是第一个采用隐马尔可夫模型进行建模的大词汇量连续语音识别系统。该系统相比当 时的h e a r s a y 3 5 1 系统等基于专家系统理论的语音识别系统,显示出很大的优势。 h m m 是一个输出符号序列的统计模型,具有个状态s ,是,s u ,状态与状态之 间按照一定周期进行转移,每次转移时,每个状态都会输出一个符号。因此h m m 总共 有两个随机过程组成,一个是状态转移过程,一个是符号输出过程。其中符号输出过程 是可见的,状态转移过程是隐藏的,因此称为隐藏的马尔可夫模型。 h m m 可以由五个基本元素来描述【3 6 】: ( 1 ) 模型中所有状态的集合s :假设h m m 模型有个状态s ,最,晶,这个 状态的集合为s ,假设任意时刻t 模型所处的状态为s ,则s t s ,是,s u ) 。 ( 2 ) 输出的观察值的集合o :假设肘个观察值的结合为0 = q ,0 2 ,) ,则任 意时刻t 可以观察到的观察值o t o 。 ( 3 ) 状态转移概率的集合a :所有状态之间的转移概率可以构成一个转移概率矩 阵,即: q q a = l i 。 ;i ( 2 - 3 ) 1 。口j 其中q 。( 1 f ,j n ) 表示从状态s 到s ,的转移概率。转移概率需要满足两个约束条 _ 件,分别为o _ o u t p u t f i l e 其中,i n p u t f i l e 是标注文件,o u t p u t f i l e 是输出文件,每一行包含原m l f 文件中一 个句子的标注。 由于本文所要建立的是以关键词的音节为基本单位的识别系统,通过m l f 文件转 换之后的文本只是连续的字符串,因此接下来需要根据预先制定的关键词词表对文本语 料进行分词。分词之后的文本语料格式如图2 1 0 所示。 2 l 哈尔滨t 程大学硕十学位论文 y u a n 2 j u n1d a 0 4 d a 2c h a n 9 2 z h o u ly i 3 h o u 4 出e 4 9 e 5h o n 9 2j i 4h e 2 c h a i 2k e 4h o n 9 2a ls h i 4i i n 3 m i 4 p e i 4 h e 2d a 4 b a i 4w u 2 y u e 4b i n g l b i n 9 4 q i e 3y i n 1w e i 4z h e 4 9 e 5q i n 9 2 k u a n 9 4j i n 3 j i 2t a lj i u 4 y i 4f a n 3 n a n 2m n 9 2i i a 0 3 q i a n g lb u 4s h a ld e 5f u 2 1 u 3 z h e n 9 4 e e 4 t a lb a 3f u 2 1 u 3d e 5j i 3 s h i 2g e 4w u 2 y u e 4j i a n 9 4 1 i n 9 3a lq u a n 2 b u 4 k a lc a l l e 5s u i lr a n 2z h e 4 9 e 5s h a lf u 2d e 5x i n 9 2 w e i 2r a n 9 4z h “g e 5l i 2 j i n 9 3h e n 3b u 4 9 a 0 1x i n 9 4d a n 4 s h i 4n e 5z a i 4 d a n g ls h i 2z h e 4 9 e 5j u 3 d o n 9 4 n e 5y e 3q u e 4 s h i 2q i 3 d a 0 4l e 5z h e n 4 s h e 4d i 2 r e n 2d e 5z u 0 4y o n 9 5y i 3 z h i 4 c i 3 h o u 4d e 5e r 4 s h i 2 n i a n 2w u 2 y u e 4d o u lb u 5g a f f 3d u i 4n a n 2t a n 9 2d o n 9 4 s h o u 3 d o n 9 4 j i a 0 3 s u 0 2 y i 3h o n 9 2i i 4 d e 5z h e 4 h u i 2s h e n 9 4z h e 4 c i 4s h e n 9 4 1 i 4a 5t a ld u i 4 y u 2l i a n 2e h i l b a i 4 z h a n 9 4 图2 1 0 分词之后的文本语料 图2 1 0 中,每一行表示一句话的信息,包含一字词和多字词,其具体形式取决于分 词算法,这里不做详细介绍。 ( 2 ) 模型训练 准备好文本语料之后,就可以通过调用h t k 的命令来训练模型。所谓的训练模型, 就是统计词与词之间的概率。这里需要训练的是一元和二元文法的语言学模型。假设有 词串哦,则一元文法模型表示词彬( 1 f n ) 出现的概率p ( 彬) ,二元文法表 示相邻词之间的概率尸( 彬l 彬一。) 。 要计算词的出现概率,首先需要统计词的出现次数。h t k 是通过一张映射表来统 计词的出现次数的,并且每个词都对应自己唯一的一个i d 。这个策略让h t k 训练语言 学模型时具有很好的扩展性。当有新的文本语料需要训练时,不需要重新构建这张映射 表,词的统计信息( 出现次数) 会进行累加,新词也会分配到新的i d 。因此在开始训练 前需要一张空的映射图,l n e w m a p 命令可以实现这一功能: l n e w m a p fw f c h o l m e s e m p 够w m a p fw f c 表示加入每个字出现的次数的统计,h o l m e s 是映射表的名字,这个是自 定义的,e m p t y w m a p 是空表的文件名。 接下来需要统计文本语料中的词频信息。 l g p r e p t1 - a10 0 0 0 0 b2 0 0 0 0 0 dh o l m e s 0 一n4 s ”s h e r l o c kh o l m e s ”e m p t y w m a p t r a i n 宰t x t a1 0 0 0 0 0 设定训练文本中出现的新字的上限,- b2 0 0 0 0 0 设定内部缓存器的大小, 每次缓存器满,就输出一个文法次数统计文件,因此会输出多个文法次数统计文件。d h o l m e s 0 指定输出的文法文件的存放目录,- n4 表示输出四元文法;一s ”s h e r l o c k h o l m e s ”只是添加文件来源描述( 自定义) 。t r a i n * t x t 为文本语料文件,扩展名为僦。 第2 荦基于h t k 的语音识别系统搭建 如果文本数量过多,可以采用st r a i n s o p 的形式。t r a i n s c p 是文本列表。 命令执行成功之后,会在h o l m e s 0 目录下生成g r a m 0 ,g r a m 1 形式的统计信息文件, 同时将文本语料出现的词以及其相应次数统计到新的映射表w r n a p 中。其中g r a m 文件 需要通过l g l i s 命令查看其内容: l g l i s t h o l m e s 0 w m a ph o l m e s 0 g r a m 枣 命令执行后可以观察到的文件形式如图2 1 1 所示: 图2 1 1 中冒号前半部分是词串信息,由于l g p r e p 命令执行的时候选的是生成四元 文法形式,因此每行的词串由四个在语料中连续出现的词组成。冒号后的数字表示这个 词串在文本语料中出现的次数。 新生成的映射表w m a p 如图2 1 2 所示: f u 4 q i n 3g e i 3 t a l :1 g e i 3 w 0 3 m e n 5 j i e 4 s h a 0 4 :4 j i a n 9 2j i a n 9 3z i 4 j i 3 :1 m e n 5 g a n 3 k u a i 4p a i 4 :1 r n e n 5l a i 2 r e n 2n e 5:1 w e i 4 w 0 3 m e n 5 j i e 4 s h a 0 4 :2 m e n 9 4 l v 4 s h i1 n e n 9 2 b u 5 n e n 9 2 :1 y o u 3 m e i 2 y o u 3 b u 2 r a n 9 4 d o u 4 f u 5 :1 z e n 3 m e 5 z u 0 4 c a i 2 n e n 9 2 :1 z h e 4 9 e 5 l u 2 s h u i 3d i a r d:1 z h u a nl j i a l a 5 z h e 4 9 e 5 :i z h u a nl j i a lw 0 3 m e n 5l a 0 3 n i a r d r e n 2 :1 z h u a n l j i a ly o u 3 s h e n 2 m e 5:1 z h u a nl j i a l z h e 4 z h o n 9 3q i n 9 2 k u a n 9 4 :1 图2 1 2 词串统计信思 图2 1 1 中每个关键词后面跟的前一个数字表示唯一的i d ,后一个数字是此关键词的 出现次数。 接下来调用l g c o p y 命令,将前面生成的统计文件进行进一步处理,将所有出现的 词串进行排序并去做去重处理: l g c o p y - t1 - b2 0 0 0 0 0 - dh o l m e s 1h o l m e s o w m a ph o l m e s 0 g r a m 宰 由于文本语料中的词汇一般很大,一般都会超过语音识别所用的字典,所以我们需 要过滤掉字典中不存在的词。h t k 通过l g c o p y 来实现: l g c o p y t1 - o - ml m :k s k w m a p - b2 0 0 0 0 0 dl m 一5 k - w5 k w l i s th o l m e s o w m a p h o l m e s 1 d a t a 宰 4 4 4 4 4 4 4 4 n n n n n n n n l l 1 1 1 j e e e e e e e e 诅诅诅诅协协 w w w w w w w 砌 3 3 3 3 3 3 3 3 3 3 3 3 3 3 g g g g g g g g g g g g g g n n n n n n n n n n n n n n q q q q q q q q q q q q q q 哈尔滨t 程大学硕士学位论文 n 锄e = h o l m c s s e q n 0 = 1 e n t r i e s = 5 1 2 6 5 e s c m o d e= r a w f i e l d s = i d 下c w b r d s 6 5 5 3 68 9 3 4 7 n a 4 m e 56 5 5 3 73 2 3 4 z h e 4 9 e 56 5 5 3 8 12 0 4 3 z i 4 x i a 0 36 5 5 3 9 4 s h e n g lz h a n 9 36 5 5 4 0 4 2 z a i 46 5 5 4 1 1 4 0 4 8 h u a n 9 2 9 0 n g l6 5 5 4 2 4 6 e r 2 q i e 36 5 5 4 3 10 5 3 z u i 4 z h o n 9 1 6 5 5 4 49 7 y e 36 5 5 4 5 4 6 6 1 d e n 9 1s h a n 9 46 5 5 4 6 5 0 l e 56 5 5 4 72 2 3 2 1 h u a n 9 2 w e i 46 5 5 4 8 7 4 图2 1 2 映射表结构 上述命令中5 k w l i s t 是识别系统所用的词表,h o l m e s 1 d a t a 奎是上一步骤所生成的统 计信息文件,最后生成新的映射表和统计信息文件,都放在l i l l5 k 目录下。与原有数据 的区别是,所有在词表5 k w l i s t 中没有出现的词,都用符号“! ! u n k ”来代替。 接下来我们就可以用l b u i l d 命令来生成语言学模型 l b u i l d - t1- nl l m _ 5 k 5 k w m a pl m _ 5 k u g 生成的一元文法语言学模型为u g ,其内容如图2 1 1 所示。 图2 1 2 中n g r a m1 = 5 1 2 6 6 表示共有5 1 2 6 6 个独立的关键词,后面接着的是每个词在 文本语料中出现的概率( 以1 0 为底的对数形式) 。 接下来我们可以在一元语言学模型的基础上生成二元语言学模型,这个模型也是最 常用的模型,h t k 的解码命令h v i t e 直接支持的二元模型的网络格式。 l b u i l d- t1c21 吨2- l l m _ 5 k u gl r n _ 5 k 5 k w m a p l m5 k b gl h o l m e s 1 d a t a i m 一5 k d a t a 上述两条命令中通过1 1 选项就可以指定生成语言学模型的具体结构,最后生成的二 元如图2 1 3 所示。 上述语言学模型还不能直接给h t k 的识别命令h v i t e 直接用,更进一步,我们可 以通过h b u i l d 命令将图2 1 4 形式的二元语言学模型转换成图的结构。 第2 章基于h t k 的语音识别系统搭建 图2 1 3 一元文法语言学模型 图2 1 4 二元语言学模型 h b u i l d - nb g l5 k w l i s t b i g r a m n e t 上述命令中,b g l 是如图2 1 4 所示的二元语言学模型,b i g r a m n e t 是生成的图结构 的二元语言学模型,这种形式的语言学模型可以直接作为h v i t e 命令的参数。生成的 b i g r a m n e t 的形式如图2 1 5 所示。 哈尔滨t 程大学硕十学位论文 图2 1 5 语言学模型的图形数据结构 图2 1 5 中第二行信息表示共有5 1 2 6 7 个节点,2 4 7 1 6 5 条弧。接下来第一部分信息 是节点信息,包括节点号和节点所对应的候选词。第二部分是弧的信息,包括弧所对应 的编号以及弧的起始节点号,结束节点号和对应的语言学概率值( 以1 0 为底的对数) 。 至此为止,语言
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届重庆市南岸区南开(融侨)中学九年级化学第一学期期中学业质量监测模拟试题含解析
- 2026届吉林省前郭尔罗斯蒙古族自治县英语九上期末教学质量检测模拟试题含解析
- 广东省佛山市南海中学2026届九年级化学第一学期期中联考试题含解析
- 2026届南通市崇川区启秀中学化学九年级第一学期期中统考试题含解析
- 河北省保定市涞水县2026届英语九年级第一学期期末调研试题含解析
- 四川省乐山市市中区2024-2025学年七年级下学期期末道德与法治试题(含解析)
- 2026届重庆市江北新区联盟化学九上期末监测试题含解析
- 湖南省长沙市望城县2026届英语九年级第一学期期末复习检测试题含解析
- 2026届咸宁市重点中学化学九上期中达标检测模拟试题含解析
- 2026届贵州省兴仁市第九中学九年级化学第一学期期中综合测试模拟试题含解析
- 中国古代的声学成就
- 第1课 社会主义在中国的确立与探索(课件)-【中职专用】高一思想政治《中国特色社会主义》(高教版2023·基础模块)
- 2024年石家庄交通投资发展集团有限责任公司招聘笔试冲刺题(带答案解析)
- 二年级奥数(从课本到奥数-第一学期B版)
- 北美所有护理诊断
- 吊篮施工验收标准及规范
- 银行养生沙龙策划方案
- 小学生主题班会通用版《军章闪耀》 课件
- 软件系统权限申请表
- 自主实习申请表
- 长途用车申请表
评论
0/150
提交评论