




已阅读5页,还剩65页未读, 继续免费阅读
(信号与信息处理专业论文)基于语义扩展的信息抽取技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于语义扩展的信息抽取技术研究 摘要 随着信息时代的到来,计算机越来越广泛的应用到人类社会的各个领域,特别是语 音文档检索技术的快速发展,使得人们能够迅速的从大量的语音信息中检索到自己想要 的资源,将人们的日常生活变得越来越便捷。因此将特征提取技术和查询扩展技术融入 语音识别平台,从而提高语音文档的识别率的做法有着非常广泛的应用前景。 本文通过对传统特征提取技术的研究,筛选出三种具有代表性的特征提取技术( z 2 统计、最大后验概率、逆文本词频) ,运用这三种特征提取技术对训练文档集进行特征 提取,将所提取的特征作为基本特征,通过对基本特征的二次调权重整,构造出一种新 的混合特征,大大的提高了语音文档的识别率,同时结合前向后向算法,将l a t t i c e 文 件中的后验概率信息与文本文档中的权值概率信息有效的融合到语音识别平台中,进一 步提高了语音文档的检索效果。 、 不仅如此,为了更好的解决实际应用中用户输入所存在的短查询问题,避免用户因 缺乏特定领域的知识或者难以提交足够表达查询请求的完整信息所造成的检索效率低 下的问题,本文将相关科技文章的智能检索方法运用到查询扩展技术中,提出以词的文 档频率为基础,运用文档频率对训练文本中的特征项进行扩展,通过文档间的内在联系, 将那些隐含着主题信息的词补充到查询列表中,从而丰富用户的查询请求:同时为了进 一步提高语音文档检索平台的性能,将r o c c h i o 原则引入到基于最相关扩展词的关键信 息扩展技术( 基于词的文档频率的扩展技术) 中,取得了很好的检索效果,但是由于 r o c c h i o 原则需要通过大量的实验才可以确定优化参数,并且不同的训练文本集选取的 优化参数也不同,更换训练文本则需要重新进行实验来测定,这无疑给查询扩展的研究 工作带来十分巨大的困难。为此,本文在上述扩展方法的基础上,提出一种基于热度信 息的扩展技术,通过引入热度因子来代替r o c c h i o 原则中原有的优化参数,热度因子会 随着不同文本集的变化而变化,同时也能反映出文本文档的内部联系,使得查询扩展技 术更加具有普遍性。最终通过实验验证了这种基于热度信息的扩展技术进一步提高了语 音文档检索平台的性能。 关键词:语音识别:特征提取:查询词;热度因子 哈尔滨工程大学硕士学位论文 a b s t r a c t w i t ht h ei n f o r m a t i o nc e n t u r yc o m i n g ,c o m p u t e r sh a v eb e c o m em o r ew i d e l ya p p l i e dt o v a r i o u sf i e l d so fh u m a ns o c i e t y ,i np a r t i c u l a r , v o i c et e c h n o l o g y ,t h er a p i dd e v e l o p m e n to f s p o k e nd o c u m e n tr e t r i e v a lt e c h n o l o g y ,m a k i n gi tp o s s i b l et oq u i c k l yg e tt h es o u r c e sy o uw a n t f r o mal a r g en u m b e ro fs p o k e ni n f o r m a t i o n , e n a b l et h ep e o p l e sd a i l yl i v e sb e c o m em o r ea n d m o r ec o n v e n i e n t t h e r e f o r e ,t h eq u e r ye x p a n s i o nt e c h n i q u ea n df e a t u r ee x t r a c t i o nt e c h n i q u e i n t ot h ep l a t f o r mo fs p e e c hr e c o g n i t i o nt e c h n o l o g ys y s t e m , t h e r e b yi m p r o v i n gs p e e c h r e c o g n i t i o nr a t ei sv e r yu s e f u l : t h i sp a p e rb a s e do nt h er e s e a r c ho ft r a d i t i o n a lf e a t u r ee x t r a c t i o nt e c h n o l o g y ,s e l e c t e d t h r e er e p r e s e n t a t i v ef e a t u r ee x t r a c t i o nt e c h n i q u e s ( s t a t i s t i c s ,t h em a x i m u map o s t e r i o f i p r o b a b i l i t y ,i n v e r s et e x tw o r df r e q u e n c y ) ,u s i n gt h e t h r e ef e a t u r ee x t r a c t i o nt e c h n i q u e sf o r f e a t u r ee x t r a c t i o nt r a i n i n gd o c u m e n t sw i l lb et h ee x t r a c t e df e a t u r e sa st h eb a s i cf e a t u r e so ft h e b a s i cf e a t u r e so nt h er i g h tt or e - a d j u s tt h es e c o n d a r yc o n s t r u c t san e w h y b r i df e a t u r e s ,g r e a t l y i m p r o v et h es p e e c hr e c o g n i t i o nr a t eo ft h ed o c u m e n t , c o m b i n e dw i t ht h ef o r w a r d b a c k w a r d a l g o r i t h m , l a t t i c ef i l e sp o s t e r i o rp r o b a b i l i t yi n f o r m a t i o ni nt h et e x to ft h ed o c u m e n tw i t ht h e w e i g h to fp r o b a b i l i t yi n f o r m a t i o na n de f f e c t i v ei n t e g r a t i o ni n t ot h es p e e c hr e c o g n i t i o np l a t f o r m , t of u r t h e re n h a n c et h es p o k e nd o c u m e n tr e t r i e v a lr e s u l t s m o r e o v e r , i ti s i no r d e rt ob e t t e ra d d r e s se x i s t i n gp r o b l e m s ,w h i c hi st h ep r a c t i c a l a p p l i c a t i o no ft h es e c t i o no fu s e ri n p u tq u e r y ,a n dt oa v o i dt h eu s e rd u et ol a c ko fk n o w l e d g e i ns p e c i f i ca r e a so rd i f f i c u l tt op r o v i d ea d e q u a t ei n f o r m a t i o no nt h ee x p r e s s i o no fq u e r i e s c a u s e db yac o m p l e t es e a r c hi n e f f i c i e n c i e s t h i sp a p e rr e l a t e do ni n t e l l i g e n tr e t r i e v a ls c i e n t i f i c a r t i c l e s ,t h a ta p p l i e dt ot h eq u e r ye x p a n s i o nt e c h n i q u e ,t h ep r o p o s e dd o c u m e n tf r e q u e n c yw o r d s , t h e nb a s e do nt h et r a i n i n gt e x tu s i n gd o c u m e n t 丘e q u e n c yc h a r a c t e r i s t i c so fi t e m si nt h e e x p a n s i o n , t h r o u g ht h ei n t r i n s i cl i n kb e t w e e nt h ed o c u m e n tw i l lb et h et h e m eo fi n f o r m a t i o n t h a ti m p l i e sa d d e dt ot h eq u e r yw o r dl i s t , t h e r e b ye n r i c h i n gt h eu s e r sq u e r yr e q u e s t ;嬲s a m e t i m ei no r d e rt of u r t h e ri m p r o v et h ep e r f o r m a n c eo fs p o k e nd o c u m e n tr e t r i e v a lp l a t f o r m , t h e r u l e sw i l lb ei n t r o d u c e dt ot h er o c c h i oe x p a n s i o no ft h ew o r db a s e do nt h em o s tc r i t i c a l i n f o r m a t i o n , t h a tr e l a t e dt oe x p a n s i o no ft e c h n o l o g y ( b a s e do nt h ee x p a n s i o no fw o r d d o c u m e n tf r e q u e n c yt e c h n o l o g y ) ,a n da c h i e v e dv e r yg o o dr e t r i e v a lr e s u l t s b u ts i n c er o c c h i o 基于语义扩展的信息抽取技术研究 r u l e sn e e dal o to fe x p e r i m e n t sb e f o r et h e yc a l ld e t e r m i n et h eo p t i m a lp a r a m e t e r s ,a n ds e l e c t i n g ad i f f e r e n ts e to ft r a i n i n gt e x to p t i m i z a t i o np a r a m e t e r sa r ed i f f e r e n t , w h i c hc h a n g et h et e x ty o u n e e dt or e - t r a i n i n ge x p e r i m e n tt od e t e r m i n ew h i c hn od o u b tt ot h eq u e r ye x p a n s i o no fr e s e a r c h h a v eav e r yg r e a td i f f i c u l t i e s t h e r e f o r e ,t h i sp a p e ri sb a s e do nt h ee x t e n s i o nm e t h o d ,t h a ti s p r o p o s e db a s e do nt h ee x p a n s i o no ff o c u si n f o r m a t i o nt e c h n o l o g y ,f o c u sf a c t o rb yi n t r o d u c i n g r u l e st or e p l a c ea n yo r i g i n a lr o c c h i oo p t i m a lp a r a m e t e r s ,t h ef o c u sf a c t o rw i l lb es e tf i t s d i f f e r e n ta n dc h a n g et h et e x t , w h i l ee a r lr e f l e c tt h ei n t e r n a lr e l a t i o n so fat e x td o c u m e n t , m a k i n gt h eq u e r ye x p a n s i o nt e c h n i q u ei sm o r eu n i v e r s a l n ee x p e r i m e n tp r o v e dt h ef i n a l f o c u s - b a s e di n f o r m a t i o nt e c h n o l o g yt of u r t h e re n h a n c et h ee x p a n s i o no ft h es p o k e np l a t f o r m f o rt h ep e r f o r m a n c eo fd o e u r n e n tr e t r i e v a l k e yw o r d s :s p e e c hr e c o g n i t i o n ;f e a t u r ee x t r a c t i o n ;q u e r yw o r d s ;f o c u sf a c t o r 第】章绪论 1 1 目的和意义 第1 章绪论 当今,随着因特网与信息技术的迅猛发展,信息增长的速度越来越快,使得信息传 播从依靠传统的媒体转移到计算机、电子图书、电子相册等新生媒体上来,网络资源已 经成为人们日常生活中不可或缺的一部分,物联网的发展使得信息量成几何级数增长, 传统的信息搜索模式已经不能满足人们的需求。 信息时代的到来,使得人们越来越关注计算机给生活带来的便利,其中,实现人机 对话,让计算机听懂人的语言便成为了人们关注的焦点;人们希望通过说话的方式让计 算机为自己分析处理数据,在网络的海量信息中找到自己想要的;在这些杂乱的海量信 息中找到人们真正感兴趣的信息需要花费很多的时间和精力,庞大的信息量和人们获取 所需信息的能力之间的矛盾就变得日益突出。为了解决这种信息杂乱的现象,使人们能 够以更高效的方式获取自己所需要的信息,各种语音信息组织和管理的技术被提出来, 如语音文档检索、语音文档分类、语音主题概念识别等等【l - 2 】。其中语音文档检索技术 可以在较大程度上解决信息杂乱问题,方便准确地定位所需信息和分流信息,大多数关 于语音文档的研究( s d r ) 均使用语音识别产生近似值列表,仅适用于那些只需要直接 运用文本信息检索技术的情况【3 】o 但是,对于广播和谈话数据,低识别率会使检索系统 的性能降低。在语音文档处理中应用l a t t i c e 可以在一定程度上降低由多种假设所造成的 错误率的影响 4 - 9 1 。在相关论文中已经证实l a t t i c e 可以改善检索系统的性能【l o j 。 在大多数的检索系统中,主题查询词一般采用手工分配,人为的确定每个主题的查 询输入,这样简单的观察语言特征,确定主题关键信息存在着片面性,很容易丢失主题 相关信息,很难获得很好的检索效果。因此基于文本特征的自动提取技术作为一项基础 性研究,在信息检索领域的应用也越来越广泛【l 。基于统计学的方法是文本特征提取技 术中的主流方法,通过构建特征函数,自动给文本中的关键信息打分,按照得分大小来 选取对应主题的关键词,在很大程度上改善了检索系统性能。所以基于文档的信息抽取 技术就成为语音文档文本信息检索的重要基础与前提条件,也是组织和管理数据的重要 手段。然而,将这些基于文本的处理技术应用于语音文档检索仍然是一个挑战,这项技 术的研究对于提高语音检索系统性能有着重大的意义。 基于文档的信息抽取技术实际应用于语音文档,不可避免的会遇到如- f 问题: 哈尔滨工程大学硕士学位论文 ( 1 ) 所选取的特征词存在遗漏主题信息的情况; ( 2 ) 所选取的特征词较少时难以完整的表述相关主题的查询请求,这就是所谓的 短查询问题。 为了解决上述问题,本文引进了热度因子的概念,通过对文本信息的深度挖掘,将 文本中其它有用信息加入到查询词列表,在解决短查询问题的同时,解决了主题信息遗 漏的问题,将包含特定信息的扩展词加入到检索当中,从而进一步丰富了查询信息,有 效的提高了查询精度,在很大程度上解决了语音文档检索精度低的问题。 国际上,对文本特征提取的研究主要是针对英文卜,对中文语音文档的研究少之又 少;随着语音文档处理中的一些关健技术的解决,互联网上中的音频文件流通范围迅速 扩大,音频文件的检索和应用越来越广泛,所以对大规模中文语音文档信息进行处理和 研究是促进我国经济发展和民族文化复兴的迫切要求,具有重要的现实意义。 本论文就是基于此而提出来的。它有两个目标:一是改进原有的特征提取技术,在 现有的技术上综合经典的特征提取方法,提出一种提高检索精度的混合特征法,并将权 重信息加入到检索系统中;二是根据中文的语义特征复杂的特点,在语义层面对查询词 进行扩展,通过引入热度因子得到包含较多主题信息的扩展词。并将以上两种方法应用 于语音文档识别系统,提高语音文档的检索精度。 1 2 系统框图 语义空间扩展系统是要得到能够充分表达语音文档主题信息的特征项列表,从训练 文本到查询词列表能够应用于语音文档检索平台,一共需要三个步骤,如图1 1 所示为 基于语义空间扩展技术应用于语音文档检索平台流程图。 r _ l 语义空间扩展l i、j ,。- - 。一一。一一一一。一一一。- 。- - - 、 训 练 文 本 c h i m p p i d f 础特 归 _ 。 化 处 理 二 次 调 整 函 数 征列表 值信息 类 内 文 本 划 分 特 征 项 评 价 函 数 热 度 信 息 扩 展 函 吾音文; 1 一 查询列 图1 1 基于语义空间扩展技术的语音文档检索流程图 2 h t k 二 l a t t i c e 1 一 土 检索系统 检索结果 第1 章绪论 语义空间扩展系统可分为三个子系统:基础特征提取系统、二次权重调整系统、查 询扩展系统。 ( 1 ) 基础特征提取系统 在充分研究了传统特征提取技术基础上,选择最具有代表性的三种特征z 统计 ( c m ) 、最大后验概率( m p p ) 、逆文本词频( t f i d f ) 作为基础特征对训练文本进 行初步提取,将提取后的特征列表作为输出,供后面的系统做进一步处理。 ( 2 ) 权重二次调整系统 该系统实际上是对上一系统所产生的特征项列表做进一步的优化处理,考虑到权值 信息有助于提高语音文档的检索效果,将这些能够表达主题信息的特征项做归一化处理 后,再做二次权重调整,生成一种新的混合特征,将调整后的混合特征权值信息加入到 语音文档检索中。 ( 3 ) 查询扩展系统 对训练文本进行类内划分,将各个主题文本分为两大阵营:与查询有着直接联系的 文本归为“最相关文本 ,与查询有着隐含联系的文本归为“较相关文本 ,通过特征 项评估函数统计文本中每个特征项的“最相关文本数”和“较相关文本数,最后应用 热度信息函数来计算待扩展词对于主题的贡献,将输入的混合特征词和热度信息技术筛 选出的扩展词共同作为新的查询词列表输入语音文档检索平台,最后输出语音文档的检 索结果。 将对于文本的挖掘技术应用于语音文档检索领域,使得这项技术更加具有实际意 义,通过对文本特征项的多次优化筛选,使得语音文档检索效果不断提升,是一种有效 的提高语音文档检索系统性能的技术手段。 1 3 基于语义空间扩展技术的语音文档检索的研究现状 1 3 1 语音文档检索技术简介 语音文档检索( s p o k e nd o c u m e n tr e t r i e v a l ) 是文档库为语音文件的一种信息查询方 式,为的是从海量语音文档中找到与查询相关的一系列语音文档,通过与用户查询相关 度的大小进行对比,找出与查询相关度最高的那些语音文档。众多学者已在文本检索技 术做了深入研究,而语音文档形式的信息检索才刚刚起步,随着这项研究的不断深入, 语音文档检索技术对于人们日常生活的影响将越来越大;语音文档的检索和文本形式的 检索大有不同,查询词无法与语音文件直接进行对比,必须通过语音识别技术将语音文 哈尔滨工程大学硕士学位论文 档转化成类似于文本形式的内容,例如关键词,音节串,文字等 3 1 。 随着语音识别技术的不断发展,将语音识别技术与传统的文本特征提取技术相结合 来进行语音文件检索已经成为一个趋势,但是受语音识别平台的影响,很大程度上语音 识别平台的识别率高低决定着语音文档识别率的高低。一般情况,由于模型不匹配或者 语料噪声等因素的影响,使得语音识别的效果往往不能令人满意。 针对如何将语音识别技术与文本特征提取技术有效结合这一问题,本文从语音文件 的表示形式及信息检索模型两方面进行考虑,应用一种较新的中文语音文档检索方法。 语音文档的检索方法通常有三种:o n e b e s t 、w c n ( 基于词的混淆网络) 、l a t t i c e ,o n e b e s t 是通过语音识别技术对语音文档进行处理,选择语音文档的最优译本,形式上和传统的 文本文件差别不大;w c n 是l a t t i c e 的一种特殊形式;l a t t i c e 作为语音识别结果的中间 结构,它有着有向无环的结构,存在多个潜在路径,多个路径意味着多候选,这种特性 在很大程度上弥补了由于模型不匹配等原因使得语音文档的识别率低下,提高系统的抗 干扰性。近几年来,语音文档检索技术受到了广泛的关注:台湾大学语音实验室在中文 语音文档检索分类上做了大量工作,该实验室分别将向量空间模型( v s m ) 、隐马尔科 夫模型( 删) 、混合主题模型( 刑m ) 、潜在语义检索( l s i ) 、基于概率的潜在 语义模型( p l s i ) 、基于概率的潜在语义模型与向量空间模型( p l s i + v s m ) 等信息检 索分类模型用于语音文档识别系统,取得了一定的成果【l 习;一般情况下语音文档的表示 均采用o n e b e s t ,但是随着语音识别技术的发展,在1 9 9 4 年,l a t t i c e 被首次应用在语 音文档索引的建立吲;随后,1 9 9 5 年,j a m e s 统计查询词的出现次数,将其用在在音素 网格结构上,并使用了向量空间模型( v s m ) q u 的t f i d f 权重信息,进行语音文件检索; 随后,一些应用l a t t i c e 进行语音文件检索的方法被提出。而在国内,中科院的一些学者 也采用s y l l a b l e 1 a t t i c e ( 音节网格) 结构,结合v s m 模型的原型1 4 1 ,采用5 0 0 个新闻文件 作为实验文档集,进行了中文语音文档检索实验【1 5 1 。 1 3 2 文本特征提取技术简介 所谓文本特征,就是用于描述文本信息的原始信息,是内容的外在表现形式,特征 可以看做是由一个个词所组成的摘要,是文本最有效,也是最简洁的表达方式,文本特 征分为描述性特征和语义性特征,描述性特征容易获得,而语义性特征则较难得到;文 本的主题特征是在当前主题下,提取最能代表主题信息的特征,同时滤除掉那些不含实 际意义的干扰词;所以,对于中文文本的特征,困难的是难以建立较完整的包含语义、 汉语语法和语境的特征体系【l 每1 7 1 。 4 第1 章绪论 作为一个有效的特征集,必须具有广度和深度,所谓广度是指特征集可以覆盖文本 所包含的主要信息,深度则是指能够反映当前文本下的特定内容,为了满足文本特征的 广度要求,必须对文本的特定结构和内容分析,以保证可以包含文本的主要信息的要求, 为了满足文本处理的要求,需要去除停用词,筛选出文本中具有实际意义的实词,能够 表达当前文本的主题信息,同时对所选词的长度也要给予一定的要求,一般选择2 - 4 个 字长的比较适合i r 丌。 传统的文本特征选取一般采用人工的选取方法,人为规定各个主题的主题词,不仅 耗费大量的人力物力,而且对于分类尺度的把握可谓是“仁者见仁,智者见智”,不同 人对于同一主题词的选择差异很大,最终导致检索结果具有很大的不确定性;随着数据 挖掘技术的不断发展,文本特征函数法逐步替代手工选取的方法,成为文本特征选取方 法的主流【1 8 1 。 目前对于文本特征提取的研究当中,一般所采用的方法是构造一个特征提取函数, 即权重函数,对文档中的每一个词进行独立的评估,计算出每个词的权值,然后对权值美 进行排序,选取预定数目的特征词作为一个特征子集,也就是通常所说的关键词列表, 这个关键词列表便是进行语音文档检索的基础【1 8 】。 从文本中提取关键信息有许多方法,例如文档频率( d f ) ,z 统计( c h i ) ,词语攀 强度( t s ) ,互信息( m i ) 和信息增益( i g ) 等【1 8 】。以上这些评估函数都是基于统计 分析的方法,不同的评估函数有着不同的侧重点,没有任何一种函数可以在所有的文本一 中都表现得很好,所以对文本进行二次权重调整时解决这个问题的较为有效的一种方, 法,研究表示,经过对主题特征二次选择,可以有效的提高文本的检索效果【1 9 1 。 1 3 3 查询词扩展技术简介 查询词扩展( q u e r ye x p a n s i o n ) 是指利用信息学、语言学、心理学等多种技术,把与 原查询词相关的词或者与原查询词语义相近的词以特定方式添加到原查询词列表,从而 得到新的查询词列表,将新的查询词列表输入语音识别平台,从而改善语音文档检索的 精度,解决长期困扰语音识别领域信息不匹配的问题,弥补用户查询信息的不足的缺陷 所导致的识别率低下,查询词扩展技术就是利用已有的训练文本,对用户的查询信息进 行补充的过程 2 0 之1 1 。 长久以来众多研究者在特征选择问题上己做出了相当深入的研究,从特征选择的度 量、特征选择与分类方法的结合等各个方面开展了许多卓有成效的工作,但目前尚未见 到有针对用户短查询、用户缺乏特定领域知识所造成的语义性差和主题性差等问题的文 5 哈尔滨工程大学硕士学位论文 献;用户提供的查询词数量往往较少,不能够很好的表达他们所需求的主题信息,据统 计,搜索引擎每次所处理的查询词个数,1 9 9 9 年为平均每次2 4 个,2 0 0 2 年为平均每次 2 6 个【1 7 捌。同时,在中文语言中存在着大量的同义词、近义词、多义词等,不同人表 达查询的方式也各不相同,因此使得搜索引擎返回的结果往往不尽如人意;为了提高查 询精度,往往采用查询扩展技术( q u e r ye x p a n s i o n ) 来优化查询,更好的给用户返回查询 结果【1 7 1 。 近年来,国内外的研究者通过不懈的努力,提出了一些具体方法:t a k a g i 在2 0 0 1 年提出了概念化模糊集的查询扩展方法【2 3 】;c u i 在2 0 0 2 年基于用户日志概率模型的查 询扩展方法【矧;b l l l e r b e c k 在2 0 0 3 年提出了关连查询的查询扩展方法【2 5 】;同年,c h a n g 提出了模糊规则扩展方法【2 6 】,j i n 提出了关键词相似树树模型扩展法【2 7 】,s a f a r 提出了本 体论和个理论的查询词扩展法【2 8 】,n a k a u c h i 将相关关系字典库运用到查询扩展中【2 9 】, 在这一年,查询词扩展可谓是“百花齐放 ;2 0 0 4 年,由b e r a r d i 无冗余关联规则扩展 1 3 0 ;直到2 0 0 5 年由l i n 提出了挖掘额外关联词进行扩展的查询扩展方法【3 l 】。 1 4 论文的研究内容及章节安排 根据上节给出的框架结构,本文各章的内容组织如下: 第1 章绪论介绍论文研究的目的和意义,国内外的研究现状、本课题研究重点及 论文的章节内容安排。 第2 章语音识别平台介绍有关构造语音识别平台的有关问题:介绍了本文所采用 的s y l l a b l e 1 a t t i c e 的语音文档识别平台,在下文所要研究的两章内容以及本文所做的试 验,都是基于此平台做的。根据s y l l a b l e 1 a t t i c e 的特殊结构,读取l a t t i c e 文本的特定信 息并计算后验概率,使之与信息检索系统相结合,实现了基于s y l l a b l e 1 a t t i c e 的语音文 档识别系统。并研究了语音文件先验概率对信息检索系统的影响,在基于j e l i n e k - m e r e e r 平滑算法的语言学模型中引入了文件长度先验概率。并将此信息检索模型与 s y l l a b l e 1 a t t i c e 相结合,实现了本文最优的语音文档识别平台。 第3 章文本特征提取技术传统上,语音文件分类查询词是由手工生成的。本文详细 介绍了三种文本特征提取方法:z 。统计( c m ) 、最大后验概率算法( 御p ) 以及逆文 本词频( t f i d f ) 算法,最终提出了一种混合特征法( h y b r i df e a t u r e ) 。本文所提出的 混合特征法是在原有三大特征基础上,将三种特征的优势结合到一起,最终提取出文档 的混合特征,并运用前向后向算法将混合特征的权值信息与语音文档识别平台的后验 6 第1 章绪论 概率信息结合起来,有效地提高了语音文档的检索精度。 第4 章查询词扩展技术在c h i 、t f i d f 和m p p 特征的基础上提出一种混合特征 的方法,使检索系统性能大大提高。但是,在查询词较少的情况下,识别率低下的问题 依然没有得到根本解决,于是本文在r o c c h i o 原则的基础上提出一种热度信息扩展技术, 引入了热度因子,将较相关的文本集的影响加入到扩展平台中,克服传统查询词扩展技 术所存在的语义性差、主题性差、扩展词的个数难以控制等特点,在查询词较少时有效 的提高了检索精度。 第5 章实验与结果分析一方面通过z 统计、最大后验概率算法以及逆文本词频算 法与混合特征法相比较,验证了混合特征法能提高语音识别率,并且进一步验证权值信 息对于语音识别系统是有贡献的。另一方面,基于特定主题的查询词扩展技术,引入了 热度信息的概念,并且构造了热度因子,将文本中潜在的信息挖掘出来,试验验证了该 方法在输入查询词较少的情况下,能够有效的改善系统的检索精度。 7 丞 哈尔滨工程大学硕士学位论文 2 1 前言 第2 章语音识别平台 语音识别是指计算机通过学习,实现从语音信号到文本信息的理解过程,是一种重 要的人机交互方式;实际上是将传统的信息检索技术与语音识别技术相结合来实现的; 在传统的语音识别平台中,语音文件采用s y l l a b l e 1 a t t i c e 的表示形式,信息检索模型采 用基于统计语言学的查询似然检索模型;基于s y l l a b l e 1 a t t i c e 的语音文档检索平台的实 现框图如图2 1 所示;从图2 1 中可以看出,语音文件识别平台的实现可以分解成两个 基本问题:语音文档的前端处理部分与语音文档的后端检索部分;其中语音文档的前端 处理部分即语音识别部分,包括语言学模型和声学模型的创建,而语音文档的后端检索 部分,实际上就是通过对文本特征技术的研究,对将传统的文本信息检索技术加以改进, 并融入文本长度信息和文件长度信息,提高主题信息的检索精度;本章主要介绍所采用 的语音识别平台的相关内容【3 2 1 。 语音文档 :文本长度先: :验概率: - i 后端处理 图2 1 基于s y l l a b l e - l a t t i c e 的语音文件识别平台框图 2 2 语音文件的前处理 2 2 1 隐马尔科夫模型( 删) 对于确定信号可以用函数关系来描述,对于平稳的随机信号可以用数理统计的方法 来描述,但是语音信号时一种非平稳随机信号,不能采取以上两种方法来表述。随着语 8 第2 章语音识别平台 音识别技术的不断发展,不少专家和学者提出了多种语音识别模型,比较常见的有:动 态时间规整( d y n a m i et i m ew a r p i n g ,d t w ) 、隐马尔可夫模型( h i d d e nm a r k o vm o d e l s , h m m ) 、支持向量机( s u p p o r tv e c t o r sm a c h i n e ,s v m ) 、人工神经网络( a r t i f i c i an e u r a l n e t w o r k ,a n n ) 、高斯混合模型( o m m ) 等;在这之中又以h m m 模型最为经典,所以本 课题选择h m m 模型作为语音识别模型【3 3 】。 隐马尔科夫模型( h i d d e nm a r k o vm o d e l ) 是目前语音识别领域发展最为迅速的理论 之一,它是一种随机过程,用概率统计的方法来描述语音信号的变化过程;h m m 与通 常的m a r k o v 链不同之处在于其观测结果不是与状态有确定的对应关系,它与观测结果 之间还有一层随机关系;h m m 是对语音信号的时间序列结构建立起统计模型,可以将 其看做是数学上的双随机过程:人的言语过程实际上也是一个双随机过程,所以h m m 合理的模仿了这一过程,并且解决了用短时模型描述平稳段的信号,又解决了每一个短 时平稳状态是如何转移到下一个短时平稳段的问题;h m m 既可以描述瞬变的( 随机过 程) ,又可以描述动态的( 随机过程的转移) 特性,所以它能够利用这些超音段和语言 结构的信息 3 4 - 3 6 ,是较为理想的一种语音模型,h m已经成为语音识别领域的主流技 术【3 刀。 h m m 采用以下参数来描述其结构【3 8 】: ( 1 ) 假设允许出现的状态为k ,则状态集合可以表示为s ( s 。,s 2 ,s r ) ,在该过 程的时刻r 所处的状态为m ,m ,s ; ( 2 ) 假设k 种状态中,每个状态对应的观测值个数为上:则观测值序列可以表示 为g = ( g 。,g 2 ,g l ) ,同样t 时刻观察到的可能输出值为o ,o ,g ; ( 3 ) 初始状态分布概率万= 如l ,靠2 冗k ,其中冗j = e ( m l = s ,) ,1 f k ; ( 4 ) 状态转移矩阵a = 【口。】,式中: a ,= p ( m f + 1 = s ,l 聊,= s f ) ,1 f ,j k ( 2 1 ) ( 5 ) 观测序列矩阵b = 【b 膻】,式中: 6 ,七= 尸( d ,= g 女im ,= s ,) ,l j k ,1 k l ( 2 2 ) 在上述定义中,各参数满足这样的条件:0 口 ,1 ,= 1 ,0 b 弦1 , 罗6 矗= 1 ,y 石;= 1 ,这样的h m m 便构建成为兄= ( 霄,a ,b ) 的数学模型。 _ ,“- 为了要使用i - - i m m 模型解决实际问题,必须解决以下三个基本问题【3 4 】: ( 1 ) 给定一个观测序列0 = ( 0 1 ,0 2 ,0 t ) 、模型旯= ( 尢,a ,b ) ,如何在模型a 条件 下计算观测序列0 的条件概率p ( oi 旯) 。 ( 2 ) 给定一个观测序列0 = ( o ,0 2 0 t ) 、模型旯= ( 靠,a ,b ) ,如何选择对应的最 9 哈尔滨工程大学硕士学位论文 优状态转移系列m = ( 肌1 ,掰2 ,聊r ) 。 ( 3 ) 如何不断修正模型参数a = ( 兀,a ,b ) ,使得p ( oi 旯) 输出最大。 为了解决h m m 的三个实际应用的基本问题,前人们分别提出了三种解决方法:前 向后向算法【3 4 1 、v i t e r b i 算法【3 o l 、b a u m w e l c h 算法【4 1 1 。其中:前向后向算法让求解 h m m 的输出概率变得简便,是一种高效可行的运算方法,很好的解决了问题1 ;v i t e r b i 算法是一种广泛应用于通信领域中的动态规划算法,该算法在语音识别中也得到了很好 的应用,利用全概率公式,可以计算出系统的输出概率,但是无法找到最佳的状态转移 路径,利用v i t e r b i 算法,可以计算出系统的输出概率的同时,还可以找到一条足够好 的状态转移路径,该算法用于语音识别过程中,选出最佳状态序列,确定输出结果; b a u m w e l c h 算法用于解决h m m 参数的训练问题,为了不断修正模型参数兄= ( 氕,a ,b ) , 使得e ( oia ) 输出最大,该算法利用递归思想,使得p ( ol 旯) 局部最大,最终确定模型 参数a = ( 冗,a ,b ) 3 r l 。 从上面的介绍可以看出,采用m 心嗄法应用于语音识别的一般过程为:先利用 b a u m w e l c h 算法,通过迭代使观测序列与模型吻合的概率p ( ol 旯) 达到最大,训练出 最佳h m m 模型参数元= ( 兀,a ,b ) ;在识别过程中,利用v i t e r b i 算法计算当前语音序列 和模型的p ( oa ) 概率,选出最佳的状态序列,确定输出结果。 2 2 2h t k 工具 剑桥大学语音视觉和机器人工作组( s p e e c hv i s i o na n dr o b o t i c sg r o u p ) 专门开发了 一个应用h m m 理论的语音处理工具包,它在语音识别,音频转换等领域得到广泛的应 用。 本文基于s y l l a b l e - l a t t i c e 的语音文件检索系统,前处理部分即语音的识别一产生的 l a t t i c e ,都是基于h t k 工具包实现的,故对h t k 进行简短的说明;h t k f h i d d e nm o r k o v m o d e lt o o l k i t ) 是专门用于建立和处理h m m 的实验工具包,最早由英国剑桥大学工程系 的语音视觉和机器人技术工作组( s p e e c hv i s i o na n dr o b o t i c sg r o u p ) 研发,主要应用于语 音识别、语音合成、字符识别等多个领域,h t k 经过剑桥大学与m i c r o s o f t 公司、e n t r o p i c 公司的不断改进,使其在语音识别领域处于世界领先水平。它包括多种功能强大的函数, 可以大大地缩短开发人员的编程时间,提高系统开发效率【4 2 j 。 h t k 工具包是由c 语言编写而成,每个部分都能实现特定的功能,从工具包的构 成上看,大体上可以分为四个部分,即数据准备部分,训练部分,识别部分和分析部分。 工作流程如图2 2 所示。 1 0 第2 章语音识别平台 一j 准备 部分 训练 部分 识别 部分 分析 部分 图2 2h t k 工作流程 筮 h t k 由一系列的特定程序模块所组成,在对语音文件进行处理时可以实时录制、 分析、标注、训练等功能,同时对语音文件进行测试和分析。h t k 工具包基于上述的 流程在w 证d o w s 下编译安装后,用户可在d o s 环境下对其进行命令的输入,对语音文 件进行前端的特定功能处理。 h t k 需要使用固定模式的命令对语音文件进行处理,用户通过查阅h q t ( 工作手册 查询所需使用的处理命令,并且每个命令中都包含了多种命令参数可供用户选择,很大 程度上增强了此工具包的实用性,用户可根据课题需要选取适合语音源的参数进行处 理,通过调节参数,在前端可实现语音文本的优化处理。 在汉语普通话中,存在着超过8 0 ,0 0 0 个常用词和1 0 ,0 0 0 多个常用字。由于所有字 符是单音节,并且中文中存在多音字,故音节与音调所组成的发音总数就只有1 3 4 5 个。 应用h t k 工具包,对语音特征参数进行设定,采用m f c c 参数,对语音信号进行一系 列的处理。将处理后的信号分别进行声学模型变换和语言学模型变换,声学模型采用与 上下文相关的三音素( 廿i p h o n e ) 模型,然后再根据字典拼接成音节模型进行识别。语言 学模型则采用基于统计的l m b g a n 语言模型,利用了j m 方法进行平滑处理。这样就 完成了系统的第一步,即
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人才引进与留住对企业核心竞争力的推动
- 初中历史重要历史事件概述
- 物业管理中的文件档案管理
- 稀土催化剂研究报告
- 如何帮助中学生树立灵性
- 个人意外险赔付管理规定
- 农村社会服务的专业化发展
- 初中数学竞赛题库设计:解题技巧与策略分享
- 合同管理规范及合同范本库
- 农业用地租赁与利用协议
- 第08讲+建议信(复习课件)(全国适用)2026年高考英语一轮复习讲练测
- 政务大模型安全治理框架
- 2024广东省产业园区发展白皮书-部分1
- 2025年国家网络安全宣传周网络安全知识考核试题
- 2025四川蜀道建筑科技有限公司招聘16人备考练习题库及答案解析
- 生态视角下陕南乡村人居环境适老化设计初步研究
- “研一教”双驱:名师工作室促进区域青年教师专业发展的实践探索
- 2025-2030中国教育领域的虚拟现实技术行业发展战略与应用趋势预测报告
- 2025秋部编版(2024)八年级上册语文上课课件 第三单元 阅读综合实践
- 借车给他人免责协议书
- 任务一切中断时的接发列车办法授课颜保凡课件
评论
0/150
提交评论