(信号与信息处理专业论文)面向新闻视频检索的音频分类算法.pdf_第1页
(信号与信息处理专业论文)面向新闻视频检索的音频分类算法.pdf_第2页
(信号与信息处理专业论文)面向新闻视频检索的音频分类算法.pdf_第3页
(信号与信息处理专业论文)面向新闻视频检索的音频分类算法.pdf_第4页
(信号与信息处理专业论文)面向新闻视频检索的音频分类算法.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(信号与信息处理专业论文)面向新闻视频检索的音频分类算法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基于内容的音频信号分析处理在多媒体信息处理中占有很重要的地位,它要 求区分不同的音频类别并对其进行不同的处理,而这些在很大程度上都依赖于音 频自动分类技术的发展。音频分类技术是音频深度处理和音频结构化的基础,是 基于内容的音视频检索、辅助视频分析等应用的关键,在视频自动处理系统和其 他多媒体应用系统中有着广泛的应用。 本文在认真总结前人研究成果的基础上,深入考察了新闻音频信息的语义内 容,对层次化音频结构框架进行分析,并对不同层次的音频结构单元做出定义。 基于音频信息的内容和结构特点,确定了新闻音频中主要的音频类型:静音、纯 音乐、男主持人语音、女主持人语音、现场报道和男女主持人对话六类,并针对 音频特征分析与抽取、音频分类和基于d i v e r g e n c es h a p e l 巨离的语音聚类等三个 方面的问题提出相应得解决方案。 首先从帧层次上和片段层次上深入研究了不同类别音频之间的特征,并针对 上述提出的六种音频类别,提出了静音比例、过零率标准偏差、中心频率标准偏 差、基音频率标准偏差和美尔倒频谱系数& 一阶差分美尔倒频谱系数五类片段特 征作为音频分类器的输入,通过实验验证了抽取的特征集在本文提出的分类器中 的分类性能。 其次,本文根据模式识别理论设计了音频分类的技术流程,并对其中所涉及 到的关键技术进行了探讨。着重对隐马尔科夫分类器进行了深入地研究,并根据 新闻音频类别的特点,提出一种基于规则和基于隐马尔科夫的音频分层分类算 法,通过实验分析了该算法的分类性能。 最后,为了对不同说话人的语义内容进行更深入地理解,本文在分类结果的 基础上,提出了基于d i v e r g e n c es 1 1 a p e 距离的聚类方法,尝试对主持人的语音进 行跟踪聚类,通过实验较好的聚类了不同主持人的语音。 关键词:新闻视频分析音频分类隐马尔科夫模型音频片段特征抽取聚类 a b s t r a c t c o n t e n t b a s e da u d i os i g n a la n a l y s i s i so n eo ft h em o s ti m p o r t a n tp a r t sm m u l t i m e d i ap r o c e s s i n g ,w h i c hn e e d st o d i s c r i m i n a t ed i f f e r e n tt y p e sa n dd e a lw i t h t h 锄i nd i f f e r e n tm e t h o d s a u d i oc l a s s i f i c a t i o np l a y sa l li m p o r t a n tr o l em i ta n di sa b a s ew r o r ko fa l l d i oc o n t e n ta n a l y s i sa n da u d i os t r u c t u r i n g i t i sw i d e l ya p p l i e di n c o n t e n t b a s e da u d i o v i d e or e t r i e v a la n do t h e rm u l t i m e d i aa p p l i c a t i o ns y s t e m s b a s e do nt h ed e v e l o p m e n to fp a s tr e s e a r c h , t h i sp a p e rd e e p l ye x p l o r e st h e a u d i o s e n l a n t i cc o n t e n to ft h en e w sp r o g r a m ,a n a l y s e sa n dd e f i n e sa u d i os t r u c t u r eu m t so n 、 d i 雠r e n th i e r a r c h i e s a c c o r d i n gt ot h ec h a r a c t e r so f n e w sa u d i os t r u c t u r ea n dc o n t e n t , s i xa u d i ot y p e s i n n e w s p r o g r a m a r ed e f i n e d : s i l e n c e ,p u r e _ m u s l c , a n c h o 咖a n a r l c h o 刑o m a np u r es p e e c h ,l i v er e p o r ta n da l t e r n a t e ds p e e c h t h i sp a p e r s 0 1 v e st h ef o l l o w i n gp r o b l e m s : a u d i of e a t u r ea n a l y s i sa n de x t r a c t i o n , a u d i o c l a s s i f i c a t i o na n ds p e e c ht r a c k i n gc l u s t e r i n gb a s e d o nd i v e r g e n c es h a p ed i s t a n c e f i r s t d i s c r i m i n a t i n gf e a t u r e sa m o n gd i f f e r e n ta u d i ot y p e s a r er e s e a r c h e do n f r a m ea n dc l i pl e v e lr e s p e c t i v e l y a c c o r d i n g t ot h es i xa u d i ot y p e s ,t h ep a p e rp r o p o s e s f i v ec l i pf e a t u r e s s u c ha ss i l e n c er a t i o ,z e r oc r o s s i n g r a t es t a n d a r dd e v i a t l o n , f r e q u e n c yc e n t r o i ds t a n d a r dd e v i a t i o n ,p i t c hs t a n d a r d d e v i a t i o na n dm e lf r e q u e n c y c e p s t r u mc o e f f i c i e n t sa st h ei n p u to ft h ec l a s s i f i e r t h ep e r f o r m a n c e l sa n a l y z e d t h r o u g he x p e r i m e n t sm e a n w h i l e s e c o n d l y , a c c o r d i n g t o p a r e mr e c o g n i t i o nt h e o r y , a l l a u d i oc l a s s i f i c a t i o n 缸l i n e w o r ki sp r o p o s e d h m mc l a s s i f i e ri sa n a l y z e dd e e p l y , a n dt h e nan e w a u d l o h i e r a r c h i c a lc l a s s i f i c a t i o na l g o r i t h mb a s e do nr u l e s a n dh m mi sp r o p o s e d t h e e x p e r i m e n t ss h o wi t sh i g hp e r f o r m a n c e a tl a s t ,i no r d e rt ou n d e r s t a n dt h es e m a n t i c sc o n t e n to fd i f f e r e n ts p e a k e r s ,t h e p a p e re m p l o y sa nu n s u p e r v i s e da p p r o a c ht ot r a c ka n dc l u s t e rt h ea n c h o r m a n s p e e c n b a s e do nd i v e r g e n c es h a p ed i s t a n c e k e yw o r d s :n e w sv i d e oa n a l y s i s ,a u d i oc l a s s i f i c a t i o n ,h i d d e nm a r k o v m o d e l ( h m m ) ,a u d i oc l i p ,f e a t m ee x t r a c t i o n ,c l u s t e r i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得鑫鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:宝1 欠签字日期:力即7 年舌月丹同 学位论文版权使用授权书 本学位论文作者完全了解苤洼盘堂有关保留、使用学位论文的规定。 特授权丞鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:复嘞欠 签字日期:彻7 年石月佃日 翮躲辅 签字日期:知哆年多月j 扩日 第一章绪论 1 1 研究背景与意义 第一章绪论 从1 9 5 1 年“信息检索( i n f o r m a t i o nr e t r i e v a l ) ”一词出现至今【l 】,信息检索 的重点已经由最初文本信息检索转移到多媒体信息检索。伴随着数字化技术的快 速发展,互联网的推广普及,单纯的文本信息已经不能满足应用的需求,而包含 各种类型数据如文本、图像、音频、视频等的多媒体信息的存储和发布却越来越 普遍。多媒体信息一方面信息量很大,另一方面抽象和结构化程度却很低,不利 于进行有效的管理,在很多领域中由于数据量增长过快而处理能力不足,大量的 多媒体数据几乎变得无用,因此如何有效而快速的利用多媒体信息中的关键内容 已成为急需尽快解决的问题。 于是为了解决上述问题,从上世纪末开始出现针对多媒体信息检索的研究, 形形色色的多媒体数据成为了信息处理领域主要的对象。开始阶段的多媒体信息 检索( c o n t e n t b a s e dr e t r i e v a l ) 丰要集中于基于内容的图像检索和视频检索。例如, 已经研制出来的实用图像检索系统q b i c ( q u e r yb yi m a g ec o n t e n t ,i b m 研究开发 t 2 1 ) 、p h o t o b o o k ( m i t 媒体实验室研制【3 】) 等,视频检索系统中的数字视频图书 馆系统i n f o r m i d i a ( 卡内基梅隆大学研发 4 1 ) ;而基于内容的音频检索技术的研究 则是随着多媒体信息检索技术的成熟以及研究人员越来越多地认识到音频中包 含有大量的语义信息,才从2 0 世纪9 0 年代开始掀起研究的热潮,目前在这方面, 美国的m u s c l ef i s h 公司推出了较为完整的原型系统,对音频的检索和分类有较高 的准确率。 基于内容的音频检索核心思想是通过计算机自动处理技术,分析音频的结构 和语义,建立它们的结构化的组织和索引,使得“无序”的音频变得“有序”, 从而有利于用户的检索和浏览。一个基于内容的音频检索系统包括音频信息数据 库与音频信息的查询浏览系统两个部分。其中,在建立音频信息数据库时首先要 对原始的音频数据进行处理分类、用一定的方法建立索引,在检索的时候也首先 要确定需要检索的音频的类别。可见音频信息的分类是建立基于内容检索系统的 基础。对于较短的只包含某一类音频信息的音频文件来说只需直接进行分类即 可,而对于较长的包括若干不同类别的音频段落的音频文件来说则还要将它们按 照类别的不同进行分段。 音频信息的自动分类技术在许多实际应用中都扮演着重要的角色。比如语音 第一一章绪论 识别( a s r ) ,音频检索,说话人识别,音频场景分析等。在这些应用中,音频自 动分类技术都是作为音频信号的前期处理,是提高各项性能的重要因素。同时, 在其它一些相关研究领域中,音频的自动分类技术也引起了人们的关注,如在视 频检索和摘要中,研究人员发现单纯的 ! ! l 觉特征并不能很好的反映视频的内容和 结构,而结合音频和文本等信息则可以增强视频检索的效果,克服单纯的视觉特 征语义表达较弱的缺点。文献 5 】中就提出融合音频和视频信息进行分类和检索, 根据音频特征分出音乐和语音部分,并在分类结果的基础上对视频作进一步的场 景检测等处理。 1 2 研究现状 最早期的音频分类技术起源于语音识别清音( u n v o i c e d ) 和浊音( v o i c e d ) 的分 类,汉语中的声母和韵母的识别,以及阴平、阳平、上声和去声的分类等。但是, 他们并不能很好的反映音频中的主题语义内容。事实上,语音识别中的分类与音 频分类是有一定差异的。语音识别中分类的目的是从话者语音信号中识别出字、 单词和短语等基本元素,然后对这些元素进行分析和理解,提取里面蕴含的语义 信息,它选取的特征要能够很好的体现音素之问的差异;而音频分类的目的是根 据音频流的语义内容区分出不同类型的包含有一定语义内容的音频,其特征的选 取一定要能反映不同音频类型之间的差异。 音频内容的主题往往是用自然语言来表达的,将音频数据和丰题内容的关键 词之问建立起联系是比较直观的方法。早期的音频自动分类研究工作的代表人物 有b f e i t e n ,他在文献 6 】中训练了一个神经元网络用到音频分类中,直接将声音 类别映射到所标注的文本。文献 7 】中又提出用声音特征映射( s f m ) 聚类算法对具 有相似感觉特征的声音进行聚类。美国m u s c l ef i s h 公司的e r l i n gw o l d 等人于1 9 9 6 年间研究完成的“m u s c l ef i s h ”系统【8 】与以往的音频检索研究则大不相同,因为 它是真正的基于内容的音频自动分类的工作。在这个系统中,各种各样的感知特 征,比如响度( v o l u m e ) ,亮度( b r i g h t n e s s ) ,基音周期( p i t c h ) ,和谐度( h a r m o n i c i t y ) 都用来表示一个声音。然后用归一化的欧几里德距离和最近邻原则来设计分类 器,其训练样本主要是自然、乐器、人类声音等多种声音素材。至此之后,开始 相继出现其它的一些音频内容的自动分类的研究工作和产品。 随着基于内容的音频检索技术的发展,基于内容的音频分类技术的研究也渐 渐的成为热门的研究方向。作为模式识别的一种,音频分类技术同样是要对一组 数据提取特征,然后设计合适的分类器,来实现数据的最好区分,因此特征的选 择和分类器的选择就成为音频分类研究的重点。 第一章绪论 音频的特征可以分三个层次去理解:低级特征、针对不同发声物体的中级特 征和针对不同场景音频模型的高级特征。经常提到的特征就是指低级特征,它的 选取要能够充分反映音频的类别特性,并对环境的改变具有鲁棒性。s a u n d e r s 在 文献【9 】提出了一种用能量谱和过零率两个特征来将音频分为语音和音乐的技 术,针对电台广播内容,用过零率和能量特征,将2 4 秒1 5 0 帧的音频片断分成语 音或者音乐类,平均分类精度可达到9 8 。在文献 1 0 中,z l i u 在响度、过零率、 基音、频率中心等特征的基础上增加了4 个子带能量,并使用了子带能量比特征, 对不同的类别,估算出类内和类问的距离,然后用神经网络作为分类器,识别率 为8 0 左右。文献 11 】中f o o t e 在分类时引入m e l 频率倒谱系数( m f c c ) ,采用1 2 阶的m f c c 系数加能量作为音频的特征表示,对音乐及语音进行分类,通过实验 证明其对音频分类的有效性,并得到了较好的识别率。另外,常用的还有l p c 线 性预测系数【l2 1 ,小波系数【1 3 】等。到目前为止用于分类的音频特征已经提出很多, 但并不是使用全部特征就一定能达到最好的分类效果,由于特征的选取直接影响 音频分类的性能,因此如何选取最佳组合以满足实际的分类目的需要,实现最恰 当的特征搭配是很重要的。 除了对上述的低级特征的应用外,还需要重视对中级特征和高级特征的应 用。中级特征可以反映某一特定物体的发声特征,比如体育音频中,拍击网球的 声音和球落地的声音就很不同【l4 1 ,高级特征就是可以利用的不同的场景结构的先 验语义规则。随着音频分类与分割技术研究的发展,音频分类更加细化,如何抽 取能够准确表征和音频类别的特征是特征分析研究的重点。 在分类器的选择上,最早采用的分类方法就是文献 8 中提到的最近邻算法 ( n n ) ,通过计算e u c i i d e a n 距离划分类别;文献 1 5 】采用最近特征线( n e a r e s t f e a t u r el i n e ,n f l ) 分类器,依据查询点到特征线的最小距离进行检索和分类,该 算法比n n 算法识别率更高;文献【1 6 中,l i u 等提出采用模糊聚类的方法,同原 有的基于规则的分类方法( 阈值分类) 相比,利用模糊成员函数精简了阈值数, 其分类误检率比简单的阈值分类低6 7 ; 上述的几种分类器都是无监督的分类,依据判断准则函数进行“聚类”,还 有一类分类器是基于有监督的分类方法设计的,这类方法往往都预先对每一类训 练模型。文献【1 7 】中h a n s e n 等采用基于神经网络的分类器,对包括愤怒、大声、 缓慢、柔和等1 1 种不同情绪状态下的语音进行识别,文章中使用3 层的神经网络 进行模型训练,采用基于m f c c 的特征,包括一阶和二阶差分m e l 系数以及自相 关m e l 系数等,实验结果为对其词汇库的识别率最高为7 6 。 文献 1 8 q b r o s e n b e r g 等采用基于混合高斯模型( g m m ) 的分类器,6 - m f c c 被作为特征序列,将1 7 段3 0 分钟的电台广播按照目标人物、其他人物、广告、音 第一章绪论 乐、噪声等类别进行分割标记,实验中g m m 混合个数为6 4 个,分类精度可达到 8 2 以上,分割精度可达8 6 到9 5 。 文献 1 9 】中g u o 和l i 选用了支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 作 为分类器,核函数为指数径向基函数( e r b f ) ,按照二叉树构造了一个多类识别 系统,提取能量、亮度、基音等感知特征和m f c c 系数,对m u s c l ef i s h 音频库中 的1 6 类4 0 9 段音频测试,实验结果误检率最小为1 1 。 文献 2 0 贝j j 采用基于隐马尔科夫模型的分类器进行音频分类,l i u 等选用8 种 短时特征,在区分新闻报道、天气预报、广告、足球和篮球的现场报道五类音频 的情况下训练5 个h m m 分类器,并通过对不同状态数目和符号数的实验得出状态 数为5 的h m m 分类效果最好,准确率可达8 4 7 ,最终的分类结果比较令人满意, 同文献 1 0 】所采用的神经网络算法相比,准确度提高了1 1 9 ,而只有对新闻和 天气预报的分类不太成功,原因是它们都主要包含纯语音,需要考虑更高级的相 关信息。 除了上述几种利用单一分类器的分类算法,对分类器的混合使用也是研究人 员比较热衷的研究方向。事实上,目前对分类器的混合使用都是简单的叠加,取 长补短,实现分类。文献 2 1 】中,m e n a k a 等就提出了基于g m m 和h m m 的混合模 型的音频分类算法,利用两种模型的各自的优点弥补对方的不足,同样是针对 m u s c l ef i s h 音频数据库的1 6 类音频进行分类,与单一分类器相比,分类精度可提 高6 1 5 左右。 目前各个系统分类的细化程度和针对性各不相同,传统的音频分类普遍集中 在语音和音乐的划分上【8 9 1 1 1 1 1 2 2 1 ,主要利用音频的低级特征进行识别,并且已经 取得了较高的准确率,然而这还处于分类的初级阶段,类别个数比较少,并不能 满足实际的音频分类和检索目的,还需要更进一步的细化。而且很多的分类系统 只能针对手工分好的包含一种音频类别的片段进行分类识别,或者只针对一小段 固定长度的音频进行分类,而不能做到对一段完整的音频流进行全局的分割分 类。因此日前针对某一音频内容如新闻报道、体育节目等音频的划分不同的场景 类别逐渐成为人们研究的热点,本文中的音频分类算法就是基于新闻内容检索系 统实现的。 1 3 作者工作及论文安排 1 3 1 作者工作 音频自动分类技术涉及到信号处理、模式识别等诸多领域,是一个颇具挑战 第一章绪论 性的研究方向。音频分类的主要流程为:预处理、特征提取、分类器设计、音频 分段等几个步骤。由此可以总结出音频分类与分割研究涉及的关键技术,也就是 本文主要解决的核心问题,具体如下所述: 一特征分析与抽取 音频特征分析与抽取是音频分类的基础,所选取的特征应该能够充分表示音 频信号在时域和频域的分类特性,对环境的改变具有鲁棒性和一般性。音频特征 抽取要用到很多信号处理技术,如音频信号短时分析、倒谱分析等,是分类与分 割等后继工作的基础。 二分类器设计技术 分类器的设计是与特征抽取相互验证不断改进的一个循环过程。设计一个万 能的分类器是不可能的。给定一般的模型或分类器的形式,利用训练样本去学习 或估计模型的未知参数。学习就是用某种算法来降低训练样本的分类误差,即分 类器的训练过程。分类器的设计是本文要解决的一个重要问题。 三分段算法 这里的分段算法类似于分割算法,目前较多的分段准则是利用音频流的语义 延续等一些特性,如何在分类的基础上合理有效的修正分类错误,准确的对音频 流进行分段得到音频镜头,也是本文研究的一个问题。 1 3 2 论文安排 本文主要研究音频的分类算法,通过对己有的分类特征和分类器的分析,选 取最适合对电视新闻音频信号进行分类处理的特征组合,设计合适的音频分类算 法。下面结合各章的内容进行一下详细的介绍。 第二章中介绍了隐马尔科夫模型( h m m ) 的基本理论,作为本文后面分类 器设计的理论基础。分别介绍了h m m 的基本定义,模型参数及其3 个基本算法, 并讨论了实际算法实现中的一些问题,最后介绍一下使用h m m 作为分类器的理 由,以及在实际音频分类中h m m 应用的一些算法分析。 第三章首先对新闻音频的语义内容和结构进行了详细的分析,并明确了新闻 音频的类别;详细分析了常用的几个音频特征以及特征的提取方法,根据自己的 分类目的,选取合适的特征组合,并通过实验验证其有效性。 第四章结合新闻检索系统提出了一个新的基于规则和基于h m m 的音频分 层分类算法,通过实验分析了整个算法检测的准确率。 第五章提出基于d i v e r g e n c es h a p e 距离的聚类方法,尝试对主持人的语音进 行了跟踪聚类,最后通过实验分析了聚类的性能。 第六章总结全文,进一步指出将来的研究中还应做的工作。 第二章隐马尔科夫模型 第二章隐马尔科夫模型 隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,n m m ) ,是一种典型的语音信号统 计模型。大约1 0 0 年前,数学家和工程师就已经知道马尔可夫链了。但是由于一 直缺乏一种能使该模型参数与语音信号达到最佳匹配的有效方法,一直没能得到 广泛应用。直到2 0 世纪6 0 年代前后由b a u m 等人提出匹配的方法,建立起理论基 础,随后由c m u 的b a k e r 和工b m 的j e l i n e k 等人将其应用到语音识别中。由于b e l l 实验室r a b i n e r 等人在2 0 世纪8 0 年代中期对h m m 的深入浅出的介绍,才逐渐使 h m m 为世界各国从事语音信号处理的研究人员所了解和熟悉,进而成为公认的 一个研究热点,并逐渐在多媒体处理( 如语音、视频和音乐等) 和实时监控中得 到很好的应用。近几年来,隐马尔可夫模型技术无论在理论上还是在实践上都有 了许多进展。 本章的内容是本文的理论基础,共分五部分介绍h m m 的基本原理。首先介 绍h m m 的基本定义,然后给出h m m 的模型参数,2 2 节中介绍h m m 模型的 多种形式,2 3 节中给出h m m 模型的三个基本问题及其相应的解决算法,2 4 小 节中讨论了h m m 算法实现过程中的一些问题,在最后的小节中将解释了为何采 用h m m 进行音频分类以及它的实际应用。 2 1h m m 的定义 2 1 1m a r k o v 链 h m m 是在m a r k o v 链的基础上建立起来的,所以首先介绍一下m a r k o v 链,m a r k o v 链是m a r k o v 随机过程的特殊情况,即m a r k o v 链是状态和时间参数 都离散的m a r k o v 过程,在数学上定义如下: 随机序歹峨,在任一时刻n ,它可以处在状态口】,汐n ,且它在研般 时刻所处的状态为q 。+ 的概率,只与它在m 时刻的状态q m 的有关,而与m 时刻以 前它所处状态无关,即有: = = 锄,= 铂,= g i ) = = = 锄) 其中, g ,9 2 ,q 聊,q 。+ 女( 矽1 ,矽1 ,矽n )( 2 i ) 则称为m a r k o v 链,并且称 第二章隐弓尔科夫模型 岛( 肌,m + 尼) = p ( q 。+ t = 岛q ,= 研) , 1 f ,y n ,m ,k 为正整数( 2 2 ) 为k 步转移概率,当p i j ( m ,m + k ) 与m 无关时,称这个m a r k o v 链为齐次m a r k o v 链, 此时 p u ( m ,m + k ) 5 乃( 功 ( 2 3 ) 在没有特别声明的情况下,m a r k o v 链就是齐次m a r k o v 链。当k = l 时,p u ( 1 ) 成为 一步转移概率,简称为转移概率,记为劬,所有转移概率a j ,l f ,可以构 成一个转移概率矩阵,即 h l 口l a = i i ( 2 - 4 ) i 口l口删l 且有0 a j 1 a u = 1 j = l ( 2 - 5 ) 由于k 步转移概率r 可由转移概率口耨到,因此,描述m a r k o v 链的最重要 参数就是转移概率矩阵a ,但a 矩阵还决定不了初始分布,即由a 求不出g 广o i 的 概率,这样,完全描述m a r k o v 链,除了a 矩阵外,还需要引进初始概率矢量= ( 丌,| ) ,其中 i = p ( q ,= 汐f ) , 1 f n ( 2 - 6 ) 显然有0 石f 1 y i = l ( 2 7 ) , m a r k o v 链的每一个状态可以对应于一个可观察到的物理事件。在天气状况 的雨、晴、雪等等,都可看作是状态,这时就可构成天气预报的m a r k o v 链模型 依据此模型,即可计算各种天气在某一时刻出现的概率。 2 1 2h m m 的定义 实际问题中m a r k o v 链模型是很受限制的,事实上观察得到的事件并不是简 单的与状态一一对应的,而是通过一组概率分布相联系,于是就引出了h m m 模 型。h m m 是一个双重随机过程,其中一个随机过程描述状态的转移,即普通的 m a r k o v 过程,另一个随机过程描述状态和观察值之间的统计对应关系。它用概 率统计的方法来描述时变信号的过程。在该模型中,马尔可夫链中的一个状态转 移到另一状态与否取决于该状态的统计特性( 或状态转移概率) ,而某一状态产生 的观察值也取决于该状态生成语音观察值的概率( 状态生成概率) 。这样,站在观 察者的角度,只能看到观察值,不像m a r k o v 链模型中的观察值和状态一一对应, 因此,不能直接看到状态,而只能通过一个随机过程感知状态的存在及其特性。 因而称为“隐”m a r k o v 链模型,即洲。为描述h m m 的概念,我们来看一下 著名的球和缸模型( t h eu ma n db a l lm o d e l ) 实验。 第二章隐马尔科犬模型 图圜 缸l 尸( 红) = 6 , 尸( 蓝) - b n h 绿) = 6 ,j 尸( 黄) - 6 , 缸2 p ( 红) = 如 叫蓝户6 州绿) = b 缸n 尸( 红) = h , p l 磕# b m 2 p ( 绿1 = b m 叫黄) = 6 h 绿卜b u m 图2 - 1 球和缸模型 设有n 个缸,每个缸中装有很多彩球,球的颜色由一组概率分布描述。实验 进行方式如下:根据初始概率分布,随机选择n 个缸中的一个开始实验,根据缸 中球颜色的概率分布随机选择一个球,记球的颜色为o l ,并把球放回缸中根 据描述缸的转移的概率分布随机选择下一口缸,重复以上步骤。最后得到一个描 述球的颜色的序列0 l ,0 2 ,称为观察值序列0 。但是要注意的是,不能直接 观察到缸之间的转移以及每次选取的缸,而且从每个缸中选取得球的颜色并不是 与缸一一对应的,而是由缸中彩球颜色的概率分布随机决定的,同时每次选取的 缸由一组转移概率决定。 根据前面讨论的m a r k o v 链以及以上实验描述我们就可以给出h m m 的定 义如下: 设有一个马尔可夫过程,它有n 个状态f 1 ,0 n ,t 个时刻,某个时 刻t 只能处于这n 个状态中的某一个状态,那么任意时刻t 所处的状态q i 就取决 于初始概率分布f ,( 式2 1 0 ) 和状态转移概率n “( 式2 1 1 ) 。 ,= p ( qp = 0 ,) ,11 i ! n f 2 - 8 ) 唧= p ( q 尸巳i 毋= 9 0 ,1 j ,n 1 t t( 2 - 9 ) 另外在任意时刻t 所处的状态q 是隐藏在系统内部的,不为外界所见的, 外界只能得到系统在该状态下的一个观铡值o 。而观测值o ,是由状态q 决定的, 其概率表示为: 屯( o 沪p ( o ,q ,= 啪,15 n ,1 s t t犯- 1 0 ) 总之,h m m 的精髓就在于:观察可测,状态隐含。 第二章隐马尔科夫模型 2 1 3h m m 的模型参数 h m m 还可以用以下5 个参数来描述h m m 的模型组成: 1 ) :模型中的状态数目,状态数的有限集合 = 口,jj = 1 ,2 ,) 。记f 时 刻模型所处状态为缈,显然q ,( 口1 ,8 n ) 。球和缸模型中,缸就相当于状态。 2 ) m :每个状态对应的可能的观察值数目,输出的观察值的集合为表示为o 。 对于离散型h m m ,观察值集合由蚧观察值0 1 ,o m 组成,记t 时刻观察到的 观察值为o ,其中o ,( d l ,o g ) 。在球和缸模型中彩球的颜色就是观察值。 3 ) 狐:系统的初始状态概率矢量,兀_ ( i ,”,) ,表示初始状态是p ,的概 率,即,j _ p ( g ,- 护f ) ,l j n ,e 产l 。在球和缸模型中表示开始选 取哪个缸的概率。 4 ) a :状态转移概率矩阵。所有转移概率构成一个n n 的矩阵,即 a 2 ( 口 ) n n , 其中 叼= p ( q t + l = 护,iq l = 目j ) 1 f ,j n ( 2 11 ) 在球和缸模型中表示每次在选择当前缸的条件下选择下一个缸的概率。 5 ) b :输出观察值概率分布,b = ( ) n m ,其中 纵= p ( o t = o kl 仍= 护,) ,1 j n ,1 k m( 2 1 2 ) 在球和缸模型中表示第,个缸中出现颜色k 的球的概率。根据b 可将h m m 分 为连续型和离散型h m m 等。 6 ,( 七) = 1( 离散型h m m )( 2 1 3 ) k :b j ( k ) d k = 1( 连续型h m m ) ( 2 1 4 ) 这样,由以上5 个参数就可以构成一个模型:五= ( m ,万,a ,b ) 来描述 h m m ,或者也可表示为a = ( 刀,a ,b ) ,更形象地说明h m m 由两个过程组成: 一是m a r k o v 链,由万,a 描述,产生的输出为状态序列;二是一个随机过程, 由层描述,输出为观察值序列。其过程如图2 1 所示。 d i ,d 2 ,o r - - - - 观察值序列 图2 2h m m 模型示意图 2 2h m m 模型的多种形式 依据不同的准则,h m m 可以有多种分类方式,下面我们就分别介绍一下 第二章隐马尔科夫模型 h m m 模型的两种分类方式。 2 2 1 依据一:状态转移矩阵a 1 ) 遍历型h m m ( e r g o d i ch m m ) 严格的讲,所谓的遍历模型就是经过有限步的转移后,系统能达到任何一个 状态。即系统从一个状态允许转移到任何一个状态,如图2 3 ( a ) 所示。在某些应 用系统中,常遇到的是一步遍历模型,即经过一步跳转,系统可达到任何一个状 态。这样的h m m 的状态转移矩阵中的每一个元素均为大于零的数,没有零元素。 显然,各态历经型h m m 不符合时问顺序的要求,因为它可以回到以前到过的状 态,所以只能用于不要求时问顺序的语音信号处理,如:与文本无关的说话人识 别等。 2 ) 从左至右型h m m ( l e f t r i g h th m m ) 所谓的从左到右模型,就是指随着时间的增加,状态的转移只能是从左到右 进行或停留在原来的状态,而不能出现返回到前状态的情况,如图2 3 ( b ) 所示。 因此,其状态转移矩阵是一个上三角矩阵,而表示终止状态的最后一行除了最后 一个元素外全为零。最简单的从左至右结构是无跳转的,即当前状态只能向其下 一个最接近的状态转移或停留在当前状态,而不能跳过下一个状态向右转移,也 就是说,其状态转移矩阵中只存在口,和a 叶l ,而其它值为0 。 h 钆a 1 3a 1 肚l0 0 ;0 2 2 :2 ,:2 ,。4l ( 2 - 1 5 ) 【0 0 0 口4 4 j 由此矩阵可以看出状态的变化必须从l 状态开始,能够反映事件的时序结构, 对于考虑时间变化的信号来说此模型比较合适。对于语音信号来说,其特征参数 是一个时问序列,所以在语音识别中一般都使用从左向右型的h m m 。 ( a ) 遍历型h m m ( b ) 从左至右型h m m 图2 - 3h m m 的结构 另外,在这两种结构方式的基础上还有一些变形结构,比如h m m 网络等, 尽管性能比较好,但是结构比较复杂,般应用于比较特殊的场合。 第二章隐马尔科夫模型 2 2 2 依据二:输出观察值概率分布参数b ( 1 ) 离散h m m ( d h m m ) 在d h m m 中,参数b 表现为观察值概率矩阵。每个状态的输出概率是按观 察字符离散分布的,每一次转移时状态输出的字符是从一个有限的离散字符集中 按照定的离散概率分布选出来的。在语音信号处理中,经过特征分析后,语音 信号被分割成若干帧,每帧求取一个特征参数向量,即每帧是用一个特征参数向 量表示的。此时若要使用离散h m m ,则需要将语音特征参数向量的时间序列进 行矢量量化( v e c t o rq u a n t i z a t i o n ,v q ) ,将o ,离散化,通过v q 使每一帧语音信号 由特征参数向量表示转变为用码字符号表示的形式,其过程如图2 4 ( a ) 所示。由 于v q 必然引入量化误差并且造成一些信息的丢失,而且v q 码本的生成与h m m 的训练是两个分离的优化过程,所以d h m m 要影响系统的识别精度。但d h m m 的计算量较少,易于实时实现。 ( 2 ) 连续h m m ( c h m m ) 为了提高系统的识别率,又提出了连续概率密度分布的h m m ,简称为连续 h m m 。在c h m m 中,由于可以输出的是连续值不是有限的,所以不能用矩阵表 示输出概率,而要改用概率密度函数来表示。即用纵x ) 表示:在x 和x + d x 之间 观察矢量的输出概率。这里6 ,( x ) 称为参数x 的概率密度分布函数,输出x 的概率 可以通过6 ,( x ) 计算出来。6 疋x ) 一般用高斯概率密度函数,由于x 是多维矢量所 以要用多元高斯概率密度函数,如下式所示: 钆x = i :新e x p 一言x 一一歹x 一一。 ( 2 1 6 ) 式中,p 是矢量x 的维数。根据协方差矩阵是全协方差矩阵还是对角协方差矩 阵,可以把连续h m m 分成全协方差c h m m 和对角协方差矩阵c h m m 。对角协方 差c h m m 假定参数矢量各维是独立的,这样c h m m 模型参数少,对训练数据量 要求不高。所以,当模型参数多时,如果训练数据量不充足,贝i j i ) t l 练出来的模型 精度就不高。 在实际的连续型h m m 模型训练中,往往采用一种常用于语音信号处理的概 率密度函数来表示观察值参数x ( 也即d r ) 的输出概率分布,称之为“高斯m 元混 合密度”,即 乃( x ) = z c j , , , n ( x ,加,矗)l j n( 2 1 7 ) 这里,m 为混合数,c ,m 是第,z 个高斯密度函数的加权系数,且满足 丝l c 加= 1 , c j 册 1 0 ,1sj n ,1 m m ( 2 1 8 ) 这种c h m m 也称为连续混合密度h m m ,简称为c m h m m 。c h m m 的初始状 第二章隐马尔科夫模型 态概率、状态转移概率矩阵与d h m m 相同,输出概率的估计转化为估计混合高 斯密度函数的加权系数、均值和协方差矩阵。图2 4 ( b ) 为c h m m 模型。 ( a ) d h m m( b ) c h m m ( c ) s c h m m 图2 4 基于参数b 分类的三类h m m ( 3 ) 半连续h m m ( s c h m m ) 离散h m m 的模型参数少,对训练数据量要求不高,而且离散h m m 的计算量 较小,易于实时实现,但是离散h m m 的缺点是识别精度不高。连续型h m m 虽然 不使用离散概率分布,不需要对输入信号进行量化,从而提高了识别率,但这是 以运算量的增加为代价的,而且连续型h m m ,尤其是连续混合密度h m m 的模型 参数较多,训练数据不够时训练的模型精度较低。为了结合这两种模型的优点, 弥补这两种模型的缺点人们提出了半连续型h m m ,其模型如图2 4 ( c ) 。它的概率 的形式如下式所示: m b j ( x ) = z c j , n ( x ,1 t 。,厶)l n( 2 1 9 ) m = l 从式( 2 2 1 ) 中可以看出,半连续型h m m 的每个状态的输出概率分布是由几个 正态分布函数叠加而成的,但是这些正态分布函数与状态无关( 实际上与模型也 无关) ,即每个状态都使用共同的正态分布函数:而权值与状态有关;k 实际上 是离散h m m 中码本的码矢,共有j 个。因此,半连续型h m m 实际上是用离散h m m 中码本的码矢,做成m 个正态分布函数,它的均值向量就是该码矢,协方差矩阵 可以是属于该码矢的数据,对该均值向量的协方差,也可以是全部数据对该均值 向量的协方差,这j 个正态分布函数是各状态( 和各模型) 共有的而权值c ,实际上 第二章隐马尔科夫模型 是每个状态的输出概率矩阵中的各码矢的输出概率值,和状态有关,并且满足: 纂l c 加= i ,锄o ,m = l m( 2 - 2 0 ) 这样,相对于离散h m m 来说,连续型h m m 用多个正态分布线性相加作为概 率密度函数弥补了离散分布的误差;对于连续型删,半连续型m 嗄m 用多个各 状态共有的正态分布线性相加作为概率密度函数弥补了参数数量多,计算量大的 缺陷。 2 3h m m 的三个基本问题及其对应的解决算法 在将h m m 有效应用到实际中,必须要解决3 个基本问题: 问题一:评估问题( e v a l u a t i o np r o b l e m ) :给定观察符号序y 0 0 = ( 0 1 ,d 2 ,d 力 和模型五= ,b ,j r ) ,如何快速有效地计算观察符号序列的输出概率p ( oa ) ? 常 用的算法有前向后向算法。 问题二: 模型学习问题( l e a r n i n gp r o b l e m ) :实际上是一个模型参数估计 问题,即对于初始模型和给定用于训练的观察符号序歹i j o = - ( o j ,d 疗,如何调 整模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论