已阅读5页,还剩74页未读, 继续免费阅读
(信号与信息处理专业论文)基于数据挖掘的汉语韵律建模研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
草丁数据挖捌的汉语韵律建模研究 摘要 随着多媒体通信技术的不断发展,人们对信息获取的方式和内容提出了越来越高的要 求。语声信息服务以其方便、直接的优点受到了通信领域的广泛青睐。作为人机语音通信 的一个承要方衙的语音合成技术是否可以达到实用的要求关键在于其自然度是不是和真人 接近。而介成谢爵足否自然最书要的标志就足合成语音的韵符 足不是利自然人说活时的 ; j 律想吻合,这也是语音合成技术中最重要的核心技术之一。 本文在汉语语音合成系统中需要使用的皋频和时长模型均进行了深入研究。基频和时 长足韵律特征中最重要的两个特征,本文利用基本的统计学方法和数据挖掘方法,对基于 语音学规律的t a r g e t 摹频模型以及s o p 时长模型中高层韵律描述和模型参数之间的关系,进 行了详细的统计和分析。在分析过程巾,分别解决了数据稀疏和属性间相珥:作用的问题: 在数据挖掘方法上,利用t c a r t 树和非线性回归方法的特点,训练过程中采用一系列的方 法保证了数据挖掘效果。文本利用3 5 0 0 句左右的汉语自然语流建立了系统的荩频模型利时 长模型。并口在此摹础上,完成了一个大语料库合成系统k b 3 0 。通过对系统的效果评测验 证了韵律模型的良好效果。 本文丰要包括以下几方面的内窖: ( 1 ) 介绍了摹本的统计学方法( 均值比较,单因了方差分析,多元非线性回归) 和数据 挖掘方法( c a r t ) 的摹本原理和技术特点。 ( 2 ) 介绍了t a r g e t 綦频模型的牲本思想,在大语料库t t 卜成t a r g e t 模型参数作为训练集, 通过c a r t 树的方法训练出可以使用的t a r g e t 基频模型。 ( 3 ) 介绍了s o p 时k 模型的基本思想,通过大量的统计分析工作确定了时长模型中各个属 性的影响乖其中的相瓦关系,对连续语流数据库建立了声韵母时长模型。 ( 4 ) 在t a r g e t 基频模型和s o p r l 寸长模型的基础上,设计并实现了k b 3 o a 语料库语音合成 系统,在韵律的普适性等方面具有显著的提高,整体效果达到了相当的水平。 以k b 3 0 语音合成系统为核心所完成的i n t e r p h o n i c 语音平台产品利行业解决方案, 已经在社会牛活的众多领域得到了广泛的应用。语音技术作为一+ 种沟通的技术,通过在韵 律研究方面的不断进步,已经越来越多的应用到各行各业中去。 第11 j 犟丁数据挖捌的汉语韵律建模研究 a b s t r a c t w i t ht h ed e v e l o p m e n to fm u l t i - m e d i ac o n u n i c a t i o nt e c h n o l o g y c o m m o nu s e r s n o wa s k f o rm o r ea n dm o r ec o n v e n i e n c ef o rg e t t i n ga n de x c h a n g i n gi n f o r m a ti o n v o i c e i n f o r m a t i o ns e r v i c eh a sb e e nw i d e l ya p p r a i s e df o ri t sc o n v e n i e n c ea n dd i r e c t n e s s t h ek e yt op r a c t i c a b i l i t yo fs p e e c hs y n t h e s i st e c h n o l o g y ,w h i c hi so n eo ft h em a j o r a s p e c t s o fm a n m a c h i n e c o m m u n i c a t i o n ,i sw h e t h e ri ts o u n d s a sn a t u r a la s h u m a n b e i n g s a n dt h ep r i m a r ys i g no ft h en a t u r a l n e s so fs y n t h e s i z e dv o i c ei sh o w t h ep r o s o d yo fs y n t h e s i z e dv o i c ea c c o r d sw i t hn a t u r a lh u m a nb e i n g s ,w h i c hi so n e o ft h em o s ti m p o r t a n tc o r et e c h n o l o g i e so fs p e e c hs y n t h e s i s t h i s p a p e r s t u d i e dp i t c ha n dd u r a t i o n m o d e l st h a ta r eu s e di nc h i n e s e t e x t t o s p e e c hs y s t e m s p i t c ha n dd u r a t i o na r et w om a j o rf e a t u r e so fp r o s o d y t h i s p a p e rs t a t i s t i c a l l ya n a l y s e dt h er e l a t i o n s h i pb e t w e e nh i g hl e v e lp r o s o d y d e s c r i p t i o na n dm o d e lp a r a m e t e r si nt a r g e tp i t c hm o d e la n ds o pd u r a t i o nm o d e lb a s e d o nb a s i cs t a t i s t i c a la n dd a t am i n i n gm e t h o d s w h i l ea n a l y s i n g ir e s p e c t i r e l y s e t t l e dp r o b l e mo fd a t as p a r s it ya n dt h ei n t e r a c t i o nb e t w e e na t t r i b u t e s :o nd a t a m i n i n gm e t h o d s ,o nt h eb a s e o ft h ee x c e l l e n c eo f c a r tt r e ea n dn o n l i n e a rr e g r e s s i o n m e t h o d ,w ef o u n ds e r e r a lm e t h o d st oe n s u r ed a t am i n i n gr e s u l t sw h i1 et r a i n i n g p r o c e s s w eu s e da b o u t3 5 0 0n a t u r a lc h i n e s es e n t e n c e st oe s t a b l i s ht h ep i t c hm o d e l a n dd u r a t i o nm o d e lo ft h es y s t e m ,b a s e do nw h i c hw ed e v e l o p e dac o r p u s b a s e d t e x t t o s p e e c hs y s t e mk b 3 0 t h ee v a l u a t i n go ft h eq u a li t yo ft h es y s t e mp r o v e d s u c c e s so ft h ep r o s o d ym o d e l t h i sp a p e ri n c l u d e st h ef o l l o w i n gc o n t e n t s : 1 i n t r o d u c t i o no fe l e m e n t a r yp r i n c i p l e sa n dt e c h n i c a lf e a t u r e so fs o m eb a s i c s t a t i s t i c a lm e t h o d s ( m e a n sc o m p a r e ,a n o v a ,n o n l i n e rr e g r e s s i o n ) a n dd a t am i n i n g m e t h o d s 2 i n t r o d u c t i o no ft h et h e o r yo ft a r g e tp i t c hm o d e l ,u s i n gc o r p o st og e n e r a t e t a r g e tm o d e lp a r a m e t e r sa s t r a i n i n gc o l l e c t i o n ,a n du s i n g c a r t t r e em o t h o d s t o t r a i n au s a b l et a r g e tp it c hm o d e l 3 i n t r o d u c t i o no ft h et h e o r yo fs o pd u r a t i o nm o d e l ,b a s e do nag r e a td e a lo f s t a r i s t i c a la n da n a l y s i n gw o r k ,f i x e dt h ee f f e c to f e a c ha t t r i b u t ei nd u r a t i o nm o d e l a n di n n e rr e l a t i o n sb e t w e e nt h e m s e t t l e da ni n i t i a l f i h a ld u r a t i o nm o d e lf o ra 第2 贞8 7 ,2 0 0 3 c o t l tc n u o u ss p e e c hc o r p u s 4 ib a s e do nt a r g e tp i t c hm o d e la n ds o pd u r a t i o nm o d e l ,s u c c e s s f u l l yd e s i g n e d a n dd e v c l e p e dt h ec o r p u s b a s e dt e x t t os p e e c h s y s t e mk b 3 0 ,w h i c h l a sg r e a t i m p r o v e m e n ti nt h er o b u s t i e i t yo fp r o s o d ya n dt h ev o i c eq u a l i t y t h ei n t e r p h o n icp l a t f o r mp r o d u c t sa n di n d u s t r y s u l u t i o n sw 1 1 jc hh a v e b e e n d e s i g a e da n dd e v e l o p e db a s e do i l k b 3 0 s p e e c hs y n t h e s i ss y s t e m h i y eb e e n s u c c e s s f u l l yp u ti n t oa l lk i n d so fa p p l i c a t i e n si nm a r k e t a so n co ft h em o s t i m p o r t a n tc o m m u n i c a t i o nt e c h n i q u e s ,w i t ht h ei m p r o v e m e n to fp r o s o d yr e s e a r c h 。 s p e e c ht e c h n o l o g yw i l lb ea d o p t e db ym o r ea n dt o r e n d t :s t r i e s 第3 负 $ 1 1 2 0 0 3 基丁数据挖蜘的汉语韵律建模研究 第1 章绪论 我们处在一个信息革命的时代,随着人们对信息需求的日益增长,对信息处理的速度和 方式提出了更新更高的要求。而计算机正以迅猛的速度出现在人们的社会牛活之中,如何与 计算机间最有效、最方便、最自然地进行信息交换,已成为人们急待解决的问题。而语音显 然是人与外界交换信息的最方便且最有效的于段,能够让计算机向人一样说话并能听懂人的 讲话,一直是人们梦寐以求的h 标。伴随着多媒体技术的发展,新一代的智能计算机将要求 具备声音、图象和文字等多种处理功能。这些都是促进人机语音通讯技术发展的根本原因。 语音合成概括地讲就是让计算机学会象人一样讲话的技术,是一门典型的交叉学科。它 涉及到声学、语音学、信息论、信号处理、计算机、模式识别、人工智能、心理学以及人类 的大脑神经活动等众多学科的理论和技术。 我国在人机语音通讯方面起步较晚,仙近十几年来取得了很大进展,在汉语合成与识别 方面结合语种的特点走自己的路,正在逐渐赶上国际的先进水平。目前,语音合成的研究已 经取得了长足的进步,从最早的单音、词组以及旬了的语音合成系统问世,到今天,基于大 语料库技术的语音合成系统已经可以给出效果高度自然的合成语音。基于本论文所完成的工 作,新的汉语语音合成系统k b 3 0 在自然度、音质和可懂度上都有了有了较大水平的提高。 本章丰要概述汉语语音的韵律建模以及在其中使用的数据挖掘技术,最后给出论文的内 容安排。 1 1 语音合成技术中的韵律模型 在基于波形拼接的大语料库合成系统的实现过程中,合成单元按照什么样的规律拼接 在一起,丰要受两方面规律的影响:( 1 ) 这些合成单元本身和之间的超音段特征表现是否 和谐( 2 ) 这些合成单元本身和之间的音段特征表现是否和谐。超音段特征丰要包括语音的 基频、时长、能量等韵律参数,而音段特征丰要包括语音语谱的变化。在语音合成的过程 中,超音段特征对自然度起到决定性的作用【2 】。对于超音段特征中复杂规律的研究,集 中在韵律建模( 就是对连续语流中的超音段特征建模) 的工作上,只有建立了有效可用的 韵律模型,我们才可以知道和一段文本相对应的语音在超音段特征上应该如何的表现,从 而指导在合成系统中进行的合成单元挑选组合工作。 在超音段特征中,基频和时长是两个最重要的因素。早期对于时长和摹频的研究丰要 第3 贞 8 n 2 0 0 3 犟丁数据挖批f 日汉语韵律建模研究 是从实验语音学的角度出发,建立了很多基于规则的模型【3 】【4 】。随着合成技术的不断提高, 合成系统需要越来越精确的基频和韵律模型。同时,从语音产牛的机理出发,大量的基频 模型和时长模型被提出来。其中基频模型中比较有影响力的有:f u j i s a k i 模型f 5 1 ,t i l t 模型 【6 ,t a r g e t 模型 7 】,s t e m - m l 模型【8 】等等。时长模型中,采用各种方法的模型在近二十年 来被大量的提出,其中有采用c a r t 树的,有采用神经网络的,有采用b a y e s 网络的,有 采用e m 算法的。其中,从各种因素对合成单元时长影响进行分析的s o p 模型近年来取得 了较好的效果。 同时,韵律模型中的复杂规律已经不可能完全通过大量的语音试验完成,因为随着数 据量的增加,合成语音的文本携带的信息对超音段特征的影响复杂度太高以至于无法采用 有限的试验方法完成研究工作。所以这里我们只有通过基于海量数据的数据挖掘技术来完 成,针对大量的连续语流利用以后的韵律模型进行建模分析,通过数据挖掘的方法分析单 元的语流环境和合成单元韵律特征参数两个层面之间的关系。 这里提到的“语流环境”,以及上面提到的“韵律特征参数”、“韵律参数”都是语音学 中用于定义人的语音韵律的特定名称。其中,“语流环境”丰要包括发音单元所处的韵律符 号描述特征,例如:在汉语中包括音节单元的前后调,前后声韵母类型,音节在词语中的位 置,音节所在词语的长度,轻重度类型等,以文本符号表述的形式表现出来。而“韵律特征 参数”、“韵律参数”表示韵律在语音中实际的数据体现,包括基频,时长,能量等,以数据 的形式表现出来。语音单元所在的“语流环境”决定了这个语音单元的“韵律特征”,后面 我们采用“高层韵律描述”【9 来表示“语流环境”,“韵律特征参数”和“韵律参数”统一用 “韵律参数”来表达。 1 2 知识发现与数据挖掘 随着数据库技术的飞速发展以及人们获取数据于段的多样化,人类所拥有的数据急剧增 加,可是目前用于对这些数据进行分析处理的工具却很少。目前数据库系统所能做到的只是 对数据库中已有的数据进行存取和简单的操作,人们通过这些数据所获得的信息量仅仅是整 个数据库所包含的信息量的很少的一部分,隐藏在这些数据之后的更重要的信息是关于这些 数据的整体特征的描述及对其发展趋势的预测,这些信息在决策牛成的过程中具有重要的参 考价值。 第4 贞 牲丁数据挖粕的汉语韵律建模研究 在数据库技术飞速发展的同时,人工智能领域的一个分支机器学习( 数据挖掘) 的研究也取得很大进展,其中某些常用且较成熟的算法己被人们运用于实际的应用系统及智 能计算机的设计利实现中,并取得了很好的结果。 正是由于数据库技术和机器学习技术的发展,也是为了满足人们实际工作中的需要,数 据库中的知识发现( k d dk n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 技术逐渐发展起来。一般将k d d 中进行知识学习的阶段称为数据挖掘( d a mm i n i n g ) ,它是整个数据库中的知识发现过程中 一个非常重要的处理步骤,所以两者往往混用。一般来说,在工程应用领域多称数据挖掘, 而在研究领域人们则多称为数据库中的知识发现 7 】,本文将不加区分地使用两者。 1 3 数据挖掘技术与韵律模型的结合 h 前的汉语方而基频利时长模型的研究多是根据语言学、语音学的研究得出的一些定性 的描述,这在使用计算机进行语音合成时只能提供一些参考,或者是直接使用数据挖掘技术 对数据进行简单处理以后直接用于韵律模型的建立,并没有深入的探讨如何利用数据挖掘分 析的方法对模型的获取和改进。 正是由于韵律模型在语音合成中的重要作用,本文的目标是探索如何将数据挖掘技术结 合语音学韵律理论应用于普通话韵律模型的建立,力求从大规模语音库中提取更为全面和准 确的语音韵律模型,这里充分的利用了在语言语音规律方面的认识和对数据挖掘技术的熟练 掌握,希望可以得到理想的结果。在这个过程中,不仅可以通过数据挖掘的方法建立合成系 统中所需要的韵律模型,也通过对数据挖掘过程细致的分析来发现深层次的语音韵律规律。 目前语音合成的目标是合成出象人说的话一样的合成语音,因此如果在合成时采用人发 音时的韵律参数,则应该能够合成出高质量的语音,这一点可以通过文献 9 的实验看出。我 们就可以将韵律模型参数的规律学习看做是这样一个学习任务:经过训练后的韵律模型可以 牛成与实际人发音的相同或在一定范围内可接受的合成韵律参数,把牛成的韵律参数与人发 音的韵律参数相吻合做为学习目标。为此,将实际发音的语音语料库中已有的语音做为训练 数据,提取出其中的音高和音长参数,根据语言学和语音学的知识建立合理的韵律模型( 基 频模型和时长模型) ,利用大量的数据对这些韵律模型的控制参数进行建模训练,通过测试, 调整训练方式利深入分析属性之间的相互关系不同提高韵律模型的正确性,使得韵律模型牛 成的韵律参数满足合成的要求。 第5 贞8 7 2 0 0 3 接7 墩据挖挪的汉语韵律建模研究 由于数据挖掘可以从大规模数据中自动进行规则的提取,将数据挖掘应用于韵律规则发 现,这一方面使得对大批量语音数据的处理成为可能,另一方面也可以发现较为全面的规则, 同时以训练得到的知识形式存储的规律比以列举方式存储的规则占用空间更小,而且从实际 语音数据中获取的规则会更有效。 1 4 论文的组织结构 全文由六章组成。第一章介绍了与本文有关的前人的工作,简要概述了韵律模型以及数 据挖掘的定义,同时介绍了语音合成的背景、语音合成技术以及汉语语音合成的发展。第二 章简要介绍了本文所进行的统计分析和数据挖掘的方法及其应用研究,讨论了本文所采用的 均值比较,单因了方差分析,决策树方法和线性回归模型的基本原理。第三章介绍了采用 t a r g e t 基频模型的建立、训练、测试利优化工作。第四章详细给出了采用s o p 模型 1 0 1 建立 汉语声韵母时长模型的学习过程。第五章介绍摹于上面基频模型和时长模型建立的k b 3 0 大 语料库合成系统的系统流程和评测结果。第六章为结束语,对本文工作进行了总结,并提出 进一步研究的方向。 第6 贞8 九 2 0 0 3 皋丁数据挖船i n q 汉语韵符建模研究 第2 章数据统计和数据挖掘技术 2 1 均值比较 ( 1 ) 均值比较的基本概念 统计分析常常采取抽样研究的方法。即从总体中随机抽取一定数量的样本进行研究来 推论总体的特性。由于总体中的每个个体间均存在差异,即使严格遵守随机抽样原则也会 由于多抽到一些数值较大或较小的个体致使样本统计量与总体参数之问有所不同。又由于 实验者测量技术的差别或测量仪器精确程度的差别等等也会造成一定的偏差,使样本统计 量与总体参数之间存在差异。由此可以得出这样的认识:均值不相等的两个样本不一定来 自均值不同的总体。能否用样本均数估计总体均数,两个变量均数接近的样本是否来自均 值相同的总体? 换句话说,两个样本某变量均值不同,其差异是否具有统计意义,能否说 明总体差异? 这是各种研究工作中经常提出的问题。这就要进行均值比较。 对来自正态总体的两个样本进行均值比较常使用t 检验的方法。t 检验要求两个被比 较的样本来自正态总体。两个样本方差相等与不等时使用的计算t 值的公式不同。如果用 x l 、x 2 表示两个样本的均值,惕、 :分别为两个样本的观测量数目,v 、v ,为两个样本的 方差,方差齐( ”i = ”2 ) 时与方差不齐( o 一7 2 ) 时计算t 值使用的公式如下; 方差齐时:,= ( _ 一x 2 ) 防2 ( 1 n l + 1 2 ) 】“2 其中s2 = ( ”i 一1 ) v l + ( h 2 1 ) v 2 l ( n 1 + 2 2 ) 方差不齐时:,= ( x l x 2 ) “v 1 n i + v 2 n 2 ) 进行方差齐次性检验使用f 检验。对应的零假设是:两组样本方差相等。p 值小于o 0 0 5 说明在该水平上否定原假设,方差不齐;否则两组方差无显著性差异。 f 值的计算公式是:f = m a x ( v ,v 2 ) m 1 n ( v i ,v 2 ) ( 2 ) 进行均值比较及检验的过程 s p s sf o rw i n d o w s 】提供以下汁算变量的描述统计量的过程和对均值进行检验的过 程,我们在分析的过程中大量采用了s p s s 中提供的均值比较方法。 m e a n s 过程 m e a n s 过程计算指定变量的综合描述统计量。当观测量按一个分类变量分组时, m e a n s 过程可以进行分组计算。例如要计算工作人员上班路程的平均公里数,s e x 变量 把工作人员按性别分为女人、男人两组,m e a n s 过程可以分别计算男人、女人上班路程 第7 _ 吐f8 7 1 2 0 0 3 摧丁数据挖掘的汉语韵朴建模研究 的公里数。用于形成分组的变量应该是其值数量少且能明确表明其特征的变量。 使用m e a n s 过程求若干组的描述统计量,目的在于比较。因此必须分组求均值。这 是与d e s c r i p t i v e s 过程不同之处。 t t e s t 过程 t t e s t 过程是对样本进行t 检验的过程。按不同的比较方式分为3 个功能: a 、单一样本t 检验 检验单个变量的均值是否与给定的常数之间存在差异。样本均数与总体均数之间的差 异显著性检验属于单一样本t 检验。 b 、独立样本的t 检验 独立样本的t 检验用于检验是否两个不相关的样本来自具有相同均值的总体。例如想 知道购买你的产品的顾客与不购买你的产品的顾客平均收入是否相同,可以使用对独立样 本进行t 检验的功能。必须注意使用这种检验的条件是必须具有来自两个不相关组的观测 量,其均值必须是对你想在两组中都计算的变量的综合测度。 如果分组样本彼此不独立,例如测度的是工人在技术培训前后某项技能的成绩,要求 比较培训前后成绩均值是否有显著性差异,应该使用配对t 检验的功能( p a i r e ds i m p l e t t e s t ) 。如果分组不止两个,应该使用o n e - - w a ya n o v a 过程进行单变量方差分析。如果 你试图比较的变量明显不是正态分布的,则应该考虑使用一种非参数检验过程 ( n o n p a r a m e t r i ct e s t ) 。如果用户想比较的变量是分类变量,应该使用c r o s s t a b s 功能。 c 、配对t 检验 配对t 检验( p a i r e ds a m p l e t t e s t ) 用于检验两个相关的样本是否来a 具有相同均值的 总体。这种相关的或配对的样本常常来a 这样的实验结果,在实验中被观测对象在实验前 后均被观测。例如想要知道技术培训以后是否提高了工作效率。呵以在这个研究中在培训 前后测试完成一道工序的时间。在构成数据文件时一个被测试的工人的培训前后完成一道 工序的时间形成一个观测量,两个变量可以是b e f o r e 、a f t e r 。配对分析的测度也不是 必须来a 同一个观测对象。例如一对夫妻或者是根据实验前学习成绩和智商均相同的两个 孩了,分别进行不同教学方法,进行一段实验教学后,比较参与实验的两组学牛平均成绩 差异是否具有统计意义。 可以看到,我们利用均值比较的功能可以对大量的语音数据进行对比分析,以判断不 同的属性值之间对韵律特征参数的影响。 销8 贞 8 7 2 0 0 3 皋丁数据挖粕的汉沿韵律建模研究 2 2 单因子方差分析 方差分析( a n o v a ) 又称变异数分析或f 检验,其目的是推断两组或多组资料的总体 均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。我们丰要在汉语韵律 研究中使用单因素方差分析即完全随机设计或成组设计的方差分析来分析不同的高层韵律 描述属性内部对韵律特征参数影响的作用情况和不同属性之间影响的相对大小。 2 _ 2 1 方差分析的基本原理 方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个: 随机误差,例如测量误差造成的差异,称为组内差异。用变量在各组的均值与该组内 变量值之偏差平方和的总和表示。记作l 细内 实验条件,即不同的属性( 不同的实验条件) 造成的差异,称为组间差异。用变量在 各组的均值与总均值之偏差平方和表示。记作上纽i i j l 纽内、上姐m 除以各自的自由度得到其均方值即组间均方和组内均方。 一种情况是属性中不同的属性值( 不同的实验条件) 没有作用,即各样本均来自同一 总体。m 纽o m 纽内= 1 。考虑抽样误差的存在,则有 ,纽川m 组内l 另一种情况是属性中不同的属性值确实有差异。组间均方是由于误差与不f 苷4 属性值共 同导致的结果,即各样本来自不同总体。那么,组间均方会远远大于组内均方: m 纽n u m 纽内 1 m mou 朋矗内比值构成f 分布。用f 值与其临界值比较,推断各样本是否来自相同的 总体。 我们可以用以下公式来计算不同属性之间的影响: 令x “为第j 种属性取值中的第1 个观测值,那么 躐删:( 一反映了总体离差平旒 s s = 【( 勃一弓) 2 】 , ,反映了水平内的离差平方和 。= ( 弓一反映了水平间的离差平方利。 第9 负8 n 2 0 0 3 辈丁数据挖捌的汉语韵律建模研究 很明显:s s , o ,口,一s s w 触衲:觋 r 2 能大概反映该属性与观测值( 我们这里丰要就是韵律参数,例如音节的时长) 之间 的关联程度,r 2 值越大的,其属性对时长的影响越大。 2 2 2 方差分析的假设检验 假设有m 个样本,如采原假设风:样本均数都相同即z ,:p := , u s = = p 。= p ,m 个样本有共同的方差盯2 。则m 个样本来自具有共同的方差盯2 和相同的均数的总体。 如果经过计算结果组间均方远远大于组内均方的f f j0 5 ( 用【眦罔i 内) ,( 括号中的两 个f 是自由度) 则p 2 * e x a t b 3 置l a 鳓帕娜龇r e z r - 嘲i m b 1 ( b 2 ( 1 3 ) ) p 劬 ( b l4 - 1 2 x ) ( ” ( 酗吡疆 b l 吖l b 3 懿吖- b 2 x 2 ) ) g o m a e n z b l 酬- b 2 e x a ( - b 3 x n j o h m o a - s c h 岫 b l 唧( - b 2 t x 4 - b 3 ) ) l o l - m o d t f i e d ( b l + b 3 + x ) b 2 1 n p lo 一咄 b l - h ( 1 + b 2 + 娜( b 3 x 的 m e e ;:h e d k 蠡l a w 日f 由i 面蛐2 r e t a i n s b l + b 2 雠“- b 3 + i ) m i c , h 枷sm e a t e a b l x ( x i - 艟) m | 。| 鞭睢m 矗磺手l 恼纽 f b j b 2 + b 3 x “w b 2 + x ”, p e a l - r e e d b l ( 1 十b 2 * e 叫4 b 3 * x + b 4 * x z + b 5 x 3 1 n r a t i oo f c a b i c s ( b l + b 2 + x + b 3 b 4 i ,w b 5 x l t a l i o0 fq l 蹦峨 f b i4 - b 2 x4 - b 3 f h 4 n 第1 4 贞8 7 ,2 0 0 3 基丁数据挖捌的汉沿韵律建模研究 名称 曩董袭迭式 r i c h l r d ,b l ,( ( 1 + b 3 * e x “- b 2 x ) ) b w t h u l s tb l 玎14 - b 3 e x d ( - i ) 2 + 工) ) v o nb 苜删k d b( b 1 1 1 h 岫2 e x p ( - b 3 + x ) ) l l 小。m w k 岫 b 1 一b 2 l t ( :x p ( - ”x m ) y i c l d d 岫( b 1 + b 2 x + b 3 + d 1 图2 2 经常使用的非线性回归的模型表达式 ( 2 ) 条件逻辑表达式 非线性拟合可以分段进行。一个分段模型必须利用条件逻辑表达式来定义,并且只能 形成一个语句。为了表达一个模型中或损失函数 l o s sf u n c t i o n ) 中的条件逻辑式,必须将 几个不同条件的分段模型组合在一起。每一个分段模型由逻辑表达式乘以逻辑表达式为真 时的结果。例如:分段模型表示为 0 x = 0 ,( x ) = x 0 x = 1 这几个分段模型组合后的逻辑表达式为:( x o & x = i ) + i 因为逻辑表达式的值只能是l ( 真) 或0 ( 假) ,因此: 如果:x = 0 ,以上的结果为1 4 0 + 0 + x + 0 4 1 = 0 如果:o x = l ,以上的结果为o + o + o + x + 1 + 1 _ 1 两个不等式之间必须由逻辑符连接。例如:o t o n e ( 0 1 1 3 ) n b o r d e r ( 0 1 0 7 ) l oi n 1 3 ( 0 1 0 2 ) n u mi n 1 3 根据以上e t a 值的分析,预选择的分析属性有:元音类别f n l i d ,元音类型f n l t p ,前 接圣母类型p im t p ,本音节调型t o n e ,后边界类型n b o r d e r ,音节在韵律短语中的相对 位置l oi n1 3 ,和所在韵律短语中音节的个数n u mi n1 3 共7 个。其中f n l i d 为分类因予, 我们需要根据他将数据分开分别建模,那么每个模型中需要使用5 个属性( 因为元音类型 这是也已经不需要进行考虑) 。这样,特征空间减小为:2 0 1 6 。 a 这里需要说明为什么将元音类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公务员考试水浒传题库试题及答案
- 公务员考试实词辨析试题及答案
- 甘李药业秋招面试题及答案
- 2026年泰山职业技术学院单招职业技能考试题库完美版
- 2026年黑龙江艺术职业学院单招综合素质考试必刷测试卷附答案
- 2026年福州英华职业学院单招职业倾向性测试题库新版
- 2025广西南宁市江南区农业农村局公开招聘4人参考题库附答案详解(满分必刷)
- 2026年天津理工大学中环信息学院单招职业倾向性考试题库汇编
- 2025广西北海市秋季“智汇珠城”招聘事业单位急需紧缺专业人才90人参考题库含答案详解(b卷)
- 2026年四川航天职业技术学院单招职业倾向性考试必刷测试卷汇编
- GB/T 43683.4-2025水轮发电机组安装程序与公差导则第4部分:立式轴流转桨式或轴流定桨式水轮机
- DB43-T 1976-2021 压力容器波纹金属软管定期检查技术规范
- 南开大学简介
- JTG3410-2025公路沥青及混合料试验规程解读宣贯
- 化工厂安全培训活动课件
- 监狱干警给犯人授课课件
- 2025至2030电石行业市场深度调研及前景趋势与投资研究报告
- 家电清洗培训课件下载
- GB/T 7031-2025机械振动道路路面谱测量数据的报告
- 2025-2030油田化学品非常规油气开采技术适配性与服务型制造转型研究
- 妊娠合并高脂血症的护理措施
评论
0/150
提交评论