(模式识别与智能系统专业论文)广播语音的分割与分类研究.pdf_第1页
(模式识别与智能系统专业论文)广播语音的分割与分类研究.pdf_第2页
(模式识别与智能系统专业论文)广播语音的分割与分类研究.pdf_第3页
(模式识别与智能系统专业论文)广播语音的分割与分类研究.pdf_第4页
(模式识别与智能系统专业论文)广播语音的分割与分类研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(模式识别与智能系统专业论文)广播语音的分割与分类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

广播语音的分割与分类研究 摘要 当今的大词汇量的语音识别系统,在安静的实验室语音情况下已经 获得了很高的识别率。但是,想要把语音识别推入到更加广阔的应用空 间中区,需要对系统的鲁棒性,计算速度上提出了更高的要求。 广播语音,作为一种实际语音,有其复杂性,和一般的实验室语音 有一定的区别,比如:广播语音包含各种音频要素,比如人声,音乐, 长的静音段,噪音等。如何提取音频中的结构化信息和音频内容,是音 频信息深度处理,基于内容检索和提高系统鲁棒性的基础。目前对于广 播语音的分割与分类研究是当前的研究热点之一。 本文主要研究了语音和音乐之间的区别,通过抽取特定的特征搭建 了一个基于支撑向量机的语音、音乐的区分系统,完成语音、音乐两种 最主要的音频要素的分类。另外,本文就一种最常见的特征基音频率进 行了一定的研究,并将之用于区分语音、音乐的系统中去,完成了一些 实验。 除此之外,本文总结了当前国际上主要的音频分割的方法。使用其 中贝叶斯信息准则应用到以距离为基础的检测法,搭建了一个说话人跳 变点的区分系统。 本文的工作为完整的语音分割系统的搭建打下了一定的基础,对进 一步的深入研究具有一定推动和借鉴意义。 关键词:语音分割语音音乐支撑向量机基音频率贝叶斯决策 北京邮电大学硕上学位论文 r e s e a r c ho nt h es e g m e n t a t i o na n d c l a s s i f i c a t i o nf o rb r o a d c a s ta u d i o a bs t r a c t n o w a d a y st h el a r g ev o c a b u l a r ys p e e c hr e c o g n i t i o nh a v ep l a y e dah i g h r e c o g n i t i o nr a t ei nt h eq u i e te n v i r o n m e n t h o w e v e ri no r d e rt op u ts p e e c h r e c o g n i t i o ni n t oam o r eb r o a da p p l i c a t i o n ,t h e r ei s as t r o n gn e e do fs y s t e m r o b u s t n e s sa n dc a l c u l a t i o ns p e e d b r o a d c a s ta u d i oa sao r d i n a r ya u d i ow h i c hi sc o m p l i c a t e da n di ti s d i f f e r e n tf r o mt h ea u d i oi nt h el a b o r a t o r y f o re x a m p l e ,b r o a d c a s ta u d i o c o n t a i n sav a r i e t yo fa u d i oe l e m e n t s ,s u c ha sv i o c e ,m u s i c ,l o n gs i l e n t s e g e m e n t ,n i o s e ,e t c h o wt oe x t r a c ta u d i os t r u c t u r ea n dc o n t e n ti st h eb a s i so f d e e p e rp r o c e s so fa u d i oi n f o r m a t i o n ,i n f o r m a t i o nr e t r i e v a la n di m p r o v e m e n t o fs y s t e mr o b u s t n e s s n o wt h er e s e a r c ho nt h es e g m e n t a t i o na n dc l a s s i f i c a t i o n f o rb r o a d c a s ta u d i oh a sb e c o m eo n eo ft h em o s th o t t e s tt o p i c t h em a i nt o p i co ft h i sp a p e ri st h ed i s c r i m i n a t i o no fs p e e c ha n dm u s i c a s p e e c hm u s i cd i s c r i m i n a t i o ns y s t e mb a s e do ns u p p o r tv e c t o rm a c h i n e sh a s b e e nb u i l tb yt h es p e c i f i cf e a t u r e s i na d d i t i o n ,w es t u d yp i t c hw h i c hi sa c o m m o nf e a t u r eo fa u d i o a n du s ei tt od i s t i n g u i s hb e t w e e ns p e e c ha n dm u s i c w ea l s od os o m ee x p e r i m e n tt ot e s tt h es y s t e m b e s i d e s ,t h i sa r t i c l es u m m a r i z e st h em a i nm e t h o do fa u d i os e g m e n t a t i o n a n db u i l da s p e a k e rc h a n g e d e t e c t i o n s y s t e mu s i n g t h e s e q u e n t i a l m e t r i c b a s e ds e g m e n t a t i o nm e t h o dv i ab i c t h es t u d yw o r ko ft h i st h e s i sp r o v i d e st h ep r e p a r a t i o nf o rt h ei n t e g r a t e d a u d i os e g m e n t a t i o ns y s t e ma n d a n dp u s h e sf o r w a r df u r t h e rs t u d i e s 北京邮电大学硕十学位论文 k e yw o r d s :a u d i os e g m e n t a t i o nv o i c em u s i c s u p p o r tv e c t o rm a c h i n e s p i t c hb a y e s i a ni n f o r m a t i o nc r i t e r i o n 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知, 除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研 究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:黟孑趄日期:兰坐! ! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读 学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交 论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容, 可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守 此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注释:本学位 论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 储,牙趟 4 华肆一 日期:型二! 日期:蹿上j l f 北京邮电大学硕上学位论文 1 1研究背景与目的意义 1 1 1 背景 第一章绪论 语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。它的 传播速度快,无严格的方向限制,又可以在黑暗中传播,是图片、文字或者按钮等其 它视觉、触觉信息所无法替代的工具。早在上个世纪四、五十年代,人们就已经开始 进行语音识别技术的研究。随着计算机的出现和发展,让人与计算机自由地交谈,机 器能听懂人的讲话,一直是人们的梦想和追求。 而计算机是2 0 世纪的一项伟大发明,它对2 1 世纪人类生活的各个方面将带来深 刻影响。计算机的发展历史,不仅是处理器速度、存储器容量飞速提高的历史,也是 不断改善人机交互技术的历史。随着科技的发展,我们的工作和生活越来越多的和计 算机联系在一起,使得人类与计算机之间的关系越来越紧密。人们在利用计算机的时 候便希望计算机能够完成一些人脑的工作,而语音识别正是这众多的应用中的一个。 语言是人类最重要的交流工具与沟通手段之一。作为人际沟通最直接、最有效的手段, 语音技术得到了众多研究人员的重视。 近年来,语音识别领域取得了很多成果。随着声学模型、语言模型、搜索算法的 不断改进,识别系统的性能得到了极大的提高。语音识别被用在了越来越多的领域, 比如车载系统,比如翻译系统。同时,语音也越来越多的被用在了检索领域,关键词 的检索,内容的检索,音乐的检索正慢慢的走进人们的日常运用中去。但是语音识别 要想走向实用化面临的一个重要的问题就是要解决的就是如何在复杂的环境下仍然 保持较高的识别率的问题。 复杂的环境意味着,这里用来做实验的语音不再和以前一样是专门录制的纯净语 音,或者是单一的带一定噪声的语音。这里使用的语音,其环境是未知的,可能是实 验室的干净语音,也可能是带有一定的噪声,可能是一段空白的内容,也可能是音乐, 北京邮电大学硕上学位论文 或者单纯是噪声。如何在如此复杂,错综变化的情况下,仍然能把语音识别使用到现 实的生活中去,是现在研究的重点之一。 而广播,电视的语音,符合这样的一个标准,包含了各种不同的声学环境;而且 广播,电视的语音以其丰富的内容,越来越受到人们的关注。如何把我们现在的语音 识别系统用到广播语音中区,已经成为了现在的研究热点之一。要把我们当今的大词 汇量广播语音识别系统用到广播语音中去,就必须增加语音识别的鲁棒性,使之能用 到各种不同的环境下去。而其中的一个关键问题,就是区分出广播语音中不同的音频 要素,丢弃我们所不需要的,保留我们需要研究的部分。 从连续的广播语音流中区别出语音、音乐,静音,是广播语音分割中最基本的几 个部分。在进行语音内容的搜索的时候,我们要丢弃其中的音乐段,静音段,只保留 其中的人的语音声;而在进行音乐检索的时候我们则要丢弃其中的语音段和静音段, 仅仅保留音乐的部分。语音、音乐和静音可以说是现在的连续语音流中最为常见的三 个类别。这三个类别的区分系统,我们要求一个比较高的准确率,而且系统的运算速 度也不能太慢。语音音乐的区分是广播语音的分割中最为基本的一个部分,做好这一 步才方便把余下的单纯的语音按照不同性别,不同说话人分割。 广播语音的分割与分类已经成为了,当经语音识别的研究中,最热门的研究点之 一。早在1 9 9 5 年美国国防部高级研究计划就开始了广播语音分割的研究,到现在, 广播语音的分割与分类已经得到了长足的发展。 1 1 2 为什么要分割 广播语音的识别给大词汇量连续语音的识别带来了新的难题。以往的语音识别技 术主要是集中在安静环境下或背景噪音比较小的条件下的语音文件解码问题而广播 语音将很多语音信息与非语音信息揉和在一起,情况比传统的语音识别问题复杂的 多。在广播语音的识别中不仅涉及到音乐和背景噪声的处理,而且还要处理诸如:说 话人性别、方言口音以及麦克风和声道变化等情况下的语音识别鲁棒性等一系列问 题。广播电视新闻节目中包括了不同的声学和语言学特性的信号段,在段与段之间的 变化既有猛烈突发的,也有平缓过渡的,信号的质量可能是播音室的高保真质量,也 可能是经过有电话或其它含噪信道传送的有限带宽信号,以及在音乐背景下的语音或 者是纯音乐段。仅对语音信号来说,讲话人也是形形色色的,有新闻播音员,也有脱 口秀主持人,有方言口音的普通百姓,也有非母语的外国人等等。面对这样复杂多变 的信号,在实验室用纯净语音训练出来的声学模型,对识别显然是不能胜任的。 2 北京邮电大学硕上学位论文 综合来讲广播语音有如下的几个特点: ( 1 ) 多样化的声学环境:广播语音按照其内容的不同,基本可以分为如下的几个 大块:包含说话声的语音段,静音段,音乐段。 ( 2 ) 不同的信号质量: 在广播语音中既包含播音室里面的干净语音,又包含室外 采访时候带有噪声的声音。还有包含各种背景声音的广告声。 ( 3 ) 不同的说话人:一段广播语音中,说话人是不固定的,按照性别区分可以分 成:男声,女声。按照说话方式不同可以分成:播音员,脱口秀主持入,方言口音。 ( 4 ) 句子断句不明显:广播语音中内容是连续不断的,并不是按照句子为单位听写 输入的,不同点人说话方式不一样,可快可慢。句子与句子之间分割不明显。 ( 5 ) 自然语言:广播语音中,说话人是不固定的,不同的人有不同的说话方式, 有相当一大部分的方言语音,或者不同的语言种类( 英语,法语) ,对话中有很多自 然的反应,都能够影响语言模型。 如果仅仅用传统的连续语音识别技术是不能解决这些问题的。音频的分割技术是 指根据不同种类语音声学特征的不同,把一段连续的音频新闻按照说话人性别的不 同、背景噪音的不同、语音信道不同和背景不同等等因素,划分成各个独立的音频数 据段,然后抛弃掉与语音信息无关的音乐和噪音部分,最后把同一个人或是同一类人 的音频数据划分为一类。对同一类的语音用相应的声学模型进行识别或自适应训练。 综合来讲解决了语音分割的问题,有如下的一些好处: ( 1 ) 为语音识别的实用化发展做好准备。 语音识别技术要想真正走向实用化阶段,必须是语音识别系统能够在实际的应用 环境下保持较高的识别性能,对说话人、方言口音、麦克风、声学环境、讲话内容等 方面的变化保持一定的鲁棒性。对于孤立词识别和限定领域的连续语音识别,我们己 经取得了很好的效果,对于实验室条件下的大词汇量连续语音识别的研究工作,我们 也有了很长时间的积累,尤其是在听写机的研究和开发方面积累了很多宝贵的经验。 但实际应用的环境要比实验室环境复杂得多,广播电视新闻节目包含了实际应用环境 中的各种复杂声学特征,并且数据易于收集。因此,广播语音识别方向的研究对于大 词汇量连续语音识别技术的实用化发展,是一个理想的研究方向。 ( 2 ) 为实现多媒体信息的语音检索和信息监测做好准备。 随着现代信息技术的发展,尤其是多媒体技术的发展,人们生活中面临的数据 急剧增加,如何在海量数据中进行检索,如何对有害信息进行过滤,如何对有用的信 息进行利用,这些都是很重要的。音频是多媒体中的一种重要媒体。语音是一种特殊 类型的音频,它与文本可以互相转换,因此,可以利用文本检索技术进行信息检索。 北京邮电大学硕j j 学位论文 广播语音的自动切分技术,可以把多媒体信号按照音频特性的不同进行分类,可以进 行说话人识别、关键词检测和音乐检索等方面的工作。这些结果与图像分析结合起来, 可以进一步做多媒体场景分析。除此之外,根据广播语音的识别结果,可以建立对广 播电视新闻节目的语音检索,提高人们对广播电视新闻节目的利用率。 ( 3 ) 可以进一步推进大词汇量连续语音识别技术的发展 广播新闻语音的信号比较复杂,尤其是口音问题、背景噪声问题和信道问题 对语音识别系统的影响,这些也都是当前语音识别技术所需要解决的问题。从事广播 语音识别技术的研究,能够更好的提高我们的连续语音识别水平,促进全世界范围的 语音识别水平的发展和提高。 总之,要想把大词汇量广播语音识别系统使用到广播语音中去,就必须先把广 播语音进行分割和分类。 1 2 广播语音分割技术的发展 在国际上广播电视新闻自动记录系统的研究起源于美国国防部高级研究计划局 ( d a r p a - - d e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 所资助的人类语言系统 ( h l s - - h u m a nl a n g u a g es y s t e m ) 项目中的语音技术部分d a r p a 将这个计划分成 很多项目,由多家研究机构和高校来完成其中参与口语识别与理解方面项目的研究机 构或大学有b b n 系统与技术公司( 主要承担交互式口语理解系统,鲁棒连续语音识 别研究) ,c m u ( 主要承担口语系统研究) ,m i t ( 主要承担语音识别与理解的层次结 构研究) ,科学应用国际公司( s a i c ) ( 主要承担语音识别技术集成) 等。 得到d a r p a 语音项目资助的各个研究机构,每年都要进行一次由美国国家标准 技术研究所( n i s t - - n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y ) 主持的性能评测“首 次实验性的基准测试于1 9 9 5 年1 1 月举行。以后每年都进行一次”。一般是当年年底 测试( 通常在1 1 月份) ,次年年初举行研讨会。 1 9 9 5 年的测试称为演习测试,因为所有参加测试的研究机构都没有识别广播语 料的经验,1 9 9 6 年的测试则为预备性的基准测试,因为在d a r p a 资助下,由n i s t 主持的语音系统基准测试并没有包含广播与电视新闻语料的先例,此后,由于有了先 例,从1 9 9 7 年1 1 月起,每年定期举办这项测试,并在测试后举行研讨会。 1 9 9 5 年1 1 月的演习性基准测试有i b m ,c m u ,等四个单位参加在这次测试中, 测试语料并未按声学状况的类别标注切分。在测试后举行的研讨会上,与会者认为, 4 北京邮电大学硕上学位论文 对于这种混合类型的语料的识别必然要先将语音段按声学条件类型进行分段 ( s e g e m e n t a i o n ) ,而语音识别系统进行自动分段这样的任务自身也有很大的挑战,并 可能使研究重点偏离语音识别的任务。于是在1 9 9 6 年初的研讨会上,参加会议的几 个研究机构讨论、制订了分类( p a r t i t i o n e d ) 测试协议。在处理测试数据中及对测试 结果总结时都可以采用分类标注信息。测试完整系统若未采用标注文件中的分类信 息,就是未分类评测u e ( u n p a r t i t i o n e de v l u a t i o n ) ,反之就是分类评测p e ( p a r t i t i o n e d e v a l u a t i o n ) 。以后参加评测的各研究单位都可以用分类评测,以便于集中于复杂声学 条件的语音识别的研究! 在分类测试协议中,声学条件的分类是根据语料中的口音、讲话方式、保真度和 背景情况等确定的,具体规定为7 类。如下表所示: 表1 - 1n i s t 广播新闻自动记录测试系统测试数据声学条件分类 类别口音讲话方式保真度背景 正式播音 母语 文稿式鬲纯净 f 0 口语播音母语口语式局纯净 f 1 低保真度播音母语任意方式中低纯净 f 2 含背景音乐母语任意方式同音乐 f 3 含背景噪声 母语 任意方式 同 语音或其他噪 f 4 立 日 非母语讲话人非母语文稿式局纯净 f 5 所有其他类别 f x 参与测试的各研究机构的广播新闻自动记录系统都是由以前的大词汇量连续语 音识别( l v c s r ) 系统发展而来。而且这些机构也多参加了n i s t 以前的相应测试。 在出现了广播新闻自动记录系统测试后,这些研究机构也都转而参加了这项测试。因 此,从n i s t 每年的评测结果,可以看出国际上在广播新闻自动记录系统方面的研究 状况。 n i s t 在1 9 9 6 年举办的测试中,共有8 家单位的,9 个研究组参加:包括 北京邮电人学硕士学位论文 c m u ,i b m ,l i m s e ,s r i 等。这一年的测试数据的形式分为标记切分好的( p e ) 和没 有经过切分好的( u e ) 的整段语音两种。在年d a r p a 的广播电视新闻测试中,第 一次向语音自动识别系统提供了混合的整体性输入测试语音信号,即典型的无线电 广播和电视广播信号混为一体的声音信号。这样,使得在所有类别的测试条件都更 加严酷了。 其中识别率最高的主要三家研究单位的结果如下: 表1 - 29 6 年n i s t 评测的结果 s y s t e m a l lf 0f 1f 2f 3f 4f 5f x b b n3 0 22 1 62 9 53 2 72 3 33 8 43 1 84 9 9 p e b b n 3 1 8 2 2 83 1 63 4 32 7 13 8 83 8 1 5 0 9 u e c m u 3 4 92 5 8 3 2 1 3 8 63 6 64 3 73 6 55 5 9 p e c u m3 5 92 4 73 0 43 8 92 8 04 2 23 0 85 4 2 u e i b m3 2 22 6 83 6 84 2 45 6 24 3 03 4 16 0 7 p e i b m3 8 92 6 83 6 84 2 45 6 24 3 03 4 16 0 7 u e 从表中可以看出,结果切分标记后的测试结果优于没有切分标记的结果,对于 i b m 的系统对于f 3 条件的测试结果尤为明显。 从9 7 年开始,除了英语外,逐渐加入了非英语语种的测试。参加评测的非英语语 种主要有汉语和西班牙语。不同于9 6 年的是,这次切分标记( p e ) 不是采用手工标记的, 而是用c m u 提供的软件进行自动切分标记的。参加英语评测的有c m u ,c uh t k g r a g o n ,b b n ,i b m 等九家单位的十个研究组参加。 到1 9 9 8 年,这项测试相对往年有一些变化。首先是训练语料比以前增加了一倍, 达到2 0 0 小时。其次是增加了一项1 0 倍实时的系统测试,即各个系统将系统进行一 定程度的简化,使之达到1 0 倍实时的要求,然后进行测试,这主要是为了使各参加 评测的单位能致力于提高系统的计算效率,以便今后向实时化发展。1 9 9 8 年评测结 果中,最佳系统的整体词错误率为1 3 5 ,1 0 倍实时系统中的最佳系统的整体词错误 率为1 6 1 与1 9 9 6 年的系统相比,1 9 9 8 年的系统在性能与效率上的提高是非常显著 6 北京邮电大学硕士学位论文 的。对于基准语音测试即分类情况,讲话风格为播音员发音的语音,最佳系统的词错 误率( w e r ) 已经降到7 8 的水平。 汉语( 普通话) 的广播电视新闻自动记录系统是从1 9 9 7 年在d a r p a 的评测中 才出现的,参测单位一直是i b m 和d r a g o n 两家公司。1 9 9 7 年测试结果的字错误率, i b m 系统为1 9 8 ,d r a g o n 系统为2 0 2 在1 9 9 8 年的测试中,相应的指标,i b m 为 1 7 1 ,d r a g o n 为2 0 6 。 2 0 0 0 年开始n i s t 就没有在组织举行大规模的评测了。 但是,广播语音的分割技术还是在不断的发展,每年都会有一些新的改进方法的 提出,系统的性能也有不同的特点。 现在的广播语音分割技术准确率对于分割点的检测已经可以达到9 0 左右了。 1 3 音频分割的方法 广播电视的自动分割技术是指根据不同种类语音声学特征的不同,把一段连续的 音频新闻按照说话人性别的不同、背景噪音的不同、语音信道不同和背景音乐不同等 因素,划分成各个独立的音频数据段,然后抛弃掉与语音信息无关的音乐和噪音部分, 最后把同一个人或是同一类人的音频数据划分为一类。对同一类的语音用相应的声学 模型进行识别或自适应训练。 当今主流的广播电视新闻的分割系统大致可分为三部分:分割、分类和聚类。分 割算法大都是检测出连续音频信号中的声学特征发生变化的分界点,即声学特征跳变 点,把连续音频信号分割成许多内部声学特征都相同的音频小段,再对这些音频小段 进行分类和聚类处理。分类部分大都采用传统的基于高斯混合模型( g m m ) 的高斯分 类器进行分类,实现语音信号和背景音乐的正确区分以及男女性别标注,去除掉与语 音信息无关的音乐和背景噪音信号段,为下一步说话人聚类做准备。最后的聚类部分 主要是对连续音频信号进行聚类,把相同说话人的语音划分为一类,为以后声学模型 自适应、分类识别以及其它结合视频的多媒体场景分析做准备。 在以下的部分,将对切分系统的这三个部分进行详细的讨论。 1 3 1 音频分割 对于整段的广播语音,我们首先要将其切分成具有相同音频特性的小的语音片 7 北京邮电人学硕十学位论文 段。这是音频切分系统的第一个环节,也就是其中的分割部分,这部分也是整个切分 系统中最重要、最基础的一个部分。 通过分割环节,将整段的语音切分成语音小段,这样的语音小段只包括一个说话 人、一种口音、一种信道,并且是同样的背景环境。这样才能有效的去除与语音信息 无关的噪声和音乐部分,才能为下一步的分类和聚类做好准备。 下面首先介绍以下国际上现有的对广播语音进行音频分割的方法。 ( 1 ) 基于识别器解码的分割系统 这些系统利用现有的大词汇量连续语音的识别技术对广播语音音频数据进行识 别,通过识别的结果将音频数据分为语音段和非语音段,通过男女生独立的声学模型 将语音段进行性别信息的标注,将非语音段分为静音、音乐、噪声等等。 这种方法的主要缺点是,对于边界的界定和说话人性别的标注不够准确许多比较 短的静音段的标注不可靠,对于同一性别的说话人之间如果静音段很短,区分能力比 较差。 ( 2 ) 基于高斯混合模型( g m m ) 的分割系统 这些系统根据不同的声学现象,如:静音,音乐,信号带宽、说话人性别变化建 立相应的c m m 模型。通过极大似然准则,判定所检测的语音信号属于哪类g m m 模 型。定义一定长度的滑动窗,如果信号在滑动窗中间的两侧信号分别属于不同的模型, 那么就判定这个中间点就是声学特征的跳变点。这种方法的对各个g m m 模型所代 表的声学特征的音频信号有一定的区分能力,缺点是由于不能对未预见的声学特征进 行建模,在进行分割时,经常由于出现未预见的声学特征而出现分类错误。 ( 3 ) 基于距离测度的分割系统。 这些距离包括k l 距离,广义极大似然比距离等距离尺度。 k l 距离可以描述如下: 甩c a ;b ,2 嚣2 + 簧+ c 肛a 叫b ) 2l 毒+ i 1j 式。 o 吾g 二l a 备。二j 这里a ,b 分别表示两段语音一,叽) ,c u b , 0 b ) 分别为相应的均值和方差。 g l r 距离描述如下: g l r ( a :b ) :型婴丛丝业邑芏墨塑 式( 1 2 ) p ( a ;n ( j t _ ,。) ) 。p ( b ;n ( z 口,口) ) 这里p ( a ;n ( z a , 爿”,尸( b ;( 心,口”,p ( a u b ;n ( t 舢詹,一u 召) ) 分别表示语音片 段a 、b 和a + b 的似然概率。 在进行分割时,计算每一点的左右相邻的一定窗长的两段信号的距离,如果 北京邮电大学硕士学位论文 这个距离大于一定的门限值,则这分割点是音频信号的声学属性发生跳变的跳变 点。这种算法不需要先验知识,具有较高的准确度。但该方法需要事先确定一个门限 值,一般是根据实验结果和经验来确定的,如果跳变点左右的音频信号不同,这个门 限值可能差异很大,因此这种方法缺乏一定的推广性。 ( 4 ) 基于b i c 准则的音频分割方法。 比较有代表性的是贝叶斯信息决策方法( b i c ) 跳变点检测。这类方法也是以检测 跳变点为主,所不同的是这类方法不是简单的计算音频数据某一点左右两段信号的距 离,而是假设某点左右两段的信号为某一概率分布,计算将一段信号分割为两段信号 的嫡的变化情况,当b i c 的值满足一定门限的时候,就认为当前的分割点就是一个跳 变点,从而将这段信号分为左右两段。 基于b i c 准则的音频文件的分割方法。将在本文的第四章节做详细的阐述。本文 还将阐述建立在b i c 准则基础上的贝叶斯信息准则应用到以距离为基础的检测法。 1 3 2 音频分类 在对整段广播语音数据进行了音频分割后,生成了具有单一声学特性的语音片 段,下一个环节就是对各个语音片段进行分类标注。分类的作用就是去除与语音无关 的音乐和背景噪声,实现对不同通道语音类别的正确划分,对于同类通道的语音进行 说话人性别的标注。为以后的说话人聚类和识别做好准备。 采用高斯混合模型( g m m ) 进行分类的方法是国际上流行的广播语音分类方法。 一般采用的高斯模型为:宽带高斯混合模型、窄带高斯混合模型、音乐和背景噪声模 型、男生高斯混合模型和女生高斯混合模型。其中宽带和窄带模型是用来区分语音的 不同信道,广播语音里主要是用来区分电话语音和其它信道的语音。一般的步骤是首 先进行语音信道的区分,去除掉与语音无关的音频信息,再进行说话人性别的区分。 对于每一个语音片段都进行两次分类标注, 具体做法如下: 首先,分别用不同的高斯混合模型对语音片段进行概率打分,选出打分最大的高 斯混合模型,将这个语音片段的属性标记为打分最大的高斯混合模型的属性。在第一 次进行了语音信道的分类后,将与语音无关的音乐和背景噪声片段丢弃,接下来进行 说话人性别的标注。分别用男生高斯混合模型和女生高斯汉语广播语音识别系统的研 究混合模型对第一次分类后的语音片段进行概率打分,同样的方法可以得到每个语音 片段说话人性别的标注。 9 北京邮电大学硕上学位论文 1 3 3 音频聚类 在完成了广播语音数据的分割和分类过程后,下一个环节是广播语音音频切分系 统的最后一个也环节就是对语音片段聚类的过程。这个过程主要是实现汉语广播语音 识别系统的研究对相同声学属性的语音片段进行合并。在广播语音识别系统中,聚类 的主要作用是将同一个说话人的语音合并在一起,为以后的说话人自适应和分类识别 做好准备。 在国际上,对于聚类算法的研究比较深入,有很多比较成功的算法。在广播语音 识别系统中,主要都是采用距离最近合并原则进行聚类。c m u 系统采用的是近邻合 并的方法,就是对每一个语音片段建立高斯模型,对于某一个语音片段,通过计算与 其它片段之间的高斯距离,找到高斯距离最近的语音片段,将两个片段合成一类。最 后聚类的类数由一个预先设定的门限来控制,达到这个门限时聚类结束。这种方法的 特点是,算法本身比较简单容易实现,但聚类的结果对于门限值的设定很敏感,不容 易控制。m 系统采用b i c 准则来控制聚类的过程,当b i c 值大于零,两个语音片 段被合并,否则不做处理,这样可以避免由于门限设定的不合理,而影响最后的聚类 结果。 1 4 本研究出发点以及研究内容 目前语音技术在实验室条件下已经相当成熟,正处于实用化发展的阶段商业化产 品开发大量涌现,这方面包括计算机用户的语音服务,如语音命令、文本听写等,以 及电信业务方面的自动寻呼和语音拨号、银行业务和保安系统方面的应用等”而另一 方面,研究者们也在对提高系统鲁棒性及应变能力进行更深入的研究,在这方面引入 注目的是广播电视新闻自动记录系统的研究。 而广播语音的音频分割,把不同种类的语音,使用不同特点的分类器,是提高语 音识别识别效率,提高系统鲁棒性的关键所在。是一个语音的预处理过程,为了实现 更好的语音识别做准备。 本文就着重研究这样的一个广播语音分割系统,着重研究语音、音乐之间的区别, 已经如何找到说话人跳变点的问题。 一个完整的广播语音,分割系统分为分割,分类,聚类三个步骤,本文主要研究 的是其中的分割步骤。即在连续的语音流中,找出语音的跳变点,跳变点两侧的语音 1 0 北京邮电大学硕一l :学位论文 属于不同种类,比如:男声,女声,语音、音乐等。其中,语音和音乐是广播语音中 最重要的两类,从连续的语音流中去除音乐,有助于我们减少搜索空间。更准确的完 成识别任务。 本文用分析了能够代表语音、音乐不同特点的特征信息,利用基于支撑向量机的 分类器搭建了一个语音、音乐区分系统。此外本文简单介绍了一种利用有限的特征, 基音频率信息,来快速检测判断关键帧是语音,还是音乐的方法。 最后本文介绍了一个基于贝叶斯信息准则( b i c ) 应用到以距离为基础的说话人跳 变点检测系统。 通过以上介绍的一些方法,从广播语音中首先区别出语音、音乐,然后从语音中 区别出不同说话人的信息。 1 5 论文的组成结构 全文分五章介绍了关于广播语音的音频分割与分类的研究具体的内容分为以下 的几个部分。 第一章介绍了课题研究背景,阐述了相关的理论技术知识,明确了本文的研究出 发点和内容。 第二章重点提出了基于支撑向量机的语音、音乐区分系统。包括特征的选取,分 类器的选取的问题等,以及实验结果。 第三章引出了基于基音频率的关键帧的语音、音乐判断方法,以及适用的范围实 验结果。 第四章介绍了基于假设检验的分割系统的原理,其优缺点,以及本文所采用的基 于贝叶斯信息准则( b i c ) 应用到以距离为基础的说话人跳变点检测系统,本文搭建的 平台以及实验结果。 第五章对本文的现阶段的工作进行了总结和以后工作的一些展望。总结了目前工 作的成果,以及存在的问题,随后的研究重点。 北京邮电入学硕士学位论文 第二章基于支撑向量机的语音音乐区分系统 2 1 研究出发点 音频的非语义符号表示和无结构化组织的特点阻碍了音频应用的发展。因此,如 何提取音频中的结构化信息和内容语义,使得无序的音频数据变得有序,是解决问题 的关键。音频的自动分类,尤其是语音和音乐的分类,为提取音频内容语义和结构的 重要手段之一,究也日益引起人们的重视。 从连续的广播语音流中区别出语音、音乐,静音,是广播语音分割中最基本的几 个部分。关于静音段,可以用基本的关于端点检测的方法,进行检测。丢弃语音,静 音段后,只将剩下的语音段用于余下的大词汇量识别系统中,大大减少了系统的负担。 如果是语音检索系统也有利于减少搜索空间,大大减少了计算量。 语音、音乐的区分在音乐检索,和语音检索;领域都有相当大的作用。 所以说,语音音乐的区分是广播语音的分割中最为基本的一个部分,做好这一步 才方便把余下的单纯的语音按照不同性别,不同说话人分割。 2 2 语音、音乐区分的现状 音乐和语音是音频文件中最重要的两类,很多研究者都在致力于研究怎么区分它 们。针对语音和音乐有一些特定的特征被提了出来,专门用来区分这两者,而分类方 法也多种多样。本文对其中最能代表语音、音乐特点的特征,已经不同分类器的选择 做了一定的总结。 在文献 3 0 中作者在2 4 s 的窗中使用四种统计学上的特征,使用高斯分类器,作 为区分语音、音乐的分类器,准确率能达到9 8 。文献【3 1 中,作者研究了1 3 种特 征来区别语音和音乐信号,使用了3 种不同的分类器,包括高斯分类器,多维m a p 高斯分类器,最邻近距离分类器。最后准确率达到9 0 。在文献【3 2 1 中作者比较了四 种特征的区分能力,比如:信号幅度,倒谱,基音频率,过零率,它的结果中显示倒 北京邮电大学硕上学位论文 谱和倒谱的差分能得到不错的效果。在文献 3 3 中在特征方面,作者把基于过零率的 特征和线性频率周期联系起来,使用高斯分类器和k n n 分类器,也得到了不错的分 类效果。文献 3 4 】中作者发现低频率调制幅度以及其差分对信道的质量以及模型大小 的敏感程度比m f c c 小。在文献 3 5 1 中作者使用建模的方法,用不同的方法来建模, 用每个类自己的特征空间和模型来表示每个类,准确率能达到9 9 。文献 3 6 作者使 用了高过零率比率,低能量比率,频谱流量,等6 种特征,使用两部的分类策略,首 先使用k n n 区分语音和非语音,然后用基于基于规则的方法把非语音分成音乐,静 音,和环境噪音。文献 3 7 中作者使用简单的低能量比率作为特征,使用贝叶斯m a p 分类器来分类,有计算量小,运算速度快的特点。 在本文中,我们使用文献 3 6 里提到的三种特征,高过零率比率,低能量比率, 频谱流量,来表征每一个小窗0 s ) 里面的音频文件,然后用基于支撑向量机的分类器 来把每一个小窗分成音乐和语音两类,具有运算速度快,准确率高的特点。 2 3 音频特征的选取 为了搭建一个准确的音乐,语音区分系统,我们选取的特征必须能很好的刻画声 音文件时域,频域的特点。应该能够充分刻画音频频域和时域的重要分类特性,对环 境的改变具有鲁棒性和一般性。而且,特征的计算代价不能太高,时间消耗不能太长。 语音信号从整体来看那其特性以及表征其本质特性的参数均是随着时间变化的, 所以它是一个非平稳过程,但是在一个短时间范围内,其特性基本保持不变即相对稳 定,因而可以将其看作是一个准稳定过程。这一个“短时间范围”,就成为“一帧 ( f l a m e ) ”。这样对于整体的语音信号来讲,分析的就是由其每一帧特征参数组成的特 征参数时间序列。这就是贯穿于语音分析全过程的是“短时分析技术”,通常的音频 处理中帧的长度一般为2 0 3 0 m s ,过短的话得到颗粒度过细的信息不能反映各类音频 的区别特性,过长容易导致音频特征平均化后不能反映特征的时序变化特性。本文使 用的是一种帧( f r a m e ) 和小窗( w i n d o w ) 结合的计算特征的方法。小窗是一个比帧更加长 的单位,一个小窗一般包括5 0 帧左右的信息。 下面我将详细介绍一些音频特征。 北京邮电大学硕士学位论文 2 3 1 过零率( z e r oc r o s s i n gr a t e ) 短时过零阈是一种基于音频帧的特征,表示一帧语音中语音信号波形穿过横轴 ( 零电平) 的次数。在离散时间信号情况下,相邻的抽样具有不同的代数符号就发生了 过零。过零率是描述过零的速度,是信号频率量的一个简单的度量,计算公式如下: 1n l 乙2 主m = 0 l s 印 ( ,1 ) 一s 印 吒( 聊一1 ) 式( 一9 1 ) 百( 1 ) 式中,s 弘口是符号函数,即: s 叫! - ,高 式( 2 2 ) x ( m ) 为离散音频信号。通常,语音信号是由发音的音节和不发音的音节交替组 成,音乐没有这种结构。这是区分语音和音乐一个最显著的特征之一。语音产生模型 表明,由于声门波引起了谱的高频跌落,所以浊音语音能量约集中在3 k h z 以下,然 而对于清音语音,多数能量确实出现在较高的频率上,既然高频率意味着有高的过零 率,低频率意味着有低的过零率,那么在过零率和能量的频率分布之间就有很强相关 关系,合理的归纳来说,语音信号是清音,过零率很高,语音语音室浊音,过零率很 低,所以,对语音信号来说,它的过零率的变化要比音乐大得多。 下图分别是选取的一段音乐段和一段语音段的过零率值,可以看出音乐段的过零 率曲线相对比较平滑,语音段的过零率去年则高低起伏的比较多。可以说过零的变化 趋势不同是语音、音乐的一个最显著的特征。 1 4 图2 - 1 音乐的过零率曲线图 北京邮电大学硕上学位论文 图2 2 语音的过零率曲线图 2 3 2 短时能量( s h o r tt i m ee n e r g y ) 短时能量是一种基于音频帧的特征,指的是一个度量语音信号幅度值变化的函 数,假设语音波形时域信号,经过加窗分帧处理后得到的第n 帧语音信号为屯( 聊) ,则 第n 帧语音信号吒( ,z ) 的短时能量的计算公式如下: ,一l 色= ( m ) m = 0 2 3 3 频域能量( f r e q u e n c ye n e r g y ) 式( 2 3 ) 频域能量是一种基于音频帧的特征,定义如下: r 咆、 e = l o 刮胪( 国) 1 2 d c o l o 式( 2 4 ) f ( c o ) 是该帧的f f t 变换系数,绋等于采样频率的一半。通常语音中含有比音 乐中更多的静音,因而,语音的频域能量变化要比音乐中的大很多。 帧层次上的特征是音频处理的基础特性,他的描述以数字信号处理为基础。由于 帧的时问粒度过小,直接将帧层次上的特征用于音频分类工作不能准确的反映人耳的 听觉特性和音频信号的时间统计特性。在其基础上分析和描述w i n d o w 层次上的特征 是很必须的。 北京邮电大学硕上学位论文 2 3 4 高过零率比率( h i g hz e r oc r o s s o i n gr a t er a t i o n ) 根据过零阈的特性分析,在一个音节中语音由清音和浊音交替构成,而音乐中不 具有这种特性。因此,对于语音信号,其过零率的变化要过于音乐信号,也就是说在 一个小窗中( 本文中设小窗w i n d o w 的大小为1 s ) 中,所有语音信号过零率值( z c r ) 高 于平均过零率( a v z c r ) 值所占的比例高于音乐信号。 本文中我们统计在一个小窗中间,z c r 值大于平均z c r 平均值1 5 倍的帧的数 量,高过零率比率( h z c r r ) 的计算公式如下: 删2 丽缶v - - 1 【- s g ( z c r ( ,z ) - 1 5 口v z c r ) + 1 式( 2 5 ) 口彻= 土n 罗n = o 勰( 川 式( 2 6 ) 其中n 是表示帧数,n 是每一个w i n d o w s 中帧的数量,s 盟是符号函数,z c r ( 以j 是第n 帧的过零率。下图我们计算了3 0 0 s 的高过零率比率h z

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论