(信号与信息处理专业论文)基于vc的广告语音识别系统的设计研究.pdf_第1页
(信号与信息处理专业论文)基于vc的广告语音识别系统的设计研究.pdf_第2页
(信号与信息处理专业论文)基于vc的广告语音识别系统的设计研究.pdf_第3页
(信号与信息处理专业论文)基于vc的广告语音识别系统的设计研究.pdf_第4页
(信号与信息处理专业论文)基于vc的广告语音识别系统的设计研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(信号与信息处理专业论文)基于vc的广告语音识别系统的设计研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文越于v c的广告语音识别系统的设计研究ab g t i a c t t va d v eitis ing isan加po比 an t p art of面lyll fe , 吐 即u gh w hi ch户 泊 p 】 e kno ww h atp 耐 u cts 血y l 溉 ordi sl 疏. b utasth e 汕卯rt ant e 月 飞 c ts it 往 山 e s 呱 it ism ore 曲 d more价g ent for ustom 。 拍 t o r wh日 七 erth e ri ght ads ison 1 v. in面s p 叩 耽 , the re al 一 t 加e r e al 让 at i on ofs 户 哭 c h r e c o 娜tion 枉 姆 bno i o gyoncolnmonp l at fo n nisi nve stig at e d . on the b ase of the s pe echr e c o gnit i on th eo 口 , the p 几 m ep rinci pl esand 目 l em 引 山 。 山 ofs peech 加 n t 嘴 泊 dd e te ct fo n , 山 ea u d l oc h ar 朗t 曰 洛e 访 9 ,砌 usti c m o d e l i n g and its s 如1 1 州tye stimat i o n are s tu d i ed. ins 户 犯 c h 加n 橄 代 泊 dd 比cti。 氏we in in 川 uce 廿 旧 t th e s h o rtt 而e ave ra g e ene r gy助dav曰 傲 g e acro ssn 妞 e . 冉 刀 d we use 丽 n ti 廿 es h ol dsm e thod tod ea 】 州山斗 心 戈 h 6 ” n t . en dd e 让di o nb 出犯do ntheres ult o fs 如 ulatinn. b e fo 比e x 加 明 t 吨 the au di o c h aj 旧 c t ers, 戒 le arn t h atl p c cand m f c c 哪 the 理 犯 加 1c 抽阳d份5 . 肠 画 飞 the n . t c h betwee n 。 刀 oa udi o s , we s u ff 改a gr “ 滋ofp r o b l e it 比 , 】 止 el ar g eamo unt o f d a ta,and d i ffer e n t l en gi hao f t w 0 a u d i o s . to so lv e th e s e p r o b l e ms, we ap p l y the奴加。 1 o gyofk-m 已 越 巧 m e th o d , v ec for q u an t i tyan d d 扣 坦 m l c ti m e waxping. 了 恤 。 u ghs 加ul atio ns, the 印 翻ficity ofus u a l al g orith m s and the m ethods ofp axam et erse1eetin narecom p ared, th e namodel in gme t h o dof co1 . m 盯 5 。 ” l d az dd e v i ation 毗碑e sen t ed b as ed on th ew o rl ti ng a bove ,aset of s peec hr e 0 娜tionsy st 。 盯 即d触。 。 n e s po ndin g d e m oso ft w ar e 眼 built un d erv c . t b e sy st e misex 出 n in e d 诫ths o 扣 。 en 别 m edadv e rt l s i ng. t h e res ultssho wth a t th e sys t 曰 ml l a s a hi ghe r r e c o gni ti on n 劝 e .k e ywo rds : s p ee chrec o 娜 ze, c h aj ra c t e rse x tl 妞 c t i ng, l p c c , 入 任 .c ck . m e ans , 伪n amic t im e w 娜in g ( d t w) 声明 本学位论文是我在导师的指导 下取得的研究成果,尽我所知,在本学位论文中, 一 除了 加以 标注和致谢的部分外, 不包含其他人已 经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同 事对本学位论文做出的贡献均己在论文中作了明确的说明。研究生签名:含 谙“ 叮 年 了 月石 日学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅成上网公布本学位论文的部分或全部内容,可以向 有关部门或机构送交并授权其保存、 借阅或上网公布本学位论文的部分或全部内容。对于保密论文, 按保密的有关规定和程序处理。二 。 , 、. 掩法今j /u 一一户后 沪/, 口 2 年夕月 石日硕士论文基于v c的广告语音识别系统的设计研究1 引言l l 电视广告产业的发展 随着经济的发展,我国的电视广告产业获得了飞速的发展。广告是广播电视台赖以生存和发展的经济基础, 广告业是广播电视传媒产业结构体系中的支柱产业, 广播电 视广告收入已 经成为 各台的 主要经济来源。 2 0 05 年全国各级电视台的 广告总收入达到 3 50亿元,同比增长 巧. 9 %2 0 06 年全国电视广告经营收入接近4 00 亿元。 但是在巨大的电 视广告产业后面蕴涵着严重的问题: ( 1) 在很多时 候,广告客户很 难判断电 视台 对广告到底有没有漏播、 多播或在不正 确的 时间 播出,因此客户的利益得不到 有效的保障。 (2)随 着广告 产业的 发展,随 之而 来的 违反乱纪 行为也与日 俱增, 严重的 扰乱了社会的 风气,比如虚假的医药 广告, 夸大功效的美容 和保健品广告 等。 为此在 2 0 04年9 月国 家 广电总局颁发了 广播电视广告 播放管理暂行办法 , 这是 广电总 局以总局令的形式对广播电视广告的内容、播放总量、 广告插播、播放监管等进行全面的规范.同时,还明确要求各级广播电视播出机构及其管理部门都应建立社会监督机制,自觉接受社会监督. 因此, 要求广告监管部门加强电视广告的监管力度。 但是传统的用人工通过观看电视节目的方法来监管电视广告显然是低效、昂贵而且对于监管人来说也是非常单调、 乏味和枯燥的。 因此监管部门呼唤一种高效并且是低成本的方法来实现广告的监管 川 12 1。i j 广告监测行业的发展 广告监测行业是随着广告业的发展 繁荣出 现的, 随着我国广 播电 视数字化进程的飞速发展,如何使用现代化的手段快速、有效的监视、记录、存储、查询电视 ( 或广播) 的 广告 节目 内 容、 播出时间、 质量、内 容 , 已经成为广告监 钡 0 行业的重要课题。以往 采用传 统的磁带式录像机、 录音机、 硬盘录像 机等方式录 制节目 并保存, 通过广告监 测人员 事后回 放录音 ( 录像) , 手工记 录播出 广告的时刻、 长度、 名称、 类型等信息, 然后再将监看的 数据递交到监测中 心处理, 由 监测中 心进行汇总后整理成监测报告. 这种传统的广告监测工作方式需 要耗费大量的人力、 物力 ( 如录 像带、 录音带等) , 而且 检索繁琐、 统计效率极 低, 采用传统的人工监测方式,己 不能 满足飞速发展的数字广播电视时代的要求。 随 着计 算机语音识别技术的发 展, 将语 音识别算法应用到电 台节目 和电 视节目 中硕士论文墓于v c的广告语音识别系统的设计研究的 广告自 动识别上, 实现了 电台、 电视节目 中播出 广告的自 动识别和分析统计。 根据广告监测员预先标定的广告样本, 基于语 音识别的 智能 广告监播系统能够分别根据电台、电视节目的声音信号, 准确地识别出某个广告是否出现、在什么时间出现,以及该广告播放的时间长度。识别出的广告的相关信息被自动存入数据库. 并根据用户要求,自 动生 成广告 监播报告 151 。i j 论文的主要研究内容及其意义 本论文为了 使电视广告监测可以由计算机 完成, 减轻人的 工作强 度, 井提高工作效率,结合语音识别技术,根据广告的特性, 探索出一条可用于广告语音匹配的算法并对给定广告的语音做了 识别测 试实验。 当 然探索出 来的广告语 音匹配的算法也可以用于其他音频广告的监管。 本论文要对现行语音识别技术进行研究, 建立一套给定广告的语音识别系统。 基于语音识别技术在广告监测中的应用, 着重研究广告语音的录入方法; 语音端点检测的方法:分析线性预测编码 (lp c)的原理和研究线性预测系数( l p c c ) 的算法;设计mel带通滤波器组,计算 mf c c 系数;并设计可行的建模方法和匹配方法。 本论文一共分为 7 章,其章节安排为: 第1 章为引言, 介绍 与本论文研究相关的背景情况, 包括电 视广告产业和广告监测行业的发展。概要地介绍本论文的研究内容及其意义,并总结本文的章节安排。 第2章介绍语音识别技术及其发展的历史和现状, 对目前所采用的主流技术进行了分析,提出了本论文的目的和内容. 第3 章介绍语音信号特征提 取技术,并 对各个技术的算法进行了详细的分析。 第 4 章讨论语音识别系统中常用的建模方法和匹配方法. 第 5 章对语音识别方法进行仿真和设计, 比较仿真结果, 选择结果较好的参数和模型的阶次. 第 6 章建立给定广告语音的识别测试环境,并根据实验的结果分析系统的性能。 第 7 章总结本论文的主要工作,给出结论及进一步的工作设想。硕士论文基于v c的广告语音识别系统的设计研究2基于语音的广告识别技术综述 电视广告是一种多媒体信息, 它含有视频流和音频流两部分。 视频流就是一帧一帧的图像信息, 它丰富而且直观, 但是因为图像信息数据量过大, 用图像来解决上面所提到的问 题, 无论从现有的理论还是计算机的运行速度都非常的难: 而音频信息则数据量小, 处理速度比 较快,所以 用音频 ( 即 语音识别) 来解决是一种可行的办法。2. 1语音识别技术概述 语 音识 别技术 (s 户 笼 c b r e c o 咖t i on) 是 语 音 信号 处理中 非常重要 研究内 容 之一。 语音识别是研究使机器能准确地听出 人的语音内容的问题, 即准确地识别所说的话。 语音识别是近二三十几年发展起来的新兴学科, 在计算机、 信息处理、 通信与电子系统、自 动控制等领域中, 在工业、 军事、 文通、医学、民用语方面有着广泛的应用。 语音识别研究的内容,可分为: ( 1) 从所要识别的单位来分,可分为 孤立词( 识别的单词之间有停顿) 识别系统、音素识别系统、音节识别系统、 孤立句识别系统、连续语音识别( 识别的单词之间没有停顿) 系统等。 (2 ) 从识别的词汇量大小, 可以 分为小词汇量、中等词汇量、 大词汇蚤以 及无限词汇量语音识别系统。 (3 ) 以 说话人的范围 来分可以分为特定 人和非特定人语音识别系统。 (4 ) 从识别的方法分, 有模板匹配法、 随 机模型法和概率语法分析法。 这三种方法都属于统计模式识别方法, 其识别过程大致如下: 首先判定语言的特征作为识别参数的 模板, 然后用 一可以 衡量未知模式和参考模式 ( 即模板)的 似然度的测度函 数,最后选用一种最佳准则及专家知识作为识别决策, 对识别候选者作最后判决, 得到最好的 识别结果作为输出。除了上面三种外, 其他识别方法还包括人工神经网 络语音识别、应用模型数学的语音识别及句法语音识别等. 不同的 语音识别系统, 虽然具体实现细节有所不同, 但所采用的基本技术相似。 语音识别技术主要包括语音特征提取技术、 模式匹配准则及模型训练技术三个方面。 此外, 还涉及到语音识别单元的选取。 ( 1 ) 语音识别单元的选取 选择识别单元是语音识别研究的第一步。 语音识别单元有单词 ( 句) 、 音节和音素三种, 具体选择哪一种,由 具体的研究 任务决定. 单词( 句) 单元广泛应用于中小词汇语音识别系统, 但不适合大词汇系统, 原因硕士论文基于v c的 广告语音识别系统的设计研究在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以 满足实时性要求; 音节单元多见于汉语语音识别, 主要因为汉语是单音节结构的语言, 而英语是多音节,并且汉语虽然有大约1 3 00个音节,但若不考虑声调,约有4 08个无调音节,数量相对较少。因此, 对于中、 大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。 音素单元以前多见于英语语音识别的研究中, 但目 前中、 大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母( 包括零声母有22个) 和韵母一( 共有28个) 构成, 且声韵母声学特性相差很大。 实际应用中常把声母依后续韵母的不同而构成细化声母, 这样虽然增加了模型数目, 但提高了易混淆音节的区分能力.由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。 (2 ) 特征参数提取技术 语音信号中含有丰富的信息, 特征提取就是用来完成这项工作的。 它对语音信号进行分析处理, 去除对语音识别无关紧要的冗余信息, 获得影响语音识别的重要信息。对于非特定人语音识别来讲, 希望特征参数尽可能多的反映语义信息, 尽量减少说话人的 个人信息( 对特定人语音识别来讲, 则相反) 。 从信息论角度讲, 这是信息压缩的过程。 线 性预测( l p c ) 分析技术是目 前 应用广泛的特征参数提取技术,许多成功的应用系统都 采用基于l p 技术提取的倒谱参数。 但线性预测模型是纯数学模型, 没有考虑人类听觉系统对语音的处理特点. m el 参数和基于感知线性预测(p lp) 分析提取的感知线性预测倒谱, 在一定程度上模拟了 人耳对语音的处理特点, 应用了 人耳听觉感知方面的一些研究成果。 实验证明,采用这种技术, 语音识别系统的性能有一定提高。 也有研究者尝试把小波分析技术应用于特征提取,但目 前性能难以与上述技术相比,有待进一步研究。 (3)模式匹配及模型训练技术 模型训练是指按照一定的准则, 从大量已 知模式中获取表征该模式本质特征的模型参数, 而模式匹配则是根据一定准则, 使未知模式与模型库中的某一个模型获得最佳匹配。 语 音识别 所应用的 模式匹 配和模 型训 练 技术主 要有动 态时间 规整 技术 归t w ) , 隐马 尔 可 夫 模型 ( h m m ) 和人 工神经 元网 络 ( a n n 。 d t w是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比 较时时长不等的难题,在孤立词语音识别中获得了良 好性能。 但因其不适合连续语音大词汇量语音识别系统, 目 前己 被h m m 模型和a n 刊 替代。 h m m模型是语音信号时变特征的有参表示法.它由相互关联的两个随机过程共硕士论文基于v c的广告语音识别系统的设计研究、 同描述信号的统计特性, 其中一个是隐蔽的( 不可观测的) 具有有限状态的m aj 业 o v 链,另一个是与ma x k ov链的每一状态相关联的观察矢量的随机过程( 可观测的) 。隐蔽m 田 火 o v 链的特征要靠可观测到的信号 特征揭示。 这样, 语音等时 变信号某一段的 特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽mar k o v 链的转移概率描述。模型参数包括h m m拓扑结构、 状态转移概率及描述观察符号统计特性的一组随机函数。 按照随机函数的 特点, h m m 模型可分为离散隐马尔可夫模型 ( 采用离 散 概率密 度函 数, 简 称 d 托 m m ) 和连续隐马 尔 可 夫模型 ( 采用连 续概率 密 度函 数,简称 c h m m ) 以 及半 连 续隐 马 尔可夫模型 (s c h m m, 集d h m m 和 c h m m 特点 ) . 一 般来讲,在训练数据足够的,c h mm优于d h mm和s c h mm。 h m m模型的训练和识别都己 研究出有效的算法, 并不断被完善, 以增强h m m模型的鲁棒性。 人工神经网络本质上是一种更为接近人的认识过程的计算模型, 它模仿生物神经系统中大量简单处理单元一神经元的并行处理. 它具有并行分布处理、 容错性、自 组织和自 学习能力等一系列优越性,将人工神经网络用于语音识别主要利用了它的分类、聚类能力和非线性变换能力。 人工神经元网络在语音识别中的应用是现在研究的又一热点.a n n 本质上是一个自 适应非线性动力学系统, 模拟了 人类神经元活动的原理, 具有自 学、 联想、 对比、推理和概括能力。这些能力是h mm模型不具备的,但a n n 又不具有h m m模型的动态时间规整性能。 因此, 现在已有人研究如何把二者的优点有机结合起来, 从而提高整 个 模 型 的 鲁 棒 性 【201 121 123 气2. 2语音识别技术的发展 语音识别的 研究工作大约开始于50年代, 当时a t &t b ell实 验室实现了 第一个可识别 十个英 文数字的 语音识 别系统一a u di 甲系 统。 6 0年代,计算机的应用推动了语音识别的发展。 这时期的重要成果是提出了 动态规划 ( d p) 和线性预测分析 技术 (l p), 其中 后 者较 好地 解决了 语音 信号产生模型的问题,对语音识别的发展产生了深远影响。 7 0 年代, 语音识别领域取得了突破。 在理论上, lp 技术得到进一步发展, 动态时间归 正 技术 ( d t w ) 基本成熟, 特别是 提出了 矢量量 化四q)和隐马尔可 夫模型 ( h m m )理论。 在实践上, 实现了 基于线性预测倒谱和d t w技术的特定人孤立语音识别系统。 80 年代, 语音识别研究进一步走向深入,其显著特征是h m m模型和人工神经元网 络 ( a n n 在语音识别中 的 成 功应用。 h m m模型的 广泛应用 应归 功于at& t b ell实验室及 山 i ner 等科学家的努力, 他们把原本艰涩的h m m纯数学模型工程化,从而为更多研究者了 解和认识. a n n和h m m模型建立的语音识别系统, 性能相当。硕 士 论 文基于v c的广告语音识别系统的设计研究 进入 90 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用. 许多发 达国家如美国、日 本、韩国以 及ibm、 a p p l e 、 at & t 、 n tt 等著名公司都为语 音识 别系统的实用化开发研究投以巨资。 我国语音识别研究工作一直紧跟国际水平, 国家也很重视, 并把大词汇量语音识别的研究列入“ 8 63”计划,由中科院声学所、自动化所及北京大学等单位研究开发。鉴于中国 未来庞大的市场, 国外也 非常重视汉语语音识 别的 研究。 美国、 新加坡等地聚集了一 批来自 大陆、台 湾、香 港等地的学者, 研究 成果己 达到相当高 水平。 因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。z j 语音识别的困难与对策 目 前, 语音识别的研究受到广泛关注,各种新的修正方法不断涌现, 但其普遍适用性 都值得商榷。 虽 然语音识别的 研究取得了很大进展, 但还存在很多困 难。 实用语音研究中存在的几个主要问题如下: 语音识别系统的 适应性差, 主要体 现在对环境依赖性强, 即 在某种环境下采集到的语 音训练系统只能 在这种环境 下应用, 否则系统性能 将急剧下降; 另外一个问 题是对用户的 错误输入不能正 确响应, 使用不方便。 高噪 声环境下语音识 别进展困 难, 因为 此时人的发音变化很大, 像声音变高, 语速变 慢, 音调及共振峰变化等等, 这就是所 谓 功m b ard 效应, 必须寻找新的信号分析处理方法。 语言学、生理学、心理学方面的研究成果已有不少, 但如何把这些知识量化、建模并用于语音识别, 还需研究.而语言模型、语法及词法模型在中、大词汇量连续语音识别中 是非常重要的。 我们对人类的 听觉理解、 知识积累和学习 机制以 及大脑神经系统的控制机理等分面的认 识还很不清楚; 其次, 把这方面的 现有成果用于语音识别, 还有一个艰难的过程。 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决, 识别速度、 拒识问题以及关键词( 句) 检测技术( 即从连续语音中去除诸如 “ 啊”、“ 唉” 等语音, 获得真正 待识别的语音部 分) 等等技术细节要 解决。 为了 解决这些问 题, 研究人员提出了 各种各样的方 法, 如自 适应训练, 基于 最大互信息 准则( m m d 和最小区别信息 准则( m d i ) 的区别训练和 “ 矫正” 训练: 应用人耳对语 音信号的处理特点, 分 析提取特征参数, 应用人工神经元网 络所有这 些努力都取得了一定成绩。 不 过, 如果要使语音识别系统性能有 大的提高, 就要综合 应用语 言学、心理学、生理学以 及信号处理等各门 学科有关知识, 只用其中一 种是不 行的 127 1 。硕 士论 文荃于 v c的广告语音识别系统的设计研究2. 4广告语音识别基本结 构 目 前应用在电 视广告监测监管行业的主要 监测方法有两种: 即声音识别技 术、 图像识别技术. 由 于对视频图像的识别计算量非常大, 识别 准确率也只在8 0 % 左右, 对多达 几十套甚至更多电视频道的监测系统来说, 其效率将受到 极大影响, 系统投资 也会非常大:而且只适用于电视广告监测, 通用性不够。 所以本论文主要研究声音识别技术,即语音识别。 声音识别技术主要是通过对监测样本的声音特征进行分析, 得到该样本的声音特征文件。其基本结构图如图2. 4 . 1 所示。待测广告广告样本库图2. 4 .1广告语音识别荃 本结 构图 从图2. 4 . 1 可以 看出, 先对广告样本进行 特征矢量提取, 所得的 特征文件保存在样本模板库中。 当有待匹配的广告过来时,也先对它进行特征矢量提取, 然后与样本模板库中的广告样本进行模式匹配, 从而得到匹配结果. 所以从匹配的流程中可以看出, 整个匹 配的过程实际上可以 分成两个独立部分: 第一部分是特征矢量 提取, 第二部分是模式匹配。 因 此这两部分 也就是本论文要解 决的问 题, 提取怎样的特征以 及怎样匹配。 其中 特征矢量模块可以 细化为 预处理 和特征参数提取, 模板匹配可以 细化为建立模型和模式匹配。 下面第3 章和第4 章 将分别对这些关键 技术加以论述和研究。硕士论文基于v c的广告语音识别系统的设计研究3语音信号的特征矢量提取技术及其算法研究 语 音 特征式量提取是语 音识别中 的一 个重要 部分. 基于 本课题要实 现的 广告语 音识别系统, 下面分别就广告语音的预处理和广告语音的特征参数提取的算法进行分析。1 1语音的预处理 ( 语音端点检侧) 在信号处理系统里,对原始信号 进行预处理是必要的,这样可以 保证系统获得一个比 较理想的处理对象。对于一个语音识别系统而言,当然也少不了这个过程。 对于一个完整的语音识别系统来说, 许多相关因素都将直接影响整个识别系统的成功与否。 语音识别系统处理的对象是有效的语音信号, 即排除了 噪声段的纯净语音段, 然而在实际环境中并没有完全纯净的语音信号, 往往都伴有噪声和其他干扰。 因此,首先从背景噪声中检测出语音信号是语音识别系统中必要的预处理过程。 语音信号的端点检测技术其目 的就是从包含语音的一段信号中准确地确定语音的起始点和终止点, 因为只有当准确地找出语音段的起始点和终止点后, 才有可能使采集的数据是真正的语音信号的数据, 这样便减少了数据量和系统的运算量, 也就减少了系统进行处理的时间,同时这也为提高语音识别系统的识别率打好了基础。 判别语音段的起始点和终止点的问 题, 主要是如何区别采集到的信号中语音和噪声的问题。 如果环境噪声和系统输入噪声非常小, 以至能够保证系统的输入信噪比很高( 即使最低电平的语音能量也比噪声能量要高) , 那么只要计算输入信号的短时能量就能够把语音段和噪声背景区别开来. 另外, 因为语音中的清音和弱摩擦音、 弱爆破音或鼻音等音素的短时平均过零率比背景噪声的平均过零率高出好几倍, 所以 也可以 利用语音段的短时平均过零率进行判断。短时平均能t。 时 刻 某语音信号厦 x( n) 的 短时 平均能 量定 义为: 凡= 艺 x ( m ) 。 ( n 一 , ) ,(31 . 1),城心为汉明窗。叨且日,刀勺3汉明窗:口 ( n )0 . 5 4 一 0 .4 6 co城 2 。 万 l( n一 1 )00性”n一1其余n 值( 3 . 1 2 )fl.t 一硕士论文墓于v c的广告语音识别系 统的设计研究令h( n)= 刃 2 (n ) ,则有:凡= 艺x , ( m ) h ( n 一 m )(3. 1 . 3 ) 式中, h(n) 为 可移动的 有限长度的窗函 数, 用来实 现分帧处理, 是 低通滤 波器的单位冲擞响应。 上式表明, 经过窗口加权的短时能量相当于将 “ 语音平方” 信号通过一个线性滤波器的输出, 这个滤波器的取样响 应为h (n)。 短时能量函数可用来区分清音段和浊音段。 en 值大的对应于浊音段, 而en 值小的对应于清音段。对于高信噪比的语音信号,无语音信号的噪声能量en 很小,而有语音信号的能量en 显著增大到某一数值, 由 此可以区分语音信号的起始点和结束点。 语音信号的短时平均幅度定义为:或式中m , = 艺lx ( m ) 。 ( n 一 m ) m , 二 艺lx ( m ) 卜 ( n 一 m )( 3 . 1 .4 )( 3 . 1 . 5 ) h ( n 一 简 : 。 ( n 一 m ) !以短时平均能量或幅度为特征的起止点算法: 根据发音刚开始前已知为 “ 静” 态的连续10帧内的数据( 帧长为1 0 m s ) ,计算能量阀值rrl( 低能量阀 值) 及叮u ( 高能量阀值) 。i m x, 最小值为i mn算得6)刀8)9)凡、,门j月j按上述的采样值计算每帧的平均幅值, 最大值称之为 八全0. 03 ( 劲 丫 一 从 v ) 十 刀 以 v于是 12 = 4 从脚几念 删( , ., , 2 )刀u= s i tl 由 此可以 进行起止点判断, 这里以 起点 判别为 例: 先根据了 几, 少 几 了 算得一初 始起点拭, 把 它定 为 最先 升到 平 均 幅度的 帧 号, 但是 随 着时 间的 后 移, 帧 幅度 在升 到少 几 / 之 前 又 下 降 到刀 艺 之 下, 则 原n , 不 作为 初 始 起点 , 而 改 称 下一 个再 升 到汀 2 的 点为丛, 以 此 类 推 161 .3. l 2 短时 平均过零率 短时 过零率表示一帧语音信号波形穿过横轴( 零电 平) 的次数。 对于连续语音信号, 过零即意味着时 域波形通过时间 轴, 而对于离散信号, 如果相邻的取样值具有不同的代数符号就称为发生了过零。一段长时间内的过零率称作平均过零率。 窄带信号的过零率反映了该信号的频率。 其中, 当 信号为单一正弦波时, 过零率硕 士 论 文基于v c的广告语音识别系统的设计研究为信号频率的两倍。 对 于宽带信号, 为了 反映过零率随时间的 变化不能 采用长时平均 过零 率, 而必须采用短时平均过零率. 语 音信号不仅是宽 带信号, 而且 还是时变信号, 它的 频谱特性是随时间变化的,故短时平均过零率实际上是描述时变频谱的一种最简单的方法。 短时平均过零率的 计算方 法是: 首先用一 个移动窗口 (n一 m ) 选取出 位于n 时刻的语 音段, 然后计算出该语音 短时段的过 零总数, 并除以该短时段的长度( 即窗的宽度) 。设采用矩形窗,窗的宽度为n,这时,短时平均过零率可用下式计算:; = 命 足 5, (二 ,。 一,一 gn “ m 一 ” 。 一 ”一 命 奥 5, , , 一 gn m 一 ” 。 一,( 3 . 1 . 1 0)式中。 (,= ;5, 【一 10弓n三n 一1其余n 值x ( m ) 0 x ( m ) = 0 x ( m ) 0 浊音频率主要集中 在3 k h z 以下的 低频区域, 超过4 kl 七后频率幅度便 迅速下降,而清音 频率幅度在超过4 k h z 后反而呈 上升趋势, 甚至超过 s k h z 以 后仍然没有下降的苗头。 这 表明 清音频率主要集中 在高 频区域。 由于短时平均过零率 粗略地 描述了 信号的频谱特性,因此可以根据它来区分浊音和清音。但是, 用过零率的高低来区分清音和浊音有时不很准确,因为有些清音和浊音的短时平均过零率在数值上是差不多的。 过零率的计算主要是将相邻两取样值的符号进行比较,由于噪声的存在, 就必须规定 一个噪声门限, 超过这一门限 正值的取样 值认为是正并赋值为+i, 低于该门限的取样值被认为是负并赋值为一 1 , 界于该门限 正负值之间的 取样被认为 是零并赋值为0.显 然, 为了 能够准确判定各取样值的符号, 应要求信号中不 含有直流 偏移, 噪声和电源干 扰应尽可能小,以 及选择合适大小的正负门限 值。 以 短时平均过零率为特征的起止点 算法: 根据发音刚开 始前已 知为“ 静” 态的 连续10帧内 的数据( 帧长为1 0 m s), 计算出过零 率的阀 值亿c t.定义:税t 全而 nl lf , izc十 2 。 ,zc1( 3 . 1 . 1 1 )硕 士 论 文墓于 v c的广告语音识别系统的设计研究元 云 , 。 izc为 根 据 所 取 样 值 算 得的 均 值 及 标 准 差 的 估 值, if为 固 定 值, 一 般 取 为25 。 由 此 可以 进 行 起 止 点 判 断: 根 据忍 c t 算 得 一 初 始 起 点私, 把 它 规定 为 最 先 升 到平 均 过 零 率阀 值的 帧 号, 随 着 时间 的 后 移 , 过 零率 下 降 到j z c t 之 下, 则 这 时 的从点作为语音段的终点。 如 上 得 到的 n z 尚 不 能 定 为 终 点, 而 应 从 它 起向 后 审查 若 千 帧. 审 查 其中 是 否 有z c r 高 的 点 , 即 审 查从峥从+ 25各 帧 中 有 无 其z c 况 之 忆 c t 者, 若 有 此 种 帧 三 个以上,则将终点移到满足z c 火之 2 2 c t条件的最后帧号。 在用于多 人的情况下, 尤其是在噪声 较大的 环境下,忍 c t 改为: 公t 全m + 。 x v(3. 1.1 2) 其中m 刀分别为 含噪样 本的z c 天 的均 值与 标准差,而v 则由 下式计 算: 犷 全注 、 注 陇 l m + 丑 ( 1 , 。 1 , ) 其中, a 不 佗 为 包括噪声 及语音的 整个时区中算 得的z c 天的 平均值( 整个时 区指在孤立语音识别中 粗定的该字音的整个发音时区) , a , b 为二常数, 它们在训 练区间确定 6.3 .2 语音特征 参数 提取 语音的 特征提取是为了 从语音信号中 提取能 表示语音特征的 信息。 在现有的 语音识别中 主要有三类: 时域、 频域; 倒频域。 语音信号的时域分析就是分析和提取语音信号的时域参数。 进行语音分析时, 最先接 触到并 且也是最直观的 是它的时域波形。 语音 信号本身就是时域信号, 因而时 域分析是 最早使用, 也是 应用最 广泛的一 种分析方法, 这种方法直接利用语音信号的 时域波形。 语 音信号的时 域参数有短时能量、 短时 过零率、 短时自 相关函 数和短时 平均 幅度差函数等。 语 音信号的 频域分析就是分析语音信号的 频域特征、 从广义 上讲, 语音信号的 频域分析 包括语音信号 的频谱、 功率谱、 倒频谱、 频谱包 络分析等, 而常用的频域分析方法有带 通滤 波器组 法、 傅里叶变换法, 线 性预测法等几种。 语 音信号的 倒谱 分析就是求取语音倒谱 特征参数的过程, 它可以 通过同态处理来实现。 同态信号处理也 称为同 态滤波, 它实 现了 将卷积关系 变换为求和关系的分离处理, 即 解卷。 对语音信号进行解卷卷, 可 将语音信号的声门 激励信息及声道响应信息分离开 来,从而 求得 声道共振特征和基音 周期。 其中 语音特征参数的发展也主要是从时 域到频域,再到倒频域的过 程。 广告 语音信号是 一种冗余度很高的随 机信号 , 在进行信号处 理的时候, 必须经过特 征 提 取 才 能 有 效 的 降 低 信 号 冗 余 度 。 所 以 特 征 提 取 实 际 上 是 熨 语 音 信 号 进 行 大 幅 度 口 .硕士论文基于 v c的广告语音识别系统的设计研究压缩的过程。 广告语音 信号虽然是时变信号,但是若 把它分成1 0 m 至3 0 i n s 之间这 样的 语音段, 则 语音段是相对平稳的, 这就是 所谓的短时平稳 性. 因为信号的短时平稳 性, 则可以把语音段的特征提取出来。 这里着重 介绍的 特征矢量是线性预测 倒谱系数l p c c和梅尔倒频谱系数n 下 c c 。3. 2. 1 语音的倒谱分析 由于 特征 量l p c c 和m f c c 都用到了 倒谱知识, 故这里先讲一下语音信号的倒谱分析. 倒谱定义为时间序列的2 变换的 模的 对数的 逆变换, 具体说, 序列x( n) 的倒谱咖)的定义为: c ( n ) = 2 一 , ln1 2 ( x ( n ) ) 1 (3 . 2 . 1 ) 或表示成傅立叶变换形式:c(n ) = 鑫r- o ix (e , ) !。 , 、 在具体实现时,用 d ft 来代替傅立叶 变换, 如图3 . 1 所示,的 倒 谱 将 是 真 实 倒 谱 的 混 叠形 式 c , ( n) , 它 是 真正 倒 谱的 逼 近倒谱的计算过程如下图所示: ( 3 . 2. 2)类似地,这样得到语音信倒颁图3. 2 . 1 倒频的计算过程 可以证明, 倒谱等于复倒谱的偶部。 最小相位 序列的 倒谱和复 倒谱之间存在 着一种很简单的关系。因此,倒谱具有与复倒谱相同的性质,即: 0 ) 即 使 序 列x( n)是 有限 长 的, 其 复 倒 谱x( n)总 是 有限 长 的 时 间 序 列. 不 过, 复倒谱的 幅度 至少 按川 川的速度下降,因而 其能 量仍然主要集中 在” = 。 附近。 (2 ) 最小相位序列的 复倒谱必为因果序列,最大相位序列的复倒谱必为逆因 果序列。 (3)间 隔 为 n , 的 冲 击 序 列 的 复 倒 谱 仍 然 是 一 个 间 隔 为 n ; 的 冲 击 序 列 161 .1 2. 2 线性 预测 倒谱系数 ( l p c q 线性预测又叫线性预测分析、线性预 测编码。语音信号的线性预测是指某一时刻的 语音 抽样值能 够用过去若千 个语音抽样值的 加权线性组合 来逼近, 且采用最小均方预 测误差逼近的 方法来估计加 权系数. 加权系数称为预测系数。 如果 利用过去p 个硕士论文墓于v c的 广告语音识别系统的设计研究样点 值来进行预测, 称为p 阶线性预测。若一帧语音信号记为 x( n) , n = 0,1, 二 , n 一 1,其中p 个值王 x( n 一 1),卜1 孟, 川已知, 则可以 预测出x( n), 其值为 ; (n ) = 一 全 a ,x (, 一 ,)上 式 中 , 加 权 系 数 用 一 a, 表 示 , 称 为 技 测 系 数 .(3. 2 . 3 )预测误差为e ( n ) 二 x(n ) 一 x ( n ) =全 。 ,x (。 一 ,),ao = 1(3. 2 . 4 )在 均 方 误 差 : 达 到 最 小 时 , 预 测 是 最 崔 的 :5 = el o 2 ( n ) = m 访对于某一帧信号,短时均方预测误差e 达到n 五 n , 则有 ( 3 。2 .5 )关于a k 的偏导数为0.生= : : 凡 。n 、 .面*l k = 1, 2 , , p( 3 .2 . 6 ) nu 工-,胜.匕刁鲤瓶由式(3. 2 . 4)可知:a f=双 n一k)由,k = 1, 2 , , p( 3 .2 . 乃 将式( 3 . 2 . 7 ) 代入( 3 . 2 . 6 ) , 得到: 风e ( n ) x ( n 一 k ) j “ ok = 1 , 2 , , p( 3 2 8 ) 这是线性预测中的一个重要结果, 称为正交方程。 它表明, 预测误差与信号的过去p 个 取 样 值是 正 交的 191 11 几 进一步整理有至 口 ,。 x (, 一 ;)x (, 一 ; ) = 0 ,; = 1,2 , ,;(3:29)若定义 “ 相关函数” ( 是否为自 相关函数视求和范围而定) 尹 ( k , 1 ) = 艺 x ( 。 一 1 ) x ( ” 一 k )则式(3.2. 9) 变为 一 玄 。 , (k ,1) 二 , (k ,。 ),* = 1; , ,对于最小的均方误差, _ = 。 2 (n ) = 。 。 (n x x (n ) + 戈 。 x (n 一 ,)(3:21 0 )( 3 . 2 . 1 1 )= 斗 (n )x (n 。 = 全 a : 。x (。 )x( , 一 ,)1硕士论文基于v c的广告语音识别系统的设计研究故有e _ = , (0 ,0 ) + 艺 a , (0 ,)(3. 2 . 1 2 )若 计 算出巾 (k, 1) ( 权 卜 1 , 2 , , p ) , 则 式 ( 3 :21 1 ) 是 包 含p个 线 性方 程的 方 程 组,从而 可 求 解 得 到 使 均方 预测 误差 为 最小 的 预 测系 数 a , ( 卜 1 , 2 , p). 进 而 利用 式(3.2 1 2) 可求出最小均方误差。式(3.2. 1 1 ) 和式(3.2 , 1 2)是线性预测的正则方程,常叫wie n 日 r- h 叩 f 方 程。 实 际 上 , 我 们只 能获 得 有限 个( 例 如n 个 ) 数 据仁 。 , x , , , _ . , 而 且 必 须 根 据 这n个数据来计算预测系数。 通常, 有三种方法:( 1)自 相关法或y e 一 w 司 以 er法, ( 2)协方 差 法, (3 ) b urg 法. 这里着重介绍自 相关法。 自 相 关法是 通过求 ( p +l) 个自 相关函 数, 利用l 忍 , i si on. d ur b i n 递推 算法来 求解模型参数的。 它对语音数据加窗,并假定窗外的数据为0 , 而窗内的数据由信号和窗来决定。 对 于 预 测 误 差 。 。 ) = 全 。 lx (, 一 1) , , 当 。 、 n 一 1 、 n 一 1 , 时 , 由 于 二 (n 一 1 )不 为零 , 则 。 加 ) 不 为 零 , 故 p 矫 预 测 器 的 均 方 误 差 的 求 和 范 围 为 。 n (n 十 p 一 1 , 即 一,、 ,乍 , 2 , 、e =乙 l e气 n ) j =乙 et n ) 月 . 0对于 式(3 :210 ) , 作代换有 尹 ( k ,1 ) = 艺x ( n ) x ( n 干 1 一 k )只 有当x(n) 、 x (n+1 一 ) 均不为零, 即0 印 s n 一 1 一 ( 1 一 k ) 时, 帆kl ) 才不为零, 即丹一 j 叹1 一 k)尹 ( k , 1 ) =艺 x ( n ) x ( n + 1 一 k )( 3 .2 . 1 3 )式(3.2. 1 3)即是一帧语音信号的短时自相关函数,它是偶函数,记为r(l一卜 即哟 。 上 式要 注 意的 是卜。 , 1 , 2 , , p; k = 1 , 2 , p 线性预测正则方程式改写如下:一 戈 。 r 。 一 k ) = r (k ), = 1, 2 ,一 ,( 3 2 . 1 4 ) 、二 ; (。 ) + 全 。 ,* (,) 1 一 1为 方便, 对于 从阶预测,用矩阵表示式(3.2. 1 4) 有:r i . ) a l . ) = 一 r ( 用 )硕士论文基于v c的广告语音识别 系统的设计研究其中,记 m阶预测器的第1 个系数为al闭,且,.lwe.es月刀.esesesj1111rrrr ( 0 )r ( 1 )r ( 2 )r ( 2 )r ( 1 )r ( 0 )r ( m一 1 )r ( m一 2 )r ( 从一 3 )r ( 从一 1 ) r ( m一 2 ) r ( m一 3 ) r ( 0 )fesesesweesesl 工- 、声 . 廿.、 rr ( 1 )r ( 2 )r ( 3 )r ( 爪 )r.,!1.1 一 口 r,.,.恤1恤2恤3恤. aaaa一lesesles - 旧 a可见, 由自 相关函数构成的系数阵是对称的, 且是一个t oep l its矩阵,即 沿主对角线上的各元素均相等。这类矩阵方程可通过伙v 川 s o n 一 d u rbin递推来快速求解。计算每一帧语音信号的预测系数时,首先计算该帧的自 相关函数 r ( k ) , 0 城 k 簇n ! :只 ( 、 卜工 n艺 x ( n ) x ( n + k ) ,0 k 尸 n 一 1然后递推求模型的系数,过程如下:初始化:e 。 = r ( 0 ) , a 犷 , = 0 递 推 计 算, 算 式中1 = 1 , 2 , 3 , p.若 计 算出 现】k 之 1 , 则 递 推 终 止。气 = 一 r ( ) + 艺 a 思 r ( 1 )1 / el 一 ,a 夕 , = a 夕 一 , + 杭 叱, , ( 1 j 1 一 1)砂, = 气e , = ei _ , (1 一 对 )输出结果:a p , a ; 川 , , a 罗 , , e , 在计算过程中,自 相关系数用归一化自 相关系数 代 k) = r(k) 侧0) 来表示, 预测误差用 归 一 化 预 测 误差p , = 凡 / r ( 0)来 表 示。 在 这 里, 独 立的 参 数为p +个自 相关函 数 ,或 者 是p +l个 模 型参 数( 系 数 与 均 方 误差) , 或者 是 反 射系 数k , , ( 卜 1 ,2 , p)与 能 量r ( 0 ) 1 14 .硕士论文基于v c的 广告语音识别系统的设计研究在用自 相关法计算出序列x( n)的l pc后, 在一定的假设条件下,可由l 民 导出x( 心的 倒谱c( ” ) 。由3 2 . 1 节得出的 倒谱c( n)的定义及2 变换的定义可知, 有in x (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论