(信号与信息处理专业论文)基于dsp的语音信号识别系统的研究与实现.pdf_第1页
(信号与信息处理专业论文)基于dsp的语音信号识别系统的研究与实现.pdf_第2页
(信号与信息处理专业论文)基于dsp的语音信号识别系统的研究与实现.pdf_第3页
(信号与信息处理专业论文)基于dsp的语音信号识别系统的研究与实现.pdf_第4页
(信号与信息处理专业论文)基于dsp的语音信号识别系统的研究与实现.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘 要 i 基于基于 dspdsp 的语音信号识别系统的研究与实现的语音信号识别系统的研究与实现 作者简介:陈涛,男,1980 年 2 月生,师从成都理工大学孙旭副教授,2010 年 6 月毕业于成都理工大学信号与信息处理专业,获得工学硕士学位。 摘摘 要要 语音识别是一种最为理想的人机通信方式,随着计算机技术的进步,语音识 别技术已经逐渐应用于控制、通信、消费等行业。语音识别既是理论问题,也是 一个工程化问题。 它综合多学科的理论成果, 如声学、 语音学、 语言学、 生理学、 数字信号处理、信息工程、计算机科学、模式识别、人工智能等。语音识别技术 发展到今天,已经可以满足通常的应用。但是语音识别系统在商品化的进程中还 存在诸如识别速度(实时性)、系统的鲁棒性以及更高的识别率等具体问题。如 何提高语音识别系统这些性能,使系统更快、更稳定的工作是目前研究的重点。 怎样让语音识别推向更广泛的实用领域是目前语音识别技术研究的热点。 本文就 是在这种情况下对非特定人孤立词语音识别系统做了一些探讨。 论文中首先介绍了研究课题的背景和意义。 着重从语音识别技术发展的现状 和目前语音识别技术面临的挑战两个方面进行了叙述。 从而说明了此课题的研究 方向。 其次,论文介绍了孤立词语音识别系统的基本理论,分析了孤立词语音识别 的基本工作过程。接着介绍了常用的特征参数,孤立词识别算法。并对其进行比 较分析,然后根据本系统的特点选用了以(美尔频率倒谱)mfcc 为特征参数, 采用经典的动态时间规整(dtw)识别算法进行模板匹配,以提高识别率。提出 了去噪声的短时能量端点检测方法,并用 matlab7.1 进行了仿真。 硬件设计方面,在介绍 ti 公司的 tms320c6713 dsp 芯片的基础上,阐述了 以 tms320c6713 dsp 为处理中心的孤立词语音识别系统的构成,给出了各部分的 具体硬件设计。硬件系统主要由四个大模块组成:dsp 模块、语音采集与处理模 块、外扩存储器模块(sdram、flash rom 和 sd 卡)、电源模块和单片机控制模 块。 软件设计方面,针对孤立词识别的特点,论述了系统软件的设计过程。软件 设计主要包括以下几个方面:语音信号的预处理、端点检测、特征提取、建立语 音模板库、模式匹配等。在软件设计过程中还给出了语音识别各部分的流程图, 并对各部分用 matlab7.1 进行了仿真,给出了仿真结果;论述了外挂 flash 的 tms320c6713 引导装载程序的设计过程。通过软件系统调试,本语音识别系统具 成都理工大学硕士学位论文 ii 有较高的识别率。 关键词关键词:语音识别 孤立词 非特定人 动态时间规整 dsp abstract iii research and realization of voice signal recognition system based on dsp introduction of the author: chen tao, male, was born in february ,1980 whose tutor was professor sun xu . he graduated from chengdu university of technology in signal and information processing major and was granted the master degree in june, 2010. abstract speech recognition is the best way of the personal-machine communication.by the development of computer technology, it has been implemented into product in many areas such as control, communication and consumption not only is speech recognition a theoretical problem, but also an engineering problem. it integrates theoretic achievements of many disciplines, for example, acoustics, phonetics, linguistics, physiology, digital processing, information engineering, computer science,pattern recognition and artificial intelligence. speech recognition technology developed to cater for the usual application . but the speech recognition system in the commercialization process there, such as the recognition speed (real time), robustness of the system and higher rates of specific issues identified . how to improve the performance of speech recognition systems, the system faster and more stable employment is the focus of the study.how to make the speech recognition put to practical uses is the hotspots of current research of speech recognition technology.this thesis makes some discussion on speaker-independent isolated word speech recognition system in this case. the thesis first introduces the background and significance of the subject. focus on speech recognition technology from the status quo and the current speech recognition technology challenges two aspects of the narrative. which describes the subject of research. secondly, the thesis introduces the elementary theory of isolated word speech recognition system and analyses the basic work process of isolated word speech recognition. then it introduced the characteristic parameters and isolated word speech recognition algorithms in common use, and carrying on the comparison to the all.according to the comparison results and considering this systems characteristic,it adopts mfcc characteristic parameters and the classical dynamic time warping (dtw) 成都理工大学硕士学位论文 iv recognition algorithm to improve recognition rate.in this paper,it proposes the noise short-term energy endpoint detection method ,and using matlab7.1 software simulation. as for hardware design aspect, it elaborates the system constitution of isolated word speech recognition, which taking tms320c6713 dsp as the processing center, and gives concrete hardware design of every part. the hardware system is mainly composed of four major modules: dsp module, voice acquisition and processing module, spread memory module (sdram and flash rom and sd card), the power supply module and micro-controller module. as for software design aspect,aiming at the characteristic of isolated word recognition, it elaborats the design process of system software. the software design is primarily includes the following areas: speech signal conditioning, activity detection, feature extraction, establish a voice template library, pattern matching, etc. in the software design processing, it also gives the flow chart of every part about speech recognition and the simulation results of every part by using matlab7.1 software. it also elaborates the guidance loading procedures design process of tms320c6713 with external flash. according to software system debugging, the speech recognition system has a higher recognition rate . k keywords:eywords: speech recognition isolated word speaker-independent dtw dsp 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果, 也不包含为获得 成都理工大学 或其他教 育机构的学位或证书而使用过的材料。 与我一同工作的人员对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解 成都理工大学 有关保留、 使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和 借阅。本人授权 成都理工大学 可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书) 学位论文作者签名: 学位论文作者导师签名: 年 月 日 第1章 引 言 1 第第 1 1 章章 引言引言 自然语言是我们人类进行信息传递、情感交流最自然和最普遍、最简单的形 式, 语音识别因此也是一种最为理想的人机通信方式。语音识别的研究涉及到许 多学科领域。主要有:人工智能、模式识别、数字信号处理、计算机科学、语言 声学、心理学、生理学和认知科学等。语音识别是一门交叉学科,关系到多学科 的研究领域 1。本章主要简要介绍语音识别技术的发展状况、难点重点、发展的 方向和所面临的挑战。 1.1 课题的背景和意义课题的背景和意义 作为智能计算机研究的主导方向和人机语音通信的关键技术, 语音识别技术 一直受到各国科学界的广泛关注。随着语音识别技术研究的突破,其对计算机发 展和社会生活的重要性日益凸现出来 1。近二十三十年来,语音识别在工业、军 事、交通、医学、民用等方面,特别是在计算机、信息处理、通信电子系统、自 动控制邓领域中有着广泛的应用。当今,语音识别产品在人机交互应用中,已经 占到了愈来愈大的比例。以语音识别技术开发出来的产品,应用领域非常广泛, 有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社 服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、股 票交易、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服 务、翻译系统等等,几乎深入到社会的每一个行业,其应用和经济社会效益前景 非常好, 因此研究语音识别, 开发相应的产品有着广泛的社会意义和经济价值 6。 我国的在语音识别方面的研究相对起步要比发达国家晚些。 但是进步却比较 快,成果显著。清华大学、中科院声学所于 1988 年首先对无限词汇汉语听写机 取得了突破,紧接着西安电子科技大学研制成功。但是这时的汉语听写系统只是 仅仅基于特定人孤立音节识别技术的, 在广泛实用上还是有很大的限制。 近年来, 汉语语音识别受到了前所未有的重视,国外有很多公司投资汉语听写机的研制。 台湾也在积极投入研究 6。 在语音识别技术上,许多专业人员对其理论和应用进行了广泛的研究,但语 音识别的研究比语音合成困难得多。语音识别具有广泛的应用领域,但它却是一 项综合性的、难度非常大的高科技项目,从话语中提取满意的信息的过程是一项 艰巨复杂的任务。虽然语音识别的研究取得很大的进展,但仍然还有很多艰巨的 任务和复杂的问题有待解决。 目前语音识别领域应用多的是小词汇量特定人孤立 词语音识别,必须针对讲话者,有比较高的识别率 7。 在语音识别中,必然涉及到人是怎样从声音中提取信息和理解含义的问题。 成都理工大学硕士学位论文 2 只有弄清人在收听声音时的生理过程并研究出模仿这些过程的模型, 语音识别才 可能得到一个飞跃的发展。 如何充分借鉴和利用人在完成语音识别和理解时所利 用的方法和原理就是一大课题,因而语音识别和人工智能之间有密切的联系。 可以预测在近五到十年内,语音识别系统的应用将更加广泛,大量的语音识 别系统产品将出现在市场上, 我们也将调整自己的说话方式以适应语音识别产品 带来的变化。 本论文研究的重点是非特定人孤立词的语音识别系统, 并考虑这种系统在嵌 入式系统下的应用。之所以选择这样一个系统是基于以下两点:一,针对非特定 人。 因为非特定人语音识别系统的灵活性和方便性无疑对语音识别技术的应用发 展有着质的飞跃,为语音识别技术的推广有着重大的作用。二,在嵌入式系统的 条件下,系统将建立在孤立词的基础上,因为孤立词的发音方式使得每个单词语 音的起始和结束具有明显的停顿,容易对输入语音进行端点检测等预处理工作。 其次,通过对孤立词识别的研究,有助于语音识别技术的理解,并可将其中的很 多技术推广应用到连接词识别和连续语音识别等更复杂的识别技术中。最后, 在 构建硬件系统中选择了德州仪器公司(ti)的带浮点功能的dsp芯片tms320c6713, 主频200mhz。 它在开销敏感的应用领域中取得创新, 主要应用于声音和语音识 别、 高端图形和图像学、 工业自动化等。 通过与不同平台来共同构建硬件系统, 使 得此语音识别系统具有高的实时性、高的识别率和高鲁棒性的目的。 1.2 语音识别技术的发展现状和面临的挑战语音识别技术的发展现状和面临的挑战 语音识别系统最简单的是特定人、小词汇量、孤立词的语音识别,最复杂最 难解决的是非特定人、大词汇量、连续语音识别。 1.2.1 语音识别技术的发展现状1 7 语音识别起源于20世纪50年代att 贝尔实验室的audry 系统, 它第一次实 现了10个英文数字的语音识别,这是语音识别研究工作的开端。1959年 j.w.rorgie 和c.d.forgie 采用数字计算机识别英文元音及孤立字, 开始了计 算机语音识别的研究工作 3。 二十世纪60年代中期,计算机的应用推动了语音识别的发展。这时期的重要 成果是提出了动态规划和线性预测分析技术(lp),其中后者较好地解决了语音 信号产生模型的问题,对语音识别的发展产生了深远影响。 进入70 年代后,语音识别领域取得了突破。lp 技术得到进一步发展,动态 时间归正技术(dtw)基本成熟,特别是提出了矢量量化(vq)和隐马尔可夫模 型(hmm)理论, 并实现了基于线性预测倒谱和dtw技术的特定人孤立语音识别 第1章 引 言 3 系统。 80 年代,实验室语音识别研究产生了巨大突破,一方面各种连接词语音识 别算法被开发,例如多级动态规划语音识别算法;另一方面语音识别算法从模板 匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最 佳的语音识别系统。隐马尔可夫模型(hmm)是其典型,能很好地描述语音信号 的时变性和平稳性,使大词汇量连续语音识别系统的开发成为可能, 并于80 年 代中期在实践开发中成功应用了hmm 模型和人工神经网络(ann)。在1988年 kai-fulee 等用vq/hmm 方法实现了997 个词汇的非特定人连续语音识别系统 sphinx ,它在有/无文法限制的条件下识别率分别为96和82。这是世界上第 一个高性能的非特定人、大词汇量、连续语音识别系统,被认为是语音识别历史 上的一个里程碑。 进入90 年代以来,人工神经网络技术的应用成为语音识别的一条新途径, 它具有自适应性、并行性、非线性、鲁棒性、容错性和学习特性,在结构和算法 上都显示出了很大的潜力,而且还在细化模型的设计、参数提取和优化,以及系 统的自适应技术上取得了关键进展。 经过近五十年的发展,目前语音识别己经达到一个比较高的水平,并正在从 实验室研究中走出来,逐渐进入一个实用化的阶段。语音识别研究水平最重要的 标志之一是非特定人大词汇量连续语音识别的性能。 目前对于理想环境下的语音 数据,英国剑桥大学的htk系统的误识率已达到5%以下;对于广播语音,剑桥的1 一itr系统误识率达到16.2%, 而对于电话系统大词汇量语音识别camegie-mellon 大学的系统词误识率为45.1%。这些系统代表着目前语音识别的最高水平。我国 中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统, 其准确率和系统响应率均可达90以上。 在语音识别的应用方面,ibm公司推出的viavoice系统标志着非特定人大词 汇量连续语音识别的实用化;在小词表语音识别领域中,各公司也纷纷推出了单 片的语音识别系统,其中较为典型的是美国sensory公司的语音识别芯片rsc一 x64系列,各种电子产品上也加入了语音识别的功能,如philip和三星的手机己 加入了特定人人名识别的功能。语音识别技术近些年来取得了比较大的发展,语 音识别己经在听写机、电话查询系统、家电控制等诸多领域都逐渐获得应用。 目前在语音识别研究领域非常活跃的课题为稳健语音识别、 说话人自适应技 术、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型 和自适应语言模型,以及深层次的自然语音的理解。研究的方向也越来越侧重于 口语对话系统。 成都理工大学硕士学位论文 4 1.2.2 语音识别技术面临的主要挑战1: 1.可移植性:目前的系统在移植到新的领域时性能往往明显下降,为恢复性 能,往往需要在新的领域重新做大量的训练工作,需要大量的时间和开销。可移 植性就是指在新的应用领域迅速开发出识别系统的能力。 2.鲁棒性:目前的语音识别系统在训练与测试条件一致的情况下,其识别率 很高, 但如果测试与训练的声学环境和通道特性不同时,系统的性能就会严重下 降。 3.口语问题:一个能够实用的识别系统必须能够处理各种各样的口语现象, 例如,重复、停顿以及其它大量不符合语法习惯的语言现象。这个领域还有大量 的工作需要做。 4.自适应:系统如何根据环境的变化,自动调整其参数以提高系统在新环境 下的性能。 5.语言模型:目前语音识别系统主要利用统计语言模型来减小搜索空间和解 决声学识别结果的歧义问题。但随着词表的增加,更多的约束信息显得越来越重 要,因此,如何在统计语言模型的基础上结合句法和语义信息也是一个难题。 6.可信度度量:当前的识别系统主要是根据候选词得分的高低来判断识别结 果。 而分数的高低只能说明一个候选比另一个候选好或者坏,但无法说明某个候 选是不是正确的识别结果, 因此如何估计识别结果的可信度在许多应用场合是非 常必要的。 7.集外词:目前的语音识别系统总有词表的限制。但在实际应用中,用户无 法确切地知道哪些词是集内词,哪些词是集外词,因此不可避免地使用一些不在 系统词表中的词,这就要求系统本身具有检测和处理集外词的能力。 8.韵律信息的利用:韵律信息指的是说话之中的重音、语调等超音段信息。 许多实验表明,人的听觉从说话的韵律中获取了很多重要信息。但目前的语音识 别系统却忽视了韵律信息。因此,如何在语音识别中结合韵律信息还有待于更进 一步的研究。 基于语音的情感处理研究也是当今语音识别的一个重要研究方向。 在人与人 的交流中,除了言语信息外,非言语信息也起着非常重要的作用。人类的语音中 不仅包含语音学信息,同时也包含人们的情感和情绪等非言语信息。例如,同样 一句话,往往由于说话人的情感不同,其意思和给听者的感觉就会不同。传统的 语音处理系统仅仅着眼于传达语音词汇的准确性, 而完全忽视了包含在语音信号 中的情感因素,所以它只反映了信息的一个方面。 直到近年来,人们发现情感和态度所引起的变化对语音合成、语音识别、说 话人确认等方面的影响较大, 因而语音信号中情感处理的研究逐步引起了人们的 重视。 目前许多研究者都在致力于研究情感对语音的影响以及情感状态下语音信 第1章 引 言 5 号。 1.3 论文的主要研究内容论文的主要研究内容 语音识别技术发展到今天, 特别是中小词汇量非特定人语音识别系统识别精 度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够 满足通常应用的要求。 但是语音识别系统在商品化的进程中还存在诸如识别速度 (实时性)、系统的鲁棒性以及更高的识别率等具体问题。因此本论文研究的对 象是在嵌入式系统下非特定人孤立词语音识别, 研究的重点是在考虑嵌入式系统 有限资源下,选用德州仪器公司(ti)的带浮点功能的dsp芯片tms320c6713 (主频 200mhz) 作为语音信号处理的核心处理器与其它平台共同构建硬件系统, 结合相 应的处理算法来寻求一种具有高的实时性、 高的识别率和高鲁棒性的语音识别系 统。 因此,论文的主要内容有: 第一章叙述了语音识别技术的背景有意义, 并简单介绍了本论文课题的研究 目标和方向。 第二章对语音信号进行详细的分析,并论述了语音识别的基本理论。其中详 细论述特征提取和模式匹配的方法,由于提取特征值主要是采用倒谱分析方法, 着重介绍了倒谱分析及线性预测分析的原理。 模式匹配主要是介绍了动态时间规 划算法的基本理论。 第三章结合设计的具体要求进行了电子元器件的选型和设计,通过对dsp、 语音采集芯片aic23、单片机及存储器性能的介绍和分析,详细说明了系统硬件 设计过程和设计方法,并给出了相应的模块电路。 第四章介绍了在设计中应用到的信号处理和软件实现方法, 给出了语音信号 的预处理方法、特征值提取方法、核心识别算法、训练方法以及相应的流程图。 通过对语音识别算法的分析, 证明了本设计中所使用的语音信号处理方法的可行 性。并介绍了软件实现的方法和应该注意的问题。 第五章主要给出了在调试过程中出现的问题和系统调试结果, 并对问题的解 决方法和调试结果做出了分析。 最后,对论文所做的工作进行了总结,对以后的研究工作做出了自己的目标 和展望。 成都理工大学硕士学位论文 6 第第 2 2 章章 语音识别的基本理论语音识别的基本理论 2.1 语音处理的基本知识语音处理的基本知识 语音 1-6是由于肺部的收缩压迫气流由支气管经过声门和声道引起音频振荡 而产生的。发音过程中声道各处的截面积取决于舌、唇、颔以及小舌的位置。声 道有三类不同的激励方式, 因而可以产生三类不同的声音:(1)当气流通过声门时 声带的张力刚好使声带发生较低频率的张弛振荡,形成准周期性的空气脉冲,这 些空气脉冲激励声道便产生浊音;(2)如果声道中某处面积很小, 气流高速冲过此 处时而产生湍流,得到一种类似噪声的激励,这种方式对应于摩擦音或清音;(3) 如果在声道某处完全闭合建立起气压,然后突然释放而产生的声音是爆破音。 根据语音信号的产生机理我们可以模拟语音信号的的产生系统 2。这个过程 可以用一个时变线性系统来模拟,综合考虑声门激励、声道和嘴唇辐射的影响, 系统模拟图如图2-1所示。因此语音信号可以看作是激励信号ug(n)激励一个线性 系统h(z)而产生的输出, 其中h(z)是声道响应v(z)与嘴唇辐射模型r(z)相级联而 成,即: h(z) = v(z) r(z) (2 1) 对于浊音,我们还可以把声门脉冲的影响也归并到传递函数中,即: h z = g z v v r z (2 2) 这时,浊音信号就可以看作是由一个准周期性的 脉冲串激励一个离散线 性系统h(z)而产生的输出了。 而清音信号是由一个白噪声序列激励一个线性系统 而产生的输出, 而这个线性系统仅是由声道响应v(z)与嘴唇辐射模型r(z)相级联 而成。 浊音信号的产生过程受声门脉冲形状g(n)、声道响应v(n)和嘴唇辐射影响 r(n)的共同作用,可以等效为一个线性系统,称为声道系统,即: hv n = g n v n r n (2 3) 而将激励信号看成是一个准周期性的 脉冲串: p n = (n + r np) r (2 4) 那么浊音信号就是两者的卷积结果,如下所示: x n = p n hv n = hv n + r np (2 5) 类似的清音产生过程受声道响应v(n)和嘴唇辐射影响r(n)的共同作用也可以 第2章 语音识别的基本理论 7 等效为一个线性系统: hu n = v n r n (2 6) 相应的z变换为: hu z v z r z (2 7) 假设激励信号u(n)为白噪声序列则: x n = hu n u n (2 8) 冲激序列冲激序列 发生器发生器 随机噪声随机噪声 发生器发生器 声道模型声道模型 v v( (z z) ) 声门脉冲声门脉冲 模型模型g g( (z z) ) 辐射模型辐射模型 r r( (z z) ) 浊音浊音/ /清音清音 开关开关 基音频率基音频率 avav anan 激励模型激励模型 声道模型声道模型辐射模型辐射模型 plpl( (n n) ) 声道参数声道参数 图图2 2- -1 1 语音信号产生的离散时域模型 大量研究表明,语音信号的一个重要特点就是它的“短时性”,语音信号的 特征是随时间而变化的。某些时段中它呈现出随机噪声的特性,另一些短时段则 呈现出周期信号的特征,其它一些时段呈现二者的混合。由于人的声道形状及其 变化规律具有一定的惯性,因此在一段短时间间隔中,语音信号保持相对稳定一 致的特征。所以对于语音信号的分析和处理就必须建立在“短时”的基础上。这 段短时间一般可取为5-50ms。 因此根据以上分析, 结合短时分析我们可以采用平 稳分析的方法来处理语音信号。 以后所有的处理方法都是基于这种短时平稳的假 定的 1。 (l)语音信号的时域分析法 1 语音信号本来就是一种时域信号,因而时域分析是最早使用,也是应用最广 成都理工大学硕士学位论文 8 泛的一种分析方法, 这种分析直接利用语音信号的时域波形, 对它不作频域分析, 可以做最基本参数的分析和语音的分割、预处理、大分类等。时域波形的语音处 理比较简单,然而对估计语音信号的重要特征却有重要作用。这种分析方法的特 点是:(l)表示语音信号比较直观,物理意义明确。(2)实现起来比较简单、运算 量少。(3)可以得到语音信号的一些重要的参数。(4)只使用示波器等设备,使用 较为简单等 1。 1)语音信号的幅度分析 语音信号的幅度分析是基于语音信号幅度随时间有相应的变化的性质的。 语 音信号的清音段的幅度较小,其能量集中于高频段;而语音信号的浊音段的幅度 较大,其能量集中于低频段 6。因此,语音信号的幅度分析也可用于估计语音信 号的特征。幅度分析包括幅度和能量两方面。由短时处理技术的一般式即短时能 量函数的定义,可以得到短时能量函数(2-9),该式给出了在采样点n处的短时能 量 1,式中h(n) = w2 n 为窗函数。 en= x(m)(n m)2 n m=nn+1 = x2 m h n m (2 9) n m=nn+1 在窗函数h(n)的处理下, 短时能量等于从n-n+1到n的n个采样x(m)的平方和。 最简单的窗为矩形窗,它的窗函数定义如下: h(n =) 1 0 n n 1 0 其它 (2 10) 窗的长短,对于能否由短时能量反映语音信号的幅度变化,将起决定性的 影响。如果窗选得很长,它等效于很窄的低通滤波器,此时en 随时间的变化很 小,不能反映语音信号的幅度变化。窗选得太窄,短时能量随时间有急剧变化, 不能得到平滑的能量函数。因此,短时窗应选择得合适,使短时能量反映语音信 号快速的幅度变化。在10khz的采样频率下,n可选为100一200。短时平均幅度的 定义是: mn= x n n m=nn+1 m n = x(n) n (2 11) 由上式可知,平均幅度函数是计算加权了的信号绝对值之和。由于短时能量函数 是信号的平方和,因此它具有对高信号电平很敏感的特点。但是,这种对短时平 均幅度处理的方法相对比短时能量处理的方法简单,因为它不必作平方运算。 2) 过零分析 过零分析是语音的时域分析中最简单的一种分析。 由时间横轴的连续语音信 第2章 语音识别的基本理论 9 号,过零即意味着时域波形通过时间横轴。而对于离散时间语音信号,如果相邻 的取样值改变符号则称为发生了过零。由此可以计算得到过零的次数。单位时间 内的过零次数称为过零率。一段长时间内的过零率称作平均过零率。对于窄带信 号,平均过零率是信号频率量的一个简单度量。 但是,由于语音信号是宽带信号,所以用平均过零率就不太确切。此时,应 用短时平均过零率可以得到频谱特性的粗略估计。 短时平均过零率是基于一种短 时处理技术,定义语音信号序列x(n)的短时平均过零率为: zn= sgn x m sgn x m 1 m= n m (2 12) 其中sgn为符号函数即: sgn n = 1 x(n) 0 1 x(n 0) (2 13) n 为窗口函数,其作用与求平均短时能量一样,一般取: n = 1 2n 0 n n 1 (2 14) n = 0 其它 短时平均过零率在语音信号分析中应用最多的就是浊/清音的判决。 发浊音 时,频率一般低于3khz,所以短时平均过零率较低,发清音时,声道的某部分阻 塞气流产生类白噪声,其能量集中于较高的频率范围,过零率较高。所以可以认 为浊音时具有较低的过零率,清音时具有较高的过零率。当然,这种高低是相对 而言的。因此利用平均过零率可以判断清/浊音。短时平均过零率和短时平均能 量两个参数在有/无声的判断中也可以估计话音的起点和终点位置,在背景电平 噪声比较小的情况下,短时平均能量比较有效,在背景噪声电平较大时,比较有 效的是使用平均过零率。在其它情况下,有时两者共同使用才能较好的判断话音 的起点和终点。 (2)语音信号的频域分析 1 语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的,因此,对 语音信号进行频谱分析,是认识语音信号和处理语音信号的重要方法。傅里叶分 析是线性系统和平稳信号稳态特性的强有力手段, 在许多工程和科学领域中得到 了广泛的应用。这种以复指数函数为基函数的正交变换,理论上很完善,计算上 很方便, 概念上易于为人们理解, 是语音信号频域分析中被广泛应用的一种方法。 成都理工大学硕士学位论文 10 傅里叶频谱分析的基础是傅里叶变换, 用傅里叶变换及其逆变换可以得到傅里叶 谱、自相关函数、功率谱、倒谱等多种频谱分析方法。 语音信号的特性是随时间缓慢变化的,因此,可以假定语音信号的时间特性 在10一30ms时间间隔内固定不变,由此引出语音信号的短时分析。短时分析应用 于傅里叶变换就是短时傅里叶变换 1。若有语音的时间信号x(t),用短区间的时 间窗函数h(t)来分割语音信号的某个短区间,进行频谱分析,把分割出某个短区 间而求得的频谱,称作短时间频谱,其定义如下: x , = x t h t ejwtdt (2 16) 上式中引入了时间参数 ,这是窗函数分割语音信号x(t)的终了时刻。离散 的短时傅里叶变换定义为: xn ej = x m ej m n m (2 17) 式中, n m 是一个实数窗序列,它能够在特定时间指数n上从输入语音信号 x(n)中强调出某个分段。显然xn ej 是个二维函数,也称为时频函数。时频函 数xn ej 的物理意义可从下面两个解释来理解: 第一种解释是:当n固定时,例如n=n。,则xn ej 是将窗函数的中心移至 n0 处截取:x(n),再做傅里叶变换而得到的一个频谱函数。这是由式 2-17 从频 率轴方向来理解的。 第二种解释是从时间轴方向来理解:当频率固定时,例如。 = k,则 xn ej 可看作是信号经过一个中心频率为k 的带通滤波器后产生的输出。这 是因为式2-17中窗序列 n 通常具有低通频率响应,而x(n)ejnk的傅里叶变换 为x(ej( +k) ,这里的指数ejnk对x(n)的调制作用,是使其频谱产生移位,即 将x(n)频谱中对应于频率k 的分量平移到零频。 因此, 式2-17可理解为如图2-2 所示的带通滤波作用。 冲击函数冲击函数 jw enx)( jnw e )(nx )(n 图图2 2- -2 2 从带通滤波作用理解短时傅立叶变换示意图 第2章 语音识别的基本理论 11 傅里叶变换在语音信号分析中得到了应用,首先是利用傅里叶频谱,检其峰 值并作共振峰的估算,这种方法称作峰值检出法。其次,应用倒谱可求语音信号 的基音周期。 2.2 语音识别系统的组成语音识别系统的组成 嵌入式语音识别过程与人对语音识别处理过程基本上是一致的。 目前主流的 语音识别技术是基于统计模式识别的基本理论。 一个基本的语音识别系统可由下 面几部分组成 1,4: 语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。 语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统 计方法构成的语言模型,语言处理可对语音进行语法、语义分析。对小词表语音 识别系统,这部分可以省略。 声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。 声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模 板之间的距离。 声学模型的设计和语言发音特点密切相关。 声学模型单元大小(字 发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及 灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识 别单元的大小。 语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以 根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通 过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学 描述模型等有关方面。 目前比较成功的语言模型通常是采用统计语法的语言模型 与基于规则语法结构命令语言模型。 语法结构可以限定不同词之间的相互连接关 系,减少了识别系统的搜索空间,这有利于提高系统的识别。 语音识别技术的基本原理 1:人的语音实际上是一种机械振动波,具有一定 的能量。人们利用诸如微音器那样的电声传感器,把人的语音声波采集进来后转 换成电信号,再将这种电信号送到电子计算机,电信号经过计算机软件的一系列 处理和识别,就可以成为能使机器“听懂”的一串指令,从而让机器完成人交给 它们的各种任务。 语音识别系统通常由四部分组成 1,6:语音输入、语音分析、识别处理和识 别输出。 其中, 语音输入部分包括前置放大器、 控制放大器和模数转换器等器件, 它将语音信号变换成数字电信号;语音分析部分则通过滤波器、芯片等将数字电 信号进行频率分析或动态分析,并找出其特征,将语音信息转化为文字信息;识 别处理部分则由计算机软件与硬件将文字信息按语法、 逻辑及上下文关系生成可 成都理工大学硕士学位论文 12 表达准确意思的句子;识别输出部分通过不同的器件将识别结果用各种方式输出, 以便执行各种任务,如语音、文字或指令等。 本设计所做的工作是对一些孤立词的识别, 属于小词汇量孤立单词识别系统, 能使系统识别一些简单的语音命令。图2-3是孤立词语音识别系统的基本原理, 先对输入的语音信号进行端点检测, 然后, 提取特征量, 再根据是识别还是训练, 进行模式匹配或者创建参考模式库。 预处理预处理 端点检测端点检测 特征特征 提取提取 模式匹配模式匹配 模板库模板库 语音输入 训练训练 识别识别 识别结果识别结果 图图2 2- -3 3 孤立词识别系统原理图 2.3 特征参数的提取特征参数的提取 经过预处理后的语音信号,就要对其进行特征参数的分析,其目的是抽取语 音特征,以使在语音识别时类内距离尽量小,类间距离尽量大。特征参数提取是 语音识别的关键问题,特征参数选择的好坏直接影响到语音识别的精度。 原始语音信号不能直接用于模板训练和模式匹配,有两点原因:1、原始语音 信号数据量太大,系统的运算和存贮负担过重;2、原始语音信号包含太多的随 机因素,极大的影响了系统的识别率。 基于以上两点输入的语音信号首先要进行预处理后再提取信号的特征参数。 这个特征参数就是用于语音识别系统进行模板训练和模式匹配的数据。 通过预处 理和特征参数提取技术,可以明显解决以上提到的两个问题。一方面使得进行模 板训练和模式匹配的数据特征明显,提高了系统的识别率;另一方面进行了信息 压缩,降低了系统的运算量和存贮量。 特征参数提取就是从语音信号中提取有代表性的、合适的特征参数,同时进 行适当的数据压缩。时域参数的优点是计算量比较少,对于区别语音段和静音段 及清/浊音段比较方便,效果也比较明显。但由于人耳对声音的频域特性比较敏 感,时域参数不能恰当地反映这种特征 1。 因此,语音识别中对特征参数的要求是:(1) 能够有效地代表语音特征; (2) 各阶参数之间有良好的独立性; (3) 特征参数要计算方便,保证识别的实时实现。 第2章 语音识别的基本理论 13 常用的参数有线性预测的倒谱系数 (lpcc) 和mel频率的倒谱系数 (mfcc) 。 全极点线性预测模型(lpc)是基于发音模型建立的,并假设语音信号为自回归 信号,利用线性预测分析获得倒谱参数。因此,lpcc系数也是一种基于合成的参 数没有充分利用人耳的听觉特性,对辅音的描述能力较差,抗噪声性能较差。实 际上, 人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是 不同的, 基本上是一个对数的关系。 而mfcc参数就考虑了人耳的这种听觉特性 7, 且没有任何前提假设。 大量研究表明, mfcc参数的性能优于lpcc参数 11,12。 因此, 本论文中采用了以美尔频率倒谱系数为提取特征参数(mfcc),美尔频率倒谱系 数分析法是最有效的语音分析技术之一。 它具有很高的抗噪性和鲁棒性, 但是却 较为复杂且耗时较长。 然而系统所选的语音处理芯片tms320c6713 带有浮点功能, 性能可以达到4800mips, 这正好弥补了mfcc 的不足,因此本设计在tms320c6713 系统平台上采用了mel频率的mfcc参数。 2.3.1 mfcc 参数计算流程7 mfcc参数的计算是以“bark”为其频率基准的,mel频率与线性频率的转换关 系是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论