(控制理论与控制工程专业论文)基于dsp语音处理系统的研究应用.pdf_第1页
(控制理论与控制工程专业论文)基于dsp语音处理系统的研究应用.pdf_第2页
(控制理论与控制工程专业论文)基于dsp语音处理系统的研究应用.pdf_第3页
(控制理论与控制工程专业论文)基于dsp语音处理系统的研究应用.pdf_第4页
(控制理论与控制工程专业论文)基于dsp语音处理系统的研究应用.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(控制理论与控制工程专业论文)基于dsp语音处理系统的研究应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网川大学颤l 学位论文 基于d s p 语音处理系统的研究应用 研究生刘玺 控制理论与控制工程专业 指导老师雷勇 随着现代计算机技术的普及和发展,数字电子产品的使用越来越深入到人 们的日常生活中。人类与数字化产品的交往已经密不可分。语音信号的处理作 为新时代的一个课题越来越受到人们的重视。于是通过对自然声音的识别与处 理不约而同的产生于许许多多科学研究人员的脑海中,语音识别处理的出现就 孕育而生了。人类与计算机最直接和方便的方式从理论上看确实是通过人类的 语言与之交流的形式,所以语音识别处理和语音合成技术已经成为了现代化科 技发展的一个标志,也成为现代计算机技术研究和发展的重要领域之一。 语音识别处理简单的说是将人们通过计算机采集到的自然的声音( 含有噪 声的原始声音) 进行加工处理使语音的的特点和性质能充分的体现出来。语音的 识别和处理是建立计算机听觉系统的一个基础,它使人和机器之间通过自 然的声音相互交流成为可能。语音信号处理的应用可以说是空前的,在工业自 动化控制、军事、司法鉴定、公安系统、保密通信以及人工智能和高科技第五 代计算机方便都有着广泛的应用。它与多种学科的研究领域都有着许多内在的 联系,这些领域的科研成果也成为推进语音处理技术发展的重要因素。语音识 别处理技术虽然已经取得了相当的成就和突破。但是:大多数语音处理系统仍 局限于一些特定蛉场合和实验室中,并没有达到实用化和普及化的要求。本文 针对其中一些部分进行了实验讨论研究。 本文针对语音识别处理系统中面临的主要问题和关键点,利用d s p 语音处 理系统对语音处理的一些关键点进行讨论研究。并且利用一些基本算法对语音 处理的部分参数进行实验。 论文主要完成了以下几个方面的工作: 网川大学颁卜学位论文 ( 1 ) 通过阅读大量文献和资料,了解熟悉并掌握语音识别与处理系统的基 础知识,并研究其中的丰要参数的算法。 ( 2 ) 设计f i r 滤波器并通过d s p 与之相匹配的a d 摸板,实现语音信号通 信和处理。 ( 3 ) 利用窗瀚数( 叻和短时能量函数。来求取短时平均过零率、平均能量 和短时平均幅度这样对信号的抗干扰起了很大作用。 ( 4 ) 对语音信号的端点检测算法进行改进,利用平均短时能频积来进行语 音信号的端点检测并做实验仿真得出结果。 ( 5 ) 利用改进能量门限值的方法与平均短时能频积来做比较,并分析各中 的优点和不足。 文中提到,设计1 6 阶f i r 数字滤波器对原始的语音信号进行滤波为d s p 后 续处理语音信号奠定了良好的基础。此外利用平均短时能频积和改进能量门限 值进行语音信号的端点检测能更很好的确定端点检测的闽值,信号的失真度更 小。这样一来对语音信号的整个性能的提高起到了决定性的一步。 关键词:语音处理、d s p 、过零率、平均短时能频积、端点检测 殂川大学碳卜学位论文 t h ea p pic a tio r la n dr e s e a r c hb a s e do i qd s ps p e e c h p r o c e s ss y s t e m m a j o r :c o n tr o it h e o r ya n dc o n tr o te n g i n e e r in g g r a d u a t e :l i ux ia d v i s o t :l e iy o n g w i t ht h ep r o g r e s so fm o d e r nc o m p u t e rt e c h n o l o g y ,c o m p u t e ri su s e d b yp e o p i em o r et h a np a s tt i m e b e c a u s ec o m m u n i c a t i n gt h r o u g hs p e e c hw it h c o m p u t e ri st h em o s tc o m f o r t a b l ew a y ,t h es p e e c ht e c h n o l o g yb e c a m eam a r k o ft h ed e v e l o p m e n to fs c i e n c e s p e e c hr e c o g n i t i o na n ds y n t h e s i sb e c o m e o n eo ft h ei m p o r t a n tr e s e a r c h f i e l d t h et e c h n o l o g yo f t h es p e e c hr e c o g n i t i o np r o c e s sc o n t a i n so fm o r e d i f f e r e n tf i e i d t h ed e v e l o p m e n to ft h e s ef i e l dh a sm a d ec o n t r i h u t i o n f o rt h es p e e c hr e c o g n i t i o n n o w a d a y s ,m o s ts p e e c hr e e o g n i t i o ns y s t e mi s s t i l li nt h ej ri n f a n c ya n dh a sp r o b l e m si fm i g r a t e df r o ml a b ,a n dm u c h f a rf r o mp r a c t i c a l i t y t h eu l t i m a t er e a s o n sf o rr e s t r i c t i n gp r a c t i c a l i t y c a r lb ec l a s s i f i e dt ot w ok i n d s ,p r e c i s i o nf o rr e c o g n i t i o na n dc o m p l e x i t y o ft h es y s t e m t h i sp a p e r i s j u s tr e s e a r c h i n gf o r t h et h e o r ya n d t e c h n o l o g yp r o b l e m sw h i c hp r a c t i c a l i t yo fs o m ep r o b l e m so fs p e e c hp r o c e s s , a n da l s ov a l i d a t e ss o m ep a r to ft h e mw i t he x p e r i m e n t s s p e e c hr e c o g n i t i o np r o c e s sc a nb et h o u g h to fn o to n l ya sa np r o c e s s i nw h i c hm a c h i n ee x t r a c t sc h a r a c t e rs y m b o l sf r o mt h es p e e c hs i g n a l ,b u t a l s oa ni n t e r d i s c i p l i n a r yw h i c hh a sc l o s er e l a t i o n s h i pw i t ha u t o m a t i o n , a c o u s t i c s ,1 i n g u i s t i c s ,d i g i t a ls i g n a lp r o c e s s i n ga s w e l la sp a t t e r n r e c o g n iti o n e t c t h i sp a p e ra l s oi n t r o d u c e sh o w t o d e s i g nt h es y s t e m ,i nw h i c h t m s 3 2 0 v c 5 4 1 0i su s e da si t sc o r ec i r c u i t i nt h eh a r d w a r ec i r c u i tt i c o m p a n y sd s pi su s e da sc o n t r o l l e ro fs i g n a lc o l l e c t i o na n dp r o c e s s o r t 四川人学硕_ j :学位论文 o fd i g i t a ls i g n a l t h em a i nc o n t e n t sf o rr e s e a r c ha r ea sf 0 11 0 w s : i r e s e a r c hf o rt h ec o n s t r u c t i o no fs p e e c hr e c o g n i t i o ns y s t e ma n d t h ep r i m a r yt e c h n o l o g y 2 d e s i g ns i x t e e nr a n kf i rf i i t e ra n du s ed s pt op r o c e s ss p e e c h s i g n a l 3 u s et h ew i n d o w f u n c t i o na n ds h o r t t i m ee n e r g yf u n c t i o nt og e t s h o r t t i m e a v e r a g e z e r oc r o s s i n gr a t i o ,a v e r a g ee n e r g ya n da v e r a g e a m p li t u d e 4 i m p r o v et h em e t h o do fs p e e c hs i g n a le n d p o i n td e t e c t i o n ,u s e a v e r a g es h o r t t i m ee n e r g yf r e q u e n c yt of i n do u tt h er e s u l to fe n d p o i n t d e t e c t i o n k e y w o r d s :s p e e c hp r o c e s s ,z e r oc r o s s i n gr a t i o ,a v e r a g es h o r t t i m e e n e r g yf r e q u e n c y ,e n d p o i n td e t e c t i o n ,d s p ( d i g i t a ls i g n a l p r o c e s s i n g ) 四川i 大学颁士学位论文 1 1 选题的背景及意义 第一章绪论 语音是人类相互间所进行的通信的最自然和最简洁方便的形式,语音通信 是一种理想的人机通信方式。语音通信的研究涉及到人工智能、数字信号处理、 微型计算机技术、语言声学、语言学等许多科学领域,所以说语音的通信是一 个多学科的综合研究领域,其研究成果具有重要的学术价值和应用价值。另外 通过语音来传递信息是人类最重要的、最有效、最常用的交换信息的形式。语 言是人类特有的功能,声音是人类常用的工具,是相互传递信息的主要手段。 同时也是人们构成思想交流和感情沟通的最主要的途径。 现在,人类已经进入了信息化时代,利用现代手段研究处理技术,使人们 能更加有效的产生、传输、储存、获取和应用语音信息,这对于促进社会发展 提高人们生活水平有着一t 分重要的意义。让计算机能“听懂”和处理人类的语 言,是自计算机诞生以来人们所梦寐以求的想法。随着计算机的不断更新和功 能的强大就越来越向便携化方向发展,人们越来越迫切要求摆脱键盘这种古老 繁琐的束缚而以语音输入这样直观的、便于使用的、自然的、人性化的输入方 式。因此利用人类的语言和语音同计算机进行人机交流是一个极其具有价值的 研究课题。 作为一门综合学科,语音识别处理又是以语音为研究对象,是语音信号处 理的一个重要研究方向,是模式识别处理的一个分支,甚至还涉及到生理学、 一b 理学、语言学、计算机科学以及信号处理等诸多领域,其最终目标是实现人 与机器之间进行自然的语言通讯。作为高科技应用领域的研究热点,语音信号 处理技术从理论的研究到产品的开发已经取得了长足进步。它正在直接地与办 公、交通、金融、公安、商业、旅游等行业语音咨询与管理,工业生产部门的 语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利 事业的生活支援等各种实际应用领域相互联系接轨,并且有望成为下一代操作 系统和应用程序的用户界面。可见,语音处理技术的研究将是一项极其具有市 场价值和挑战性的工作j 。 1 p q 川大学硕i 二学位论文 专家们指出,语音识别处理技术不仅可以客观的实现“人机”对话的理想, 而且能够将人类的能动性充分发挥出来。归纳起来,它具有以下几点令人神往 和独特的优点: 1 使用语音处理系统可以提高人们在嘈杂的生活环境中,利用语音传输设 备可以更有效的传递信息。 2 使用语音识别处理系统来传递和控制信息,其速度要比文字、图像等通 信方式快得多,而且更适合各种需要直接对话的场合。 3 使用语音识别处理系统可以彻底解放人们的手和眼睛。人们在进行诸如 驾驶、运动、作战等活动是可以通过语音处理系统来传递信息或同时对 其他设备,尤其是在只能听而不能看的特殊环境里能有效的完成信息传 递。 4 使用语音识别处理系统可以在有许多人的场合同时完成各种信息传递 的任务,而且它十分容易让对方注意到信息。 5 使用语音处理系统还可以利用现有的如电话、手机、扬声器等通讯器材 完成各种信息的传递和控制工作。 1 2 语音处理系统研究的历史和现状 自从e n i a c 问世之后,立刻就有人联想到要计算机能“听懂”人的说话, 并开始了这方面的研究工作。所以说,语音识别处理的研究历史与计算机的发 展历史一样悠远流长。计算的发展已历经了从电子管到晶体管以至超大规模集 成电路好几代,单单是微机的c p u 就从早期的4 0 0 4 发展到今天的奔腾4 代甚至 更高级别的涌入了普通家庭,它与我们的数字化生活密不可分。但是,与计算 机同步发展的语音处理技术似乎并没有遵循这个规律,它的产品也迟迟未能进 入活跃市场,是至今日,语音技术产品的市场日益升温,语音处理技术已经成 为计算机进一步在亿万人民群众普及的关键技术,也必将成为信息产业的标志 性技术和未来计算机的重要特征。 语音处理技术的研究与发展曾经一度举步艰难。早在5 0 年代以前,由于计 算机的计算能力和有关语音信号处理方面的理论都处于比较低的水平,有关语 四j i l 大学顺:卜学位论文 音处理的研究工作未能形成规模。而面对这一课题开展了大规模的研究却是在 上个世纪6 0 年代末和7 0 年代初。尽管初期的研究工作常常未能达到预期的目 标,确实使得人们感觉和认识到了语音处理研究的艰巨性。 就如同计算机的许多关键性技术一样,i b m 也做除了有关语音处理的开创性 研究工作。在1 9 7 2 年,i b m 成立了一个专门小组从事计算机语音识别处理技术 的开发。开发初期,仅仅一页纸的词汇就需要整整一个房间的所有计算机来同 时处理,而且这些词汇还必须是由一个特定的人非连续地读出。i b m 在语音识别 处理技术关键性领域的研究均获得了成果,包括:( 1 ) 处理语音特征:语音符号 首先被数字化,并根据经过抽取和导向的语音频率、力度等特征被分割成百分 之一秒的时间点。包含导向成分的数字化的信息是增强处理能力所必须的。( 2 ) 语音模型:技术人员根据语音的基础语音元素对真实声音的录音进行分析、分 类和分级,研制成能使一组特定人员的动态语音形式特征化的统计模型。特征 明显的语言或者方言的处理要求特征明显的语音模型。( 3 ) 统计语言模型:语言 使用类型特征化的统计模型是建立在大量实体的收集的基础上的,为了更好的 处理同一种语言的不同使用方法,就需要不同的语言模型。( 4 ) 规则发展:除了 建立语音和语言模型的基础规则,还需要各种各样的规则去概括和研究潜在的 词汇序列,通过组合相应的语音和语言模型统计来衡量每一个侯选序列的可能 性,并且选择最有可能的一个,该方法被证实有效地缩小研究范围和改善极端 复杂的正确的词汇序列研究工程方面是具有核心意义的。正是因为这种规则的 发展,实时处理大量词汇、连续的速度才成为可能。 我国语音识别处理研究工作一直紧跟国际水平,国家也建立了各种各样语 音研究计划和场所,由中科院声学所、自动化所及北京大学等单位研究开发。 鉴于中国未来庞大的市场,国外也非常重视汉语语音识别处理的研究。其中美 国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究的成果已 经达到相当高水平。因此,国内除了要加强理论研究外,更要加快从实验室演 示系统到商品的转化,并且已经取得了非常令人鼓舞的进展。 1 3 语音处理面临的难点和发展趋势 语音识别处理是一项复杂的技术,语音识别处理技术要进入大规模的实 3 网川大学硕l :学位论文 用,还需要跨越很多障碍,虽然各种处理产品层出不穷,但与语音处理的最 终目标还有一定的距离。多数的语音产品没有象预期一样给人们的人机交互 方式带来本质的影响。为什么人与人之间的语音交流如此容易,而对于计算 机来说语音处理如此困难? “w h e nw el i s t e nt oap e r s o ns p e a k i n g ,m u c h o fw h a tw et h i n kw eh e a ri ss u p p l l e db yo u rm e m o r y b yw i l l i a mj a m e s ” 人对变化的语音信号有着难以置信的抽象性、适应性、分辨和学习能力;同 时,我们依赖已有的丰富知识背景对语音信号进行判断处理,而这些是计算 机目前所不具备的能力。正因为如此,相对人而言,计算机语音处理的性能 距离理想仍然很远。例如一些优秀的语音处理系统的性能还不如幼儿处理的 能力。结合汉语语音处理的特点,语音识别处理的难点主要表现为以下几个 方面: 协同发音现象:人们说话的方式很少是按照孤立的字发音的,总是 按一定的习惯方式连续发音,声学单元受上下文环境的影响而发生模糊、变 异,字母或者单词的一部分在发音过程中其音量、音调、重音和发音速度很 可能是不同的。在语音处理系统中,无论选用什么样的建模单元( 词、音节、 声韵母、音素) ,都需要对建模单元之间的相互影响做细化处理,随之而来 的是模型数目的剧增和训练数据的匮乏。 ( d 说话人的“变异”:几乎没有两个语音是完全一模一样的,即使 是同一人用同样的语气发声方法情况下。不同的说话人由于性别、年龄、声 带等因素的不同,相同内容的发音都存在很大差异;同时由于情绪和环境的 影响,发音也会随时发生改变。随着说话人的不同,语音处理系统的适应性 表现得远不如人类本身。 对环境的依赖:语音识别处理往往表现为在某种环境下采集到的语 音训练系统只能在这种环境下适用,一旦环境发生了改变整个系统的性能将 急剧下降;另外,实际语音受到背景噪音的影响,如嘈杂的背景人声、工厂 机器轰鸣、路上行人车辆声、麦克和电话信道的畸变受干扰等情况,鲁棒性 一直是影响语音处理系统能否更好实际应用的关键因素。 ( d 方言的影响:地方口音是各种语言普遍具有的现象,而在汉语语音 中就尤其突出。发音也极其不规则,甚至相隔不远的地方方言的发音都相差 甚远,比如在一些方言中,h 和“f ”、“l ”和“n ”是不加区分、卷舌 四门i 大学硕: 一学位论文 和平舌、前鼻音和后鼻音等都是比较紊乱的。声调变化极大,这对汉语语音 处理提出了更高的要求。因此对于汉语的1 3 音类型,建立适应性强的语音处 理系统自然成为一个很有意义的方向。 就目前面临的问题来看有关研究机构对所谓的用户独立性、自然的语言 能力和新增的插入输入的能力已经取得让人欣慰的收获。用户的独立性就是 指语音处理软件能够处理不同噪音和口音的用户,无需通过专门的训练。许 多语音处理系统还需要具有自然的语音能力,即是软件理解者的能力。这种 能力不仅仅表现在特定的单词上,甚至还表现在短语和完整的句予上。而新 增的插入能力是语音处理软件的另一个主要进步,它允许用户在系统提示时 中断系统的操作,但系统依然能知道用户的请求知道用户此时想做什么。这 一点对于实际的应用意义重大。因为人们在说话时,总是在自觉不自觉的思 考,经常会打断语言的连续性,而插入一些补充性的语言。这样的语言,在 语法上通常会是不正确的,常规的语音处理系统很难处理到这些语音。衡量 一个语音处理系统成熟与否足四个重要参数就是:机器对说话者的依赖程度 ( 是否能处理非特定人的话语) 、语音的类型( 能处理连续的语音还是断续的 语音) 、话语输入格式( 发音人的话语是基于受限制格式还是自由语言格式) 、 系统词汇量的大小。所有这些都将成为语音处理的主要内容。也是以后从事 这行事业的各个组织机构或个人需要改进和创新的方向。 从目前的发展水平来看,钊对特定应用的中小词汇量、孤立词的特定人 语音处理技术发展最为成熟,非特定人、大词汇量( 无限词汇) 、连续语音处 理系统则成为研究的重点和难点。语音处理的主流框架m i 在语音处理领域 持续了近3 0 年,结合语种和任务的不同,l 埘m 模型也提出了各种改进和细 化。同时研究人员寻找更好理论框架的工作从未间断。近年来,不断有关小 波分析、数据融合、模糊理论和多层次感知器等技术尝试在语音处理领域和 应用,各种新生理论如何与统计模型想结合而应用于语音处理尤其值得人们 关注。 当前,对人类的听觉理解、知识积累、学习机制以及大脑神经系统的控 制机理等方面的认识还不够清楚,对这些人类自身奥秘的研究,并将其应用 于语音处理,我们还有很长的路要走,同时,虽然在语言学、生理学、心理 学等方面的研究成果不少,但如何将知识量化、建立模型应用于语音处理研 四川i 大学硕上学位论文 究还需要付出很大的努力。 语音处理技术的标准化研究。语音处理涉及多个专业领域。更需要有一 定的标准化工作,实现各领域的分工和协作。统一的语音库建立、标准的数 据接口、开放的开发平台和标准的测试规程都是语音处理标准化研究的方 向,就英语语音处理方面的工作要比汉语做得好,特别是统一标准的语音数 据库建立,对语音处理技术的推广起着决定性作用。目前汉语还没有一个相 对完备、权威的语音数据库,我们国家正在对这方面在以前的基础上做大量 的努力工作。 在语音识别处理商业领域,m i c r o s o f t 、i b m 、p h i l i p s 、m o t o r o l a 、i n t e l 、 l & h 、d r a g o ns y s t e m 等公司都投入了大量的研发资金和技术,积极推动了 语音处理技术的发展。目前比较成功的语音处理系统有:i b m 的v i a v o i c e 和m i c r o s o f t 的s a p i ,它们都是面向非特定人、大词汇量的连续语音处理 系统,在充分训i 练情况下,v i a v o i c e 处理率可高达9 3 ;特定任务的语音处 理系统成为市场应用的主流,d r a g o ns y s t e m 公司的医用听写机、b e l l 实验 室为a t & t 电话公司开发的自动系统都是成功的典范:美国c m u 的s p h i n x 系统、英国剑桥大学的i i t k 系统都是基于h m m 理论的语音处理开发平台,语 音处理的应用前景无限。 1 4 论文研究的主要内容和整体结构 本文针对语音处理系统中面临的主要问题和关键点,引用窗口函数( n ) 对 d s p 语音处理系统进行讨论。其中主要是对语音端点检测部分的各个参数进行讨 论研究,并利用d s p 编译软件c c s 实现语音端点检测的处理并通过m a t l a b 分析 结果。 本文共分为5 章。第一章为绪论,首先阐明了选题的背景以及语音处理的 研究意义,接着介绍了语音处理的历史和研究现状。最后介绍了语音处理面临 的主要问题和发展趋势以及本文的主要研究内容。第二章为语音处理的基本理 论概述,主要介绍了语音技术的一些基本基础知识,介绍了过零率、短时能量 等一些语音处理中的基本问题。最后通过整个语音处理系统的结构图,分别对 各个部分所涉及到的研究内容作一一介绍。其中包括原始声音的预处理、语音 6 四i l 大学顺十学位论文 信号的特征提取、线性预测分析、失真度的测试及相似度匹配计算等。第三章 为基于d s p 语音处理系统设计,主要介绍了d s p 的特点以及硬件部分的设计和 软件部分的介绍。并阐述了语音信号端点检测的具体过程以及求解方法。第四 章为语音处理在d s p 系统中的实现,是本文的重点之处也是工作的中心,本章 主要针对语音信号的预处理滤波问题进行的设计以及语音处理过程中d s p 与 a d 的通信,最后将语音识别处理中端点检测的实验求取过程作出详细的解释, 并得出最后的实验结论。文章的最后对整个论文的不足以及语音处理未来的展 望进行了阐述。 四川大学硕k 学位论文 第二章语音处理的基本理论概述 2 1语音技术的基础知识 语音是由于人的肺部收缩,压迫气流由支气管经过声门和声道音频振荡而 产生的。发音过程中声道各处的截面积取决于舌、唇、领以及小舌的位置。声 道有三类不同的激励方式,因而可以产生三类不同的声音:当气流通过声门是 声带的张力刚好使声带发生较低频率的张弛振荡,形成准周期性的空气脉冲, 这些空气脉冲激励声道便产生浊音;如果声道中某处面积很小,气流高速冲过 此处时而产生湍流,得到一种类似噪声的激励,这种方式对应与摩擦音或清音; 如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是爆破音。 根据语音信号的产生机理,可以模拟语音信号的发生系统。这个过程可以 用一个时变线性系统来模拟,综合考虑声门激励、声道和嘴唇辐射影响得到语 音信号产生的离散系统模型如图2 1 所示。 图2 1语音信号产生的离散系统模型 语音信号可以看作是激励信号u 。( ”) 激励一个线性系统h ( z ) 而产生的输 出,其中h ( z ) 是声道响应v ( z ) 与嘴唇辐射模型r ( z ) 相级联而成,即: h ( z ) = 矿( z ) + r ( z ) 8 ( 2 1 ) 四川i 大学颂:f :学位沦文 对于浊音来讲,我们还可以把声门脉冲的影响也归并到传递函数中,即 h ( z ) = g ( z ) 十v ( z ) + r ( z ) ( 2 - 2 ) 这时,浊音信号就可以看作是由一个准周期性的6 脉冲串激励一个离散线 性h ( z ) 而产生的输出了。而清音信号是由一个白噪声序列激励一个线性系统而 产生的输出,而这个线性系统仅是由声道响应y ( z ) 与嘴唇辐射模型g ( z ) 相级联 而成。 浊音信号的产生过程受声门脉冲形状g ( n ) 、声道响应v ( ”) 和嘴唇辐射影响 r ( n ) 的共同作用,可以等效为一个线性系统,称为声道系统,表达为: 九( n ) = g ( ) + v ( 竹) r ( n ) ( 2 - 3 ) 相应的z 变换为( 2 2 ) 式 而将激励信号看成是一个准周期性的j 脉冲串: p ( ”) = 8 ( n + r ,n ,)( 2 4 ) 那么浊音信号就是两者的卷积结果,如下所示: x ( n ) = p ( n ) h a r t ) 2 h 。0 + ,n p )( 2 5 ) 类似清音产生过程受声道响应v ( ”) 和嘴唇辐射影响4 n ) 的共同作用也可以 等效为一个线性系统: ,0 ( ”) = v ( n ) ,( 月) ( 2 6 ) 相应的z 变换为: h 。( z ) = 矿( z ) + 尺0 ) ( 2 - 7 ) 假设激励信号u ( n ) 为白噪声序列则为: x ( ) = h ( ) + “( ”) ( 2 - 8 ) 通过长久以来许多从事这方面工作的大量研究表明,语音信号的一个很重要 特点就是它的“短时性”,某些时段中它呈现出随机噪声的特性,另一些短时段 则呈现出周期信号的特征,其他一些时段则是两者的混合。这就是说语音信号 的特征是随时间变化而不断变化的。由于人的声道形状及其变化规律具有一定 的惯性,因此在一段短时间问隔中,语音信号保持相对稳定一致的特征,所以, 对于语音信号的分析和处理就必须建立在“短时”的这个基础上。通常这段短 的时间一般可取为5 - 5 0 m s ”“。 根据上述,针对短时分析我们可以采用平稳分析方法来处理了。以后所有的 四门1 人学硕 二学位论文 处理方法都是基于这种短时平稳的假定来进行的。现在先将语音信号通过时域 和频域来做进一步分析。 211 语音信号的时域分析 语音信号本身就是一种时域信号,对它利用其原样的时域波形,做最基本 参数的分析和用作语音的分割、预处理及大分类等。时域波形的语音处理的实 现相对容易简单一些,然而对估计语音信号的重要特征却有重要作用。 语音信号的幅度分析是基于语音信号幅度随时间有一定的变化。语音信号 的清音段幅度较小,其能量集中于高频段:而语音信号的浊音段的幅度较大, 其能量集中于低频段。因此,语音信号的幅度分析也可用于估计语音信号的特 征。幅度分析包含了幅度和能量两个方面。可以通过短时能量函数和平均幅度 函数的定义来解释。它们的定义分别如下, 短时能量函数的定义: e 。= x ( m ) c o ( n 一脚) 2 = x 2 ( m ) ( ”一) ( 2 9 ) 式中,向( ,? ) = 2 ( ) 为窗函数。( 2 - 9 ) 式给出了在采样点r l 处的短时能量, 在窗函数h ( n ) 的处理下,它相当于从n n + i 到n 的n 个采样x ( m ) 的平方和。这 里的窗是指的矩形窗,它的函数定义如下 ( ”) = l 0 一1 l ( 月) = 0其他( 2 一l o ) 窗的长短,对于能否由短时能量反映语音信号的幅度变化,将起决定性的 影响。如果窗选得很长,他就相当于一个很窄的低通滤波器,此时e 随着时间 有急剧变化,不能得到平滑的能量函数。因此短时窗应选择得合适,使短时能 量反映语音信号快速的幅度变化。一般在5 - l o k h z 的采样频率下,n 可选为 1 0 0 2 0 0 1 3 + 。 平均幅度函数的定义是: m 。= x ( n ) l ( 月一m ) m 一+ l ( 2 1 1 ) 由( 2 - 1 1 ) 式可知,平均幅度函数是计算加权了的信号绝对值之和。由于短 四j i l 大学坝:l 学位论文 时能量函数是信号的平方和,因此他对高电平信号是很敏感的。 过零分析是语音的时域分析中比较简单的一种分析。由时间横轴的连续语 音信号,可以观察到语音的时域波形通过横轴的情况。在离散时间语音信号情 况下,如果相邻的采样具有不同的代数符号也即是说从正变为负或从负变为正 信号就称为发生了过零。由此可以计算得到过零的次数。单位时间内的过零次 数称为过零率。一段长时间内的过零率称作平均过零率。对于窄带信号,平均 过零率是信号频率量的一个简单的度量。然而,语音信号是宽带信号,所以用 平均过零率就显得不是太贴切。此时应用短时平均过零率可以得到频谱特性的 粗略估计。短时平均过零率是基于一种短时处理技术,短时平均过零率可用下 式表示: q ,2 兀z ( ) ( ”一) ( 2 一1 2 ) 在( 2 - 1 2 ) 中,x ( ) 为某采样频率采样得到的语音采样序列,7 1 x ( 卅) 】是在 z ( m ) 序列对应线性或非线性变换的幅度值,而c o ( n m ) 为窗序列,它位于与采 样标志n 相一致的时间,最后将变换后得到的语音采样序列的窗序列的乘积的 所有非零值之和。 语音短时处理的一个重要问题是采样个数n 应该取多大。如果采样频率t 为8 k h z 左右就已经能满足语音处理的要求。那么在1 0 k h z 的采样频率下,n 实 际选择在10 02 0 0 之间,对应的持续时间为8 - 1 6 m s 。根据经验关于采样频率和 采样点个数的选择根据表2 1 可以得到。 表2 1 采样频率与采样点个数选择对应表 采样频率 ( h z ) 采样点个数n ( 个)持续时问( m s ) l k 5 k1 0 5 0 1 0低频 5 k l o k5 0 2 0 01 0 2 0低频 l o k 2 0 k1 0 0 5 0 0l o 2 5中低频 2 0 k 5 0 k5 0 0 1 0 0 02 0 2 5中高频 5 0 k l o o k1 0 0 0 2 5 0 02 0 2 5高频 l o o k 以上2 5 0 0 以上2 5 左右高频 四jr 1 k 学硕二学位论文 短时平均过零率的定义为: z 咖= 妻is g n x ( 川) 卜s g n x ( 肌一1 ) l 甜( 一m ) ( 2 - 1 3 ) 其中s g n 为符号函数为 涮曼蒜: 【s g n x ( n ) = 一1x ( n ) m ,那么可以 将 r 0 ) ,尺( 2 ) ,j r ( m ) ) ,用线性扩张映射为一个n 帧序列 r ( 1 ) ,尺( 2 ) ,月( m ) ) , 在计算后者与 7 _ ( 1 ) ,r ( 2 ) ,7 - ( ) ) 之间的总失真,这时计算可按第一种情况逐帧 进行。线性扩张映射的计算公式如下: 矾,= ( 一警棚h + ( 等一 脚, m n 矿m + 1 ,月= 2 ,3 ,c 2 - 3 3 )j , 从上面的( 2 - 3 3 ) 计算关系我们可以看出,线性映射虽然在计算总失真的方 法上有了明显的提7 1 ,但是并未反映语音段落在不同情况下的时间的变化,处 理的效果不是最佳的。为了将不同长度的模式进行对准,而且尽可能小地引入 误并从而汰到最伟效巢。 2 3 本章小结 本章介绍了语音处理系统的主要步骤:在对语音信号进行了必要的预处理 之后,将原始的语音信号变成更合适的信号处理形式,在这个基础上,提取语 音信号的特征参数,并将这些特征参数以规范化的形式储存,形成模式库,得 到处理结果。并且概括了每步处理的方法。这部分是对语音处理系统的初步的 了解。 从上面的讨论中可以看出,进行语音处理研究的共识问题,在语音处理研 究中的热点和难点主要体现在以下几个方面: 1 ) 鲁棒性。目前的语音处理系统对环境条件的依赖性强,要求保持测试 条件和训练条件的一致,否则系统性能将会严重的下降。 2 ) 噪声问题。现有的语音处理系统大多数只能工作在安静的环境下,一 旦在噪声环境下工作,讲话人产生情绪或者心理上的变化,导致发音失真、发 册川大学硕l :学位论文 音速度和音调的改变。 3 ) 语音处理基元的选择。如果根据存储空间等问题选择合适的处理单元, 如词、音节、音素。一般来说,要处理的词汇量越多,所用的基元越小越好。 4 ) 韵律信息的利用。韵律信息指的是说话之中的重音、语调等超音段信 息。实验表明,人可以根据说话的韵律中获取很多重要信息。但目前的语音处 理系统却忽略了这个问题。依次,如果在语音处理中结合韵律研究还有待进一 步的研究。 5 ) 为了保证语音处理系统的实时性和有效性,匹配算法也至关重要。匹 配算法应该既可以具有较高的处理率,还能在可以接受的时间内完成整个处理 的过程。 语音处理系统的优点是显而易见的,但现在的实际情况是语音处理系统仅 仅是很有限的使用在一些有限的场合,这些都是由于上述问题的存在,它们严 重的制约了语音处理的推广和完善,只有有效的制止这些问题的出现,才能推 进语音处理系统更加广泛的应用。因此现有的研究大多数是基于上述的问题。 本篇文章也是钊埘其中的某些问题作以讨论研究。 四川火学坝:i :学位论文 第三章基于d s p 语音处理系统设计 3 1 d s p 与t m s 3 2 0 c 5 4 x x 硬件结构简介 d s p ( d i g i t a ls i g n a lp r o c e s s o r ) 指的是数字信号处理器,也称为d s p 芯片, 是一种专门用于数字信号处理的微处理器。d s p 的内部采用程序和数据分开的哈 佛结构,具有专门的硬件乘法器,采用流水线操作,提供特殊的d s p 指令,可 以用来快速的实现各种数字信号处理算法。根据数字信号处理的要求,d s p 具有 一些主要特点: 在一个指令周期内可完成一次乘法和一次加法; 程序和数据空间分开,可以同时访问数据空间和程序空间; 片内具有快速r a m ,通常可通过独立的数据总线同时访问两块芯片: 具有低开销或零开销循环及跳转的硬件支持; 具有在单周期内操作的多个硬件地址产生器; 快速的中断处理和硬件i 0 支持; 可以并行执行多个操作,支持流水线操作,取指、译码和执行等操作 可以流水执行。 d s p 是一种特殊的专用微处理器,是高性能系统的核心。不仅具有可编程性, 而且其实时运行速度远远超过通用的微处理器,其特殊的内部结构、强大的信 息处理能力以及较高的运行速度,是d s p 最重要的特点。 t m s 3 2 0 c 5 4 x x ( 以下简称c 5 4 x x ) 是1 6 b i t 定点d s p ( d i g i t a ls i g n a l p r o c e s s o r ) ,适应远程通信等实时嵌入式应用的需要,它有高度的操作灵活性 和运行速度,使用改进的哈佛结构( i 组程序存储器总线、3 组数据存储器总线、 4 组地址总线) ,具有专用硬件逻辑的c p u 、片内存储器、片内外围设备以及一 个高度专业化的指令集。 c 5 4 x x 具有以下的优点 ( 1 ) 围绕l 组程序总线、3 组数据总线和4 组地址总线建立的改进型哈佛结 构,使得性能和多功能得以提高。 四川人学硕i :学位沦文 ( 2 ) 具有高度并行性和专用硬件逻辑的c p u 设计,使芯片性能大大提高。 ( 3 ) 高度专业化指令集,更适用于快速算法的实现和高级语言编程的优化。 ( 4 ) 模块化结构的设计、使派生器件得到了更快的发展。 ( 5 ) 最新的i c 制造工艺,提高了芯片性能,降低了功耗。 ( 6 ) 最新的静态设计技术使得芯片具有更低的功耗和更强的辐射能力。 中央处理器单元( c p u ) 包括了: i ) 一个4 0 b i t 的算术逻辑单元( a l d ) ;。 2 ) 两个4 0 b i t 的累加器( a c c a 和a c c b ) ; c 5 4 x x 使用4 0 b i t 的算术逻辑单元和两个4 0 b t i 的累加器来完成二进制补码 的算术运算。 3 ) 个4 0 b i t 的桶形移位器;c 5 4 x x 的桶型移位器有一个与累加器或数据 存储器( c d 和d b ) 相连的4 0 b i t 输入,一个与a l u 或数据( e b ) 相连接的4 0 b i t 输出; 4 ) 1 7 x l7 b i t 乘法器( 姒c ) ; 5 ) 4 0 b i t 加法器( a d d ) : 6 ) 比较、选择和存储单元( c s s u ) : 7 ) 指数编码器; 8 ) 各种c p u 寄存器( c p u 寄存器是存储器映射的,能快速恢复和保 存) 刚3 叫。 3 2 语音处理硬件系统 语音处理系统的整个硬件主要是由t m s 3 2 0 c 5 4 x x 系列d s p 同普通计算机结 合组成的硬件系统。作为高性能的专用数字信号处理器,d s p 芯片一方面采用了 哈佛结构,将程序与数据的存贮空间分开。另一方面的特点就是,采用了流水 线技术将各条指令的执行时间重叠,执行完第一条指令的第一步以后,紧接着 执行该指令的第二步,同时执行下一条指令的第一步,使得指令执行加快。因 此处理速度的大大提高到1 6 0 0 m i p s 以上更是令人瞩目。如此在运算速度上独占 熬头的d s p 性能特点,能充分的满足语音处理的快速性,和灵活性。也能更好 的满足语音处理系统的实时性要求。 四川大学硕:f j 学位论文 3 21 语音处理硬件系统设计 图3 1 为语音处理硬件系统结构图。 图3 1语音处理系统硬件结构 该系统以t m s 3 2 0 v c 5 4 1 0 为核心电路,可以对语音信号进行采集和处理。 t m s 3 2 0 v c 5 4 1 0 是t i 公司生产的从属于t m s 3 2 0 c 5 4 x x 系列中的一种工作灵活、高 速、具有较高性价比、低功耗1 6 位定点通用d s p 。它在通信等领域已经得到广 泛的应用。系统中把由话筒采集近来的模拟语音信号,转换成数字语音信号。 其中戏口r a m 为数据存储和程序存储器。而a d 、d a 采用的是t l c 3 2 0 a d 5 0 c , 该器件工作方式的设定和采样率均可以由d s p 编程来实现,所以t l c 3 2 0 a d 5 0 c 使用灵活、设置容易、与t m s 3 2 0 v 5 4 1 0 的连接易于实现。语音信号先有话筒采 集送入放大电路,通过滤波和音频接口以及a d 转换输入到d s p 中。d s p 通过运 算和处理将得到的信号与一般的计算机也可以是单片机相互通信,通过计算机 或者单片机的外围电路显示所得到的处理结果。 3 22u s b 5 4 1 0 e v m 模板 u s b 5 4 1 0 e v m 是一块可以单独运行又可以通过全速( f u l 卜s p e e d ) u s b 接口与 四川人学硕t 学位论文 主机连接的评估板块,可以用来检测、确定c 5 4 x x 系列数字信号处理器的性能 是否满足实际应用的需要,同时也是开发和运行c 5 4 x x 系列处理软件的非常优 秀的开发平台。评估板上使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论