听觉系统中语音信号处理性质研究_第1页
听觉系统中语音信号处理性质研究_第2页
听觉系统中语音信号处理性质研究_第3页
听觉系统中语音信号处理性质研究_第4页
听觉系统中语音信号处理性质研究_第5页
已阅读5页,还剩41页未读 继续免费阅读

付费下载

VIP免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号 学 号 M200770091 学校代码 10487 密 级 硕 士 学 位 论 文听觉系统中语音信号处理相关性质研究学位申请人: 罗海风学科专业: 理论物理指导教师: 龙长才 教 授答辩日期: 2011 年 1 月 2 日A Thesis Submitted in Partial Fulfillment of the Requirementsfor the Degree of Master of ScienceAuditory System Property about Speech Signal ProcessCandidate: Luo HaiFengMajor : Theoretical PhysicsSupervisor: Professor Long ZhangcaiHuazhong University of Science &TechnologyWuhan 430074, P.R. ChinaNov, 2010独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密,在_年解密后适用本授权书。本论文属于不保密。(请在以上方框内打“” )学位论文作者签名: 指导教师签名:日期: 年 月 日 日期: 年 月华 中 科 技 大 学 硕 士 学 位 论 文I摘 要随着计算机科学技术的快速发展,计算机信息的处理和判断能力进步迅速,但计算机与人类信息交流却进步较小,使得信息瓶颈问题日益严重。语音技术作为人机接口的重要技术之一,经历了半个多世纪的发展,涌现了许多重大的技术突破。在语音识别、说话人识别和语音合成等诸多领域,已经产生了大量的进入实际应用水平的商业化产品,对社会带来了巨大的变化。但是,现有语音系统在面对实际应用环境时还存在着某些限制。因此,对于人类听觉系统的性质研究,具有非常重要的意义和价值。现有的对听觉系统的大量抗噪性特性研究中,可以按照自下而上和自上而下的分析过程分为两个大类。自下而上分析过程是信号处理系统的基本功能,对声音信号的基本物理特征进行分析和归类;自上而下分析过程则是按照人的意识、注意力和经验等对声音信号的处理进行指导。其中后者作为人类听觉系统和人工系统最显著的区别,是当今听觉研究的热点领域。本研究从三个不同的方面,揭示了人类听觉系统的两个过程中的某些特性。第一个研究通过心理声学实验,发现了人类听觉系统在进行说话人识别过程中,遵循着类似信息论的信息编码方式,而且受到了语言环境的训练带来的影响。第二个研究则通过同样的方式,揭示出人类在进行说话人识别过程中,不同与现有的技术模型,利用了词汇及更长时间尺度上的连续信息。在第三个研究则揭示了在对语音信号分析过程中,除了存在现有理论揭示的分析过程外,还可能存在基于频谱包络结构这样的高级特征作为辅助,更加增强了在某些特殊环境下(如耳语环境)中的识别能力。关键词:说话人识别 听觉系统 抗噪性 信息论 频谱包络华 中 科 技 大 学 硕 士 学 位 论 文IIAbstractWith the rapid development of computer science, computer has great improvement in information processing and judgment, but computer information exchange with human has smaller progress, which makes the information bottleneck problem increasingly serious. Speech technology as one of the most important technologies in man-machine interface, experienced more than half a century of development, has made many major breakthroughs. In speech recognition, speaker recognition and speech synthesis fields, a lot of commercial products have entered the practical application stage, which brought great changes to the society. However, the existing technology in practical application environment still has some problems. So, the research of human auditory system properties is of extremely significance and value.The research on auditory systems robustness could be classified into two basic topics: bottom-up process and up-bottom process. Bottom-up process is the basic functional part of human auditory system, is used to analysis the physical character of sounds and classify them into different sound streams. But in up-bottom process, human auditory system reconstructs the sound scene based on consciousness, attention and experiences. The latter is the most remarkable difference between artificial system and human auditory system, is also the focus in auditory research field. In our research we studied these two processes property of human auditory system from three different aspects. From the first experiment and analysis, we can find that in speaker recognition process, human auditory system takes the method similar with the information theory method, is also influenced by native language environment. In the second study, we find that in speaker recognition process, people use word-length or longer information, which is different with modern modals such as GMM. In third research, we found auditory system maybe takes not only the sound clues that existing theory explored, but also high level characteristic such as the kurtosis of spectral envelope, which could improve the system ability in some special conditions, e.g. whisper 华 中 科 技 大 学 硕 士 学 位 论 文IIIenvironment.Key words: speaker recognition auditory system robustness information theory spectral envelope.华 中 科 技 大 学 硕 士 学 位 论 文IV目 录摘 要 IAbstractII1 绪 论1.1 自下而上加工过程 (1)1.2 自上而下加工过程 (7)1.3 其他相关研究 (10)1.4 本文研究内容 (10)2 说话人辨识听觉线索研究2.1 引言 (11)2.2 实验 1:不同元音所含音质特征信息测定 (12)2.3 小结 (15)3 文本无关说话人识别心理模型研究3.1 引言 (17)3.2 实验 2:顺/倒序语句判断测试 (18)3.3 小结 (20)4 时频结构检测听觉模型4.1 引言 (21)4.2 相关定义 (23)4.3 听觉特征检测器模型 (25)4.4 小结 (26)5 总 结 (27)致 谢 (29)参考文献 (30)附 录 攻读硕士学位期间发表论文 (39)华 中 科 技 大 学 硕 士 学 位 论 文11 绪 论人们对于人类听觉系统的研究已经有超过半个世纪的历史。早期的研究主要着眼于一些基本的听觉性质,如听觉感知阈限、耳蜗滤波特性等。随后的研究中引入了双耳模型,做了大量关于双耳时间差,双耳强度差,双耳效应,空间定位等工作。后来学者们认为相对于机器语音信号处理系统,人类听觉系统的优越性在很大程度上被认为是由于其有关于意识、注意力、经验等要素影响的结果,研究的热点逐渐转向了听觉系统的高级功能领域。研究者们广泛认识到后者对于听觉过程的影响非常显著:意识及注意力主导着对于声音信号信息的选择,经验知识主导着对于声音信号模式的识别,而且它们共同指导着对于已识别信号的检验和修正,对于未来信号的预测过程。从某种意义上来说,当前机器听觉系统想要达到人类听觉系统信号处理能力水平,最缺乏的就是注意力和经验知识机制的建立。这并非一件容易的事情,需要整个认知科学领域研究的深入来予以支持 1。自下而上分析过程的研究主要集中于时频、空间听觉流形成、优先效应、前向掩蔽等方面,而自上而下分析过程的研究由于其本身的复杂性,并不像自下而上过程的研究那么深入,主要涉及对于信息掩蔽,语音理解和注意力等方面的心理及生理实验研究,下面对这几个方面进行简要的介绍。1.1 自下而上加工过程自下而上的加工过程,是指听觉系统依据某些声学特征,将声信号中的不同感觉元素分配到相应的听觉流中。在这个过程中声音信息经由外耳,中耳,内耳到达中枢听觉神经系统,在传输的过程中同时完成声音的分解和重组。关于这个过程的特性研究,主要分成以下几个方向:1.1.1 时频相关听觉流声音信号中不同的感觉元素在加工时被分离重组到相应的听觉事件和声源中,华 中 科 技 大 学 硕 士 学 位 论 文2这个过程中分离和重组的特征依据已经发现的有不少,其中研究最多的就是依据声音信号中时频特征进行分离的过程。这类研究范式是给被试循环播放不同频率的短音A和B,即声音序列“ABAB” 。被试可能听到一个声音序列“ABAB”,也可能听到“A”和“B”两个同时出现的声音。A和B之间频率差越大,序列播放速度越快,被试越容易听到两个单独的声音;反之容易听到一个声音序列。近年来对此现象背后的特点和机制研究更加深入。Elyse S. Sussman2利用ERPs检测没有意识参与的被试的失匹配负波,实验证明了:(1)分离出来的听觉流各自保持着相对独立性;(2)听觉流形成过程发生在流内整合之前;(3)听觉事件的前后内容影响听觉系统对于该听觉事件的整合。这个研究的结果反映出了听觉流形成过程的一些性质。Christophe Micheyl等人 3研究了在听觉皮层水平上,这种感觉现象后面的神经机制。他们观察到了在初级听觉皮质区(A1)中听觉流形成的神经“微机制” 。还利用功能性核磁共振 (fMRI)和脑磁描记法(MEG)从人脑得到的结果表明了来自不同于A1区域的皮层区域对于听觉流形成也起到了作用。除此以外,Yonatan I. Fishman等人 4通过动物生理实验也找到了一些时频特征分流的生理依据。不过以动物为被试的实验得到的结果并不是总和人类被试结果一致。Akihiro Izumi 5的实验结果表明猴子在处理声音序列区分任务时采用频率变化线索,而且猴子比人类更依赖于局部特征作为分离线索。Elyse Sussman等人 6采用了电生理指标来记录结果的方法判断在没有意识参与情况下不同年龄的被试听觉流分离能力。结果反映了当频率近似程度为分离线索时,听觉流分离机制在小学生和成人之间基本一致。但是在类似实验中,研究者 7以不同年龄段的被试进行对照实验,却发现其频率分流能力的差异,这反映了自下而上信息加工过程受到了长期经验的影响。双耳系统不能够跟踪信号快速变化的耳间相关性,这种双耳迟缓效应被称为“双耳短时窗”一种平均移动滤波器,将一段时间上的双耳信息整合到一个声音事件中。Susan E. Boehnke等人 8研究了这个短时窗的等效矩形窗长度,给出的华 中 科 技 大 学 硕 士 学 位 论 文3结果是平均86ms。Hilmi R. Dajani等人 9对于双耳效应的实验研究给出了47和4.4ms的两个时间常数。前者可能反映了皮层的综合,和双耳感知的“呆滞现象”吻合。后者可能反映了脑干或者主要听觉皮层中相关性交互过程。除了对正常听力者的研究以外,在对非正常听力者的对照研究也可以为我们提供一些关于声音信号加工过程的信息,同时在医学领域的应用,因而显得也颇有价值。Marina M. Rose 等人 10通过正常听觉者和听力缺失者的心理声学实验,发现依据频率分流时频率差 FB 和人的频率分辨能力的生理极限 FDL 在这两种被

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论