版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、苗立,东北学院大学秦皇岛分校电子情报系,第二章语音信号处理的基础知识,语音信号处理,语音(Speech)=语音(Acoustic )语言(Language )语音是由一系列音素组成的语言的语音。 语音:人们说话时发出的语言叫做语音。 人们进行信息交换的声音,是构成语言的声音/具有语言信息的声音。 语音信号的基本概念,第二章语音信号处理的基础知识,对语音的研究包括两个方面,1 )语音中的各个声音的排列受几个规则控制,这些个的规则及其含义的研究被称为语言学(linguistics )。 语言学是语音信号处理的基础。 例如,可以利用句法和语义信息,减少语音识别中的搜索匹配范围,提高正解率。 第2章语
2、音信号处理的基础知识,其语音学与语音信号处理的联系更加密切。 例如,利用现代信号处理技术建立发音的数学模型,使用决定发音方法的音响和非定常信号的分析理论,说明各种声音现象的声音信息的存储形式等。 2章语音信号处理的基础知识,2 )语音中各音的物理特性和分类的研究称为语音学(phonetics )。 这是考虑了声音生成、声音识别等过程,以及各声音的特征和分类。 语音学的基本内容包括:说明发音语音学决定发音反应历程的音响语音学信号解析理论声音现象的听觉语音学识别过程、声音信号的发生声音信号的感知的线性发生模型声音信号的非线性发生模型(理解)、本章主要讨论的问题:第2章声音信号处理的基础知识、人的发
3、言过程分为5个阶段, 想说的声音信号的发生,脑中枢,发音器官,空气,听觉器官,脑中枢,声音的发音器官,声音信号的发生,肺和气管:能量源咽:包括声带和声门通道的振动源:谐振器,从声门到唇的呼吸路径,包括咽腔,口腔在内的正常的呼吸系统空气能够进入肺,说话时腹部肌肉收缩横隔膜从肺部呼出的气流是由声音产生的主动力。 气管将肺部呼出的气流输送到咽部,是肺部气流的通道。 气管的上端是喉咙。声音信号的发生,喉位于气管上端,实际上是由气管末端的环绕软骨组成的一个信息帧:前方稍高的软骨称为甲状软骨,前后方向环绕一周的称为喉环状软骨,喉中的两块肌肉称为声带,声带间的空隙称为声门。 声带打开时,声门打开,空气可以自
4、由呼吸,正常呼吸处于这种状况下声带关闭时声门关闭。 声门和声带说话时,声带通过软骨相互靠近,但没有完全关闭,声门形成狭缝。 气流通过气管通过咽头时,勒紧的声带因气流的冲击而振动,不断开闭,一连串的喷气流从声门向上送出。 我们将声带的接近、Tp、基音周期、声带的开闭称为振动。 这个振动过程每周重新开始一次,一系列周期性的脉冲气流被输送到通道。 在这个过程中发出的声音叫浊音。 例如,对外汉语发音的a、I、u、o等。 声音信号的发生、F0=1/Tp、基本声音频率由声带的质量决定。 由F0的大小决定声音的高度,称为音高。男性60-200Hz的女性和小盆友60-200Hz的女性,200-450Hz的女性
5、,基频(Fundamental Frequency) F0,声音信号的产生,声带的重要残奥仪表:大致分为频道,人,然后频道(喉腔,咽腔,口腔)的响应当气流在通道中流动时,该频率被放大,好像通过了具有某种谐振特性的腔一样,形成了在光谱上对应的位置的峰值,被称为谐振峰值。 说话时,由于舌头和嘴唇的连续运动,频道的形状发生变化,共振频率发生变化,发出不同的声音。 信道的不同形状对应于不同的谐振频率。 声带的振动频率、输出气流的频率、信道的共振特性、声音信号的发生、鼻端、唇、共振频率的校正、共振频率,Fn=(信道的横截面均匀,在发生元音字母e时,信道大致均匀。 L=17cm,声道长度n=1,2, 将3
6、称为第一共振峰值F1=500Hz、第二共振峰值F2=1500Hz、第三共振峰值F3=2500Hz、c=340m/s的共振峰值与同一人不同,发出不同的声音,共振峰值也不同,声道的作用相当于一个过滤烟嘴,它放大某个频率(有) 前三个共振峰的大致范围(Hz ),声音信号的发生,鼻腔的作用得到软颚的帮助,可以通过空气,例如,n,ng是鼻音韵母,m,n,l是鼻音声母。 鼻腔是谐振器,由于形状是固定的,所以谐振峰的频率是固定的。 口腔与鼻腔、口腔的作用、声音信号的产生、将空气从口腔中从人体中排除而产生的声音称为口音。 由于口腔形状不固定,共振峰的频率也不确定。 与激励频道的铃鼠等效,声音信号的发生,激励源
7、:声带振动频率基频(基音频率)清音带不振动浊音声带振动频道:可变谐振器的形状,不同的声谐振(谐振)频率,发音的分类,浊音(voiced sounds ) : 浊音的激发源与准周期的脉冲信号等价。 清音(unvoiced sounds ) :声带不振动,在声道的某个地方保持收缩,气流在声道中收缩后,高速引起湍流,经过主声道(咽、口腔)的调整,变得无声。 清音的激发源与光合十礼噪声信号等效。 爆炸声:通道关闭后产生压缩空气,打开突然地通道后产生的声音。声音信号的发生、声音信号的发生、声音是发声器官发出的声波,具有一定的音色、音调和音强和音长。 音色:也被称为音质,是某个声音区别于其他声音的基本特性
8、。 声带的振动频率、发音器官的送气方式与声道的形状、尺寸密切相关。 音调:声音的高低取决于声波的频率。音强:音的强弱,声波的振幅决定音的长度:音的长度,发音持续时间的长度,声音的基本音响特性,声音信号的发生,声音信号的时域和频率域的显示,声音信号的发生,声音信号的时域波形,结论1 :时间的连续函数,频率幅度的经时变化结论3 :元音字母为准周期函数(基频), 结论4 :清噪是随机起伏,声音信号的发生,声音信号的频率域波形,F1=500Hz,F2=1000Hz,F3=1500Hz,、2 )图案的纵轴对应于频率,横轴对应于时间,图像的灰度对应于信号的能量。 3 )声道的共振频率以黑带,浊音部分出现条
9、纹为特征,但是此时的时域波形具有周期性,在清音的时间间隔比较致密4 )“声纹”用于说话者识别,load mtlb specgram(mtlb,512,Fs声音信号的生成, load specgram.mat wavplay(a,Fs) specgram(a,512,Fs,Kaiser (500,5,5 ),475 ),元音字母是构成音节的主干,从长度和能量来看,在音节中占主要位置的辅音是音节的前端或音节:发音时,明显感觉到的声音片断是音节。 一个音节由一个音素或多个音素构成。 单词的最小单位是音节,句子的最小单位是单词。 1 )音素和音节、声音信号的发生、音系简单,对外汉语中1个文字是1个音节
10、,一般由23个音素组成,而且音素少,音节少。 英语中一个单词由多个音节组成,一般是23个,一个音节由多个音素组成,一般是14个。 清辅音多,听觉清亮、高扬、舒适、柔和。 有鲜明的轻音和小盆友化韵,单词分界清晰,语言表达准确丰富。 2 )汉语语音的特征是,在对外汉语,由音素构成声母和韵母。 声音信号的发生,声母:从音节开始的辅音,声母完全由辅音担当,但辅音不等于声母。 因为辅音也可以作为韵尾放在音节的末尾。 (21个) b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c,所有的元音字母都是浊音。 根据a、o、e、I、u、单韵母(元音字母) ai、ei、ao、ou、i
11、a、ie、iao、iou、ua、uo、uai元音字母不同,有不同的基音频率和共振峰值模式,它们是区分不同韵母的重要的残奥计量器。不同韵母的重要残奥仪表,区分语音信号的发生,有如下不同的概念,用于区分语音信号的发生,浊音和清音的留心:分类声带振动。 元音字母和辅音:按音素的发音特征分类,与声道中的可动部分和固定部分的接触点的位置密切相关。 声母和韵母:按音节的结构区分。 肯定是浊音。 辅音包括浊音和清音。 英语:由元音字母和辅音(这些个都是音素)构成音节,由几个音节构成一个词。对外汉语:在对外汉语,用元音字母和辅音构成声母和韵母,声调组成一个音节,一个音节是一个字。 声母、韵母、声调是汉语语音的
12、三要素。 汉语语音之一与其他语言不同的是具有声调(音调)。 声调是一音节念法上高低升降的变化,对外汉语有阴平()、阳平()、上声()、去声()四个声调。 (4)汉语音节的一般结构是语音信号的发生、声调的变化是基音周期的变化,为了具体地描绘灰度值,采用“五度记数法”,用纵线表示语音的高低,从下往上依次表示1、2、3、4、5,5高、4半高、3中、2半上声、去声、声音信号的产生、单独发声的一个音节或声音流的任何一个音节都是可能的无声区间、一个声音信号的产生、二声音信号的感知(自学)、听觉系统耳的结构听觉的形成耳蜗的作用听觉特性人耳的听阈及响度我屏蔽效应对云同步屏蔽各种不同的掩蔽效应,进行异常屏蔽、三
13、语音信号的线性生成模型、激励模型(肺部、气管、声带)声道模型(咽腔、口腔、喉腔、鼻腔)辐射模型(口唇、鼻孔)完整语音信号的数学模型,本节主要讨论的问题:三语音信号的、激励模型、激励模型、三语音信号的线性生成模型、肺部气流与声带的共同作用在产生浊音的情况下,声激励是准周期的单位脉冲串,爱情动作片为了使增益残奥计即浊音的激励信号接近声门振动气流的实际波形,需要使脉冲序列通过声门脉冲模型滤波器(实际上是斜三角波形) G(z )。 最后形成以基音周期为周期的斜三角形脉冲波。 1 )浊音激励,三语音信号的线性发生模型,Tp是脉冲周期,声门波模型产生单一声门脉冲,单位脉冲串,单位脉冲串及振幅的z变换形式,
14、三语音信号的线性发生模型,将其表示为z变换,有脉冲串: E(z )浊音的n-1是斜三角波N2是其下降部分的时间,2 )清音激励、清音激励模拟随机噪声,实际上一般使用平均值0、色散值1的白噪声。三语音信号的线性生成模型将声激励分为两种情况,与实际不完全一致。 例如爆破声在气流声门完全关闭的地方下面产生压力,消除其障碍,迅速释放压力,产生瞬间的激励。 以上的声学模型没有考虑。 应该以一定的比例叠加两种激励,更符合现实。三语音信号的线性生成模型、信道模型(共振峰值模型)、线性系统信道V(z )、uG(n )、ul(n )、三语音信号的线性生成模型,1 )语音在信道中的传播与很多物理定律(能量守恒)有
15、关,有不同的模型2 )语音信号是非平稳信号,是激励和信道然而,由于在2030ms中音频信号平稳,即激励与信道几乎没有变化,所以在该时间段系统被认为是线性的。 用数学方法描述频道的调音特性。 音响管模型和共鸣峰值模型、三声音信号的线性发生模型、1 )音响管模型的“短时间”间声道是形状稳定的级联反应管道,音响音在不同的截面积间传播时反射。反射系数: Km(Am 1 - Am)/(Am 1 Am) Am,Am 1是m,第m 1段的截面积Km是声道的特性,确定Km的话声道确定。A1 A2 A3.(a )立体图(b )剖视图、2 )共振峰值模型、三声音信号的线性产生模型、声道近似是共振器,共振峰值是该空洞的共振频率,从共振峰值的观点出发,将描述声道的模型称为共振峰值模型。 一般的共振峰个数为35个。p、ak决定声道的特性(人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 旅行社计调员岗位面试要点介绍
- 吸痰护理的适应症与禁忌症
- 应届毕业生就业方向指南
- 法治教育演讲模板
- 旅游公司策划部总经理助理的职责与挑战
- 客户回访与满意度提升案例分析
- 护理工作沟通技巧
- 零售连锁店总经理的招聘面试技巧
- 乐高玩具市场部专员招聘面试流程解析
- 护理信息技术应用与趋势
- 2026年及未来5年中国UPS电池行业市场全景监测及投资战略咨询报告
- 2025年新《煤矿安全规程》知识竞赛试题及答案
- 2026年常州纺织服装职业技术学院单招职业技能考试题库附参考答案详解(夺分金卷)
- 2026年通信安全员ABC证考试题库及答案
- 2026年温州永嘉县国有企业面向社会公开招聘工作人员12人考试备考题库及答案解析
- 2026小学教师资格证考试《综合素质》能力测试试题含答案
- 小区公共食堂经营管理办法
- 家长夜校实施方案
- 2026年武汉启云方科技有限公司校园招聘-备考题库参考答案详解
- 北京协和医学院攻读医学科学(理学)硕士学位研究生培养方案
- 船舶绿色制造技术
评论
0/150
提交评论