已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章语音信号的数字模型 2 1概述 1 2 2语音的发音机理 2 3语音的听觉机理 3 2 4语音的感知 4 2 5语音信号模型 5 2 6语音信号数字模型 6 2 2 1概述 本章重点介绍语音信号产生的数字模型 对语音信号的特性和听觉特性做一般介绍 2 2语音的发音机理 1 组成 肺和气管组成声源 喉和声带称为声门 由咽腔 口腔 鼻腔组成声道 2 2 1人的发音器官 2 功能肺 产生压缩气体 通过气管传送到声音生成系统 喉 控制声带运动的复杂系统 主要包括 环状软骨 甲状软骨 杓状软骨 声带 a 闭合状态 b 张开状态 图2 2喉的生理结构 声门 声带之间的间隙称为声门 主要功能 产生激励 声道 指声门至嘴唇的所有发音器官 包括 咽喉 口腔和鼻腔 主要功能 传输调制声波 声道的形状变化由舌 软腭 唇 牙决定 口腔包括 上下唇 上下齿 上下齿龈 上下腭 舌和小舌等部分 上腭又分为 硬腭和软腭两部分 舌又分为 舌尖 舌面和舌根三部分 鼻腔在口腔上面 靠软腭和小舌将其与口腔隔开 当小舌下垂时 鼻腔和口腔便耦合起来 当小舌上抬时 口腔与鼻腔是不相通的 口腔和鼻腔都是发音时的共鸣器 图2 3声道纵剖面图 图2 4发音器官机理模型 空气由肺部排入喉部 经过声带进入声道 最后由嘴辐射出声波 这就形成了语音 声门子系统 声道系统 辐射系统 2 2 2语音生成 语音生成动作可分为两种功能 1 激励 2 调制 2 2 2语音生成 浊音 空气流经过声带时 如果声带是崩紧的 则声带将产生张弛振动 即声带将周期性地启开和闭合 声带启开时 空气流从声门喷射出来 形成一个脉冲 声带闭合时相应于脉冲序列的间隙期 这种情况下在声门处产生出一个准周期脉冲状的空气流 该空气流经过声道后最终从嘴唇辐射出声波 这便是浊音语音 这个准周期脉冲的周期即为基音周期 基音周期 声带每开启和闭合一次的时间 其倒数称为基音频率 基音频率是由声带张开闭合的周期所决定的 男性的基音频率一般为50 250Hz 女性基音频率为100 500Hz 2 2 2语音生成 清音 空气流经过声带时 如果声带是完全舒展开来的 则肺部发出的空气流将不受影响地通过声门 空气流通过声门后 会遇到两种不同情况 一种情况是 如果声道的某个部位发生收缩形成了一个狭窄的通道 当空气流到达此处时被迫以高速冲过收缩区 并在附近产生出空气湍流 这种湍流空气通过声道后便形成所谓摩擦音或清音 2 2 2语音生成 爆破音 另一种情况是 如果声道的某个部位完全闭合在一起 当空气流到达时便在此处建立起空气压力 闭合点突然开启便会让气压快速释放 经过声道后便形成所谓爆破音 共振峰频率或共振峰声音产生后 便沿着声道进行传播 声道可以看成是一根具有非均匀截面的声管 在发音时起着共鸣器的作用 声音进入声道后 其频谱必定会受到声道的共振特性的影响 声道是一个谐振腔 具有一组共振频率 称为共振峰频率或共振峰 共振峰及其带宽取决于声道的形状和尺寸 因而不同的语音对应于一组不同的共振峰参数 共振峰的计算 假设声道截面是均匀的 此时可把声道看作一个粗细均匀圆筒 从喉到唇的距离L 17cm 音速c 340m s 则共振峰频率将发生在 2 3语音的听觉机理 2 3 1听觉器官人的听觉器官包括 外耳 中耳和内耳 图2 9人耳结构示意图 2 3 2语音信号听觉模型 图2 10语音信号听觉模型一般原理框图 2 4语音的感知 音质也称音色 是一种声音区别于其他声音的基本特征 音调声音的高低 取决于声波的频率 频率快则音调高 频率慢则音调低 音强即音量 又称响度 由声波震动幅度决定的 音长即声音的长短 取决于发音持续时间的长短 2 4 1语音的基本特性 声音的物理属性 音素是语音的最小 最基本的组成单位 音节是最小的语言片段 一个音节由一个或几个音素组成 单词是由音节结合而成的更大单位 是有意义的语言的最小单位 句子是单词的进一步组合 语音的组成单位 一个音节由元音和辅音构成元音 由声带振动发出的声音 其特点由声道的形状和尺寸决定 所有的元音都是浊音 辅音 由呼出的气流克服发音器官的阻碍而产生的 发辅音时声带不振动 则形成清音 声带振动则形成浊辅音 汉语的特点 因素少 音节少 汉语中的音节即字音是由声母 韵母和声调按一定方式构成的 即由声 韵 调三个音素构成的 2 4 2语音的时间波形 清音的波形特点 类似于白噪声 具有很弱的振幅 浊音 元音 的波形特点 具有明显的准周期性 并具有较强的振幅 2 4 3几个概念 1 人耳能听到声音的频率范围大约为 20Hz 20kHz 2 人耳能承受的声压级范围是0 130dB 3 人耳能感觉的描述声音的三个特性 响度取决于声音的幅度 单位是宋 sone 人耳对3K 4KHz声音的音强感觉最灵敏 音调人耳对声音频率高低的感受 单位是美 Mel 音色也叫音质 反应了声音的属性 两个响度不等的声音作用于人耳时 则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受 使其变得不易察觉 这种现象称为掩蔽效应 在掩蔽情况下 被隐蔽音的听阈会提高 即加大被掩蔽音的强度才能听到 2 4 4掩蔽效应 利用人耳的听觉掩蔽 在进行语音压缩时 让量化噪音的频谱跟随语言信号频谱包络变化 则共振峰的频率成分就会掩蔽掉量化噪声 这个技术称为噪声整形或听觉加权处理 掩蔽效应的作用 2 5语音信号模型 语音信号的数字模型 利用数字技术模拟语音信号的产生或是利用数字信号处理技术来实现发音器官的模拟 在一些合理的假设下 在较短的时间间隔内 20 30ms 语音信号被看成是线性时不变系统 声道 在随机噪声或准周期脉冲激励下的输出 uG n Av 冲激序列发生器 声门脉冲模型G z 随机噪声发生器 基音周期T0 Au 清 浊音开关 浊音激励 清音激励 2 5 1激励模型 1 浊音激励 发浊音时 由于声门不断开启和关闭 产生间歇的脉冲 经仪器测试它类似于斜三角形的脉冲 单个斜三角波的频谱表现出一个低通滤波器G ej 的特性 可以把它表示成z变换的全极点形式 整个浊音激励模型可以表示为 周期性的斜三角波脉冲串可以看做是一串加权的单位脉冲序列去激励上述单个斜三角波模型实现 这个单位脉冲串和幅值因子可以表示成下面的Z变换形式 2 清音激励发清音时声道被阻碍形成湍流 所以可把清音激励模拟成随机白噪声 此处用均值为0 方差为1 在幅值上为平稳分布的序列 2 5 2声道模型 声管模型 声管模型是假定声道由多个等长的不同截面积的管子串联而成的系统 并假定管子中的流体及管壁没有热传导和粘滞的损耗 在短时间内 声道可表为形状稳定的管道 并可以认为声波是沿管轴传播的平面波 2 5 2声道模型 共振峰模型 共振峰模型就是将声道视为一个谐振腔 共振峰就是这个腔体的谐振频率 三种共振峰模型分别是 级联型 并联型和混合型 1级联型 元音 声道是一组串联的二阶谐振器 一个谐振腔对应1个共振峰频率 P为极点个数 G是增益参数 为常系数 传输函数 2并联型 大部分辅音 适用于鼻音 复合元音及大部分辅音 发这些音时发音腔体具有反谐振特性 必须在模型中加入零点以减弱谐振强度 故要考虑用零 极点模型 通常 P R 若分子与分母无重根 则上式可分解为部分分式之和 每一个二阶因式对应一个共振峰 每个二阶谐振器的幅度可单独控制 3混合型是一种比较完备的共振峰模型 能够根据不同性质的语音进行切换 2 5 3辐射模型 线性系统唇辐射R z ul n pl n 在发音腔道内形成的气流经由嘴唇端辐射出来 到达听者耳朵的这段过程 声音信号会衰减 而且有高通滤波的特性 我们常用一个一阶的数字高通滤波器拟这个现象 其数学式如下 有三部分作用施加在语音的声
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 租场地合同协议样本
- 磷石膏施工合同范本
- 结婚如何签署协议书
- 电动车拍卖合同范本
- 健康教育质量评价标准
- 宫颈糜烂常见症状及护理护理要领培训
- 哮喘病常见症状剖析及护理技能训练
- 急诊外科疾病健康宣教
- 如何开展心理训练
- 2025-2026学年安徽省天一大联考高二10月联考试地理试卷
- 知道网课《国际友人在中国(西北大学)》课后章节测试答案
- 2025年智能手表用户需求评估研究报告
- 入股中药材的协议书5篇
- 设备安全事故培训课件
- 福彩站点培训课件
- 日出印象莫奈课件
- 平衡火罐课件
- 冬季企业安全生产培训课件
- 教学设计创新汇报课件
- 2025自贡开放大学公需科目答案
- 2025年体育赛事安全管理挑战及应对策略试卷及答案
评论
0/150
提交评论