




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数字语音处理基础第一页,共八十七页,编辑于2023年,星期日第2章数字语音处理基础2.2听觉的生理器官与心理2.1发音的生理器官与过程2.4语音学基础及汉语语音学2.3语音和语言2.5语音信号的特性分析第二页,共八十七页,编辑于2023年,星期日第2章数字语音处理基础2.1发音的生理器官与过程语音:由人体发音器官在大脑控制下的生理运动产生。发音器官:由肺和气管、喉(包括声带)、声道(咽腔、鼻腔和口腔)三部分组成。
◆肺和气管:整个语音系统的能源提供者
◆喉:主要的声音生成机构
◆声道:则对生成的声音进行调制肺:胸腔内有弹性的海绵状物质,可存储空气。肺的功能:
◆呼吸功能,进行气体交换
◆提供能量,将压缩空气供给发音器官气管:连接肺和喉,是肺与声道联系的通道第2章
数字语音处理基础2.1发音的生理器官与过程同济大学电子与信息工程学院-3-赵晓群
教授第三页,共八十七页,编辑于2023年,星期日发音的生理器官即:呼吸系统呼吸系统:呼吸道和肺呼吸道包括:上呼吸道(鼻,咽和喉)下呼吸道(气管和主支气管)第四页,共八十七页,编辑于2023年,星期日第2章
数字语音处理基础2.1
发音的生理器官与过程同济大学电子与信息工程学院-5-赵晓群
教授呼吸:
◆不说话时,通常是规则的、平稳的、节律性的
◆说话时,为保持语言的连续性,有短暂停顿呼吸特点:吸气短、呼气长,受句子结构控制,无固定规则气流的形成:①
空气由肺部排入喉部,
②
经过声带进入声道,
③由嘴(或鼻)辐射出声波,形成了语音图2.1:喉的构造。前声带声门裂甲状软骨环形软骨杓形软骨
(a)发音阶(b)呼吸图2.1喉的构造第五页,共八十七页,编辑于2023年,星期日第六页,共八十七页,编辑于2023年,星期日第七页,共八十七页,编辑于2023年,星期日第八页,共八十七页,编辑于2023年,星期日喉位置:第4~6颈椎段甲状软骨1环状软骨1会厌软骨1杓状软骨2环杓关节环甲关节喉关节喉的结构
喉的软骨第九页,共八十七页,编辑于2023年,星期日喉(标本)第十页,共八十七页,编辑于2023年,星期日第十一页,共八十七页,编辑于2023年,星期日第十二页,共八十七页,编辑于2023年,星期日喉肌
第十三页,共八十七页,编辑于2023年,星期日喉腔喉腔侧壁的粘膜有上、下两对矢状位的粘膜皱襞突入腔内,形成前庭襞和声襞。出现声门。第十四页,共八十七页,编辑于2023年,星期日名称起止作用环甲肌甲杓肌(声带肌)环杓后肌环杓侧肌杓横肌杓斜肌甲会厌肌甲状软骨前缘后面,杓状软骨外面及声带突环状软骨弓外面,甲状软骨下缘声带紧张声带松弛环状软骨板后面杓状软骨突声门开大环状软骨弓上缘外杓状软骨肌突声门缩小横行连于两侧杓状软骨后面声门缩小杓状软骨肌突另一侧杓状软骨骨尖喉口缩小甲状软骨前角内面会厌软骨后缘喉口开大第十五页,共八十七页,编辑于2023年,星期日四、气管和支气管第十六页,共八十七页,编辑于2023年,星期日喉:由软骨和肌肉组成的复杂系统,含声带(发音器官)声带:
◆是阀门,又是振动部件
◆声带紧绷在喉头的前后壁上,有折叠
◆声带的长度约10~14mm声门:两片声带之间的空间声带的前端由甲状软骨支撑,后端由杓状软骨支撑杓状软骨与环状软骨的上部相连软骨由一组肌肉控制,可使开启或闭合声带声带启开时,是正常呼吸状态声带闭合时,肺部密封成密室声带的生物学功能:
◆封闭气管,保护肺道
◆在胸腔和腹腔建立一定的气压声带的声学功能:为语音提供主要的激励源第2章
数字语音处理基础2.1发音的生理器官与过程同济大学电子与信息工程学院-17-赵晓群
教授第十七页,共八十七页,编辑于2023年,星期日空气作用:使声带开启/闭合,形成脉动气流(声门脉冲串)基音周期(振动周期):声带每开启/闭合一次的时间基音频率(基频):基音周期的倒数典型的脉动气流:基频随人性别、年龄而不同基频:通常为50~450Hz
◆男性一般为50~250Hz
◆女性一般为200~450Hz老年男性偏低,小孩和青年女性偏高基频高则音调高,基频低则音调低基频与声带的大小、厚薄、松紧程度以及声门上下之间的气压差等有关第2章
数字语音处理基础2.1发音的生理器官与过程同济大学电子与信息工程学院-18-赵晓群
教授图2.2声带开启的面积与时间的关系曲线8642时间/ms50%35%15%125Hz0246810121416面积/mm2第十八页,共八十七页,编辑于2023年,星期日声道:从声门至口唇的所有发音器官包括咽腔、口腔和鼻腔成男声道:长17cm/面积20cm2声道可看成非均匀截面的声管,是时间函数。口腔:含上下唇、齿、齿龈、腭、舌和小舌等部分。上腭:分硬腭和软腭舌:分舌尖、舌面和舌根鼻腔:在口腔上面,靠软腭和小舌将其与口腔隔开
◆小舌下垂时,鼻腔与口腔便耦合起来
◆小舌上抬时,口腔与鼻腔不相通发音时,口腔和鼻腔都起共鸣作用。第2章
数字语音处理基础2.1发音的生理器官与过程同济大学电子与信息工程学院-19-赵晓群
教授图2.3声道纵剖面图鼻鼻腔齿龈上唇牙齿下唇下腭骨舌骨甲状软骨气管鼻咽软腭口腔小舌舌根会咽喉管声带环形软骨食道第十九页,共八十七页,编辑于2023年,星期日第二十页,共八十七页,编辑于2023年,星期日第二十一页,共八十七页,编辑于2023年,星期日第2章
数字语音处理基础2.1发音的生理器官与过程同济大学电子与信息工程学院-22-赵晓群
教授口腔各器官协同动作,空气流通过时形成不同阻碍,并产生振颤,发出不同声音。咽腔:连接喉和食管与鼻腔和口腔的一段管子讲话时,咽腔的形状变化(如图)
eiueaw咽腔与口腔使声道的形状变化增多,能发出较多的声音。鼻腔:从咽腔一直沿伸到鼻孔,约10cm长。发鼻化语音时软腭下垂。口腔是声道最重要的部分,其大小和形状可以通过调整舌、唇、齿和腭来改变。舌是最活跃的调整发音器官第二十二页,共八十七页,编辑于2023年,星期日在发音过程中,肺部与相连的肌肉相当于声道系统的激励源浊音:声带处于收紧状态时,气流使声带振动产生的声音清音:声带处于放松状态时,不伴有声带振动产生的音两种清音:摩擦音,爆破音摩擦音:舌在声道的某处形成狭窄部位(收紧点)气流经过时产生湍流形成噪声型的声音爆破音:松懈声带,用舌和嘴唇关闭声道,暂时阻止气流。气压升高,突然放开舌与嘴唇,气流释放产生短暂冲音
◆不同的声道收紧点和声道形状,形成不同的摩擦音
◆不同的声道闭紧点和声道形状,形成不同的爆破音第2章
数字语音处理基础2.1发音的生理器官与过程同济大学电子与信息工程学院-23-赵晓群
教授肺肌力声带鼻腔鼻音口腔口音软上腭和小舌咽腔声门图2.5语音产生的机理图第二十三页,共八十七页,编辑于2023年,星期日调音:发声时,需要调整声道的形状调音运动:声道各部位的运动调音器官:调音涉及声道的各部分器官,包括舌、腭、唇和嘴等可以自由活动的部分。调音点:因调音产生的声道固定部位的狭窄位置不同声道形状有不同声道传递特性,产生不同音色语音共鸣用使能量随频率变化,产生各种差异语音声道是对发音起着决定性作用的器官X光照相可以显示出发音时声道的形状X光视频1
X光视频2声学观点:声道可拉直而不影响其声学特性,用声管(模型)分析声道的物理学机理第2章
数字语音处理基础2.1发音的生理器官与过程同济大学电子与信息工程学院-24-赵晓群
教授第二十四页,共八十七页,编辑于2023年,星期日第2章数字语音处理基础2.2听觉的生理器官与心理2.2.1听觉系统1.耳的结构图2.6:人的听觉系统。◆组成:外耳、中耳和内耳。◆外耳和中耳有导音的作用,合称为导音系;◆内耳有感音作用,称感音器。其感音作用起始于蜗神经的终端(螺旋器),故内耳的淋巴系统也属于导音系。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-25-赵晓群
教授图2.6人的听觉系统砧骨锤骨鼓膜外耳道耳翼听神经耳蜗内耳中耳咽鼓管镫骨半规管第二十五页,共八十七页,编辑于2023年,星期日外耳:由耳翼、外耳道和鼓膜组成。◆耳翼:有保护耳孔和定向作用。◆外耳道:是一条耳管,声音沿其传至鼓膜。有许多共振频率,封闭时最低共振频率约为3060
Hz。共振效应会使声音得到10dB左右的放大。◆成年人的外耳道长约2.7cm,直径约0.7cm。◆鼓膜:位于外耳道内端的韧性锥形结构,声音的振动通过鼓膜传到内耳。日常谈话中,鼓膜位移约为10−8cm。外耳的作用:有对声源定位和声放大。头部的衍射效应也会增大鼓膜处的声压,系统总放大:20dB左右。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-26-赵晓群
教授第二十六页,共八十七页,编辑于2023年,星期日图2.7:中耳的结构。中耳:为充气腔体,由鼓膜将其与外耳隔离,通过圆形窗和前庭窗两个小孔与内耳相通。通过咽鼓管与外界相连,以平衡气压,保护鼓膜。听骨链:由锤骨、砧骨和镫骨三块听小骨组成,由韧带悬挂在中耳的腔体内(见图2.7)。◆锤骨一端固定地附着在鼓膜上,◆镫骨脚端覆盖内耳入口的前庭窗,◆砧骨将它们连接起来。◆听骨链将振动传到内耳并放大,起到杠杆的作用。◆放大30倍左右。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-27-赵晓群
教授图2.7中耳的结构韧带锤骨鼓膜外耳道半规管砧骨镫骨前庭窗膜中耳咽鼓管第二十七页,共八十七页,编辑于2023年,星期日外耳包括:中耳包括:内耳包括:耳廓、外耳道鼓膜、鼓室、听小骨、咽鼓管半规管、前庭、耳蜗认识耳朵的结构第二十八页,共八十七页,编辑于2023年,星期日耳朵各个部分的功能耳廓:外耳道:鼓膜:听小骨:咽鼓管:半规管:前庭:耳蜗:收集声波外界声波传入中耳通道声波作用下,能产生振动运动将振动传到内耳(把声音放大)调节鼓室内气压,从而维护正常听力的作用旋转感觉位置、速度感觉有听觉感受器有感觉头部位置变动的位觉感受器听觉形成动画第二十九页,共八十七页,编辑于2023年,星期日一、耳朵的结构耳廓耳蜗咽鼓管鼓室鼓膜外耳道前庭半规管听小骨耳的结构第三十页,共八十七页,编辑于2023年,星期日一、耳朵的结构耳的结构听小骨(三块)半规管前庭耳蜗咽鼓管鼓室鼓膜外耳道耳廓第三十一页,共八十七页,编辑于2023年,星期日2、听觉的形成声波耳廓(收集空气中的声波)外耳道鼓膜(振动)鼓室内听小骨(把振动的声音放大)耳蜗(内有听觉感受器)听神经大脑形成听觉第三十二页,共八十七页,编辑于2023年,星期日听小骨在不同声强范围内实现声音的线性或非线性传递。中耳的作用:通过听小骨进行声阻抗变换,放大声压;
保护内耳。
内耳(迷路):在颅骨腔内,由半规管、前庭窗和耳蜗组成。半规管和前庭窗属于本体感受器,与机体的平衡机能有关。◆半规管内的感受器能感受旋转变速运动的刺激,◆前庭窗内的感受器能感受静止的位置和直线变速运动。耳蜗:是听觉接受器,把声音经机械变换产生神经发放信号。◆耳蜗高约2cm,宽约1.5cm,呈螺旋状盘旋2.5~2.75圈,拉直后约3~3.2cm长。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-33-赵晓群
教授第三十三页,共八十七页,编辑于2023年,星期日耳蜗:由鼓阶、中阶和前庭阶三个分隔的部分组成。图2.8:耳蜗示意图。◆前庭阶和鼓阶在耳蜗的尖端部位相通。◆中阶内充满高粘度的胶状内淋巴液,◆前庭阶和鼓阶内则充满粘度为水两倍的淋巴液。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-34-赵晓群
教授前庭阶中阶鼓阶前庭阶中阶鼓阶骨螺旋板蜗孔覆膜中阶基底膜耳蜗神经骨质层前庭阶鼓阶(a)耳蜗(通过蜗轴的剖面)(b)耳蜗横截面图2.8耳蜗示意图第三十四页,共八十七页,编辑于2023年,星期日◆中阶的底膜称为基底膜,◆基底膜之上是柯蒂氏器官,由耳蜗覆膜、外毛细胞(共3列,约20000个)以及内毛细胞(共1列,约3500个)构成。图2.9:柯蒂氏器官示意图。◆柯蒂氏器官:是一个传感装置。◆毛细胞上部的微绒毛感受耳蜗内流体速度的变化,从而引起毛细胞膜两边电位的变化,可造成听觉神经的发放或抑制。内耳的作用:感受声音。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-35-赵晓群
教授图2.9柯蒂氏器官示意图外毛细胞内毛细胞血管纤毛覆膜基底膜神经纤维第三十五页,共八十七页,编辑于2023年,星期日2.听觉的形成听觉系统的两个重要特性:◆听觉掩蔽效应;◆
耳蜗对于声信号的时频分析特性(见图2.10)。耳蜗的时频分析特性:◆声音使镫骨运动,使耳蜗内流体压强变化,引起行波沿基底膜的传播。◆声频不同,产生的行波不同,峰值出现在基底膜的位置不同。为对数型分布。◆频率低,峰值出现在基底膜的顶附近;◆频率高,峰值出现在基底膜的底附近。◆振动强度增加,基底膜运动幅度加大,耳蜗:有频谱分析作用。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-36-赵晓群
教授图2.10基底膜的频率响应分布图1943顶部7291051431872382973654455366437669081073126414851741203723802777323737704386510059271915816774144691247810759927479916883基部第三十六页,共八十七页,编辑于2023年,星期日基底膜上的绒毛细胞的特性:◆振动使基底膜和耳蜗覆膜之间的毛细胞上的绒毛发生弯曲。
绒毛弯向一边,引起毛细胞的去极化,加强传入神经的作用;绒毛弯向另一边,引起毛细胞的超极化,导致抑制效应。◆基底膜上不同部位的毛细胞具有不同的电学和力学特性。在基部,基底膜窄而劲度强,毛细胞及其绒毛短而有劲度;在顶部,基底膜宽而柔和,毛细胞及其绒毛较长而柔和。◆这种差异是基底膜有频率选择性和对数分布性的重要因素。人的听觉范围:20Hz~20kHz,0~130dB的声音信号。◆听觉范围外的信号分量可忽略掉,以节省处理成本。◆人耳的感觉不是绝对的,随着信号特性的不同而不同。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-37-赵晓群
教授第三十七页,共八十七页,编辑于2023年,星期日发音和听音及理解声音都牵涉到人的神经活动。◆发音时,将观念转换成单词和句子并发出指令,控制发音器官使其作适当运动;◆听音时,柯蒂氏器官发出脉冲,经神经系统处理,使大脑感知这些编码的神经信号,转换成词汇并得到理解。
神经系统的基元是神经元。神经元是一种专职细胞;有细胞体和细胞核。细胞体上伸展出的树形支,称轴突或神经纤维。最小的分支的末端称为神经末梢。由突触实现神经元间的联系。柯蒂氏器官上的纤毛细胞是一种感受细胞,将接受的感觉信息转成电化学脉冲(见图2.11),传达给神经元的突触,并由神经系统处理。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-38-赵晓群
教授图2.11神经系统的电化学脉冲的波形图U/mV1000t/ms1ms第三十八页,共八十七页,编辑于2023年,星期日神经受激反应的规律:
(1)
刺激的强弱。超过门限值的刺激才产生脉冲。脉冲波形并不携带有刺激的强度信息。(2)
刺激的时间。存在“绝对不应期”和“相对不应期”。◆绝对不应期:约1~2ms,此期间的刺激不产生反应脉冲。◆相对不应期:约10
ms,此期间需要强刺激才产生反应脉冲。(3)刺激的强度反应在脉冲的个数上,但也有限制。◆刺激超过门限值并持续10
ms以上,神经元将不断产生脉冲。◆最高产生1000个脉冲/s左右,再增大刺激强度不起作用;(4)脉冲沿神经纤维传输的速度取决于纤维的粗细。◆直径越大,传输速度越快。◆也可利用朗飞节,跳跃传输。此时速度可高达100m/s左右。◆朗飞节是大的神经纤维上的脂肪节。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-39-赵晓群
教授第三十九页,共八十七页,编辑于2023年,星期日(5)神经元之间的传输机制主要是化学的。◆是一个脉冲刺激另一个神经元的电化学反应,并产生脉冲,然后在该神经元轴突内按上述方法传输。(6)神经纤维有兴奋和抑制两种状态。◆在兴奋状态时,神经元之间的传送是无阻的;◆抑制状态时,受到抑制而不能传送脉冲。◆若某种神经元同时受到好几个兴奋状态的和抑制状态的联合刺激,则由其综合效应来决定该神经元的反应。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-40-赵晓群
教授第四十页,共八十七页,编辑于2023年,星期日语音的产生和理解:与神经系统和大脑有关,是高级活动。搞清大脑产生和理解语音的机理,对语音技术有极重要意义。特别是对语音合成与语音识别两个分支。例,语音合成:◆目前,按规则合成只能从寻找各种语言的规则入手,尽可能得出较好的人工语言。◆如果发音时大脑智能活动的机理之迷揭开,就可以获得高度自然的语音合成。例,语音识别:◆目前,只能从语音信号出发,用“隐过程”(如隐马尔可夫模型)来模拟神经系统的听觉过程,不是按人的听觉过程建立处理模型。不能达到理想的识别和理解效果。◆这种方法与大脑用的方法并不一致。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-41-赵晓群
教授第四十一页,共八十七页,编辑于2023年,星期日2.2.2语音的听觉心理听觉系统极灵敏。能感觉到接近空气分子热运动产生的声压。两耳的传递速度不同。声音从右耳传至左大脑的速度比较快;声音从左耳传至右大脑的速度比较慢。两耳辨音性能有所不同。◆辨听元音的能力大体一致;◆辨听辅音或音调,右耳比左耳强一些。正常人听觉范围:20Hz~16kHz;年轻人可以听到20kHz;老年人可听频率降到10kHz左右。听觉器官对音高、音强、声波的动态频谱有分析感知能力。人耳对声音的强度和主观感觉是从响度和音调体现出来的
第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-42-赵晓群
教授第四十二页,共八十七页,编辑于2023年,星期日1.人耳的听阈和响度在物理上,客观测量声音强弱的单位:
dyn/cm2(声压),或W/cm2(声强)。在心理上,主观测量声音强弱的单位:
方(phon)(响度级),或宋(sone)(响度)。客观和主观两种声音强弱的计量单位是完全不同的两种概念,它们之间又有一定关系。国际协议规定,
0dB声强级的1kHz纯音的响度级定义为0方,
ndB声强级的1kHz纯音的响度级定义为n方。语音是复合音,含丰富谐波成分。人耳对不同纯音,有不同的听辨灵敏度。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-43-赵晓群
教授第四十三页,共八十七页,编辑于2023年,星期日听阈:当声音的强度小到人耳刚刚可听见时的声强。◆1kHz纯音,听阈为10−16W/cm2声强(0dB声强度级);◆0dB声强级是非常小的单位,仅使鼓膜移动约10−9cm。痛阈:当声音的强度大到人耳感到疼痛时的声强。◆1kHz纯音,痛阈约为10−4W/cm2声强(120dB声强度级);◆120dB使鼓膜的位移约为10−3cm。◆“听阈−频率”和“痛阈−频率”曲线表征其变化特性(见图2.12)两曲线间为听觉范围。听觉范围相当宽,达1012量级以上。例:1kHz,10dB声强级的声音,响度级为10方;与200Hz,30dB声强级的声音,感觉响度相同。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-44-赵晓群
教授图2.12等响度曲线与声强/声强级的关系声强/W·cm2
10-410-610-810-1010-1210-1410-16声强级/dB12010080604020020
50
100
200
5001k2k5k
10k
频率/Hz120方1101009080706050403020100方第四十四页,共八十七页,编辑于2023年,星期日响度级不是响度。响度级是心理学家用来表示“渐强”的标度。单位是方)◆例:响度级为50方比40方的声音响一些,
响度级为40方比20方的声音响一些,响多少倍未知。响度是数量的表示(单位是宋)。◆例:2宋的响度使人感到比
1宋的响度响了2倍。◆规定:1宋响度为1kHz纯音在其响度级为40dB(声强10−12W/cm2)时的响度。图2.13:“响度-响度级”曲线。◆听觉的响度与响度级不是线性的。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-45-赵晓群
教授图2.13“响度-响度级”曲线图1201008060402000.010.1
1
10100响度/宋响度级/方第四十五页,共八十七页,编辑于2023年,星期日2.音调音调:是听觉分辨声音高低时用于描述这种感觉的一种特性。◆客观上,用频率表示声音的音调,其单位是Hz,◆主观上,感觉音调的单位采用美(mel)标度。◆这是两个概念上的不同、既有联系的计量单位感音范围:20Hz~20kHz,约1000倍频程,9~10个八度音。规定:音调的测量以40dB声强为基准,由主观感觉定标,且1kHz纯音的音调定为1000美。◆例:让听者听两个40dB声强级的纯音,一纯音频率固定,
调节另一个纯音的频率使其感觉音调高1倍,
标定这两个同声强声音的音调差为1倍。实验表明:音调与频率是非线性的,与声强及波形有关。◆例:1kHz、1000美纯音的倍音调是2000美(频率4kHz);其半音调为500美(频率400Hz)。
第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-46-赵晓群
教授第四十六页,共八十七页,编辑于2023年,星期日图2.14:“音调-频率”曲线。音调和频率f的关系可以近似地表示为人耳可分辨音调约1400个,可分辨响度约280个。若声强和频率皆变化,人可分辨纯音达30~40万个。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-47-赵晓群
教授图2.14“音调-频率”曲线30002500200015001000500020501002005001k2k5k10k频率/Hz主观感觉的音调/美第四十七页,共八十七页,编辑于2023年,星期日2.2.3掩蔽效应听觉特性涉及到心理声学和生理声学方面的问题。听觉特性的研究多在心理声学和语言声学领域。人的主观感觉(听觉)和客观实际(声波)不完全一致。听觉机构是极灵敏的声音接收器,无物理仪器与之媲美。◆具有选择性,起到分析器的作用。◆具有判断响度、音调和音色的本领。现今科学未能完全揭示听觉系统的复杂结构和信息处理过程。掩蔽现象:较强声音附近的相对较弱声音将不被人耳觉察,即被强音所掩蔽。◆较强的音称做掩蔽者,较弱的音称做被掩蔽者。◆掩蔽效应:分同时掩蔽、异时掩蔽。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-48-赵晓群
教授第四十八页,共八十七页,编辑于2023年,星期日1.同时掩蔽和异时掩蔽同时掩蔽:指掩蔽现象发生在掩蔽者和被掩蔽者同时存在时,也称为频域掩蔽。人耳对声音响应随频率变化,最敏感的频率段是2~4kHz。在这个频率段以外,人耳的听觉灵敏度逐渐降低。听阈:人耳刚好可听到的最小声强级,是声音频率的函数。图2.15中的虚线是人耳在安静时的听阈曲线。在掩蔽者频率的邻域内,听力阈值被提高。◆掩蔽阈值:不可闻的被掩蔽者的最大声强级。图2.15:掩蔽阈值曲线。掩蔽阈值是时间、
频率和声强级的函数。
第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-49-赵晓群
教授图2.151kHz频率且60dB声强级的音调信号掩蔽阈值曲线
80604020020501002005001k2k5k10k频率/Hz声强级/dB掩蔽声被掩蔽声掩蔽阈值安静听阈值第四十九页,共八十七页,编辑于2023年,星期日◆低于掩蔽者的掩蔽阈值时,目标信号被掩蔽。◆利用掩蔽特性,可降低编码速率;◆对量化噪声谱整形,使量化噪声低于掩蔽阈值曲线,既降低量化码率,又提高音频编码的主观质量。异时掩蔽:指掩蔽效应发生在掩蔽者和被掩蔽者不同时存在时,也称为时域掩蔽。分前掩蔽、后掩蔽两种。◆前掩蔽:掩蔽效应发生在掩蔽者开始之前的某段时间;◆后掩蔽:掩蔽效应发生在掩蔽者结束之后的某段时间。图2.16:同时掩蔽和异时掩蔽现象,◆同时掩蔽在掩蔽者持续的时间内有效,是一种较强的效应;◆异时掩蔽随时间的推移很快衰减。◆后掩蔽100ms,前掩蔽20ms。利用前掩蔽,对抑制因时间分辨率不够而造成的预回声起着重要作用。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-50-赵晓群
教授图2.163种掩蔽现象的强度及持续时间掩蔽者–100–50050100150050100150200时间/ms前掩蔽同时掩蔽后掩蔽6040200声强级/dB第五十页,共八十七页,编辑于2023年,星期日2.各种不同的掩蔽效果掩蔽者有纯音调、宽带噪声和窄带噪声共3种类型。不同的掩蔽者和被掩蔽者的组合有不同的掩蔽结果。(1)
纯音调间的掩蔽。纯音调间的掩蔽:指掩蔽者和被掩蔽者都是纯音调声音,(这种掩蔽效应比较简单)。图2.17:纯音调对纯音调产生的掩蔽曲线。◆掩蔽阈值曲线的低频段陡峭,高频段比较平坦。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-51-赵晓群
教授图2.171kHz的不同声强级的纯音调对纯音调的掩蔽阈值曲线806040200测试音声强级/dB20
50
100
200
5001k2k5k
10k测试音频率/HzLM=90dB7020安静听阈第五十一页,共八十七页,编辑于2023年,星期日(2)
宽带噪声对纯音调的掩蔽。宽带噪声对纯音调的掩蔽:指掩蔽者是宽带噪声,
被掩蔽者是纯音调声音。白噪声功率谱平坦,所产生的掩蔽阈值只在低频段保持水平。在低频段,掩蔽阈值一般高于噪声功率密度17dB。当频率大于约500Hz时,掩蔽阈值随着频率的增大而提高,每10
倍频程约提高10dB。图2.18:宽带噪声对纯音调的掩蔽曲线。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-52-赵晓群
教授图2.18宽带噪声对纯音调的掩蔽阈值曲线80604020020501002005001k2k5k10k测试音频率/Hz测试音声强级/dBLMN=50dB403020100-10安静听阈第五十二页,共八十七页,编辑于2023年,星期日图2.19中心频率为1kHz且声强级不同的窄带噪声对纯音调的掩蔽阈值曲线10080604020020501002005001k2k5k10k测试音频率/Hz测试音声强级/dBLCB=100dB80604020安静听阈(3)
窄带噪声对纯音调的掩蔽。窄带噪声对纯音调的掩蔽:指掩蔽者是窄带噪声,
被掩蔽者是纯音调信号。该掩蔽效应较复杂,掩蔽阈值随声强级、中心频率变化。图2.19:1kHz中心频率,声强级不同的窄带噪声对纯音调的掩蔽阈值曲线。◆曲线的峰值出现在掩蔽者的中心频率处,◆声强级>80dB,掩蔽阈值在高频段出现严重的非线性特性,有谷点出现。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-53-赵晓群
教授第五十三页,共八十七页,编辑于2023年,星期日中心频率不同的窄带噪声产生的掩蔽阈值曲线形状是不同的。图2.20:声强级相同、中心频率不同的窄带噪声对纯音调的掩蔽阈值曲线。◆可见,掩蔽阈值曲线是不等宽的,在低频段曲线比较窄;随着频率的增高曲线逐渐变宽。
第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-54-赵晓群
教授图2.20声强级相同但中心频率不同的窄带噪声对纯音调的掩蔽阈值曲线测试音声强级/dB8060402000246810121416测试音频率/kHz250Hz1kHz4kHz8kHz安静听阈第五十四页,共八十七页,编辑于2023年,星期日3.临界带宽引入临界带宽,可方便描述窄带噪声对纯音调的掩蔽效应。临界带宽的定义:一个纯音调可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽。若在这一频带内噪声功率等于该纯音调的功率,且该纯音调处于刚好能被听到的临界状态,称这一带宽为~。临界带宽有许多近似表示。◆一般在低于500
Hz的频带内,临界带宽约为100Hz;
◆高于500
Hz的频带上,临界带宽约为中心频率的20%;◆最高可达到4
kHz。由定义知,临界带宽的位置可以是音频范围内的任意位置。第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-55-赵晓群
教授第五十五页,共八十七页,编辑于2023年,星期日第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-56-赵晓群
教授表2.1临界带宽表编号(Bark)中心频率/Hz临界带宽/Hz相对带宽/dB频率范围/Hz编号(Bark)中心频率/Hz临界带宽/Hz相对带宽/dB频率范围/Hz150801920~100131850280251720~2000215010020100~200142150320252000~2320325010020200~300152500380262320~2700435010020300~400162900450272700~3150545011020400~510173400550273150~3700657012021510~630184000700283700~4400770014021630~770194800900294400~5300884015022770~9202058001100305300~64009100016022920~10802170001300326400~7700101170190231080~12702285001800327700~9500111370210231270~148023105002500349500~12000121600240241480~1720241350035003512000~15500表2.1:24个临界带宽的编号、中心频率及其带宽的数据。◆工程上,在20Hz~16kHz内划分为24个频率群表示,或者说划分为24Bark域,这是为了纪念Bark
hauseu而命名的。第五十六页,共八十七页,编辑于2023年,星期日第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-57-赵晓群
教授以临界带宽描述掩蔽效应可从听觉生理上找到科学依据。◆人耳的基底膜具有与频谱分析仪相似的作用。◆频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。◆掩蔽效应在这些频率群内发生:同一频率群的声音作用于基底膜的相同部分,对大脑的刺激似乎是叠加在一起来评价的。若同时发声,可互相掩蔽。第五十七页,共八十七页,编辑于2023年,星期日第2章
数字语音处理基础2.2听觉的生理器官与心理同济大学电子与信息工程学院-58-赵晓群
教授Bark域与基底膜的长度呈线性关系,与声频呈对数关系。Bark
频带
l与频率
f的关系为:图2.21:Bark域上声强级相同中心频率不同窄带信号对纯音调的掩蔽阈值曲线。◆可见,掩蔽阈值曲线在Bark尺度上是等宽的。图2.21声强级相同但中心频率不同的窄带噪声对纯音调的掩蔽阈值曲线250Hz500Hz1kHz2kHz4kHz8kHz8060402000510
152025临界频带/Bark测试音声强级/dB安静听阈第五十八页,共八十七页,编辑于2023年,星期日第2章数字语音处理基础2.3语音和语言语言是从言语历史中概括总结出来的规律性的符号系统语言是进行思维、交际的形式语音是声音、语言和意义的结合体声音是语音的物质形式;语音是语言的物质外壳、信息载体但是,声音和意义间无必然联系,其意义是约定俗成的语音由一串音组成语言的声音,音间过渡代表信息的符号,音(符号)的排列由语音规则约束。语音的研究:包括语言学、语音学语言学:语音中各个音的排列规则及其含意的研究语音学:语音中各个音的物理特征和分类的研究第2章
数字语音处理基础2.3语音和语言同济大学电子与信息工程学院-59-赵晓群
教授第五十九页,共八十七页,编辑于2023年,星期日说话过程可分五个阶段:想说阶段、说出阶段、传送阶段、接收阶段、理解阶段1、想说阶段:(与大脑中枢的活动有关)
◆大脑决策产生说话动机◆讲话神经中枢选单词、短语,按规则组合表达内容和情感2、说出阶段:(与发音器官的活动有关)
◆大脑中枢决策,向发音器官发指令,使舌、唇、颚、声带、肺等协调动作,发出声音
◆大脑也发指令给其它器官,产生各种动作来配合
◆根据听觉系统接收的反馈语音信息,来帮助修改语音。3、传送阶段:(传送声波信息的物理过程)
◆声波以空气为媒介传送到听者的耳中第2章
数字语音处理基础2.3语音和语言同济大学电子与信息工程学院-60-赵晓群
教授第六十页,共八十七页,编辑于2023年,星期日4、接收阶段:(与听觉系统活动有关)
◆外耳收集声波信息,经中耳放大,传到内耳◆
经内耳基底膜振动,激发柯蒂氏器官内的神经元产生脉冲◆将信息以脉冲的形式传送给大脑5、理解阶段:(至今尚未完全了解,机理不很清楚)◆听觉神经中枢收到脉冲信息,辨认话者及所说信息说话过程相当复杂,有心理、生理、物理及个人和社会因素个人因素:话者口音、用词造句特色听者的听力、理解力。社会因素:话者、听者的社会基础、环境等语言要素:分语言的语素、词、短语和句子等不同层次及词法、句法、文脉等语法和语义内容等。句法的最小单位是单词,词法的最小单位是音节。不同语言有不同语言规则第2章
数字语音处理基础2.3语音和语言同济大学电子与信息工程学院-61-赵晓群
教授第六十一页,共八十七页,编辑于2023年,星期日语音学研究语音产生、语音感知等,音的特征和分类等问题语音学与语音信号处理学科有紧密联系。说话交流过程分为“发音→传递→感知”三个阶段现代语音学分支:发音语音学、声学语音学、听觉语音学发音语音学:从生理的角度研究语音(已相当成熟)直接观察发音器官的动作或借助仪器来研究声学语音学:研究语音传递的声学特性◆用声学和非平稳信号分析理论解释各种语音现象◆语音的声学物理性质及与发音器官之间的关系。◆产生声音模拟、语音合成和语音识别等研究方向。听觉语音学和心理语言学:(较新学科,处于探索阶段)◆探索大脑如何进行语音的发出和接收,◆语言信息以什么形式在大脑的什么部位存储等第2章
数字语音处理基础2.3语音和语言同济大学电子与信息工程学院-62-赵晓群
教授第六十二页,共八十七页,编辑于2023年,星期日第2章数字语音处理基础2.4语音学基础及汉语语音学
2.4.1声波的物理描述声波从声源向四面八方传播声波的频率:单位时间内声波的周期数声波的波长:声波中两个波峰之间相隔的空间距离
波长=传播速度/频率频率高波长短;频率低波长长声波有频度和振幅两个特点。声频与音调有关,振幅与响度有关。声频高,声音就高(音调高);声频低,声音就低(音调低)第2章
数字语音处理基础2.4语音学基础及汉语语音学同济大学电子与信息工程学院-63-赵晓群
教授第六十三页,共八十七页,编辑于2023年,星期日声音分:复合音、纯音纯音:仅有基音,没有倍音倍音:频率是基音频率的整倍数的声音成分复合音:除纯音外的声音一般的声音是包含了复合声波的声音人类发出的元音是复合音大部分声音并非只有一个基频通常,基频的能量最高,力度最强,其它倍音的能量逐渐减低,力度逐渐减弱不同声音的区别是和弦不同(不同乐器的音色因和弦不同)声音的基音与倍音共同组成这个声音的和弦频率最低的和弦是第一和弦,其它和弦依次是第二和弦、第三和弦等等第2章
数字语音处理基础2.4语音学基础及汉语语音学同济大学电子与信息工程学院-64-赵晓群
教授第六十四页,共八十七页,编辑于2023年,星期日声音的物理属性:音色、音调、音强、音长音色:也称作音质,一种声音区别于其它声音的基本特征
◆发音体(音带)振动与不振动,发音的音色不同◆用相同发音器官,送气与不送气方式,发音的音色不同◆声道的形状和尺寸不同,发的音的音色不同音调:声音的高低,汉语语音学中称为音高,取决于声频
◆声频与发音体的长短、厚薄、松紧程度有关
◆语音的声调由语音的基频决定音强:声音的强弱,由声波的振幅(声功率)决定音长:声音的长短,取决于发音的持续时间的长短第2章
数字语音处理基础2.4语音学基础及汉语语音学同济大学电子与信息工程学院-65-赵晓群
教授第六十五页,共八十七页,编辑于2023年,星期日2.4.2语音的声学特性音节:一次发出,有一个响亮中心,被明显感觉的语音片段
◆
音节由一个音素或几个音素构成音素:是语音的最小单位,分元音、辅音,两种音素元音:声带振动的气流经声道辐射,不受阻碍发出的乐音辅音:呼出的气流,由声道的部分封闭或受阻,产生的声音◆清辅音(清音):声带不振动发出的辅音◆浊辅音(浊音):声带振动发出的辅音◆浊音是乐音和清音的混合音◆形成阻碍的发音部位和发音方法不同,发出的辅音不同半元音:发音时声道基本畅通,某处比较狭窄,引起轻微的摩擦发出的声音元音:音节的主体,时长和能量在音节中占主要部分辅音:在音节的前端或后端或前后两端,时长和能量很小第2章
数字语音处理基础2.4语音学基础及汉语语音学同济大学电子与信息工程学院-66-赵晓群
教授第六十六页,共八十七页,编辑于2023年,星期日元音音色:主要由舌的形状、舌位、口形等决定舌位高度、前后位置与音素关系见图2.22◆舌位高度:分高、中、低◆舌位前后:分前、中、后◆有9种基本组合,加上口唇开放程度、咽宽度,可发十多个不同的单元音第2章
数字语音处理基础2.4语音学基础及汉语语音学同济大学电子与信息工程学院-67-赵晓群
教授第六十七页,共八十七页,编辑于2023年,星期日声道的模拟:非均匀截面的声管,发音时起共鸣器作用共振峰:元音激励声道时,引起共振,产生的一组共振频率称为共振峰频率(共振峰)◆共振峰是区别元音的重要参数,包括其位置和频带宽度精确描述语音,应该用尽可能多的共振峰工程中,常用前三个共振峰参数
◆第一共振峰F1、第二共振峰F2、第三共振峰F3元音的共振峰特性与发音机制有关F1与舌位高低有关,舌位高F1低;舌位低F1高舌位越低,嘴张得越大(开口度大);舌位越高开口度越小F2与舌位前后密切相关,舌位靠前F2高,舌位靠后F2低◆前元音[i]的舌位靠前,F2达2000Hz◆后元音[u]的舌位靠后,F2只有500Hz第2章
数字语音处理基础2.4语音学基础及汉语语音学同济大学电子与信息工程学院-68-赵晓群
教授第六十八页,共八十七页,编辑于2023年,星期日F1和F2和嘴唇的圆展程度也有关系,◆如圆唇可使F2降低等。F3与舌位有关,并不密切,◆但受舌尖活动的影响,舌尖抬高卷起时,F3就明显下降图2.23:舌位前后、唇形圆展和开口度大小对F1和F2的影响情况。第2章
数字语音处理基础2.4语音学基础及汉语语音学同济大学电子与信息工程学院-69-赵晓群
教授F2F1后低圆低小(高)前高展高大(低)舌位(开口度)舌位前后唇形圆度图2.23舌位、唇形和开口度对F1和F2的影响第六十九页,共八十七页,编辑于2023年,星期日成年女子和儿童的基频高于成年男子。区分语音是男声还女声,是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。表2.2:10个英语单元音前3个共振峰频率的平均值。◆成年女性和男性的共振峰频率有明显的差别(约高25%)第2章
数字语音处理基础2.4语音学基础及汉语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论