基于病理嗓音合成器的听觉感知分析

上传人：1*** IP属地：广东上传时间：2023-10-02 格式：DOCX 页数：5 大小：41.87KB 积分：12 举报 版权申诉

全文预览已结束

 付费下载

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于病理嗓音合成器的听觉感知分析

声乐声音检测和临床耳科医生的关注越来越受到重视。随着科学的发展和社会经济水平的提高，人们不仅要治疗喉咙疾病，还要注意影响睡眠质量的声音疾病。因此，听力评估、喉咙功能检测、声音治疗和保健已成为牙科常见病的发展趋势。但是,在将这些嗓音声学参数有效地应用于临床之前,有必要进行嗓音声学参数与嗓音主观听觉评估(嘶哑声、粗糙声和气息声)之间的相关性研究,即能否利用有关嗓音声学参数客观定量地评估嗓音质量成为嗓音医学、言语病理学和听力学研究的一项重要课题。本研究的关键在于:一是需要具备能产生各种嗓音声学参数(即模拟病理嗓音)并能人为调控的合成器;二是要对这些嗓音声学参数进行筛选,确定其中哪些参数与嗓音质量的评定有关。在本研究中,笔者采用自行研发的病理嗓音合成器,选择嗓音基频(F0)、基频微扰(Jitter)、振幅微扰(Shimmer)、声门噪声能量(NNE)、声门谱斜率(Spectraltilt)和共振峰频率微扰(Formantflutter)6项嗓音声学参数进行调控;并以嘶哑声、粗糙声和气息声的程度作为衡量嗓音质量的听觉感知指标。在这里,粗糙声(Harsh)主要反映声带的不规则振动,即声门脉冲的随机波动,听觉感知为嗓音缺乏清晰度,而且音质不均匀;气息声(Breath)听觉感知出呼出气流的扰动声,即在声门振动时出现的摩擦噪声。嘶哑声(Hoarse)则为嗓音变异的总和,即嗓音中既有声带不规则振动的成分,同时也存在摩擦噪声的成分;由于这2种成分所占的比例不同,因此产生不同程度的嘶哑声总度。本实验的目的是通过形成一系列合成嗓音,当改变某一嗓音声学参数值时,同时观察嘶哑声、粗糙声和气息声的变化情况,从而分别判断与嘶哑声、粗糙声和气息声相关的声学参数或参数组合,以便可以将这些声学参数作为效标参数,用于监控嗓音训练或矫治的作用效果。1学习方法1.1合成语言的参数本实验的病理嗓音合成器是在ZH声门源模型的基础上发展形成的(黄昭鸣,1995)。图1显示了试验中病理嗓音的合成流程。通过控制这些嗓音声学参数,我们能够:①模拟正常嗓音;②模拟病理嗓音;③研究哪些参数适用于病理嗓音的分析。从理论的层面着手,首先采用这种嗓音合成器合成一个单元音/æ/,然后将可控制参数被分为3个维度,其中频率维度:嗓音基频、基频微扰;强度维度:振幅微扰、声门噪声能量;音色维度:声门谱斜率、共振峰频率微扰。通过嗓音合成器,在固定其他参数的基础上,每次只调控1个参数,以此获取实验声学样本。1.2合成各具体指标评估要求专家评委在听到嗓音合成器播放的每一个声学样本之后,对嗓音质量(嘶哑声、粗糙声和气息声)进行等级评估。然后将各嗓音声学参数变化值与评委感知的结果作等级相关分析,从而确定每个听感指标与哪些嗓音声学参数有关。1.2.1声门噪声和声门谱斜率表1列出了嗓音合成器的控制参数。它们是:基频每10Hz一步的变化;通过基频微扰产生器产生的基频周期固定变化的基频微扰变化;通过振幅微扰产生器产生的周期波幅度固定变化的振幅微扰变化;通过噪声产生器产生的噪声水平固定变化的标准化声门噪声能量变化;声门谱斜率每3dB一步的变化;共振峰频率微扰每5%一步的变化。本研究合成6组声音样本以供使用(参见表1,本实验通过控制某个特定声学参数如F0、基频微扰、振幅微扰、标准化声门噪声能量、声门谱斜率以及共振峰频率微扰)。第1组合成了6个/æ/的声学样本,每个/æ/音具有不同的基频值F0。F0值从100Hz变化到150Hz,每步变化单位是10Hz。第2组合成了8个/æ/音样本,每个/æ/音具有不同的基频微扰值。第3组合成了8个/æ/音样本,每个/æ/音具有不同的振幅微扰值。第4组合成了8个/æ/音样本,每个样本有着不同的声门噪声能量水平。第5组合成了3个/æ/音样本,每个样本有着不同的声门谱斜率值,范围0～6dB,每步的变化是3dB。第6组合成了3个/æ/音样本,每个样本有着不同的共振峰频率微扰(范围5%～15%,每步的变化为5%)。本实验采用病理嗓音合成器(Dr.SpeechTM,TigerDRS,Inc.)合成了36个相同的元音/æ/,并进行计算机存盘。5个共振峰分别为660、1720、2410、3500、4400Hz,带宽为75、75、110、120、120Hz,持续约500ms的元音模型以平均60dB的声压水平被合成(上升时间和下降时间为40ms)。这些声音的采样频率为44100Hz,分辨率为16比特。在本实验中,为了评估音质听觉感知的内在一致性,从6组嗓音样本中随机选出一些样本(分别为每组样本的25%),总共9个样本,并加以复制,掺入实验样本中。因此本实验所采用的声音样本总共为45个,将秩序随机化之后,进行编号,这45个声音样本均接受8位评委的听觉感知评估。1.2.2音质感知维度本实验研究有8位国际著名耳鼻喉科专家参与嗓音质量听感评估。8位专家来自中国、美国、日本、韩国,均为男性;年龄35～58岁,平均48岁。双耳听力正常(在250～2000Hz之间每个频率的听力在30dB之内)。这8名耳鼻咽喉科专家在嗓音测试室进行听觉感知评估,环境噪声控制在40dB以内。编过号的声音样本通过2个扬声器给出,响度控制在舒适水平。随机演示上述这45个元音,相同元音(参数及参数取值相等)呈现3遍,每遍间隔1s。不同元音(参数或参数取值不等)之间间隔3s,使听者有充裕的时间对元音的音质作出评估,也可以重放,一直可听到给出较为肯定的答案为止。首先判断有无气息声,然后要求判断粗糙声,最后判断嘶哑声。在正式进行听觉感知实验之前,所有的评委均接受短期听觉感知训练。在评估过程中,3个音质感知维度均采用相同的等级评价尺度,即在“0”正常、“1”轻度、“2”中度和“3”重度的基础上再次等距离分为8度:分数相应为0、0.5、1.0、1.5、2.0、2.5、3.0、3.5、4.0。当评委听到从计算机中直接播放的声音样本之后,要求在评估表上给出合适的分数。将8位评委感知的平均值作为每个声音样本的最终感知数据。1.2.3重测信度检测分别求得跨级相关系数(ICC)以及斯皮尔曼相关系数以获得评委间信度以及评委内重测信度。本研究测得的ICC为0.94,95%的置信区间为0.88～0.96;皮尔逊相关系数等于0.9(r2=0.81,t<0.01),此系数是复制样本总数的25%之后,通过重听的结果计算出来,反映了评委内重测信度。因此可证明评委听觉感知判断的内在一致性很高。2结果2.1共振峰频率微扰与声乐主观评估嗓音声学参数(嗓音基频、基频微扰、振幅微扰、声门噪声能量、声门谱斜率、共振峰频率微扰)与嗓音主观听觉评估(嘶哑声、粗糙声、气息声)的相关分析。本研究发现6个声学参数和感知评估(嘶哑声、粗糙声和气息声)之间存在相关性,其中嘶哑声与基频微扰、振幅微扰、声门噪声能量的相关(均P<0.01)。2.2基频微扰和声门噪声能量的影响图2～4显示了8位评委针对嘶哑声、粗糙声和气息声随着基频微扰、振幅微扰、声门噪声水平的变化给出的评分均数的条状分布规律。图2显示随着基频微扰值逐渐增加,嘶哑声与粗糙声出现了显著的增大(P<0.01),这说明基频微扰可用来反映嗓音的嘶哑与粗糙程度;同时发现随着基频微扰的变化,气息声变化不大(P>0.05),因此可以认为基频微扰非衡量声门漏气程度的有效指标。图3显示随着振幅微扰值的逐渐增加,嘶哑声出现显著增大(P<0.01),说明振幅微扰可用于衡量嘶哑声的严重程度;同时发现随着振幅微扰的变化,粗糙声与气息声的变化不大(P>0.05),说明振幅微扰的变化并不能反映嗓音的粗糙程度或声门漏气的程度。图4显示随着声门噪声能量的逐渐增加,嘶哑声与气息声的程度明显增大(P<0.01),说明声门噪声能量是反映嗓音嘶哑程度与气息音程度的有效指标;同时发现随着声门噪声能量的变化,粗糙声变化不大(P>0.05),这说明声门噪声能量并不能反映嗓音的粗糙程度。3合成病理语言的指标从国内外文献的研究现状看,由于所选定的声学参数不同,将声学测量与感知判断进行相关分析,寻找出最佳的参数或参数组合也有所不同;也有研究是采用正常嗓音组与病理嗓音组的区分判断,寻找敏感的参数指标。最近的研究报告显示:采用长时平均言语谱参数测量(例如声门谱斜率)可以避免微扰测量受声波周期稳定性影响的缺点(对于严重的病理嗓音,声音信号多为非周期改变,微扰测量将无法提取)。因此本研究在保留传统的4个声学参数(F0、Jitter、Shimmer、NNE)的基础上,增加了2个声学参数(声门谱频率、共振峰频率微扰)。声门谱斜率表现为声门波频谱的倾斜程度。声门谱斜率是衡量声音信号在高频区域和低频区域强度差异的一个量,也就是说随着频率的增加声学能量下降的速率,声门谱斜率的单位ΔdB/octave。该项参数可以通过采用“实时言语测量仪”(RealAnalysisTM,TigerDRS,Inc.)中的长时平均频谱(LTAS)测量分析获得。共振峰频率微扰表示共振峰频率(F1、F2、F3)准随机的波动。共振峰扰动反映了汉语韵母产生过程中出现的共振峰频率的变化。本研究采用的相关分析工具与传统的相关分析有所不同,本试验采用的是合成感知法:首先使用一个病理嗓音合成器模拟病理嗓音,合成嗓音基频、基频微扰、振幅微扰、声门噪声、声门谱斜率和共振峰频率微扰等声学参数。从研究的角度分析,这可以更好地控制无关变量对嗓音音质的影响。例如,声带息肉使嗓音出现嘶哑声,同时音调下降。这时我们无法判断这种病理嗓音是基频下降引起的嘶哑,还是基频微扰、振幅微扰还是声门噪声能量发生变化出现的嘶哑。因此只要合成技术更加成熟,合成病理嗓音比自然状态下的病理嗓音更加有利于进行声学参数与听觉感知相关性研究。本研究通过控制合成参数的变化,使之与GRBAS嗓音感知等级判断系统进行相关分析,也是考虑到感知判断虽然存在诸多的缺点(如受到评判者的听觉经验等主观因素影响较多),但它仍作为一个金标准在嗓音领域广泛使用。由于本研究聘请了8名耳鼻咽喉科医师作为评委,这充分考虑了他们有着丰富的病理嗓音听觉经验,加上通过短期培训,因此本研究结果证明听感知信度测量有着较高的内在一致性:评委间的分数以及重测分数均达到显著相关。实验证明本研究涉及的6个声学参数中只有3个声学参数与听觉感知参数有较高的相关。与嘶哑声有关的是基频微扰、振幅微扰、声门噪声能量;与粗糙声有关的是基频微扰;与气息声有关的是声门噪声能量。这与Dejonckere等的研究结果有相同之处,他认为嘶哑声与振幅微扰以及噪声能量有关,粗糙声与基频微扰相关(与本研究一致),气息声与振幅微扰有关(与本研究不一致)。Tarika(2003)则认为病理嗓音的感知与声学分析中的噪声成分有着极大的相关,这与本研究证明的气息声与声门噪声能量相关一致。本研究发现F0与嗓音音质无明显相关,这也就证明了声带息肉使声带振动速度下降,但这不是产生嘶哑声的原因,真正的原因是声带息肉使声带振动幅度的周期性出现了改变(振幅微扰增加),而且声门闭合欠佳、声带之间出现缝隙(声门噪声能量增加)所导致的,另外患者的发声代偿使嗓音振动频率的周期性发生了较大的改变,即反映为基频微扰值增加。另外,由于声门频谱斜率和共振峰微扰存在其他参数不具备的优势,能够对病理嗓音进行更加准确的分析,但本研究发现这2个参数对嗓音音质感知的相关性并不高(P>0.05),这与Tanner等的研究相吻合,他们将这些基于LTAS分析出的4个参数SpectralMean,StandardDeviation,Skewness(声门谱斜率),Kurtosis(Peakedness),通过嗓音治疗前后的对比研究,发现只有Spectralmean有着显著的改变。同样在Eadie等的研究中也发现尽管从理论上分析声门谱斜率可以克服声学分析(要求声波为周期或准周期)所遇到的种种困难,因为它可以基于整个语句的分析,但他们的研究也发现该项参数与其他声学参数以及听觉感知参数的相关性不高,其效度仍需要进一步检验。在本研究中采用了单元音的感知样本,主要考虑到:①容易发出;②比语句更容易受到控制和标准化;③相对稳定,很少受构音和方言的影响。但有研究者认为单元音样本在本质上是一种独立音节,并不能充分反映语句发声障碍的严重程度。因此也有研究者在发声材料对发声障碍程度感知判断的影响研究中,分别采用了3种材料。单元音发声、朗读一段标准短文以及用相关的语句来描述一幅图。结果发现朗读与描述之间,朗读与单元音之间在听感得分上差异无统计学意义,单元音发声与描述发声之间差异有统计学意义。本

人人文库> 全部分类> 专业文献 > 学术论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于病理嗓音合成器的听觉感知分析

文档简介

温馨提示

最新文档

评论

基于病理嗓音合成器的听觉感知分析

文档简介

温馨提示

最新文档

评论

相关文档