Microsoft Word - 修改后的文章_Huwx doc.pdf_第1页
Microsoft Word - 修改后的文章_Huwx doc.pdf_第2页
Microsoft Word - 修改后的文章_Huwx doc.pdf_第3页
Microsoft Word - 修改后的文章_Huwx doc.pdf_第4页
Microsoft Word - 修改后的文章_Huwx doc.pdf_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉语朗读话语重音自动分类研究汉语朗读话语重音自动分类研究 STUDY ON STRESS PERCEPTION IN CHINESE SPEECH 胡伟湘 董宏辉 陶建华 黄泰翼 中科院自动化所模式识别国家重点实验室 100080 北京 Hu Weixiang Dong Honghui Tao Jianhua Huang Taiyi National Laboratory of Pattern Recognition NLPR Institute of Automation Chinese Academy of Sciences wxhu hhd jhtao huang Abstract Abstract Restricted by prosody hierarchy and disturbed by tone and intonation it is a hard task to detect the stress of Chinese speech automatically In this paper aiming at automatic stress perception in normal mandarin reading speech we studied some acoustical measurements based on F0 duration and intensity and proposed a novel model to calculate the stress of each syllable With a structure of classify tree the model combined the restriction of tone context and prosody hierarchy effectively It was shown from the result that the top line of pitch pitch range duration are important cues for stress perception 摘 要摘 要 汉语的重音由于受到声调 语调以及韵律单元层级的干扰和制约 对于重音的自动感知一直是 比较困难的问题 针对标准的朗读普通话语 本文在广义韵律结构的框架下研究了重音的声学表现 设计并实现了重音的自动感知模型 本文提出的基于分类树结构的区分度模型能有效地结合韵律单 元结构对重音的制约 研究结果表明 音高高线 调域 音长是表达重音最重要线索 利用这些线 索能有效地实现对重音的自动感知 Keyword Stress Prosodic Structure 关键词关键词 重音 韵律结构 1 引言 1 引言 近些年来 随着言语工程技术的迅速发展 汉语韵律信息的研究成为言语工程领域被广泛关注 焦点 人们越来越需要更加深入地了解自然话语的韵律结构 并试图建立完整的数学模型来描述自 然语言韵律结构与语言文本 韵律结构与语音声学特征的数量关系 即实现对文本的韵律结构预测 和对语音的韵律结构检测 从而实现更加有效地提高合成语音的自然度 语音识别准确率和自然语 言正确理解的程度 从言语合成的角度出发 其根本目的是需要实现从文本到韵律结构的关系映射 以及如何根据韵律结构来设定适当的声学参数 从而最终提高言语合成的自然度 普通话语句中 音节间和短语间的韵律特征变化 与合成语音的自然度关系密切 其中尤以声调的变化最为重要 吴宗济 2001 初敏 2001 通过两步的韵律实现策略较大地提高了言语合成的自然度 陶建华 2001 提出了汉语韵律层级结构分析和韵律建模的统计模型 并在此基础上建立了自然度较高的 语音合成系统 在对汉语韵律结构的研究过程中 一个很困惑的问题就是如何明确定义汉语的韵律结构 许多 研究者从语言学 感知实验 实验语音学 言语工程等不同角度都提出了各自的不同看法 一般来 讲 韵律结构就是指音系学上的韵律层级 Prosodic Hierarchy 从小到大依次为 莫拉 Mora 音节 音步 音系词 附着词组 音系短语 语调短语和语句 从言语工程的角度 我们一般可以简化为 韵律词 韵律短语和语调短语 曹剑芬 2002 以往人们对汉语韵律层级结构和重音的研究 都习 惯于将二者分割开来进行研究 当然这对于深入研究具体某个方面是一个比较好的简化策略 但是 鉴于汉语韵律层级单元边界与重音在声学表现上的相关性 那些根据声学特性来单纯地确定韵律边 界或者重音的方法难免会有一些局限性 比较合理的方法应该是结合广义韵律结构所涵盖的两个方 面综合地进行分析 本文将在前文 胡伟湘 2002 的基础上进一步研究韵律结构框架下的重音自动 检测方法 在本文中 我们认为韵律词是自然话语的基本韵律单元 一般有 1 4 个音节 可以是一个蜕化 单音步 两音节标准音步 三音节超音步和一个四字格的复合韵律词 它只有一个词重音 有比较 固定的连调模式 对一些轻读 轻声音节 如功能词 他们可以和其相连的词组成一个多音节韵律 词 韵律词内部没有可感知的停顿 但是在词尾一般会出现音高重设 但一般不会有停顿 韵律短 语有一个或者多个结合比较紧密的韵律词组成 内部一般不会出现停顿 在短语边界可以出现有声 停顿或者无声停顿 林茂灿 2002 考虑到韵律短语边界出的停顿大小 它反映了前后短语之间关 系的密切程度 我们也可以将韵律短语再细分为小韵律短语 Minor Phrase 和大韵律短语 Major Phrase 一个或者多个短语组合在一起 具有完整的语调 称之为语调组 Intonation Group 李 爱军 2001 人们对重音 Accent 的定义也同样存在很多分歧 一般而言 重音指那些在话语中 听起来显得比较尖锐而有力的音节或词 在感知表现上重音具有一定的层次 在不同的韵律词 短 语或者句子等不同的范围中 音节所负载的重音信息所影响的范围应该是不同的 即有的音节负载 的重音只是在韵律词内部相对而言的 而有的音节负载的重音是在整个短语句或者句子范围中都有 影响 分别将其称为词重音和语句重音 王韫佳 2003 因此 对于重音的界定 必须限定在一定 的范围内才是有意义的 经过试验 王蓓得到 重读音节时长延长与音节在语调短语中的位置有关 语调短语首的音节重读时时长延长最大 王蓓 2002 王韫佳等也得出 节奏重音倾向于落在较大 韵律单元的最后一个词上 节奏重音通常与停顿伴生等结论 王韫佳 2003 事实证明 重音的出 现是有规律可循的 本文中 我们着重于重音的自动监测方法研究 因此对重音的定义更加偏向于语音感知 本文 所谈论的重音是指在不同的韵律层级结构中 比如韵律词 韵律短语等 感知比较突出的音节 本文的后面部分 我们首先将在第二节对本研究所采用的数据库以及相应标注进行描述 同时 统计出一些基本的分布规律 第三节将深入分析重音的声学表现 在第四节我们将提出基于分类树 结构的重音区分度模型 最后是实验结果和结论 2 数据库及标注 2 数据库及标注 本文所采用的数据库是朗读语篇语料库 ASCCD 该语料是 18 篇体裁覆盖记叙 议论 通讯 散 文等常见文体的短文 每篇短文长度大约 500 个汉字 语音数据由精选的 10 位 5 女 5 男 北京地 区标准普通话发音人录制而成 对语音的标注有声韵母层 DE 拼音层 PY 间断指数层 BI 和重音层 ST 间断指数层采用 5 级标注 分别是 0 韵律词内部音节边界 1 韵律词边界 2 韵律小短语边界 3 韵律大短语边界 4 语调组边界 重音层按照 4 级标注 分别是 0 没有 被重读的音节 1 韵律词中最重的音节 2 韵律小短语中最重的音节 3 语调短语中最重的音 节 另外 我们知道汉语拼音中有很多轻声音节 而且在具体的语言环境中 有的原来不是轻声的 被弱化轻读为轻音 本文中 我们将这两者情况都归为轻读音 并在拼音层的声调标注为 0 我们首先对语音库的手工标注得到的轻读音 正常音 三个级别的重音出现的音节总数按照不 同的朗读人进行了初步的统计 结果见表 1 表中 交集 列表示 10 个朗读人对同一音节读成相同 轻重类别的音节数目 此时我们将重音的 3 个级别不予区分 表 1 表 1 相同文本不同朗读人重音表现数据比较 忽略人工标注的不一致性 我们发现 对于相同的语料 不同说话人按照相同的朗读风格进行 朗读 对音节的轻重设置还是有很大的差异 首先 对轻读音各个不同说话人具有很高的一致性 即那些可能需要轻读的音节大多都被朗读成轻音 因此 轻读音具有较大的稳定性 同时我们也发 现 重音与普通音的设置差异却非常大 这说明很多音节可以被重读 也可以不被重读 这种自由 度是非常大的 在下文中我们将着重研究重读音和正常音的声学区分特征 3 声学特征分析 3 声学特征分析 重音是声学因素的强化 实验语音学的研究表明 主要有以下几种声学因素影响重音的感知 1 音长 汉语普通话重读音节往往表现为时长明显加长 叶军 2001 2 调阶和调域 在汉语中 音高高音点的升高是重音感知的重要线索 王蓓 2002 另外 重音的音域一般会加宽 叶军 2001 3 声调调型 汉语是声调语言 音节声调调型的稳定性和饱满程度也是重音的重要表现 一般 重读音节总是倾向于维持原调型不变或保持原调型的主要特征 相应的 其调型总是表现 得相当饱满 叶军 2001 下面我们将分别对重音在音长 音高等方面的表现特性进行分析 部分方法在文章 Tao Jianhua 2003 中有详细阐述 3 1 音长 3 1 音长 音长是一个发音单元 音节或者声 韵母 的持续时间长度 影响音长的因素很多 比如发音 单元类别 上下文 发音轻重 在韵律单元边界的相对位置 声调 语速和语用等等 在本文中我 们考虑到本语料库的朗读风格 不妨忽略语速和语用等其他因素的影响 而仅仅考虑发音单元类别 轻重 韵律单元边界位置三个方面的影响 来分析音节的音长统计特性 我们首先应用下面公式 1 计算不带声调音节的归一化音长ND i ii DivD DivDAvgDD ND 3 5 1 11 10 00 i i NDif NDifND NDif ND 1 其中 D表示该音节的实际物理时长 i AvgD i DivD分别为该音节在语料库中的时长均值 说话人 M001 M002 M003 M004M001M001M001M001M001 M001 交集说话人 M001 M002 M003 M004M001M001M001M001M001 M001 交集 轻读音 784 898 866 867 850 849 872 854 858 856 722 正常音 4538 4862 3848 4696 4188 4331 4643 4833 4661 4611 1174 1 级重音 1427 1452 1990 1438 1476 1875 1622 1466 1536 656 2 级重音 641 454 819 805 853 686 754 688 745 1571 3 级重音 1369 1093 1236 953 1392 1018 868 918 959 1063 682 和方差 声调也是影响音长的重要因素 严格意义上我们应该计算带声调音节的归一化音长词才是合理 的 考虑到数据的不充分 我们在计算归一化音长时忽略了不同声调对不同音节的影响 事后对四 类声调 轻声被当作上面的轻读音 不做进一步计算 进行了统计 发现不同声调类型之间的归一 化音长有一定的差异 我们计算四类声调音长总体均值 jtoneNDAverageDTj 进而得到 四类不同声调的相对音长 j j j DTMax DT DT j 1 2 3 4 并以 j TD 1 作为声调 j 的加权因子 从而 最终得到带声调音节的归一化音长为 j TD ND ND 其中 j 代表该音节的声调 音长延长是实现边界停顿的重要方法 我们考察了音节在韵律词首 中 尾部三个位置的音长 变化 他们的关系如下图 1 所示 纵坐标为规范化音长 同时音长的变化也是产生不同重音感知的 重要原因 图 2 表示了不同重音级别的音长变化 其中 T1 4 表示四种不同声调 Normal 表示正 常音 1 2 3 分别代表三级重音 蓝色线条 ALL 表示总体均值走向 0 10 20 30 40 50 60 词首词中词尾 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 Normal123 T1 T2 T3 T4 All 图 图 音节音长与韵律词内位置关系示意图 图图 2 音节轻重与音长关系示意图 可以看出 音节在韵律词中的不同位置 其音长是有比较大的差异的 在韵律词首 一般发音 比较充分音长比较长 在韵律词尾经常出现音长延长的情况 但由于大量以轻声附着成分结尾的干 扰 词尾的音长延长效果在图 中并没有得到充分的体现 对应于不同的重音级别 一般说来随着 重音强度的加强 音节的音长有加长的趋势 3 2 音高 3 2 音高 音高的上下起伏 是语调 声调以及韵律节奏等多种因素共同作用的结果 研究结果表 明 音高低线一般与韵律边界相关 而高线一般与重音相关 下面我们主要分析音节音高曲 线的低值 BP 高值 TP 和调域 RP 的统计特性 如右图 3 所示 图 3图 3 音高参数示意图 聪明 Ming2 按照图 3 所示对每一个音节计算分别对应于 TP BP 和 RP 的参数值 TF BF 和 RF 显然 影响这三个参数的原因很多 诸如声调 语调和韵律词内位置等等 因此我们需要引入必要 的方法逐一进行分析 音高的数值归一化方法如下式 minmaxmin FFFFNF 2 首先对不同声调 1 4 声 轻读音没有考虑 统计三个参数在不同重音条件下的表现 我们发现 音高高线和调域对重音贡献比较大 而且随着重音强度的加强而有明显的上升和 加宽趋势 其中 上声的调域变化比较复杂 如下图 4 5 所示 T1 T4 表示四声调 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 Normal123 T1 T2 T3 T4 0 10 20 30 40 50 60 70 80 90 100 Normal123 T1 T2 T3 T4 图图 4 不同声调音高高点在不同轻重下表现 图图 5 不同声调调域在不同轻重下表现 而音高低线表现比较复杂 男声一般都随着重音的加强而呈现略微上升趋势 上声变化不 大 甚至有下降的可能 女声表现更加复杂 这主要是因为音高低线还更多地负载着韵律间 断的信息 随着韵律词的向后延续 音高低线是明显下倾的 而这种音高下倾的趋势同样对 音高高线和音域有一定的影响 因此 我们在根据音高曲线来考察音节的轻重时 必须考虑 到韵律词块中的音高下倾趋势 在下文的模型设计中 我们将考虑音节在韵律词中的不同位 置及韵律词在语调短语中得位置来分别建立模型 4 模型设计 4 模型设计 重音的声学表现诸如音高 音长 音强等由于受到多种因素的影响 我们很难直接根据有限 的几个参数来确定音节的轻重 而且 在不同的韵律环境下 重音的声学表现呈现非常复杂的情 况 我们认为 要想根据声学参数来确定音节的轻重 首先就需要确定音节所处的韵律环境 在 这里 我们提出基于判别树结构的区分度模型 来实现对音节重音的自动感知 我们首先设计了几类问题 来对音节的语境进行初步分类 这几类问题包括 a 本声调 分 别为 1 2 3 4 声 b 前音节声调 静音 空 1 2 3 4 轻声 c 后音节声调 静音 空 1 2 3 4 轻声 d 在韵律词中的相对位置 首 中 尾 韵律词 e 韵律词在语调短语中 的位置 这样划分的结果 可以将音节初步划归到 432 类中 考虑到实际数据量的限制以及声调在协 同发音的经验知识 我们进一步将他们归并到 72 个基本类 i K 在此基础上 我们设计的自动感知模型的原型是 ss XFY 3 其中 s X表示音节 s 的声学参数 s Y表示音节 s 的重音类别 F是YX 的函数映射 F可以是线性的 也可以是非线性的 考虑到前面的分析结果 在这里我们所采用的声学参数 s X 包括 a 本音节特性 音高高值 低值 调域 音强均值 音长 b 相关特性 音高高值 调域 的前向 后向差分 对应函数F采用线型映射关系 即 BCXXFY sss 4 其中 C和B分别为系数和常数 余下的问题是需要根据训练数据来确定对应于每一个基本 类别 72 1 iKi的 i C和 i B 另外 考虑到 s X取值的分布特性 在局部区域比较密集 我们利用 Beta 累积分布函数对 s X 的取值进行重新规整 即将 4 式修正为 BXBetacdfCY ss 5 5 实验结果 5 实验结果 为评价模型的有效性 我们设计三个实验 实验 A 中 训练数据和实验数据都来自同一个人 M001 取该人朗读的所有语音数据 18 段作为训练集 Tr 同时也作为集内测试集 实验 B 中 M001 的前面 12 段作为训练集 Tr 后面 6 段作为测试集 Te 这样可以初步验证模型的有效性 实验 C 中 我们用 10 个朗读人的前面 12 段作为训练集 Tr 后面 6 段作为测试集 Te 这样可以 测试模型对不同说话人的稳定性 实验结果如下表 2 所示 同时 在该模型下 为了进一步评估音高 音长和音强对重音感知的贡献程度 我们也设计 了另外一组实验 训练数据和测试数据采用 Tr 在三次实验中分别屏蔽音高 音长和音强三个方 面的特征参数 实验结果如表 3 所示 表表 2 重音自动感知实验结果 表表 3 各类信息对重音贡献的初步比较 均值 重音 1 重音 2 重音 3屏蔽特征均值 重音 1 重音 2 重音 3 A 86 9 76 2 88 1 96 5 音高 62 3 59 6 62 1 65 2 B 84 2 74 9 83 5 94 3 音长 66 1 63 2 65 2 69 9 C 81 0 70 6 80 3 92 2 音强 79 1 68 2 79 0 90 2 从表 2 的实验结果看出 对于同一个人 集内测试的结果非常好 平均将近 87 而对于实 验 B 结果则不是很令人满意 这里训练数据的限制估计是一个重要原因 从实验 C 可以看出 不同说话人的差异还是比较大的 尽管我们在实验中对声学参数的个人风格进行了很多的归一化 处理 但是感知的结果仍然不是很理想 从表 3 的结果表明 音高和音长方面的参数的确在重音 的自动分类中具有很重要的作用 相比之下 音强的作用不是很明显 6 结论 6 结论 由于受到声调 语调以及韵律单元层级的干扰和制约 汉语重音的自动感知一直是比较困难 的问题 针对标准的朗读普通话语 本文深入分析了重音的声学表现 进而在此基础上设计了基 于判别树结构的区分度模型 实验结果表明 音高和音长是重音感知的重要线索 适当设计韵律 环境的分类树 我们可以比较有效地实现对重音自动感知的建模 当然 对于说话人的不同变化 特点 我们仍然需要进一步研究不同说话人轻重表达差异 从而得到更加有效的非特定人自动感 知模型 最后 感谢社科院语言所语音实验室提供语音库支持 致谢致谢 本文研究得到国家 973 项目 G1998030504 和国家自然科学基金重点项目 69835003 的支持 参考文献参考文献 1 叶军 汉语语句韵律的语法功能 华东师范大学出版社 2001 M 2 初敏 韵律研究

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论