粤语声调识别.pdf_第1页
粤语声调识别.pdf_第2页
粤语声调识别.pdf_第3页
粤语声调识别.pdf_第4页
免费预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

粤语声调识别 罗籀材欧贵文黄捷迅 中山大学物理系 计算机科学系 f a t c a t I e 2 1 c nc o l t l I n s o g z s u e d u c n j a c k y h j x e 2 1 c n C O m 摘要3 识别方法 作为中国的官方语言 普通话是全世界使用人数最多的 语言 关于她的语音识别系统也林林种种 但 作为中国南 方的仁要语音粤语 一种中国经济中心广泛使用的语 言 似乎被人忽略了 识别粤语的首要任务是识别它的声调 此论文正是对粤语的声调识别技术作了原理及应用分析 关键词语音识别 声讽 基音 最小二乘法 1 引言 语音识别技术正越来越广泛的影响着我们的生活 在市 面上或者研究机构里 我们都不难发现有关中国官方语言普 通话的语音识别系统 毕竟这是十多亿人口的共同语言 但 人们似乎忽略了作为经济发展重地的南方 有着一种广泛通 用的语占一一粤语 粤语中不同的声调代表不同的意思 如 我 t 鹅 两者的拼写都为 n g o 前者发音为第5 声调 代表第一人称 而后者发音为第4 声调 代表一种水果 因 此 识别粤语的首要任务是识别它的声调 这篇论文正是对 粤语的声调识别技术作了原理及应用的分析 2 粤语的声调特点 粤语 又叫广东话 本地人称为 白话 粤语是全国 七大方言之 也是一种很有特色的方言 一种强势的方言 粤语主要通行于广东大部分地区 广西部分地区及港澳 此 外 在美加的华人大部分也是使用粤语 据估计 到目前为 止 全世界使用粤语的人口已有六百多万 总的来说 粤语的声调共分为阴平 阴上 阴去 阳平 阳上 D P l 3 去六个 具体例子请看下表1 声调 四五 名称阴阴阴阳 阳阳 皿 上去 皿 上 去 例子 诗史试时市事 表1 粤语声调及例子 3 0 2 1 基音分析 实验采用S p e e c hF iIi n gS y s t e 僦音文件 带通 滤波 1 0 0 1 0 0 0 H Z 采样频率 1 1 0 2 5 R Z 并用其进行基音 分析 导出为t x t 文件 得到其基音数据 2 算法 得到基音数据后 用自己编制的软件对其用最小二乘法 进行曲线拟合 得出拟合系数 最小二乘法是数据拟合的实用方法 分为线性最小二乘 法和多项式拟台最小二乘法 实验中采用前者 没拟合函数为 y a x b 其中a b 为参数 不妨让给定数据点一般化 S i 正 其中i o 1 n 那么直线与数据点的偏差平方和为 口 6 口z 6 一S i 1 i o 为了使得中 b 取的为极小值 那么就要 0 0 a b 0 掣 0 是极小值点的必要条件 叻 分别对巾 口 b 关于a 和b 的偏导数可得 2 l 正 b S 0 2 盯l 6 一S 0 2 i o 解上面方程组便可得a 和b 的表达式 1 4 实验结果 为了更准确地制作语音模板文件 录音是在相对安静的 实验室进行的 在实验中共请了1 0 位男生和1 0 位女生录音 录制 诗 1 史 2 试 3 时 4 市 5 事 6 六个音 分别是广州话的六个声调 共1 2 0 个模扳语音文件 经过运算 求平均值 得出模板 另外 实验中还录制r 用 于测试的语音文件 共有3 位男生和3 位女生的录音t 录制 了 瓢 仓 驱 1 手 海 否 2 j 票 伞 界 3 旁 云 儿 4 免 厚 偶 5 又 健 漫 6 共1 8 个音 分别是广州话的六个声调 共1 0 8 个 测试语爵文件 后期还加上了2 位女生录制的广卅I 话数字及 常用字一 1 二 6 三 1 四 3 t 五 5 i 6 七 1 八 3 九 2 十 6 甲 3 乙 3 丙 2 丁 1 你 5 我 5 他 1 共5 1 个测试语音文件 注 括号内的数字表示声调 分析数据时 采用 阶最小二乘法 先从模板文件中得 出标准拟合系数 然后再对待测文件求出拟台系数 比较两 者 可得出待测语音所属的声调 可得实验成功率如下表2 声调四五 名称阴阴阴阳阳阳 皿 上 去 皿 上去 测试 3 3 2 43 02 0 2 7 2 7 次数 成功次 2 52 31 61 51 91 9 数 成功率 7 5 7 69 5 8 0 5 3 3 37 50 0 7 03 77 0 3 7 表2 实验成功率 也许实验成功率不算高 但对于一种方言来说 也许是 一个好开始了 另外 经过对 广州音字典 的统计 可以得出各声调 的使用率如下表3 声调四五 名称阴平阴上阴去阳平阳上阳去 使用率2 6 41 24 81 2 0 61 2 E 15 0 22 0 1 8 表3 各声调使用率 统计结果显示 第三声调的识别成功率最低 但它的使 用率只有1 20 6 在6 个调中为次低 第五声调的识别成 功率只有7 03 7 在6 个调中为次低 但它的使用率最低 因此 可以推测此粤语声调识别的方法在实际使用中会有更 高的成功率 3 0 3 5 实验结论 通过以上的实验 经过统计 可得出粤语的六个声调的 基音如下图1 至图6 所示 图1 第一声调 阴平 图2 第二声调 阴上 图3 第三声调 阴去 图4 第四声调 阳平 图5 第五声调 阳上 图6 第六声调 阳去 由此可以得出粤语六个声调的规律 1 第一声调 即阴平的基音斜率约为0 2 基音斜率大于O 的声调有 第二声调和第五声调 其中前者斜率大于后者斜率 3 基音斜率小于0 的声调有 第三声调 第四声调和第 六声调 其中斜率 第四声调 第六声调 第三声调 6 进一步研究 有了以上粤语声调的规律 可以进一步研究粤语连续发 音的情况 录音是在相对安静的实验室进行的 在实验中共请了 2 0 位男生和1 0 位女生录音 录制的常用短句包括 你 5 好 2 j 早 2 晨 4 早上好 点 2 解 2 为什么 一 1 路 6 顺 6 j 风 1 和 吃 3 左 2 饭 6 未 6 吃了饭没有 共1 5 0 个测试语音 文件 注 括号内的数字表示声调 文字表示普通话表达 为了简化系统 集中研究声调识别情况 实验中忽略了 摹音曲线相连的语音文件 因此 仍可采用上面的自编软件 实验成功率如下表4 声调 四 五 名称明阴 阴阳 阳 阳 皿 上 去 皿 上去 测试4 01 0 02 02 02 0 4 0 次数 3 0 4 成功次 3 09 01 0 1 4 1 62 0 数 成功率 7 50 09 00 0 5 00 07 0 0 08 00 05 00 0 表4 实验成功率 比较表4 和表2 除了第6 声调的识别成功率有明显下 降外 其他声调的识别成功率均基本持平 分析其原因 可 以发现包含第6 声调的测试短句 一 1 路 6 顺 6 风 1 和 吃 3 左 2 饭 6 未 6 吃了饭没有 中都有两个连续的第6 声调 在测试结果中 这两个连续的 第6 声调大部分只有一个识别正确 因此推测 第6 声调的 识别成功率明显下降的原因可能与同声调相连发音可能发 生变调有关 这方面有待研究 总的来说 本论文对粤语声调的研究只是一个开始 在 以后的工作中 可以从多方面对此课题进行提高 比如试采 用多项式拟台最小二乘法代替线性最小二乘法拟合基音曲 线 研究连续发音的变调问题和开发连续语音识别系统等 等 粤语声调的识别为研制粤语识别系统提供了基础 并且 相信t 此次实验使用的研究方法 也可运用于其他语言 进 行声调识别 1 饶秉才主编 年5 月第一版 2 徐士良编 1 9 9 61 1 第2 版 3 J i i nG iI S i n a n R e c o g n i z e r 7 参考文献 广卅I 音字典 广东人民出版社1 9 8 3 c 常用算法集 清华大学出版社 V AS i m p l eM a n d a r i nC h i n e s eT o n e h t t p d u n s t e r l s t u d e n th a r v a r d e d u 一g iS i n a n t h e s j s 粤语声调识别粤语声调识别 作者 罗帼材 欧贵文 黄捷迅 作者单位 中山大学物理系 计算机科学系 相似文献 10条 相似文献 10条 1 学位论文 温源 基音在语音识别中的应用及提高识别系统速度的研究 2002 该论文为三大部分 第一部分论述了一种基音特征的规整方法 讨论了如何将基音特征和频谱特征以置信度的形式统合到命令词识别中的方法 实验 用一个40人74词词瑶数据库作测试 结果表明 利用该文方法 把基音特征和频谱特征按置信度形式统合后识别率可达99 10 基音特征加入前后错误率下 降33 8 第二部分描述了作者在HMM系统中应用基音特征的一些新的做法 包括对基音特征进行减均值规整 除均值规整以及利用S函数规整 文中在对各 种方法进行的理论描述后通过对比实验来进行测试 结果表明利用除均值和S函数规整的方法可以使系统错误率下降约26 该文最后论述了一种通过压缩 缓变语音帧来提高HMM连续语音系统的速度的方法 这一方法通过在特征提取阶段判决出一些变化较缓的帧 使其不参与后续搜索 从而达到提高训练和识 别速度的目的 为此该文提出了比例准则和门限准则两种方法来判定缓变帧 同时论述了舍弃和概率代替两种使用缓变帧的方案 通过对一个100人的连呼 数字串数据库作若干对比试验表明 采用替代缓变帧概率的方案较好 在识别速度提高大约20 的时候 系统仍然维持较高的识别率 98 46 该文所论 述的这种方法适于对计算能力和存储量有限而要求识别速度的小型系统 如PDA 掌上电脑等等 2 学位论文 侯震 语音识别鲁棒性方面的研究 2002 该文主要探讨语音识别鲁棒性问题中语速和语调这两方面的内容 首先在语速方面 分析不同语速的语音对识别结果的影响 然后 在使用隐马尔科夫 模型的识别系统中引入惩罚因子这一概念 并通过实验说明惩罚因子可以有效改善删除错误和插入错误的数量 针对不同语速的语音 使用最佳的惩罚因子 可以使识别错误率最低 接着作者分析各种速度语音识别结果 得出最佳的惩罚因子和语速之间的数学关系 根据这种的关系 又提出五种方法利用惩罚因 子来提高识别系统对语速的鲁棒性 在语调方面 先介绍语调的变化对识别结果的不利影响 并且目前的识别系统常常无法解决这样的问题 进而根据语调 和基音之间的紧密联系 作者希望可以提取出对语调变化鲁棒性更好的声学参数 接下来 在讨论一些语音信号中基音的提取方法之后 确定谐波求和的方 法可以最高效和最方便的在我们的实验系统中提取基音 利用提取的基音 我们提出动态的提升美尔刻度倒谱系数中滤波器组低端截止频率的方法 即适当 改变滤波器组覆盖的频段 3 会议论文 张志鹏 张云飞 利用音调特征与时域非线性变换改进语音识别 1997 在语音识别的研究中 如何充分利用汉语固有的特点一直是一个重要的研究课题 汉语是一种有调语言 音调里包含了丰富的语意信息 另外 汉 语的音节是由声母加韵母组成的 声母的发音时间只是韵母的几分之一 根据这些特点 他们尝试通过引入音调特征和时域非线性变换来提高对汉语的 识别率 具体地对传统的基音提取方法做了一些改进 并为音调特征建立了高斯概率混合模型以便与HMM模型相结合 对声母和韵母采用了动态时域非线 笥变换 实验证明这些方法对弧立数字的识别水平有一定程度的改善 对连续语音的识别也有相当的指导意义 4 学位论文 刘建 汉语连续语音识别及连续汉语的声调识别研究 1999 该首先给出了一个基于混合连续高斯概率密度函数的HMM不认人连续识别基线系统 通过总结以往研究工作的经验 结合汉语语音学的知识 该文提出 了将易误识的短声母和浊声母根据其后续韵母发音类别的不同来细化声母模型的方法 这样总共得到74个识别单元 只比标准的声韵母总数 60个 多14个 但模型精度却有了较大提高 针对系统中插入错误过多的现象 该文还建立了一个连呼数字串的识别系统 用以比较研究各种搜索算法 最终找到了一个在 声学模型下大幅度降低系统插入错误的方法 另外 该文汉语语音的音调检测和声调识别方面的研究都做了新的尝试 该文采用的这种连续语音的声调识别 策略 使得声调识别方法能和语音识别系统方便且紧密地结合在一起 从而使 声 韵 调 直接地结合到了一起 同时 基于GMTM的声调识别方法并不只限 于对汉语的声调识别 它可以适用于任意一种具有有限声调模式的有调语言 该文最后还通过实例简要说明了声调识别结果对自然语言理解的作用 介绍了 该文的声调识别方法同HMM识别系统训练过程中LSS算法相结合的一种在连续语音基音和声调自动标注上的应用 并对该文工作的进一步研究方向和应用前 景进行了探讨和展望 5 学位论文 张晶 人 机界面中非特定人汉语语音识别系统初探 1992 6 期刊论文 周韡 梁维谦 刘润生 ZHOU Wei LIANG Wei qian LIU Run sheng 汉语声调识别中的基音后处理方法 桂林电子科技大学学报2008 28 3 汉语是一种带有声调的语言 声调信息主要体现在韵母的基音轨迹中 但是由于提取的基音不够稳健 所以必须要对基音进行后处理 通过归纳以帧为 单位和以韵母为单位的两类基音后处理方式 并在第一种方式中提出基于韵母平均值进行归一化算法 在第二种方式中提出了帧叠靠前和帧叠靠后的韵母 四等分长算法 经实验结果 以标准HTK为平台 得出后者更优的结论 考虑到前后声调的影响 采用声调三音子模型进行声调识别测试 可以比单音子模型识 别效果提高10 左右 7 学位论文 曾毓敏 鲁棒的与文本无关的说话人识别算法的研究 2007 说话人识别技术与其他生物识别技术相比 具有更为简便 经济和更好的可扩展性等优点 目前的说话人识别系统对纯净语音已经可以达到很高的 识别精度 但当用于识别的语音存在失真时 系统的识别性能显著下降 实际应用中造成语音失真的因素非常多 因此 提高识别系统的鲁棒性是说话 人识别技术走向实用化的关键 本文从鲁棒性特征分析提取和优选 噪声失真补偿 说话人预分类等几个方面展开研究 提出了改进算法 取得了一些 研究成果 本文在介绍说话人识别中常用的语音特征参数和典型的说话人分类模型的基础上 特别分析了感知线性预测倒谱系数 PLPCC 参数的特点和提取方法 比较了几种参数在与文本无关的说话人识别中的性能 得到了基于PLPCC语音特征参数和高斯混合模型 GMM 的系统具有更好的性能的结果 并根据 GMM和人工神经网络 ANN 模型的特点 提出了一种基于ANN和GMM模型联合得分判别的识别方法 在一定程度上提高了识别性能 在分析和研究基音同步分析方法和鉴别性特征参数选取方法的基础上 提出了基于语音基音同步分析特征参数提取和Fisher比特征参数矢量分量优 选降维的说话人识别算法 该算法采用基音同步分析方法提取各帧语音的PLPCC及其 APLPCC特征参数 再利用Fisher比对由基音P 12阶PLPCC和 PLPCC组成的特征参数矢量的各维分量进行优选 使最终的特征参数矢量得到降维 与文本无关的闭集说话人识别仿真实验表明 语音基音同步分析特 征参数提取和Fisher比特征参数矢量分量优选降维可以提高识别系统性能 本算法与通常的算法相比 其识别率和鲁棒性得到了提高 而有效降低了模 型的复杂度 训练条件与测试条件的不匹配是导致说话人识别系统性能下降的一个重要原因 而噪声是引起这种失配的主要因素之一 提高系统在噪声环境下的 性能的一个重要方法就是对噪声进行补偿 使失配减小 本文在仔细分析短时语音频谱结构特征的基础上 提出了一个基于浊音语音谐波频谱子带加权 重建的抗噪声说话人识别算法 该算法针对浊音语音谐波频谱结构的特征 对受噪声污染的浊音频谱在各个谐波带上根据信号能量和谱平坦度测度实施 加权重建 然后基于重建的浊音频谱提取相应的PLPCC参数 在参数域上实现对噪声的补偿 仿真结果表明 该算法可以对多种类型的含噪语音进行良好 的噪声补偿 明显提高在噪声环境下的说话人识别率 特别是低SNR环境下的识别率 噪声补偿性能明显优于谱减法和倒谱均值相减法的补偿方法 语音的基音特征也是一种具有一定鲁棒性的语音特征参数 本文研究了基音提取方法及其在说话人识别中的应用 在分析已有的基音检测算法的基 础上 本文提出了儿种改进的基音检测算法 1 基于倒谱修正模型的语音基音检测算法 2 改进的平均幅度差函数语音基音检测算法 3 基于小波变 换的含噪语音基音检测的改进算法 实验结果表明 本文提山的改进算法与对应的基本算法及其相关改进算法相比 基音检测精度特别是在噪声环境卜 的基音检测精度有了不同程度的提高 另外 基音在说话人识别中应用的仿真结果也表明 基音与倒谱类特征参数PLPCC MFCC LPCC的组合应用 可以 提高识别系统的识别率和鲁棒性 本文还就基于性别特征和年龄特征的说话人分类问题进行了研究 针对成年说话人性别的分类问题 提出了一个基于基音与RASTA PLPCC组合特征参 数和GMM模型的改进算法 获得了很高的分类精度和很好的鲁棒特性 针对儿童与成年说话人的分类问题 提出了一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论