



全文预览已结束
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
I S S N 1 0 0 0 0 0 5 4 清华大学学报 自然科学版 2 0 0 7 年 第 4 7 C N 1 1 一 2 2 2 3 N J T s i n g h u a U n i v S c i 隐含Ma r k o v 模型 语音识别 中图分类号 T N 9 1 2 3 4文献标识码 A 文章给号 1 0 0 0 0 0 5 4 2 0 0 7 0 4 0 5 1 8 0 4 H MM m o d e l i n g b a s e d o n m a n d a r i n p h o n e me s i n e mb e d d e d s y s t e m s 日 E J u e L I U J ia D e p a r t me n t o f E l e c t r o n i c E n g i n e e r i n g T s i n g h u a U n i v e r s i t y S h e n z h e n G r a d u a t e S c h o o l B e i j i n g 1 0 0 0 8 4 C h i n a A b s t r a c t A me t h o d o f Hi d d e n Ma r k o v Mo d e l s ac oust i c m o d e l d e s i g n w a s d e v e l o p e d f o r t o r e d u c e t h e c o m p l e x i t y o f t h e m o d e l s a n d l o w e r t h e h a r d w a r e r e q u i r e m e n t s i n e m b e d d e d T h e m e t h o d s e p a r a t e l y m o d e l s e a c h i n i t i a l g l i d e n u c l e u s a c ou s t i c s y s t e ms p h o n e m e T h e m o d e l n u m b e r s o f t h e s e f o u r p a r t s w e r e 7 6 a n d c o d a 1 2 7 6 a n d 1 4 a n d t h e s t a t e n u m b e r s o f e a c h m o d e l o f t h e s e f o u r p a r t s w e r e 4 1 4 a n d 2 i n t h e f i n a l s y s t e m b a s e d o n t h e k n o w l e d g e o f m a n d a r i n p h o n e m e s a n d t h e r e s u l t s o f s c h e m e c o m p a r i s o n t e s t s T h e t o t a l n u m b e r o f m o d e l s w a s r e d u c e d b y 3 0 2 0 o w i t h t h e n u m b e r o f s t a t e s w a s r e d u c e d b y 3 6 5 T h e k e y w o r d d e t e c t i o n a c c u r a c y w a s im p r o v e d b y 1 3 2 0 o c o m p a r e d w i t h t h e m e t h o d o f m o d e l i n g e a c h i n i t i a l a n d f i n a l s e m i s y l l a b l e K e y w o r d s a c o u s t i c m o d e l h i d d e n Ma r k o v m o d e l s p e e c h r e c o g nit i o n 就这 4 部分音位而言 在传统隐含Ma r k o v模 型 a l H MM 的声学模型 3 1 建模 通常把后3 个不同 的音位作为一个音位聚结层 韵母 4 1 来进行 由汉 语语音学音位知识可知 韵母是韵首 韵腹和韵尾三 者的排列组合 而排列数P M 一般要大于M值 因 此 采取M建模的方式比P M 需要较少的模型 对 于语音识别片上系统而言 R A M等资源非常有限 为了减少声学模型的复杂度 降低对嵌入式系统的 硬件资源需求 本文根据这4 部分音位的各自 发音 情况以及相互之间的搭配情况1 5 1 提出了为汉语全 音节的声母 韵首 韵腹 韵尾这4 部分音位分别进 行声学H MM建模的新方法 实验中采用了英国剑 桥 大 学 的H M M建 模 工 具H T K sl o 1 声母音位模型建模 L1 四呼声母 模型 在前面提到汉字音节声韵搭配规律得出的2 1 个声母和四呼的搭配情况为 1 接开口呼的声母 b p m d t n l f g k h z h c h s h r z s c 2 接 齐齿呼的声母 b p m d t n l j q x 3 接合口 呼的声母 b p m d t n l f g k h z h c h s h r z s c 4 接撮口 呼的 声母 n 1 j q x 每一种搭配 分别对应建立一个声母辅音音位模型 即5 1 个声母 辅音音位模型 根据3 8 个韵母发音音标情况 7 l 经过总结可 以得到的6 个元音作为韵首 韵腹 韵尾的基本音位 的情况如表1 所示 根据声调的韵腹化处理 采取有 调韵腹音位 无调韵首 韵尾音位的方法 其中作为 韵首和韵尾的音位分别用上标1 和上标2 来表示 整个汉语语音系统结构关系可以分为 2 个层 次 音位和音位聚结层 E l l 音位是语言中能区别意 义的最小语音单位 汉字全音节可分为声母 韵首 韵腹 韵尾 E l l 这4 部分音位 收稿日 期 2 0 0 5 1 0 2 1 基盘项目 国家自 然科学基金资助项目 6 0 2 7 2 0 1 6 作者曲价 何压 1 9 8 1 女 汉 浙江 硕士研究生 通 讯 联系 人 刘加 教 授 E m a il l iu j m a il t s in g h u a e d u c n 何H 等 基于汉语语音音位的H MM 建模方法 表 1 6 元音 元音语音基本音位表 注意特殊情况o n g f o n g 音位发音场合 韵母 音位个数 韵腹 韵腹 韵腹 韵腹 韵腹 韵腹 a i a u a a i u a i u a n a n a o 八 a o i a n u a n a n g i a n g u a n e 除y e 2 0 韵腹 月司司司司 下 同 a元音 的第 4 种音位 四呼 五呼1五呼2六呼 声母建模方案 韵腹i e i i e y e 中e e r e n u e n e n g u e n g e i u e i o u o o u i o u 声母建模方案比较 听十叶1外lles吐即 7170706969 岁 并案书拼枷细 1 6 韵腹 e l o 4 韵腹 s i z i c i 中i s h i z h i c h i r i 中i 其余单韵母i in 1 2 韵腹 mg i e i a o i o u 八 a n i a n g i o n g a i e i u a i u e i u o n g u a u o u a i u e i u a n u a n g u e n u e n g o u i o u a o i a o i i o n i o n g i i e i i a n 1 韵首 1 韵尾 1 4 声母建模比较 关于四呼 五呼 六呼的比较实验结果如图1 所 示 五呼1 把以 开头的韵母归到大开口呼 五呼 2 把以 开头的韵母归到小开口呼 通过对全音节的 识别比较可以得出 并不是越细分的效果越好 后接 以元音 和元音a 开头的韵母的声母相似度十分 大 把两者合并起来的五呼1 方案要好于其他方案 2 有调韵腹模型建模 根据语音学知识 6 汉语3 8 个韵母中存在例 如 A 这样的韵腹音位 在a和u a中有 无韵首韵 尾并不一致 考虑是否要为 A 韵腹音位 在a 和u a 中建立不同的 H MM 模型 这里有 4种方案可供 比较 1 添加逻辑韵首和韵尾音位 缺哪个音位就补 上哪个音位 韵首部分 实际元音韵首 i l l u l l C Y I I 增加四呼逻辑韵首音位记为 C i ll I l u l l C y l l 又考虑到s h i z h i c h i r i s i z i c i 的特殊情况 增加 E l l E l l 而韵尾部分 实际 韵尾 i 2 u 2 辅音韵尾 n C i 7 C r l 增加逻辑 韵尾记为 E 2 2 C i 2 2 1 C u 2 2 1 C Y 2 2 并且在表1 中 区分单韵母和非单韵母的韵腹音位 该方案有调韵 腹 韵首 韵尾音位分别为7 2 9 9 0 2 只增加逻辑韵首 并且为舌面音的齐齿呼和 撮口呼 舌尖前音和舌尖后音的合口呼建立独立的 音位模型加以区分其单韵母韵腹 有调韵腹音位增 至8 8 个 韵首 韵尾音位分别为9 5 0 3 不增加逻辑韵首和逻辑韵尾 但对发音音位 相同而有 无韵首韵尾的情况不同的韵腹建立新模 型 例如 A 在i s u a 和在a 中音位一致但需要建立 不同模型 有调韵腹音位增至1 2 4 个 韵首 韵尾音 位分别为3 5 4 不增加逻辑韵首和逻辑韵尾 而且对发音音 位相同而有 无韵首韵尾的情况不同的韵腹不建立 一IJr 11一 1 品1 t扩t 11 1 厂L厂且 一IL工ilLL L 韵腹 韵腹 韵腹 韵腹 韵腹 韵腹 韵首 韵尾 韵腹 韵首 1门门 UUU 厂LL LllL 韵尾 韵腹 韵首 C y 7 C y l 4 韵腹 1 韵首 共计 2 2 a e 中 1 个重复 6 0 韵腹 3 韵首 2 韵尾 注 除此以外还有 司 C 们 r 3 个辅音韵尾音位 共 计5 1 个声母音位 3 个韵首音位 6 0 个有调韵腹音位 5 个 韵尾音位 实验结果见图1 0 1 2 五呼声母模型 考虑到四呼中的开口呼 6 1 包含了a o e 开头 的韵母 为了更加细化把开口呼分为大开口呼 以a 开头 和小开口呼 以e 开头 为了研究以 开头的 韵母与大 小开口呼的相似度 分别把以 开头的 韵母归到大 小开口呼进行比较实验 大 小开口呼 的声母各有1 8 个 五呼声母音位模型增至7 6 个 实 验结果见图1 a 1 3 六呼声母模型 六呼声母建模把以 开头的韵母从开口呼中 独立为中开口 呼作为第6 呼 共计1 8 个 b p m d t n l f g k h z h c h s h r z s c 六呼声母音位 增至 9 4 个 实验结果见图1 清 华 大 学 学 报 自然 科 学 版 2 0 0 7 4 7 4 新模型 这样 A 在i s u a 和在a 中是同一个音位模 型 有调韵腹 韵首 韵尾音位分别为7 6 3 5 如图2 所示 最终可以确定韵腹音位模型方案 为性能最好的7 6 个有调音位 6 个元音a e i u u 其音位个数分别为 5 4 4 2 2 2 0 4 声母一 韵首一 韵腹一 韵尾H MM建模v s 声 母 韵母 H MM建模 7472706866 岁 并某驻毕伽圳 7 2 8 8 1 2 4 7 6 韵腹音位数 图2 韵腹建模方案比较 经过比较得到 4 部分音位模型数为 7 6 1 2 7 6 1 4 需要指出的是各个比 较实验中的4 部分模 型状态数分别设为4 1 4 1 每个状态Mi x t u r e 数均为3 在此基础上进行的模型状态数比较实验 结果表明最优状态数方案为4 1 4 2 每个状态 Mi x t u r e 数均为3 将上述实验得到的音位模型系统 作为改进模型系统 而基于声母韵母半音节建模方 法得到的模型系统1 6 1 由1 0 0 个二元声母和1 5 5 个有 调韵母模型组成 每个模型状态数均为4 每个状态 Mi x t u r e 数均为3 将该系统作为基线模型系统 图4 给出了改进模型系统和基线模型系统在模 型数 状态数和全音节识别率3 方面的比较 可以看 到改进系统的模型数 状态数占基线系统的0 6 9 8 和0 6 3 5 同时关键词识别率 1 8 1 有1 3 2 的提高 由于音位的细分容易导致数据稀疏 从而导致 模型因训练数据不足而很难达到更高的性能 如果 可以进一步以音位覆盖率更大的数据库进行模型训 练的 话 那么 改 进模 型系 统 性能 可能 会进一 步 提高 1旧型 十日 业新模 864 2 J 夕 了 J 岁 铸案袋暇绷积 1卜1日Inl脚附胜 撼侧娜 新旧 模型 1 111旧型 干日非日 卫新模 n 八U一Un n份0一U 月J 压 3 有调和无调韵首韵尾混合模型 在第2 章中得到7 6 个有调韵腹音位模型 对应 的韵首和韵尾音位模型为 3 个无调韵首音位 ill u C Y l c 5 个无调韵尾音位 i 2 E u z n 们 r 在这部分中 通过依次增加有调韵首 有调 元 音 韵 尾 和 有 调辅 音 韵 尾 的比 较 实 验 来确 定 韵 首和 韵尾模型 在引入有调辅音韵尾实验中只有引入 n 后系统得到了改善 而引入 们 r 有调音位后 系统 性能并没有改善 反而有所恶化 从语音学上 说 这3 个辅音韵尾中只有 n 属于全浊音范畴同元 音韵尾有共性 因此 通过增加 n 韵尾有调模型后 可以改善性能 图3 对所有得到改善的韵首韵尾无调 有调建 模方案进行了比较 据此可以得到韵首韵尾的模型 设计方案 韵首部分均采取有调模式 韵尾部分中 元音韵尾和全浊音辅音韵尾中 n 采取有调模式 其余非全浊音辅音韵尾采取无调模式 图4 改进模型 新 和基线模型 旧 比较 有调 韵首元音韵尾和 n 韵尾 无调 辅音 r l I 1 l 韵尾 有调韵首 无调韵尾 无调 韵音韵尾 韵首元音韵尾 无调 辅音韵尾 0 1 2 3 4 5 6 实验次数 图3 韵首韵尾无调 有调趁模比较 5 结论 基于汉语语音学的音位知识 并结合 4 部分音 位方案构建声学模型系统中 声母部分由7 6 个五 呼音位模型组成 韵首部分由1 2 个有调音位模型组 成 韵腹部分由7 6 个有调音位模型组成 韵尾部分 由1 4 个有调无调混合音位模型组成 4 部分模型状 态数个数分别为4 1 4 2 0 同基于声母韵母半音节H M M建模方式相比 改进模型系统模型数和状态数减少了 3 0 2 和 727472 岁 哥某驭护取细 何压 等 基于汉语语音音位的H MM建模方法 3 6 5 0 0 模型复杂度减少的同时关键词识别率略有 1 3 2 的相对提高 对嵌入式系统而言 改进的模型 具有优势 如果采用音位覆盖率更大的数据库进行 H M M模型训练 并且为每个声母和韵腹音位模型 5 选择其最优状态数 那么改进的模型系统将有可能 获得更好的性能 门J门 哎U7 广 尸IL 参考文献 R e f e r e n c e s 刘叔新 现代汉语理论教程 M 北京 高等教育出版 2 0 0 2 7 1 5 L I U S h u x in T h e c o u r s e o f Mo d e r n C h i n e s e L a n g u a g e T h e o r y M B e i j i n g H ig h E d u c a t io n P u b l i s h i n g H o u s e 2 0 0 2 7 1 5 i n C h i n e s e R o s e R P a u l D A h i d d e n Ma r k o v m o d e l b a s e d k e y w o r d r e c o g n i t io n s y s t e m C I C A S S P A l b u q u e r q u e 1 9 9 0 1 2 9一1 3 2 L e e C H R a b i n e r L P i e r a c c i n i R e t a l A c o u s t i c m o d e l i n g f o r l a r g e v o c a b u l a r y s p e e c h r e c o g n i t io n J C o m p u t e r S p e e c h a n d L a n g u a g e 1 9 9 0 4 2 1 2 7 一 1 6 5 李净 郑方 张继勇 辱 汉语连续语音识别中上卞文相关 的 声韵母建模 J 清华大学学报 自然科学版 2 0 0 4 4 4 1 6 1一6 4 L I J i n g Z H E N G F a n g Z H A N G J i y o n g e t a l C o n t e x t d e p e n d e n t i n i t i a l f i n a l a c o u s t i c m o d e l i n g f o r c o n t i n u o u s C h i n e s e s p e e c h r e c o g n i t i o n J J T s i n g h u a U n i v S c i S h a n g h a i E d u c a t i o n P u b l i s h i n g H o u s e 1 9 9 1 4 5 5 i n C h i n e s e Y o n g S K e r s h a w D O d e l l J e t a l T h e H T K B o o k E B O L 2 0 0 2 h t t p h t k e n g c a m a c u k 中国国家对外汉语教学领导小组办公室一 汉语语音与语音教 学一 韵母的分类 E B O L 2 0 0 5 厦门大学海外教育学院 C h i n a N a t i o n a l L e a d i n g G r o u p O f f i c e o f O u t w a r d C h i n e s e T e a c h in g T h e P h o n e t i c s o f C h in e s e L a n g u a g e a n d t h e T e a c h in g o f P h o n e t ic s T h e C l a s s i f ic a t io n o f F i n a l S e m i S y l l a b l e s E B O L 2 0 0 5 h t t p o e c x m u e d u
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国精炼催化剂项目创业投资方案
- 乌海市人民医院死亡病例疑难病例讨论质量督查考核
- 2025第二人民医院医疗质量文档管理考核
- 鄂尔多斯市中医院新职工综合能力评估理论与实操试卷
- 观光车培训理论知识课件
- 部编版三年级上册语文26.《一个粗瓷大碗》同步练习(含答案)
- 课件闯关线教学课件
- 课件闪退找回
- 课件销售教学课件
- 近大远小-教学课件
- 道路边坡加固维修施工方案
- 【指导规则】央企控股上市公司ESG专项报告参考指标体系
- 医疗器械网络销售管理制度
- 牛生产学完整版本
- 四川省成都市(2024年-2025年小学六年级语文)统编版小升初真题(上学期)试卷及答案
- 沪科版八年级下册数学期中考试试题及答案
- 大单元视域下的寓言故事单元教学
- 《直埋光缆工艺要求》课件
- 星系旋转曲线解析-洞察分析
- 【MOOC】实境英语听说-河南大学 中国大学慕课MOOC答案
- 【山东卷】.山东省青岛市四区县(胶州、平度、黄岛、城阳)2024-2025学年高三上学期期中学业水平检测考试(11.6-11.8)历史试卷(解析版)
评论
0/150
提交评论