




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于特征空间轨迹移动匹配算法的字母数字串的模式识别基于特征空间轨迹移动匹配算法的字母数字串的模式识别 钱俊宏 上海交通大学网络教育学院计算机科学与技术专业 摘摘要要 语音识别技术是 2000 年至 2010 年间信息技术领域十大重要的科技发展技术之一 语音 识别是一门交叉学科 它结合了声学 数学 物理 计算机等学科中的主要技术 语音识别 正逐渐成为信息技术中解决人机交互的新的方法 语音识别技术和语音合成技术结合使人 们能够甩掉键盘 通过语音命令进行操作语音技术的应用已经成为一个具有竞争性的新兴高 技术产业 关键词识别 KWS 是语音识别研究中的一个重要领域 其目的旨在从连续语音中检测并 确认给定的若干个特定词 关键词识别与连续语音识别 CSR 的主要区别在于对输入语音的 限制 相对于 KWS CSR 资源耗费大 速度慢 抗噪能力不强 这是 CSR 短时间内难以取得 突破的问题所在 而 KWS 允许在嘈杂的环境中使用 可以通过诸如电话线等质量较差的信 道 因此 许多应用领域不适合使用 CSR 而要求使用 KWS 本文的主要内容为 基于特征空间轨迹移动匹配算法 找到一个高效的关键字的匹配算 法来实现语音关键字检测的高性能化 关键词 特征轨迹 关键字识别关键词 特征轨迹 关键字识别 一 语音识别的基本思路 一 语音识别的基本思路 第一步 将输入的语音先分帧 然后将每帧从时域转化为频域 从而得到在时域上的 一个频域集合 F n 将每个 F i 提取特征 Ci x1 x2 xj 组成一个 n j 的矩阵 为简单期间 只取 x1 x2 两个特征 在特征空间 x1 x2 中画出各点 按照时间顺序连接各点 组成了特 征轨迹 第二步 时间规整化 基本原理 设 R 为标准模式 X 为测试模式 两者均为 P 维特征矢量的时间序列 即 R R t R1 t R2 t RP t T 0 t Tr X X t X1 t X2 t XP t T 0 t Tx 如图 timewarp 所示 DTW 的基本概念是通过寻找一个时间伸缩函数 tr tx 该函数将测试模式 X 的时间轴 tx非线性地映射到标准模式 R 的时间轴 tr上 并使 X 与 R 的相对距离为最小 由此可 见 对同一字 词 的语音而言 在理想情况下 即除时间轴的变动因素之外 如果没有其它什么 变动因素的话 则 X 与 R 的相对距离应为零 即 1 ttt xrx RX 另一方面 从数学的角度来看 X tx 0 tx Tx 和 R tr 0 tr Tr 也可以看作是对应在 P 维特征 空间中的两条轨迹 Trajectory 显然 当 X tx 和 R tr 满足式 4 9 时 这两条轨迹是完全重叠的 设 sx sx tx 表示沿着 X tx 的轨迹从始点到达 tx时的轨迹长 dsx表示这条轨迹的微小线段 则 有 2 t dtdtdXdt t dtd xx ss xx 00 若 dsx dt 0 则可求得式 4 10 的逆函数 即 3 s tt xxx 此时 若考虑沿轨迹提取新的特征点 X sx 的话 则可根据式 4 11 将 X sx 定义为 4 StsXxxx X 同样 可定义 R sr 为 5 StsR rrr R 根据式 3 9 3 12 3 13 则有 6 SRsX rx 根据轨迹的不变性 sx sr s 所以 可将式 4 14 改写为 7 0 轨迹总长SSsss RX 式 3 15 即表示 在理想的情况下 对同一字 词 音的两个特征矢量 X tx 和 R tr 按相同的 轨迹长 s 沿其各自的轨迹所提取出的新的特征矢量 X S 和 R S 具有对时间轴伸缩的不变性 这也 就是基于特征空间轨迹对语音模式进行时间轴规整的基本原理 Time Warp 示意图 基于轨迹的时间规整化示意图 因此 如上图所示 为了获得不受时间轴伸缩影响的语音特征矢量 可将语音轨迹总长分成 n 1 等分 然后沿该轨迹重新取样 重新取样后的 n 个的特征点就成为时间规整化后的特征矢量 由 于经时间规整后的特征矢量可采用线性匹配 故可大幅度地减少运算量 第三步 对照摸板进行匹配 我的工作 我的工作 对于语音识别基本思路中的第三部找到一个效率较高的匹配算法 tr tx Tr Tx tr tr tx Warping function X tx R tr 0 X1 X2 x x x x x x x x x x x x x x x x xxx 原始取样点 重新取样点 准稳定区 非稳定区 非稳定区 准稳定区 非 稳 定 区 始点 终点 二 算法设计二 算法设计 前提 前提 为简便期间假设所有摸板长度相同 对各模板采用了相等的等分轨迹长度来进行时 间规整 且待测语音特征轨迹已经过时间规整化 1 图一 图二 1234 1 567891011 12 2 3 4 5 6 7 8 9 9 10 11 12 当摸板长度为 5 时在矩阵中的样子 10 数据结构 数据结构 typedef struct Tnode 图三 char Value 识别出的英语或数字 int Ln 识别出的英语或数字在该待测语音特征轨迹中的最左 X1 值 int Rn 识别出的英语或数字在该待测语音特征轨迹中的最右 X1 值 struct Tnode L 指向左面的节点 struct Tnode R 指向右面的节点 node 初始时 P R 都是指向二叉树结点的指针 R 指向根节点 初始时 P R Step1 将各个摸板在待测轨迹上移动匹配 对每个摸板在同一起始点上的线性匹配结果将 较小的值记入矩阵 同时将该摸板的值记入矩阵 Step2 从所得到的最小结果集中找到最小的值 若有相同的值则取最靠近起始点的那个 建立二叉树的一个节点 数据结构见前 分别填上 Value Ln Rn 各值 让 R 指向该 节点 Step3 在分别对刚匹配成功关键字的左右两部分进行匹配 重复 Step2 和 Step3 用函数递 归的方法 直到所要匹配的特征长度小于 L 2 Step4 中续遍历整个二叉树 得到 Value 的序列 就是所识别出的英语数字字符串 三 具体实现 三 具体实现 下面按照算法设计中的思想进行算法的实现 算法的伪代码如下 下面按照算法设计中的思想进行算法的实现 算法的伪代码如下 void VoiceReg node p q r 二叉树节点指针 int M n j 存储矩阵 For int i 0 i n i 线性匹配并将结果记入存储矩阵 for int m 0 mL 2 当距离大于 L 2 时进行匹配 在 start 到 end 之间匹配 for int i 0 i end start i 寻找偏移距离最小的 if M start i start i L Value value 登记模板的值 p Ln start k 登记所识别出字符的开始位置 p Rn start k L 登记所识别出字符的结束位置 q FindMin start start
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校科教处管理制度
- 学校车停放管理制度
- 学生常态化管理制度
- 孵化器空调管理制度
- 安全劝导站管理制度
- 安全锁安全管理制度
- 完善莫高窟管理制度
- 实体烘焙店管理制度
- 实验室内务管理制度
- 审计署内审管理制度
- 2025浙江嘉兴市海宁市嘉睿人力招聘5人笔试参考题库附带答案详解析版
- 党课课件含讲稿:《关于加强党的作风建设论述摘编》辅导报告
- GB/T 19023-2025质量管理体系成文信息指南
- 2025中考历史高频点速记大全
- 2025年北京西城区九年级中考二模英语试卷试题(含答案详解)
- T/CECS 10378-2024建筑用辐射致冷涂料
- 数据驱动的古气候研究-洞察阐释
- 护理纠纷处理制度
- 多余物管理制度
- 2024北京朝阳区三年级(下)期末语文试题及答案
- 灌肠技术操作课件
评论
0/150
提交评论