




已阅读5页,还剩50页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
贵州大学硕士学位论文英语作为第二语言的多媒体语音数据库设计制作及初步测试姓名:苏意玲申请学位级别:硕士专业:计算机应用技术指导教师:李坚石;韦元军20070501 贵 州 大学硕 士 学位 论 文来, 计 算 机语音 识别 的 应用 有了 长足 的 进 展 , 基于 英语的 特殊地 位 , 世 界 上 对于 英语作 为 第一语言的 语音 数 据库的 设计 和 制 作 已经 很 多 。但 由 于 英语的 日益普 及 , 以英语作 为 第 二 语言的 人们 越 来越 多 , 因此 建立一个 以英语作 为 第 二 语言的 语音 数 据库是 很 有必要 的 。不 同 的 国 家 , 有不 同 的 语言, 其发 音 都 有各 自的 特点, 从 而 影响 了 作 为 第 二 语言的 英语发 音 也出 现了 不 同 的 特色。我 们 这 里 主 要 考 虑在 中 国 地 区 , 设计 与制 作 以英语作 为 第 二 语言本 文 所 做工 作 及 创 新 有以下 : 杂镆羰 菘 饨 辛松 杓啤 谱 骷把 盗纺凸 蹋 笛椴馐 参 数 取 前面 实验 的 结 英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试 璫 甌 本 人郑 重 声 明:所呈 交 的学 位 论 文 , 是 本 人在 导 师的指 导 下 ,独 立进行 研究 所取得的成果 。 除 文 中 已 经注 明引 用 的内 容 外 , 本论 文 不 包含 任 何 其 他 个 人或 集 体 已 经发 表 或 撰 写 过 的科 研成果 。对 本 文 的研究 在 做出重 要贡 献的个 人和 集 体 , 均已 在 文 中 以 明确方 式标 明。 本 人完 全 意 识 到本 声 明的法 律 责任 由 本 人承担 。论 文作 者签名:墨 妻日关 于学 位 论 文 使 用 授权的声 明论 文作 者签名:盅 盔逾导师签名:童竺 垒 : 贵 州 大学硕 士 学位 论 文论。 人 们 对 计 算 机 语音 的 研 究主 要有以 下 几 个 方面 ;孤 立词莲续 语者孤 立词连 续 语占孤 象 词很 碓较堆很 堆役壤极壤连 续 语普耀词连 续 语青 英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试 语 音 识 别 技术 的 研 究 历 程语 音 识 别 的 研 究 可 以 追溯到二 十 世 纪 五十 年 代 初 ,在 五十 年 代 , 实验 、 贵 州 大学硕 士 学位 论 文有 腖 实 验 室 , 芯 吭 海 珺笛槭 业 取 捎 谟辛薉计 划,我 国 在年 代 末 就开 始 了语音 技术 的研 究, 但在很 长 一 段时间内, 都处于缓 慢 发 展的阶 段, 直 到 八十 年 代 后期 , 随 着 计 算 机应 用技术 在我 国 的逐渐普 及和 数 字 信 号 处理 技术 的进 一 步 发 展, 国 内许 多单位 纷纷投 入 到 这项研 究工 作 中去 , 其 中 有 中 科院声学所 , 自动化所, 清 华大学, 四 川 大学和 西 北 工 业 大学等科研 机构 和 高 等 院校 , 大多数 研 究者 致力 于语音 识 别 的基 础 理 论 研 究工 作 、模型 及算 法 的研 究和 改 进 。但由于起 步 晚 、基 础 薄 弱 , 计 算 机水平不发 达 , 导 致在整个八十 年 代 , 我 国 在语音 识 别 研 究方 面 并 没 有 形成自己 的特 色 , 更没 有 取得 显 著 的成果 和 开 发 出大型 性 能 优 良 的实 验 系 统 。但进 入 九十 年 代 后, 我 国 语音 识 别 研 究的步 伐就逐渐紧追 国 际先 进 水平了, 在“八五 ”、“九五 ”国 家科技的基 础 研 究方 面 也取 得 了一 系 列成果 跖 舻 英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试在 搜集 的 语 音 数据库 上建立 模 型 , 用 测试 的 语 音 与之 匹 配 , 如 果 模 型 比 较 匹 配测试 语 音 , 则 识 别 率 会 比 较 高 , 我 们 可 以 称 该模 型 是 好 的 模 型 , 该语 音 数据库是 个比 较 成功 的 数据库 ; 反 之 模 型 与测试 的 语 音 不 匹 配 , 识 别 率 将 大大降 低,显 然 这 个模 型 就 不 是 好 的 模 型 , 这 个语 音 数据库 也 是 一 个失 败 的 数据库 。 显 然 ,某种语 言 的 语 音 数据库 的 针 对 性很 强 , 建立 在 某种语 言 的 语 音 数据库 的 模 型 只能 测试 该种语 言 , 为 了达到 较 高 的 识 别 率 , 即 使是 同 种语 言 , 其 语 音 数据库 也 贵 州 大学硕 士 学位 论文 本文 所 做工 作及 章 节 安 排 英 语 作为第 二语 言 的 多 媒 体 语 音 数 据库 设计制 作及 识别 测试本章 中, 我们还 探 讨 了, 当模型 状 态数 为多 少 时 , 构建 的 识别 系 统 性 能 最 佳 。第 五 章 首 先介绍 了本文 语 音 数 据库 的 设计及 收 集过 程 芗 4旱 。包括如 何 对 待 收 集的 语 音 数 据库 的 整 体 规划 , 并 介绍 确定 的 录 音 的 内容 及 收 集的文 件存放 命 名方法;然 后 简单介绍 了构建 的 低 常 辛瞬问 特 征参 数数 据测试 :第 六章 是 对 整 个 论 文 的 总 结 , 并 提出 了对 继 续 研究 的 展 望 。 贵 州 大学硕 士 学位 论 文认 证 的 技 术 。 说 话 人 识别 和 语音 识别 的 区 别 在 于 ,说 话 人 识别 不 注 重 包 含 在 语音 信 号中的 文 字符号以 及 语义 内容 信 息 ,而是着眼 于 包 含 在 语音 信 号中的 个 人特 征,提 取 说 话 人 的 这 些 个 人 信 息 ,以 达到识别 说 话 人 的 目 的 。 说 话 人 辨 认 有着深刻 的 技 术 背 景,人 类 语言 的 产生 是人 体 语言 中枢与 发音 器 官之 间 一 个 复 杂的生 理物 理过 程 ,人 在 讲 话 时 使 用 的发声 器 官 舌 、牙 齿 、喉 头、肺 、鼻 腔 ,在 尺寸 和 形 态 方面 ,每 个 人 的 差异很 大,所以 任 何 两 个 人 的 声 纹 图谱 都 有差异。每 个 人 的 语音 声 学特 征既有相 对 稳定 性 ,又有变异性 ,不 是绝 对 的 、一 成 不 变的 。 这 种 变异可来自 生 理 、病 理 、心 理 、模 拟 、伪 装 ,也 与 环境 干 扰 有关 。 尽管 如此 ,由 于 每 个 人 的 发音 器 官都 不 尽 相 同,因 此 在 一 般情 况 下,人 们 仍 能区别 不 同的 人 的 声 音 或 判 断 是否 是同一 人 的 声 音 。 说 话 人 辨 认 的 基本 原 理 是通 过分 析人 的 发声 和 听觉 ,为 每 一 个 人 构 造一 个 独 一 无 二的 数学模 型 。 然 后 再 由 计算 机 对 模 型 和 实际 输入 的 语音 进 行精 确 匹 配 ,根 据匹 配 结果 辨 认 出 说 话 人 是谁 。该 原 理 同说 话 入 的 生 理 特 性 和 行为 特 性 密 切相 关 。 “人 ”的 生 物 特 性 既存在 于 声谱 表 面 瓷捞 匦,也 存在 于 声 音 的 来源 或 数个 不 连 续 的 声 音 片 段 中。 从 人的 这 些 特 性 中可以 提 取 出 有效 的 音 频特 征,进 行数学建模 ,并 将与 之 相 关 的 资料存进 数据库 。 服务 器 再 根 据输入 的 音 频特 征在 数据库 里 进 行检 索 ,从 而进行精 确 匹 配 。说 话 人 确 认 一 个 所说 的 ,是“多 选一 ”问 题; 而后 者 用 以 确 认 某 段 语音 是否 是指 定 的 某 个人 所说 的 ,是。 一 对 一 判 别 ”问 题。 不 同的 任 务 和 应 用 会 使 用 不 同的 说 话 人 识别 技 术 ,如缩 小 刑 侦 范 围 时 可能需要 辨 认 技 术 ,丽 银 行交 易 时 则需要 确 认 技 术 。不 管 是辨 认 还是确 认 ,都 需要 先对 说 话 人 的 声 纹 进 行建模 ,这 就 是所谓 的 “训练” 或 “学习 ”过 程 。 关 键词 检 出 ,误警 率之 间 达到很 好 的 平 衡 。 贵 州 大学硕 士 学位 论 文人 是当 今世 界 上 最 准 确 的 语言 辨 别 系统 。 只 需要 听数秒 钟的 语音 ,人 就 能够对 自 己是否 了 解 该 语言 的 问 题做 出 判 断 。 对 于 一 种 不 熟 悉 的 语言 ,也 常常能够根 据与 他们 所熟 悉 的 语言 的 近 似 性 做 出 主观判 断 。 各 种 语言 都 有特 征化 的 声 音模 式 。 人 们 将它 们 主观地 描 述 为 语调、节 奏 、喉 音 和 鼻 音 等 ,各 种 语言 之 间 的差异在 于 用 以产生 词 的音 位 学单 元镆羯 舻囊恢 址 掷 的 数量 和种 类 ,以语言 辨 识在 单 一 语言 的 口 语语言 系统 中,用 于 确 定 语音 信 号所包 含 的 内容 ,一 般是以 因 素 识别 与 词 识别 和 句 子 识别 相 配 合 的 方式 来实现 的 。 这 要 求研 究 者萃取 和 利用 较 小 时 段 的 语音 信 息 ,例 如帧 、音 素 、音 节 、予词 单 元 等 来决 定 所讲 语音 的 内容 。 与 此 相 比,在 与 文 本 无 关 的 语音 识别 系统 中,仅利用 音 素 、音节 甚 至 子 词 单 元 ,在 不 同的 语言 中是相 同的 ,语言 识别 系统 需要 把 句 子 作 为 一个 整体 来考 察,以 便决 定 一 种 语言 区 别 于 其 他语言 的 唯 一 的 。 声 学签名 ”。语音 识别 发展到一 定 阶 段 ,世 界 各 国 都 加 快了 语音 识别 应 用 系统 的 研 究 开发,通 常连 续 语音 是含 有较 完整语法信 息 的 连 续 语句 ,最 接 近 于 人 的 自 然 讲 话方式 ,但 从 非连 续 语音 到连 续 语音 的 研 究 面 临 着很 多 完全不 同的 技 术 难 点 ,非连 续 语音 的 识别 是一 些 孤 立 的 声 波 片 段 ,连 续 语音 则面 临 着如何 切分 声 波 的 问题。 诸 如此 类 的 新 问 题使 连 续 语音 识别 率的提 高 比非连 续 语音 更 加 困难 。 因 此非特 定 入 、大词 汇 量 连 续 语音 识别 技 术 就 成 为 语音 识别 领域 的 前 沿 课 题、重 中之 重 。在 语言 学层 次 ,也 以 真 实世 界 大规 模 语料库 为 基础 ,说 话 人 识别 的 主要 方法 最常 使 用 的是隐马尔可夫模型方法 , 它是一 种 基于 转移 概 率 和 传 输 概 语 音 识 别 系统的 基本结构 贵 州 大学硕 士 学位 论 文 鮦语 音采样根 据 裳 恚 绻 庑 藕 诺 钠灯 状 硎 怯 邢 薜 例 如不 包含 英语 作 为第 二 语 言 的 多媒 体 语 音 数据 库 设计 制 作 及 识 别 测 试 咝 哉 穹 对数振 幅 谱譬 咝 哉 穹 对数振 幅 谱 次 是 要 用高通 滤波器 抑 制 的 电 源 干扰 。从总的 效 果 来看 , 预滤波处理 相 当于使用 一 个带通 滤波器 对 语 音 进 行处理 。进 行预滤波处理 后 , 再 采用 合 适 的 采样频 率进 行采样。目前, 设 计较 好 的 声卡 通 常 都 带有 带通 滤波器 。语 音 信号 采集只 是 语 音 信号 处理 的 开始, 在此 基础上 , 要 对 所采集的 语 音信号 进 行分析 处理 , 从中 抽 取 语 音 识 别 所需 的 信号 特 征 。由于语 音 信号 的 平 均功率谱受 声门激励和 口 鼻 辐射 的 影 响 , 语 音 信号 从嘴唇 辐射 后 有 疧 镀 党 的衰 减。因 此 , 在对 语 音 信号 进 行分析 之前,一 般 要 对 语 音 信号 加以 提升 , 提升 的 方法有 两种 : 其 一 是 用模 拟 电 路 实 现; 其二 是 用数字电 路 实 现。采用 数字电 路 实 现 疧 预加重 的 数字滤波器 的 形 式为 :施以 某种 运算 , 其一 般 式 为 :输 入 语 音 信号 序 列。蜴是 所有 各 段 经 过 处理 后 得 到 的 一 个时 间 序 列。用得 最 多 的三 种 窗函 数是 矩 形窗、 哈 明 窗 眎 耗 ,其 定 义 分别 为 : 畁 人 一 八八 短 时 平 均 能量可用 于:因 此 在 实 际使用 时 需加 以 处 理, 例 如 取对 数 等 , 以 便 将 数 值 限 制 在 一 定 的范 围发 生 了 过 零, 过 零率磊 是 指 单 位 时 间 内信号 由 正 变 负、 由 负变 正 的总 次 数 , 短卜 一 其 中 掣 冈 是 三句 话 的平 均 过 零率 降 : 除 非是 在 信 噪 比极高的 声 学 环 境 中 ,从背 景噪 声 中 鉴别 语 音 的 问 题 不是 简单的 事 情。 在 背 景噪 声 较小时 用 短时 能量 鉴别 端点较为 有 效 ,而在 背 景噪 声 较大 使 用 短时 平 均 过 零 率 鉴别 端点较为 有 效 。 但 是研 究 表 明 ,在 以 某 些 音 为 开 头或 结 尾时 ,只 用 其 中 一 个参 量 来 识 别 语 音 的 起 点和 终 点是 有 困难 的 ,必 须 同时使 用 这两个参 数。在 比较安 静 的 环 境 下,仅 依靠 短时 能量 与 过 零 率 这两个特征 就 可 以 较好地完 成 语 音 信 号的 起 止点判断 和 信 号的 浊 清 音 判决 芯 。 但 需要指出 的是,这两个特征 比较容 易 受外界 噪 声 的 干 扰 ,鲁棒 性 较差 。 当 语 音信 号的 信 噪 比较低 时 ,信 号的 短时 能量 和 过 零 率 将受到很大 的 影 响 。 目 前有 专门的 一 个方向 研 究 噪声 环 境下的 语 音 端点检 测问 题 。 贵 州 大学硕 士 学位 论 文语音 短时 能 量 大多 数情况下 都 在 此 门 限 之 上 。 这 样 可 以进 行一次粗 判 :语音 起止点 位 于 该 门 限 与短时 能 量 包 络 交点 所 对 应 的 时 间间隔 之 外 碅沃 然 后 根 据 背 景 噪声的 平 均能 量 确 定 一个 较 低的 门 限 比 ,并从 阃 螅 覤 点往 右 搜索,分别 找 到 短时 能 量 包 络 第一次与门 限 相交的 两 个 点 虳 ,于 是段就 是用双 门 限 方法根 据 短时 能 量 所 判 定 的 语音 段。 以上 只 是完成了第一级 法 , 以 保 证语 音 识 别 的 实时 实现 。 并 设 线 性预 测倒谱系 数 在获得 线 性预 测系 数后, 可 以用一 个 递 推 公 式 计 算 得 出 。 行 卷积, 最 后对各 个 滤波 器 的 输 出 构 成 的 向量进 行 离散 余 弦反 变 换 , 取 前 蓝 当 甑蛊 紫 凳 猚 贵 州 大学硕 士 学位 论 文计算美尔 坐 标上的能 量 谱 经过 此滤波器 的输出 :式 中 , 5趇 帧语音 信号 , 5趍个 倒 谱 系数, 琾 珺为 常 英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试鱁将 动 态 信息和静 态 信息结合 得 到 识 别 效 果 最 英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试语 音 识 别 常 用 算 法 有 基 于神经 网 络 的 训练 和 识 别 算 法 、 基 于动 态 时间 规 整匹配 的 侗鹚惴 突谕 臣 频 囊 矶 煞 蚰 训练 和 识 别 算 法 。无 论 采用 什 么 模型 和 算 法 , 都有 一个 模型 蚰 的 训练 问题。 因为 从 本 质上 讲 , 语 音 识 别 过 程就 是 一个 模板 匹配 的 过 程, 模板 训练 的 好坏 直 接 关系 到语音 识 别 系 统 识 别 率 的 高 低 。 为 了 得到一个 好的 模板 , 往 往 需 要有 大 量的 原始语音 数据来 训练 这个 语 音 模型 , 特 别 是 对于非特 定人 的 语 音 识 别 系 统 来 说 , 这一点 就 显得更 为 重 要。 因此 , 在开始进 行 语 音 识 别 研 究 之 前, 首 先 要建立起 一个语 音 数据库 , 数据库 包 括 具 有 不 同性别 、 年 龄 、 口 音 的 说 话人 的 声 音 , 并且 必须要有 代 表性, 能 均 衡 地反映 实 际使用 情 况 。 否 则, 用 这种 语 音 数据库 训练 出来 的 语 音 模型 蚰 就 很 难 得到满意 的 识 别 效果 。 模板 训练 是 指 按照一定的 准则, 从 大 量已 知 模式 中 获取 表征该模式 本 质特 征的 模板 参 数。琗 , 贵 州 大学硕 士 学位 论 文 英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试是 必不 可少 的 。 琽 的 方 法 , 通 过 找 出点 检测的 影 响 , 可使语 音 分 段 更 加 简 单 如设:参 考 模板 特 征矢 量 序 列 为 口畁餩 。, 埘 伽 矿 籢 定 条 件 的 时 间 规 整 函 数 描 述输 入 模板 与参 考 模板 的 时 间 对 应关 系 , 求 解两动 态 规 划 是 一 种最 优化 算法 , 它 把 一 个 锥 尉 霾 吖 袒 狽 个单 阶 段 的中, 规 整 函 数 满足 一 定 的 约 束 条 件 , 它 们 是 边 界 条 件 : , 矶 煞蚰 最 开 始 出 现 在等 人的 燃一 丑 , , 句子 层声 学 模型层, ! 妒 。 贵 州 大学硕 士 学位 论 文 鱆 终 止状态 测 结 果。 下 面 是 单 个 扩展成 三 个 状态的 过 程。 其中 的 迁 移 概 率 到 和 每 个 状态转 换 图 英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识别测 试 我 们根据数据库 的 实 际 需要 , 在选定 录 音 的 内 容 时。 覆 盖 了 较 多的 是 标 准 以将其转 换成 适 合 需 要 的 采 样 率。 在 该实 验中 我 们将其转 换成 的 采 样率,由 于 采 用训练模 型的 数据为 单声 道 ,进行 标 准测 试 的 语音 数据也 为 单声 道 ,为 了 达到 较 好 测 试 效果 并 进行 比 较 ,要 将双声 道 转 换成 单声 道 。每 人 的 语音 数据分 别存 放 在 对应个 人 的 文 件 夹下,再根据数据库 内 容 分 开存 放。喀;一 嘶首先生 成 发 音 词 典、 舢 和二 元 文 法语言 模 型,然 后 将二 元 语言 模 型转 换为模 块 中 识别语音 。 需 要 注意 的 是 ,删网络的 构建 是 在 识别的 时候进行 的 ,它是初 始 化 进程 的 一 部 分 。 英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试 可 以 用 下 式 计 算:效 果, 我 们 取 识 别 率 最 高 时 的 状 态数进行 后 面 的 语 音 识 别 测试 。前 面 介绍 了美 尔 频标 倒 谱系数 , 珹 啊 鱁 和二 阶 覲 贵 州 大学硕 士 学位 论 文 状 态 数 测 试数 字 和 字 母 测 试 比较。 在这 里我 们 使用的 特 征 参数 是: 、 。 可以 得 到 下 表:们 取 的 是盱 ,因 而 我 们 可以 表示: 一 紫 仍 鞹 中 数 据 ,进 行测 试 ,最 后 得 到 识 别结 果 : : 英语作为 第 二 语言 的 多媒 体 语音数 据 库 设计 制 作及识 别测 试首先 对 收集 的 四 位 来 自广 东同 学的 语音数 字 部分进 行测 试 ,正 确 率 为 , 精确 率 为 再对 收集 的 四 位 来 自湖南 同 学的 语音数 字 部分进 行测 试 ,正 确 率 为 , 精确 率 为 结 合 贵 州 地区 的 语音测 试 结 果 进 行比较得 表如下 :以 看 到 ,所 有 对 的 识 别都 不正 确 ,这 就 导 致 了 识 别率 的 大大降 低 难 免夹杂 比较重的 地方 口 音, 这 也 是导 致 测 试 结 果 偏低的 原因 。 其三,因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国文件阅读器行业市场调研分析及投资战略咨询报告
- 2025年中国智能手机电感市场运营态势及发展前景预测报告
- 税务师美姗冲刺课件
- 2025年 西安齐力铁路技工学校招聘考试笔试试题附答案
- 2025年 禄丰市焊工证理论考试练习题附答案
- 香滑绿豆蓉行业深度研究分析报告(2024-2030版)
- 中国通信控制处理机行业市场全景调研及投资规划建议报告
- 2025年 常德汉寿县事业单位招聘考试笔试试题附答案
- 2020-2025年中国浓香型白酒行业市场调查研究及未来发展趋势报告
- 中国海口市房地产行业市场深度分析及投资策略咨询报告
- 2025年新高考1卷(新课标Ⅰ卷)英语试卷
- 中医养生夏季养生知识科普讲座PPT教学课件
- GB/T 32893-201610 kV及以上电力用户变电站运行管理规范
- GB 18613-2020电动机能效限定值及能效等级
- GB 17681-1999易燃易爆罐区安全监控预警系统验收技术要求
- 鱼骨图分析方法及培训课件
- 监理抽检表-11交通安全设施工程
- 部编版一年级语文下册知识点总结归纳(全册)
- 市委办招考人员笔试试题
- 赣州市赣县县乡镇街道社区行政村统计表
- 《苯的同系物》名师教案
评论
0/150
提交评论