已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 1 硕士论文题目硕士论文题目 基于内容的声音检索方法研究 及多媒体数据库 eBase3 1 系统实现 作者姓名作者姓名 胡 煜 导师姓名导师姓名 李磊教授 专业名称专业名称 应用数学 答辩委员会委员 签名 答辩委员会委员 签名 主席 主席 委员 委员 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 2 目目 录录 摘摘 要要 3 ABSTRACT 4 第一章第一章 前言前言 5 论文贡献和内容 5 第二章第二章 语音数字处理方法语音数字处理方法 7 2 1 前言 7 2 1 1 语音识别的意义 7 2 1 2 语音识别模型 8 2 1 3 语音识别的类型和问题 8 2 2 语音信号处理方法研究 9 2 2 1 语音信号处理基础 9 2 2 2 语音分析 15 2 2 3 特征匹配及识别 21 2 3 语音识别系统现状 26 第三章第三章 语音识别策略语音识别策略 28 3 1 策略概要 28 3 2 特征抽取方法 28 3 2 1 概述 28 3 2 2 线性预测编码 LPC 28 3 2 3 倒谱 Cepstrum 30 3 2 4 Gabor 滤波 32 3 3 索引 32 3 3 1 概述 32 3 3 2 基于 SOM 和统计检验的索引算法 33 3 3 3 分段索引 38 3 3 4 二重索引 39 3 3 5 小结 40 3 4 实验结果与分析 40 3 4 1 AudioHouse 系统 40 3 4 2 测试配置 40 3 4 3 测试结果 41 第四章第四章 多媒体数据库多媒体数据库 EBASE3 1 45 4 1 多媒体数据库EBASE简介 45 4 2 多媒体数据库的系统实现 46 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 3 4 2 1 数据建模 46 4 2 2 逻辑框架 47 4 2 3 功能框架 52 4 2 4 eBase 的特点 52 4 3 小结 54 第五章第五章 前景展望前景展望 55 第六章第六章 总结总结 57 致致 谢谢 58 参考文献参考文献 59 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 4 摘摘 要要 声音的机器识别成为一个科研课题已有四十年之久 尽管设计可以识别语音 并能辨别其含义的智能机器有不可抗拒的魅力 尽管已经投入了大量的力量去研 制这样的机器 但是可以在任何环境下识别任意讲演者关于任何话题的讲演仍未 实现 从语音信号中以高效的 稳健的方式抽取相关信息是语音识别的第一步 本 文介绍了三种语音特征抽取方法 线性预测编码 LPC 倒谱 Cepstrum 及 Gabor 滤波法 并根据实验结果分析了不同特征抽取方法反映的不同的语音特征 如何判定语音样本的相似性是语音识别的关键问题之一 对于不同的识别系 统 样本比较的方法千差万别 本文给出了基于 SOM 和统计检验的索引 分段 索引以及二重索引的方法 该方法弥补了传统的多维索引方法和基于 SOM 索引 方法的不足 适应语音特征 有效地将语音特征动态索引 观察实验结果可以清 楚地看出 索引方法的查询效率要远远优于顺序查找 基本达到了特征索引的要 求 我们改造了多媒体数据库引擎 eBase3 0 以扩展其多媒体功能 新的数据库引 擎 eBase3 1 可以处理声音信号 并识别简单的单词 它采用了基于 SOM 和统计 检验的索引 分段索引以及二重索引的方法获取相似样本集 它的开放性框架使 它具有媒体独立性和特征扩充性 这两个特性使 eBase3 1 具有广泛的适应性 关键字关键字 基于内容基于内容 声音检索声音检索 分段索引分段索引 二重索引二重索引 多媒体数据库多媒体数据库 多维索引多维索引 神经网络神经网络 特征影射网特征影射网 媒体独立性媒体独立性 特征扩充性特征扩充性 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 5 Abstract Automatic recognition of speech by machine has been a goal of research for more than four decades However in spite of the glamour of designing an intelligent machine that can recognize the spoken word and comprehend its meaning and in spite of the enormous research efforts spent in trying to create such a machine we are far from achieving the desired goal of a machine that can understand spoken discourse on any subject by all speakers in all environments The first step of speech recognition is extracting relevant information from the speech signal in an efficient robust manner In this article we present the three fundamental feature extracting approaches to speech spectral analysis linear predictive cepstrum and Gabor filter methods We specialize the presentation of these three fundamental techniques to aspects related to speech analysis and compare and contrast the three methods in terms of robustness to speech sounds and required computation A key question in speech recognition is how speech patterns are compared to determine their similarity Depending on the specifics of the recognition system pattern comparison can be done in a wide variety of ways Here we present the SOM and statistical verification based index sectional index and quadratic index Their efficiency can be seen clearly though tests result We reconstruct the multimedia database engine eBase3 in order to extend its multimedia function The new engine eBase3 1 can process audio data and recognize simple words It uses the SOM and statistical verification based index sectional index and quadratic index to search relative records It has an open Framework which makes it Media Independent and Feature Expandable These two features make eBase3 1 fit widely Keywords Multimedia Database Multidimensional Indexing Neural Network Self Organized Map Sectional Index Quadratic Index Media Independence Feature Expandability 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 6 第一章第一章 前言前言 在计算机技术日新月异的今天 多媒体系统已深入千家万户 包含丰富信息 的图象 声音 动画 影视等多媒体数据装点了呆板的显示屏和冰冷的机箱 使 得越来越多的人乐于接受它 然而多媒体数据的管理工具仍然比较薄弱 这势必 制约多媒体系统的长远发展 早在 1983 年 多媒体数据库的概念已经提出 由于多媒体是一种非格式化 数据 具有数据量大 处理复杂的特点 因此 多媒体数据库在提出后 10 多年 来 一直没有重大的突破和发展 多媒体数据库引擎 eBase3 0 构造了一个开放性的框架 实现了基于图象内容 查询的索引算法 为了扩充其多媒体功能 将基于内容的声音文件查询加入其中 恰当地抽取特征是查询成功的先决条件 本文讨论比较了数种特征抽取方法 本 文还提出了适应于声音特征的基于神经网络 SOM Self Organizing Map 特征影 射网络 和统计检验的索引方法 该方法适应了声音的短时分析特点 实现了不 同特征的综合查询 能有效的将声音特征动态索引 从测试结果可以看出 无论 是查询速度或查询精度 该索引方法都要比顺序查找远远要好 基本达到了特征 索引的要求 论文贡献和内容论文贡献和内容 本文的主要内容是对声音文件的数字化处理进行了研究比较 介绍了目前的 主要技术成果 指出它们的不足之处 然后提出我们的解决方案 基于神经网络 和统计检验的特征索引算法 并在多媒体数据库 eBase3 1 中采用该索引算法 本 文的贡献如下 语音数字处理的基本技术 第二章 语音数字处理的基本技术 第二章 介绍了研究语音处理的一些基础知识 包括语音的生理学过程 语音基础知 识及有关的声学基础知识 从语音分析 匹配识别等方面对语音处理的方法进行了比较 分析了各种方 法的优点与不足 分析了语音识别技术的现状与未来发展 语音识别策略 第三章 语音识别策略 第三章 将 Gabor 滤波法引入语音分析 并比较了该方法和传统 LPC 方法及倒谱法 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 7 的查询效果 提出了适用于声音特征的基于神经网络和统计检验的特征索引算法 提出了综合不同声音特征的索引算法 对算法性能进行了测试 eBase3 1 的系统实现 第四章 的系统实现 第四章 从逻辑框架和功能框架两方面介绍了多媒体数据库 eBase3 1 的实现 分析了 eBase3 1 的特点 本文第一章介绍了论文的背景和主要内容 第二章介绍了语音数字处理的基 本知识 并从特征抽取 特征索引等方面介绍了语音识别的重要技术成果 并分 析了该领域有待解决的问题 第三章讨论比较了多种声音特征抽取方法 提出了 基于神经网络 SOM 和统计检验的特征索引算法 以及适应声音短时分析的分段 索引算法 和综合不同特征的二重索引算法 并给出了该索引算法的测试结果 主要从查询精度方面对算法的性能进行分析 并与顺序查找算法进行了比较 第 四章介绍了多媒体数据库引擎 eBase3 1 的系统实现 eBase3 1 扩充了 eBase3 0 的 多媒体功能 使其可以用于声音的检索 第五章对 eBase3 1 的应用前景进行了展 望 第六章对本文进行了总结 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 8 第二章第二章 语音数字处理方法语音数字处理方法 2 1 前言前言 2 1 1 语音识别的意义语音识别的意义 计算机的高速发展既对语音信号数字处理提出了越来越高的迫切要求 如用 语音输入代替键盘输入以实现直接的人机对话 同时也提供了效率不断提高的 软 硬件实现手段 另一方面 语音也是人类赖以进行思维的主要工具 因此 这一学科与认知科学和人工智能等研究领域必然有千丝万缕的联系 近年来 人 工神经网络的研究有了飞速发展 语音信号处理的各项课题是促进其发展的重要 动力之一 同时 它的很多研究成果也体现在有关语音的各项应用之中 目前 世界上涌现了其它一些新研究课题 诸如模糊理论 混沌理论和小波 Wavelet 信号处理等 也都能够在语音信号处理的研究中找到用武之地 语音信号数字处理涉及一系列前沿科研课题 是目前发展最迅速的信息科学 研究诸领域中的一个 正如其他数字处理研究课题 语音处理的研究涉及三方面 互相密切配合的任务和课题 这就是 应用 算法 包括基础理论和软件 和硬 件系统 三者缺一不可 几乎语音信号处理的所有研究课题都是受到应用驱动的 以语音编码为例 由于数字化的语音传输和存贮无论在可靠性 抗干扰 速交换 易保密和廉价格 等方面都远胜于模拟语音 从 50 年代以来 在通信系统中数字化语音所占百分 比不断增加 现在已非常清楚 在未来的 ISDN 卫星通信 移动通信 微波接 力通信和信息高速公路等系统中将无一例外地都采用数字化语音传输和存贮 在 不到 50 年的时间里 语音编码已有了惊人的发展 最早的标准化语音编码系统 是速率为 64kb s 的 PCM 编码器 到 90 年代中期 速率为 4 8kb s 的波形与参数 混合编码器 在语音质量上已逼近前者的水平 且已达到实用化的阶段 根据预 测 速率为 2 4kb s 左右的语音编码器在未来几年中将在性能和实用化两方面都 接近于 64kb s 的标准 PCM 编码 语音识别的起步较晚 大规模的研究开始于 70 年代初期 近年来已取得了 长足的进展 它可以用于人机直接对话 语音打字机以及两种语言之间的直接通 信等一系列重要场合 语音合成是人机对话的另一个重要环节 让机器将文本语 言转换成具有人声特点 抑扬顿错 自然流利的口头语言绝非易事 这一研究课 题也正日益受到重视 其它一些重要的应用领域还包括语音增强和说话人识别及 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 9 确认等 2 1 2 语音识别模型语音识别模型 图 2 1 通用语音识别系统任务流程描述图 语音识别模型起始于用户创建的语音信号 以完成一个给定任务 遵循任务 的语法 语义 语用 将输入信号分解成一系列单词 根据初步处理结果 使用 动态知识表述的高级处理来修正语法 语义 语用 使其成为有意义的词句 用 这种方法将不合理的推理或结论删去 以减小被误解的概率 高级处理框的回馈 限制了用户的有效语音的搜索范围 从而减少了识别模型的复杂度 识别系统以 语音形式响应用户 从而使系统可以即时响应用户 2 1 3 语音识别的类型和问题语音识别的类型和问题 语音识别系统的基本任务是准确地识别 理解讲话的内容 是对语音共性的 识别 以所要识别的单位来分 有孤立词识别 音素识别 音节识别 单句识别 连续语言识别和理解 语音理解是在语音识别的基础上 用语言学知识来推断语 音的含义 语音理解系统是更高一级的语音识别系统 这类语音识别的发展情况 是先从最原始的单音节识别 到限定数量的单词识别 再到对内容进行某种程度 限制的会话识别 以说话人来分 有单个特定说话人 有限的说话人和无限的说话人 特定说 用 户 语音识别 模型 高级 处理 用 户 动态知识 表述 语法 语 义 语用 任务 描述 声音 输出 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 10 话人的语音识别比较简单 能得到较高的识别率 研究人员正在为提高识别率而 努力 这种系统如能够实用化 将会有很高的经济价值和深远的社会意义 以识别方法来分 有模板匹配法 随机模型法和概率语法分析法 本文主要针对非特定说话人的孤立词识别方法进行了研究 2 2 语音信号处理方法研究语音信号处理方法研究 2 2 1 语音信号处理基础语音信号处理基础 1 语音过程生理学基础语音过程生理学基础 1 语音发送过程 人类发出的语音波形是一种声压波 它是由人类发音器官的胜利运动所产生 的 人类的发音器官及其作用分为以下几类 喉 振动源 肺 能源 声道 从喉到唇 包括口腔 谐振源 鼻腔 谐振源 发音器官 包括唇 齿 齿龈 舌 颌和面颊 改变谐振腔的外形 当产生语音时 空气由肺部压入 由嘴唇呼出 从而引起声门的开启和闭合 开闭的速率取决于声道中空气压力和声带的生理控制 声门的闭合是由两侧声带 和假声带互相接近的结果 二者的接近不仅使声门区闭合 且具有双重的活瓣作 用 声带振动产生声音 是产生声音的基本声源 声带对气流的阻抗能力大小不 同 声带抵抗自上而下的气流冲开声门裂的能力 可数倍于抵抗气流自下向上冲 开声门区的能力 声带的振动决定于其质量 质量越大 每秒振动越少 反之 质量越小 声 带振动越快 声带振动频率决定了声音的音高 高音高声为高频声 是声带质量 小的缘故 因而每秒振动频率高 男子的声带振动频率范围为 50 250Hz 女子 约为 500Hz 由肺部来的气流经声门区输入到声道 并由唇或鼻输出 在声门区 内 下声门的空气压力及其随时间的变化决定了压入声道的声门气流的体积速度 亦称声门体积速度波 这声门体积速度波为输入到声道的声能或激励函数 声门开闭的速度 在声学测量上近似为所观察到声压波周期的倒数 声音具有三个主要因素 即音调 音强和音色 音调的高低和声带振动的频 率有关 频率快则音调高 频率慢则音调低 声带振动的频率又决定于声带的长 度 张力 厚薄和呼出气柱的强弱 一个训练有素的歌唱家 能精确地运用这些 变化而发出准确的音调 音强的大小决定于振幅的大小和呼出气压的强弱 音色 是由混入基音的泛音所决定 每个基音又都有其固有的频率和不同音强的泛音 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 11 使形成的每个声音各有其特殊的音色 所谓泛音乃是许多频率与基音频率成简单 倍数的声音 如基音频率为 100Hz 则泛音频率为 200 300 400Hz 等 每个人 因其性别 年龄 喉部和声道构造不同 产生泛音的成分也不同 故具有各不相 同的音色 因此我们能按口音分辨出每个说话的人 人类声音的音域随年龄增长 而增加 成人约为两个 8 度音阶 对于具有高度训练的歌唱家可达 2 5 3 个 8 度 音阶 一般谈话的声音常限于 5 度音阶之内 而不超过一个 8 度音阶 声音就其 固有的音域和音乐特性可分为男低音 音域为 81 325Hz 男中音 96 426Hz 男高音 122 580Hz 女低音 145 690Hz 女中音 217 1024Hz 女高音 256 1300Hz 等类型 2 语音接收过程 人类接受语音由人耳来完成 对于人类的语音过程 语音分析表明 语音过 程时会产生丰富的声学信息 然而 人类是不能感知所有这些信息的 例如 由 同一个人以非常清晰的方法说同一个词 而语音分析时会产生不同的结果 但是 当我们听到这一声音时 会感知它们是同一个词 更为重要的是我们能感知所有 这些信息 我们也不知道识别声音所需要的这些信息的量级 我们能感知语音需 要多少信息仍是一个不能回答的问题 我们还不知道如何将不同讲话者声学上不 同的词 标准化 为同一个词 有一种确定如何识别不同的语音的方法是滤除某 些频率 弄明白人耳是否能感知这一结果 耳的主要生理机能是听觉 人耳分为外耳 中耳和内耳三部分 外耳与中耳 可从传导不良的介质即空气中收集声能 并将其传到内耳的淋巴 液体介质 中 去 在激动耳蜗内的终器 此终器称螺旋器 又称柯替氏器 是听觉感受器 连 到螺旋器上的蜗神经及前庭神经为感觉神经 即第八脑神经 又名位听神经 此 神经经内耳门入颅 与脑干相连 语音信号通过外围的听觉系统后传到大脑 输 入信号和第八脑神经接收到的信号是不同的 除此之外 这个过程我们知道的很 少 声音可由两条途径传入内耳 一为空气传导 空气振动的声波由耳廓收集 经外耳道而抵达鼓膜 使鼓膜随着振动 振动的结果使听骨链和鼓室内的空气也 发生振动 听骨链的振动经卵圆窗激动前庭淋巴 变为液波 液波振动基底膜 使位于基底膜上的螺旋器受到刺激 将冲动经听神经传至中枢而产生听觉 另一 为骨传导 骨导 声波直接经过颅骨传导 使外淋巴发生相应振动 再激动耳 蜗的终器产生听觉 骨导虽发生于气导的同时 但经骨导进入耳蜗的声能殊微 实无重要意义 因此 声音传入内耳的途径以气导为主 2 语音学基础语音学基础 1 汉语语音基本概念 世界上有许多种语言 其中有些语言的文字表示与发音是不同的 因此学习 者必须掌握语音的表音法 表音法是指用文字或印刷符号标出某一语言的音 汉 语和英语都是这样的语言 掌握语言的语音学知识有助于学会语言的表音法 语 言的语音学知识是计算机语音分析的基础 而语音分析又是计算机语音合成和识 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 12 别的基础 汉语语音基础知识是计算机语音技术的重要基础内容之一 它与计算机语音 技术中的语音分析 语音合成 语音识别等技术都有密切关系 语言的声音就是语音 语音是一种特殊的声音 因此 语音具有称作声学特 征的物理性质 还具有根据某种社会约定的语义的社会性质 语音的声学特征是 音色 音强 音调和音长 即语音四要素 在汉语里 主要靠音色和音调来区别 语义 而音强和音长不能区别语义 2 语音要素 英语中将语音分为元音和辅音两大类 元音的特点是声道没有闭止或阻塞 所有的元音都是有声音的 元音声的产生相对于辅音声有根本的不同 最重要的 不同点在于 产生辅音时 从肺部出来的气流由于发音器官的接触而受到某些限 制 或者是由于声道变窄而受到限制 因而所有的辅音并不都是有声的 这就使 元音和辅音有不同的分类系统 已经证明 发音器官的位置大大地有助于语音的 声学分析 在发音器官的位置和作用的基础上 语音学家已提出许多不同因素分 类方法 不同的元音声可根据舌的位置 肌肉紧张程度 舌尖的卷曲和圆唇的程 度来分类 辅音可根据发音位置和发音方式来分类 汉语里也有元音和辅音的不同 但是 汉语语音的传统分析方法总是把一个 汉语音节分为声母和韵母两部分 声母由辅音充当 但辅音不等于声母 韵母有 单元音 双元音 几个元音或元音带上辅音等几种不同形式 汉语语音的一个不 同于其他语言的特征是具有音调 即音高或声调 声母 韵母和声调是汉语语音三要素 21 个声母是由辅音充当的 发音部位和发音方法的不同形成不同的声母 声 母发音时气流在口腔中受到明显的阻碍 阻碍气流的地方叫作发音部位 发音部 位是由口腔中某两个部分构成的 21 个声母的发音部位有七处 为双唇阻 唇齿 阻 舌尖前阻 舌尖中阻 舌尖后阻 舌面阻和舌根阻 声母发音时 口腔里的 某两个部位阻碍气流出来 形成不同的发音方法 21 个声母属于五种发音方法 是塞爆音 擦音 塞擦音 鼻音和边音 声母发音时 送出的气流有强有弱 气 流较强的 叫 送气 气流较弱的 叫 不送气 声母发音时 不颤动声带的 叫清音 颤动声带的叫浊音 韵母有 39 个 39 个韵母按因素组成的不同可以分为单韵母 复韵母和鼻韵母 三类 有一个元音构成的韵母叫单韵母 所有的单韵母发音是声带都要颤动 不 同的韵母有不同的口腔形状 后者又决定于三个方面的条件 舌的高低或口的开 闭 舌的前后 圆唇不圆唇 由两个或三个元音充当的韵母 叫复韵母 复韵母 中包含的各因素之间的关系不是拼合关系 字面上标写出来的因素 只表示舌位 移动的起点和终点 发复韵母时 口型变化要明显 发单韵母时 口型要固定 复韵母中表示舌位移动的起点和终点的音素比相应的单韵母发音时舌位有所不同 声调由调类 调值 调号来说明 调类是声调的种类 普通话声调有四类 这就阴平 阳平 上声 去声 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 13 汉语的音节结构有如下特点 韵腹 即韵母里的主要元音 和声调是音节不可缺少的部分 充当声母的都是辅音 元音都可以充当韵腹 韵头 即韵母起头的介音 只有 i u 三个元音 充当韵尾 即韵母末尾的音素 的只有 i u o n ng 3 词的语音特点 每一种语言都有一套管理音素的规则 如果每一音素跟着其他任一音素有相 同的概率 那就不需要音位结构学了 此外 在不同语言中 允许不同因素的结 合 音位结构学规则对连续语音的识别和合成特别重要 在设计合适的算法来重 建 切去 的因素顺序时 显然 允许的因素结合和它们出现的概率的知识是有 用的 单词是有意义的语言的最小单元 比一个单词要小的东西只是声音 单词是 由声音组成的 对这些声音组成的理解称作语言 组成语言的声音就是语音 单 音是一个发声器官的声音 双音用于表示这样的元音 辅音顺序 其语音段从元 音中心延伸到辅音中心 或者相反 词素一种可辨认的 富有意义的语音学形式 同一声音的词素形式可不相同 通常 词素不能再分为其他形式 词素对语音合 成和识别特别重要 因为它是词典产生的基础 而词典包括了一种语言的所有词 素 汉语的拼音就是把声母和韵母拼成一个音节 拼音时要注意 声母要发本音 随后紧接着发后接的韵母 声韵之间不要断读 要一气读成 声韵之间要连续快读 气流不能中断 一个音节的韵母如果没有介音 拼音时只用声韵相拼的方法 如果韵母有介音 除上述声韵相拼的方法外 还有声介合母拼读法和声 母 介音 后随韵母连拼法 声母和韵母的拼合有一定的规律 不是任何一个声母都可以和任何一个韵母 相拼的 声母和韵母的配合规律是要注意声母的发音部位和韵母的四呼 4 词的非分段特点 虽然音素是清楚地描述讲话词的有用概念 但它没有涉及自然语言中的其他 特点 词的非分段特点给我们提供了实际讲话词的信息 词的非分段特点有词的 音调和语调 词的重音 词的节奏和长度和词的边界 所有的语言都有主要用于决定词意的不同的音高 音高是由声带振动速率的 变化产生并与基频有密切关系 在英语中 音高发生在整个发音过程中 如有一 个句子 You told him 如果音高从 told 降到 him 它的效果是叙述 如 果音高从 told 提高 它的效果是疑问 You told him 在此例中 各词是相 同的 但它们以不同的音高说出来 我们仍能识别它们是同一个词 单个词也可 以同样方式处理 如词 Yes 叙述时音高下降 提问 Yes 时音高升高 使 用音高识别发音而不要改变词的外形称作语调 语调定义为讲话声音的调节 语 调用于转达讲话者的情感 也传送了附加信息 再来讨论一下说 Yes 的不同 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 14 方式 它决定于要传送什么信息和讲话时的情景 当粗鲁地说 Yes 时 表示 您要什么 您没见到我正忙着吗 当高兴得说它时 表示 太好了 我想 除了这个东西外我不会喜欢别的什么东西了 讲话对象不同我们也会采用不同 方式的语调 这种方式决定于诸多因素 如语气 环境 讨论话题等 例如 试 比较我们和小孩的讲话方式与我们和我们的经理的讲话方式 不同语调还可用于 改变某句或短句的含义 这完全取决讲话环境和对象 不同的语调可以使所讲的 词改变为相反的含义 例如 若问 您喜欢昨夜的舞会吗 您回答说您渡过了 美妙 great 的时光 仅需改变说词 great 的语调 这就意味着这是一个 糟糕的舞会 在某些语言中 语调可用于改变词意 如满语 因此 语调在通讯 过程中起重要作用 我们必须将语调引入到未来的语音发生和接受系统中去 困 难的是语调在很大程度上与讲的内容有关 5 超语言学特点 除了词的非分段特点外 在每一语言中还存在所谓的超语言学特点 这包括 这样一些情况 如低语表示秘密 高嗓音表示愤怒等 这些特点对目的在于得到 最大通信效果的语音芯片变得更加重要 超语言学特点的问题在于不可能有一套 决定语音产生的普遍规则 因为它们与文字内容有极大关系 此外 一种超语言 学的特殊形式可以扩展到长时间的讲话中 也可以是某一讲话者的习惯用法 6 语音学的六个基本问题 在连续语音识别和发生中存在许多问题 声学 语音非永恒性 人类语音的声学 语音实现与上下内容有关 甚至从同 一上下文中可以接收到种种不同的声学解释 发生速度 每一单独的语言声音 单音 可以不同速度发音 这取决于所说 的上下文内容和讲话者 因此 一个单独的同素异构音在不同的环境下具有 不同的持续时间 讲话者的差异 声道的形状和大小随不同的人而改变 声带也是这样 这就 导致共振峰频率 音高等的不同 每一单独的讲话者在同一词的发音时可用 不同的语音特点 音韵学记录 一个单词的发音或音韵学实现的方法大多数由单词所在的句子 和上下文决定 现已有用于获得所要的发音的某些规则 将这些规则和它们 的语音表示结合在一起的工作系统称作音韵学记录 非分段特点 这些特点很大程度上与上下文和句子有关 它们影响同素异构 音的音长并根据它们在词中的位置而改变 它们还传送实际单词的附加信息 而一个语音识别系统对此是不能识别的 词汇特点 还有一个问题是同音异义词 它有相同的语音但有两个或更多的 不同意义 然而 通常它们不会在同一句子中同时存在 另一个问题是在连 续讲话时一单词与下一单词相结合 这是语音识别过程中的特殊问题 3 声学基础声学基础 语音的发送过程包括语音的产生和传播 语音的产生就是声道中声的激励 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 15 语音的传播就是声波在声道中的传播 语音赖以传播的介质为可压缩的低粘滞的 流体 空气 通过语音系统中声波产生的机理研究 得到了声道中三种主要的声 激励方式 这就是 由肺部来的气流为声带振动多调制 得到一种准周期的类似脉冲的激励 这一方式对应于浊音的产生 由肺部来的气流在它经过声道收缩部分形成湍流 得到一种类似噪声的 激励 这一方式对应于摩擦音或清音的产生 气流在声道中完全闭合处的后面建立起压力 然后去除这一障碍 使压 力迅速得到释放从而产生一种瞬时的激励 这一方式对应于爆破音的产 生 为了得到声道中的声波方程 要作如下假设 声道为时变的不均匀截面的声管 声波是沿声管轴向传播的一维平面波 流体中或声道壁上没有热传导和粘滞摩擦损耗 由物理学的几个基本定律 可得声道中的声波方程如下 2 1 t Au x p 2 2 t A t pA cx u 1 2 式中 p p x t 是管内 x 位置处 t 时刻的声压 u u x t 是 x 位置处 t 时刻的体 速度 是管内空气的密度 c 是声波的传播速度 A A x t 是管的垂直横截面 积函数 方程 2 1 2 2 指出 语音发送过程是一非线形系统 但是 声学理论 对语音发送过程研究后指出 由于声激励和声道及其辐射的相互作用很弱 因此 可把声激励特性和声道及其辐射特性分离开来 声激励可用一线形化的激励发生 器表示 而声道可用一时变线形系统模拟 唇辐射可用一称为 辐射 负载与声 道模型相级联 为了深入语音发送过程的研究 局限于其声学模型是远远不够的 但是声学 理论指出了模拟语音信号的简化方法 进而得到合理的近似声学模型 建立在合 理模型上的研究成果促进了语音合成技术和语音识别技术的发展 语音发送过程 的数字模型是其声学模型的发展 4 小结 了解语音的生理学过程 语音基础知识及有关的声学基础知识有助于作出正 确的语音分析 有助于提高语音的识别率 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 16 2 2 2 语音分析语音分析 1 语音分析的一般方法语音分析的一般方法 计算机语音分析 语音特征抽取 是计算机语音处理的一个重要内容 也是 计算机语音合成及语音识别的基础 计算机合成的语音音质的好坏 计算机语言 识别率的高低 都取决于计算机分析工作质量的好坏 语音分析有时域分析 频谱分析和语谱分析三种方法 这三种方法分别由一 种图形来表示 时域分析用时域波形图 频谱分析用频谱图 语谱分析用语谱图 2 时域分析时域分析 1 概述 时域分析是最早使用的一种方法 也是应用范围最广的一种方法 其分析采 用的时域分析图的横坐标是时间 纵坐标是幅值 2 过零分析 过零分析是语音的时域分析中最简单的一种分析 有时间横轴的连续语音信 号 可以观察到语音的时域波形通过横轴的情况 在离散时间语音信号情况下 如果相邻的采样具有不同的代数符号就称为发生了过零 单位时间内的过零次数 称为过零率 语音信号是宽带信号 应用短时平均过零率可以得到频谱特性的粗略估计 公式如下 2 m mnmxmxZeroN 1 sgn sgn 3 其中 1 sgn nx0 nx 1 sgn nx0 nx N n 2 1 10 Nn 其他0 n 图 2 2 描述了求短时平均过零率的过程 x n ZeroN 低通 滤波 一次 差分 取绝 对值 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 17 图 2 2 短时平均过零率的方块图 短时平均过零率的一种应用是可以区别浊音还是清音 利用短时平均过零率 还可以从背景噪声中找出语音信号 3 幅度分析 语音信号的幅度分析是基于语音信号幅度随时间有相当的变化 语音信号的 清音段的幅度较小 其能量集中于高频段 而语音信号的浊音段的幅度较大 其 能量集中于低频段 幅度分析包括幅度和能量两方面 在采样点 n 处的短时能量函数的定义是 2 4 1 2 1 2 mnhmxmnmxEn n Nnm n Nnm 式中 为窗函数 2 nnh 短时能量函数可用于区分清音段与浊音段 En 值大的对应于浊音段 En 值 小的对应于清音段 有 En 值的变化可大致判定浊音变为清音或清音变为浊音的 时刻 对于高信噪比的语音信号 也可以用 En 来区分有无语音 平均幅度函数的定义是 2 5 n Nnm mnnxMn 1 平均幅度函数是计算加权了的信号绝对值之和 由于短时能量函数是信号的 平方和 因此它对高信号电平很敏感 窗宽 N 对平均幅度函数的影响与短时能量 函数的分析结果相同 比较可知 平均幅度函数的动态范围比短时能量函数的要 小 虽然可以用于判定清音和浊音的不同 当两者之间的电平差就不象短时能量 那样明显 4 相关分析 相关分析也是常用的一种时域波形分析方法 相关分析有自相关和互相关的 不同 相关函数是用于测定两个信号在时域内的相似性 互相关函数可测定两信 号间的时间滞后或从杂音中检测信号 自相关函数的定义为 2 6 dttxtxCxx 式中 为时间滞后 在语音信号处理中 自相关函数可用于区分语音是清音还是浊音 及估计周 期性语音信号的周期 5 时域分析法的特点 用时域波形来表示的语音信号比较直观 清晰易懂 时域波形语音信号的数 字处理起来比较简单 用时域语音信号进行一些数字处理可以得到语音信号的一 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 18 些重要特性 为分析语音信号提供有用的基础 分析语音信号的时域波形可采用 较为通用的设备 如示波器 存储示波器等 使用方法较为简单 3 频域分析频域分析 1 概述 语音信号的频域分析包含有语音信号的频谱 功率谱 倒频谱 频谱包络 短时间频谱等 常用的频谱分析方法有带通滤波器组法 傅立叶变换法 线形预 测法等几种 其常用的分析图是频谱包络图 2 滤波器组法 利用一组滤波器来分析语音信号的频谱 这是最早应用的频谱分析法之一 这种方法使用简单 实时性好 受外界环境的影响小 滤波器组法所用的滤波器 可以是模拟滤波器 也可以用数字滤波器 滤波器可用宽带带通滤波器及窄带带 通滤波器 宽带带通滤波器具有平坦特性 用它可以粗略地求取语音的频谱 其 频率分辨率降低 使用窄带带通滤波器 其频率分辨率提高 相当于短时处理时 窗宽宽的情况 图 2 3 带通滤波器组的语音分析 图 2 3 描述了四个带通滤波器组的工作原理 目前这种方法已制成实用芯片 用于计算机语音识别 3 傅立叶频谱分析 傅立叶频谱分析是语音信号频谱分析中被广泛采用的一种方法 带通滤波器 组法频谱分析是用硬件的方法来实现的 而傅立叶谱分析是用软件的方法来实现 的 傅立叶谱由时间信号的傅立叶变换求得 即 fGx tx 2 7 dtetxfG ftj x 2 利用傅立叶频谱 可以检出其峰值而作共振峰的估算 早期的估算共振峰的 方法 是将频谱用一些折线来估算 二次近似比折线近似的精度有所提高 但计 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 19 算要复杂得多 4 功率谱分析 经典谱分析以傅立叶分析为理论基础 以快速傅立叶变换为实现工具 功率谱密度有两种定义方法 它们是分别针对确定性信号和广义平稳的随机 信号提出来的 对于时间连续的有限能量信号 其连续的和离散的能谱密度定义如下 2 8 dtftjtxfX 2exp 2 9 1 0 2exp N n nm NmnjxtX 2 10 2 fXfP 2 11 2 1 0 2 2 2exp 1 1 N n nmmm Nmnjx N X tN fPP 对于广义平稳和各态历经的随机过程 其连续的和离散的功率谱密度谱定义 如下 2 12 T TT xx dttxtx T R 2 1 lim 2 13 1 0 1 mN n nmnxx xx MN mR 0Mm 1 NM 或者 2 14 1 0 1 mN n nmnxx xx N mR 2 15 dfjRFP xx 2exp 2 16 M Mn xxBT tfmjmRtfP 2exp 在做经典谱分析的时候 如果采用数字方法 则有间接的 Blackman Tukey 方法和直接的周期图方法 其算法如图示 时间函数 tx 间接 直接 式 2 12 式 2 10 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 20 式 2 14 自相关函数 功率谱函数 R fP 图 2 4 获得 PSD 的直接方法与间接方法 水听器信号 tx txw x R x RW fPxw fPx 图 2 5 B T 间接方法信号处理流图 水听器信号 tx txn fX n fP n x fPx 图 2 6 直接频域方法信号处理流图 功率谱分析计算效率高 PSD 估计直接正比于过程的功率 6 频域分析方法的特点 语音信号的频谱波形不大随外界环境而变 而时域波形易随外界环境变化 语音信号的频谱具有非常明显的声学概念 利用频域分析获得的语音特征具有实 际的物理意义 频域分析容易获得某些重要的语音特征 但频域分析要用专用的 硬件设备 例如微型快速傅立叶变换分析仪 或其他可作频谱分析的仪器 微型 快速傅立叶变换分析仪是在微型计算机发展后制成的 在此以前是利用一套常备 的声学仪器配成一套频谱分析记录装置 它包括两台录音机 一台频率分析仪和 一台声级记录仪 4 语谱图语谱图 1 概述 二十世纪四十年代已经研制成功一种语谱仪 它用于语音分析作出的图即为 语谱图 2 语谱仪 语音的时域分析和频谱分析是语音分析的两种主要方法 但是 这两种方法 各有缺点 在语音的时域分析中 对于语音信号的频率特征没有直观的了解 而 频谱分析中又没有语音信号随时间的变化关系 早在二十世纪三十年代和四十年 代 从事语音研究的人们致力于研究语音的时间依赖于傅立叶分析的方法 这种 时间依赖于傅立叶分析的显示图形称作语谱图 它的纵坐标是频率 横坐标是时 间 而谱的色调的浓淡表示声音的强弱 它综合了频谱图和时域波形的优点 明 显地展示语音频谱随时间的变化情况 实际上这种谱图是一种三维频谱 或者说 它是一种动态的频谱 分 段 傅立叶 变换 频谱 分析 n 段 平均 预白 滤波 器 相关 函数 估计 加权 W 傅立 叶变 换 反 预 白 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 21 画出这种谱图的仪器叫作语谱仪 它包括三个主要部分 语音记录和再生单 元 放大器和滤波器组及图形记录 原来录入的语音信号可以多次重复再生 回 放出来的语音信号经过放大器放大 再送入一可调的带通滤波器中 凡语音信号 中的频率与某一带通滤波器的中心频率符合 滤波器输出端输出的电压就强 凡 不符合的 输出的电压就弱 甚至无电压输出 记录针为一种灼针 根据输出电 压的大小在特制的电感纸上灼出浓淡不同的痕迹来 语谱图按带通滤波器的带宽不同 分为宽带和窄带两种 宽带语谱图主要用 于动态语音音色的研究 它给出元音及浊辅音的共振峰频率及清辅音的能量汇集 区 窄带语谱图主要用于音高的研究 它给出元音的基频及其各次谐波 在语谱仪内 另有一种 截面装置 它能把电感纸上所录语谱图的任一点 改录为二维频谱 这主要用于共振峰的分析研究 在语谱仪内还附有一种 幅度 显示 装置 可在语谱图的上端灼出语音的总能量的平均连续振幅曲线 总功率 这主要用于音强的分析 3 可见语音 美国贝尔电话实验室的研究人员对于美国英语作了仔细的分析研究 他们将 美国英语各音素的可见语音抽象成一个符号 这些符号是由它们的语谱图抽象而 得 由于不同的人在发音时相似处大于相异处 因此声道及音色的不同在很大程 度上并不会改变语谱图的汇集区位置 对于同一声音 大多数人有相同的汇集区 因此 在读可见语音时 只要抓住主要的符号标志 不必过多地注意那些不重要 的细节 贝尔电话实验室的研究人员希望发明一种新的 语言 可见语音 能与 聋哑人对话 然而此种愿望最终未能得到实现 但他们大量 细致 全面的分析 研究工作至今仍为我们提供丰富的有关语音频谱及时间特性的信息 4 语谱图的特点 这是一种时间 频谱 音强的三维显示图 也是时域波形与频谱图的结合 这一点是优于前述两种分析方法的 从语谱图上还可以得到一些频域分析参数随 语音发生过程的变化情况 这是前两种分析方法所没有的 从语谱图上还可得到 能量随语音发生过程的变化情况 由此可以区别浊音及清音 辅音的不同种类等 由语谱图形因其不同的黑白程度 形成不同的花纹 这种花纹被称作声波 不同 的讲话者有不同的声纹 类似指纹 它可以用于区别说话人 5 小结 小结 语音信号的特征抽取的成功与否直接影响语音识别的效果 由于频谱分析方 法获得的特征相对比较稳定 分析数据又不需要特殊的仪器 是语音分析方法中 较好的选择 中山大学硕士论文 基于内容的声音检索方法研究及多媒体数据库 eBase3 1 系统实现 22 2 2 3 特征匹配及识别特征匹配及识别 1 声音识别的距离尺度声音识别的距离尺度 几乎在所有的声音识别中 作为识别判定的基础 都采用了输入声音和标准 图案的短时频谱间的距离或相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高能储蓄电池生产项目节能评估报告
- 生产过程清洁化改进措施
- 土力学与地基基础 课件全套 第1-11章 绪论、土的物理与工程性质-地基处理
- 桥梁变形监测仪器配置指南
- 选矿流程自动化管理系统
- 江苏省南京师范大学附属中学江宁分校2025-2026学年八年级英语12月月考试卷(含答案)
- 2025年安全培训考试题及答案(夺冠系列)
- 土方开挖专项施工方案模板【完整版】
- 中石油勘探部门面试技巧及答案
- 电力工程师岗位应聘考题与策略参考
- 食品加工生产合同协议
- 内分泌试题及答案
- 2025安徽交控集团安联公司所属企业招聘2人笔试考试参考试题及答案解析
- 新疆兵地联考试卷及答案
- 2025年12月大学英语四级考试真题及解析
- 2025年急性肺栓塞诊断和治疗指南解读课件
- 高级商务英语写作(第二版)课件 Unit 8. Business Contracts and Agreements
- 2026企业公司马年开门红大会模板
- 四川省巴中市2024-2025学年八年级上学期语文期末试卷(含答案)
- 2025年秋小学音乐湘艺版四年级上册期末测试卷及答案(三套)
- 四川省达州市达川区达州中学联盟2025-2026学年八年级上学期12月期中物理试题(含答案)
评论
0/150
提交评论