【毕业学位论文】(Word原稿)安多藏语语音特征值提取的研究-藏文信息处理_第1页
【毕业学位论文】(Word原稿)安多藏语语音特征值提取的研究-藏文信息处理_第2页
【毕业学位论文】(Word原稿)安多藏语语音特征值提取的研究-藏文信息处理_第3页
【毕业学位论文】(Word原稿)安多藏语语音特征值提取的研究-藏文信息处理_第4页
【毕业学位论文】(Word原稿)安多藏语语音特征值提取的研究-藏文信息处理_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号 密级 公开 学号 20060813005 青 海 师 范 大 学 硕 士 学 位 论 文 安多藏语语音特征值提取的研究 研究生姓名 导师姓名(职称) 教授 申请学位类别 工学 申请学位名称 硕士 学科专业名称 计算机应用技术 研究方向名称 藏文信息处理 论文提交日期 2009 年 3 月 29 日 论文答辩日期 学位授予单位 青海师范大学 学位授予日期 答辩委员会主席 评阅人 , 青海师范大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,出了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得青海师范大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。 研究生签名: 日期: 青海师范大学学位论文使用授权声明 青海师范大学 、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内 容。论文的公布(包括刊登)授权由青海师范大学研究生部办理。 研究生签名: 导师签名: 日期 安多藏语语音特征值提取的研究 摘要 语音识别就是让机器能够听懂人说话, 它是语音信号处理的一个重要的研究方向。语音识别技术集声学、语音学、计算机、信息处理和人工智能等诸多领域,是一项综合技术。随着计算机技术、多媒体技术、数字信号处理技术的发展,人们对语音识别技术的发展寄予了更高的期望。藏语的语音识别目前还出于探索阶段,然而我们可以从其他语言语音识别技术的发展、商品化和将来的研究走向看到,藏语语音识别必定会产生不小的社会效益和经济效益,它将会是藏文信息化道路上不可缺少的一环。因此,对安多藏语语音信号的研究是藏文信息处理的一个重要阶段。 本论文针对安多藏语语音,选用安多单音节为研究单元,主要做了两个方面的工作。 一方面,循着语音信号处理的过程对安多语音进行研究,从预处理开始,对安多语音信号进行数字采样,预加重滤波,分帧加窗,时域分析,频域分析,语谱分析,采用双门限法对安多语音信号进行端点检测。研究特定人孤立词识别算法,包括 别法, 别法, 别法及神经网络识别法。深入分析了线 性预测倒谱系数( 美尔频率刻度倒谱系数( 个倒谱参数。基于安多语音分别采用 行特征值的提取实验,分析比较了基于这两种参数的识别效果,最终选用 数作为识别参数。 另一方面,利用所研究的参数和方法,搭建一个特定人孤立词安多语音识别系统,系统的界面用 的 设计 , 本实验系统可以实现语音播放,并且绘制语音信号的时域波形 、 频域波形 、 语谱图 、 短时能量和短时过零率的波形图,检测语音端点的帧位置,实现安多藏语常用单音节词语的识别,显示识别结果。 关 键词: 安多藏语 , 语音识别 , 端点检测 ,特征值提取 , 线性预测倒谱系数 ,美尔频率刻度倒谱系数 f f f he of is to to It is of is a to of is to of of we It is an of is a as of On to of is eve of of of to We of of of on in we of of On is Weve UI to of as of of of of 目录 第一章 绪论 1 音识别的研究综述 1 究背景 1 内外语音识别技术的发展和现状 1 音识别的关键技术 2 音声学模型 2 音特征值提取 3 料库和语音库 3 多藏语语音特征值提取和语音识别的研究意义 4 文的研究内容 4 文的主要工作 4 文的章节安排 5 第二章 语音识别系统理论 6 音识别的基本原理 6 点检测的方法 6 于频带方差的端点检测 6 于能量的端点检测 7 于倒谱特征的语音信号端点检测 8 于信息熵的语音端点检测 8 音识别的方法 9 态时间规整技 术 9 量量化技术 10 马尔柯夫模型 10 工神经网络 11 第三章 安多藏语语音预处理和特征参数分析 12 多藏语的基本特征 12 多藏语辅音的发音特征 12 多藏语语音研究单元的选择 12 究词汇列表 13 多藏语语音信号基本理论 14 多藏语语音的预处理 14 样和预加重 14 帧加窗处理 15 域分析 16 域分析 17 谱分析 18 相关分析 19 点检测的算法与实验 21 多藏语特征参数的分析 24 谱特征分析 24 征参数 26 征参数 28 第四章 安多藏语语音特征值提取实验及算法改进 31 多藏语特征值提取的基本问题 31 征参数提取模拟过程 31 拟算法 32 征参数提取模拟过程 33 拟算法 33 分 征值参数的提取 34 结 35 征参数的处理 35 考特征值模板的制作 36 法原理 36 验及结论 38 第五章 基于 实验验证 40 真系统设计 40 统实现功能介绍 41 数波形 42 点检测结果 43 别结果 44 第六章 总结和展望 45 作小结 45 课题研究的展望 45 参考文献 47 致谢 50 附录 程序清单 51 第一章 绪论 音识别的研究综述 究背景 随着计算机技术的飞速发展,人们不断地向它提出更高的要求,计算机的功能也日趋完善。人机交互,让计算机更快更准确的明白我们在说什么,这是语音识别技术带给我们的一项挑战。语音识别技术就是通过计算机用各种编程语言设计的算法,把语音信号转化成其内容所表达的文本或者命令的一种技术。语音识别技术是交 叉学科的综合技术,它涉及声学、语言学、语音学、数字信号处理、计算机科学、模式识别等众多领域,其目的是实现人与计算机进行自然语音的信息交互。 内外语音识别技术的发展和现状 12 在语音识别技术的发展史上,每一次重大的进展都和一种成功算法的提出密不可分。最初的语音识别算法是采用频谱分析和模式匹配来进行识别决策。 1952年美国的 人研究成功了世界上第一个识别十个英文数字发音的实验系统。 1960 年, 人研究成功了第一个计算机语音识别系统,从此开始了计算机语音识别的初步应用 。进入 70 年代之后,语音识别,尤其是小词汇量、特定人、孤立词的识别方面,取得了许多实质性的进展,更重要的是语音信号线性预测编码 (术和动态时间规整 (术的提出,有效地解决了语音信号的特征提取和不等长匹配问题,矢量量化 (术也己经在语音识别领域得到了广泛地应用。自从八十年代中期以来,新技术的不断出现使语音识别有了实质性的进展。特别是隐马尔可夫模型 (研究和广泛应用,推动了语音识别的迅速发展 ,陆续出现了许多基于 型的语音识别系统,其中美国卡耐基梅隆大学的 统被认为是 80 年代末 90 年代初的典型代表。在 90 年代 司推出的商业系统具有很高的水准。相应的 语音处理 研究在 提取 参数 、优化 模型 以及系统的自适应技术等方面取得一些关键性的进展,这使语音识别技术进一步成熟 。许多发达国家,如美国、韩国 、 日本 ,以及 用化的研究及其开发投入大量的资金 。当前,语音识别领域的研究正方兴未艾,在这方面的新算法、新 思 路 和新的应用系统不断涌现 , 例如人工神经网络技术的引用及和 法相结合也得到广泛的重视。 在国内, 20 世纪 50 年代末就有人尝试用电子管电路进行元音识别,而到了70 年代才由中国科学院声学所开始进行计算机语音识别的研究。在此之后,有关专家也开始撰文介绍这方面的工作。从 80 年代开始,很多单位陆续参加到这一行列中来,它们分别采用不同的方法,开展了从最初的特定说话人、小词汇量孤立词识别,到非特定说话人、大词汇量连续语音识别的研究工作。 80 年代末,以汉语全音节识别作为主攻方向的研究已经取得了相当大的进展,一些汉语语 音输入系统已向实用化迈进。四达技术开发中心、星河公司等相继推出了相应的实际产品。清华大学、中国科学院声学所在无限词汇的汉语听写机的研制上获得成功。 90 年代初,四达技术开发中心又与哈尔滨工业大学合作推出了具有自然语言理解能力的新产品。在国家 863 计划的支持下,清华大学和中国科学院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究。北京大学在说话人识别方面也作了很好的研究,清华大学电子工程系的语音识别系统模型采用了基于整词的 、 上下文无关连续隐马尔可夫模型 ( , 取 得较好的 效果 ,当时的识别 结果和 音识别系统的水平 不相上下 。 可见,语音识别技术的研究已经取得了很大的成绩。但是到目前为至,该技术离广泛的应用还有很大的距离,很多的因素影响着语音识别系统的性能,例如:背景噪音的影响,说话人生理或者心理情况变化的影响,等等。现在,说话人自适应技术,鲁棒性语音识别等成为了最活跃的研究领域,语音识别技术正在朝着高自适应性,高识别率,以及独立于说话人和环境的方向发展。 音识别的关键技术 音声学模型 声学模型通常是将获取的语音特征值通过算法产生的模型,它是语音识别系统中的重要组成部 分。声学模型的目标是提供一种有效的方法,计算语 音的特征矢量序列和每个发音模板之间的距离,形成一组 参考模板,识别时,通过待测模板和参考模板之间的函数关系来判定识别结果。常用的声学模型有 型出现在语音识别的早期,是常用的较为成熟的声学模型,它应用动态规划的方法成功的解决了语音信号特征参数序列在比较时出现的时长不等的问题,用于孤立词的识别系统中,并具有良好的性能。 型是改进模板匹配的统计学算法,是现在的研究中经常使用的声学模型,它由相互关联的两个随机过程共同描述信号的统计特 性,包括隐蔽的有限 状态 和其相关联的可见矢量,隐 的特性是通过可观测的信号特征来表示的,这种模型用于大词汇量及其连续语音的识别系统中。 工神经网络)模型是一个研究热点,它模拟了人类神经元的活动原理,自适应性更强,经常和 型相结合,得到具有更高识别性能的说话人识别系统。 音特征值提取 由于语音信号数据量巨大,为了压缩数据量,必须进行特征值提取。特征参数的提取是语音识别中一个非常重要的环节,语音信号含有丰富的信息,特征提取就是对语音信号进行分析处理,去除对语 音识别无关紧要的冗余信息,获得影响语音识别的重要信息。好的特征,既可以具有很高的模式区分能力,又可以节省大量的存储空间,提高识别效率。 目前 , 在语音识别 的研究 中 , 主要采用基于线性预测分析 (术得到的倒谱系数 (基于 数 (率刻度倒谱系数 )。 术 是基于人耳听觉机理, 数在低 频段有较高的 谱分辨率,对噪声的鲁棒性优于 数 3,具有更高的识别率和抗噪能力,在实际中 数得到了更多更广的应用。 料库和语音库 语料库是随着文字识别,语音识别,语音合成等研究领域的发展而应运产生的。语料库的开发是根据具体的研究目的收集语言文本素材作为原始语料,将原始语料经过加工处理形成语料库,语料库是在随机采样的基础上 , 收集 具有 代表性的语言材料的总汇,它作为自然语言运用的样本,为计算机语言的研究提供了可靠的依据 4。 语音数据库是语音信号处理的研究基础,无论语音合成还是语音识别,都离不开语音数据库 方面 的支持。针对不同的研究目 标 ,语音数据库在语料 的 选择和 录音方式等方面都有不同的 要求。 对于语音识别而言,为了解决 语 音 识别环境多样性和用户情况 复杂性 带来的鲁棒性问题,要求语音数据库尽可能的包括最多的语 音 现象 。大规模 、 高质量 、 多样性的语音数据库对于推动语音识别技术的研究和应用具有重要的意义 1。 多藏语语音特征值提取和语音识别的研究意义 5 国内外语音识别技术的发展,使我们看到了少数民族语音识别的发展前景, 也吸引着学术界和科研单位的广泛关注。对藏文语音识别的研究是藏文信息化的必经之路,促进藏文化的发展, 促进各民族之间的语言文化技术交流,对我国多语言、跨平台技术的研究有推动作用 。 目前对藏文语音识别方面的研究还处 于起步阶段,在国内,中国社会科学院语音学与计算机语言学重点实验室、西北民族大学和青海师范大学都在做这方面的研究,其中中国社会科学院语音学与计算机语言学重点实验室已建立了藏语拉萨话的语音声学参数数据库,西北民族大学和青海师范大学在这方面的工作目前还正在进行中。 藏区由于地理分布的不同 , 形成了四个方言区 , 安多方言、康巴方言、卫藏方言、阿里方言。目前说阿里方言的人数在国内不多 ,30 多万阿里方言的藏民分布在拉达克 (土尔基斯坦 )和克什米尔 (印度 )。国内一般说三大方言 6,本文是针对安多方言进行语音识别方面的研究。 国 内从事民族文字信息技术的单位属于弱势群体,而且重文字技术研究、轻语音技术研究,所以对安多藏语这一民族语言的语音方面的研究就是一个新的课题。针对安多藏语进行语音特征提取,也是安多藏语语音识别的一项关键技术,这一工作在藏文语音处理方面目前还处于初级阶段。 利用现代语音学的研究方法对安多藏语进行系统的研究,提取特征参数,无论在语言学、语音学等方面都有着重要意义, 这一探索性的工作将为今后继续进行系统的研究奠定基础,提供一些可以借鉴的经验。 文的研究内容 文的主要工作 对于安多藏语语音的研究目前处 在探索阶段,本人在前人研究的基础上,选择了语音识别技术的成熟算法,进行了安多藏语语音特征值提取的研究,并利用 件建立起了一个语音识别系统。 集科学计算,信号处理,系统仿真,图形图像处理等功能于一体的软件系统,被广泛应用于研究领域,它的功能强大且程序简单易懂。语音信号处理正是 优势,本论文的研究全部 基 用 件完成,实现了一个特定人孤立词的语音分析和识别系统。在语音信号特征提取方面,分析当前最常用的两种特征参数, 率倒谱系数和线性预测倒谱系数,改进了特征值提取 的算法,使所提取的特征值很好的反应语音特性;在语音识别方面,主要应用了比较成熟的 法,利用识别率来检验特征值提取的好坏,本次研究基于 过实验验证识别率较高,能够到预期的效果。 文的章节安排 第一章 绪论,综述语音识别的研究现状和发展,讨论了语音识别的关键技术,本文正是针对关键技术中的语音特征值提取的研究,课题涉及少数民族语言安多藏语的语音处理,是个重要的创新点。 第二章,讨论语音识别的系统理论和语音识别的各个单元, 介绍语音信号分析的基础知识,常用的端点检测的方法和语音识别的方法。 第三章,从安多藏语的基本特征出发 , 系统介绍本课题的研究过程,本章重点介绍安多语音预处理的各个环节,详细分析所需要的参数和波形,内容涉及采样和预加重分析、时域分析,频域分析、语谱分析、自相关分析等,详细介绍本课题实验所用的端点检测的算法和实现过程,此外分析特征值提取的两个倒谱参数 第四章,重点介绍安多藏语语音特征值的算法和实验过程,并且对其结果进行分析。 第五章,根据所研究参数及其算法,利用 件设计出语音处理实验系统,演示系统各项功能。 第六章,对本研究工作小结并且展望今后研究的发展趋势。 第二章 语音识别系统理论 音识别的基本原理 语音识别的本质就是一种模式识别,它一般包括以下几个单元:预处理单元,特征提取单元,训练模板单元,模板匹配单元等,原理图如图 示。 语音识别的基本过程是:待测语音通过话筒转换成电信号,输入到预处理单元,预处理包括预加重、分帧、加窗以及端点检测,经过预处理后的语音信号进入特征提取单元,提取语音的特征参数,这些特征参数构成待识别的语音模板 ,将其与已经存储在计算机内的参考模板进行逐一匹配,获得最佳匹配的参考模板 ,这样就可得到 识别结果。其中的训练模板单元是事先输入一系列的已知语音信号,提取它们的特征作为参考模板 7。 点检测的方法 端点检测又可称为自动分段技术,是用数字信号处理技术找出语音信号中各个段落的始点和终点位置,这些段落就是我们所选择的识别单元,如音素、音节、词素、词等。准确的端点检测不仅提高系统处理效率,同时也提高系统的识别率。 于频带方差的端点检测 8 这种方法 计算某一帧信号中各频带能量的方差。因为语音 信号是时变的,所以将这种以短时频带方差作为参数检测语音段起止端点的方法称为频带方差检测法。 定义一个矢量 X ), 1()0( , x( )n ,其中的分量 x( )i 定义为中心频率为 i 的滤波器的输出能量,它可以根据一帧信号通过带通滤波器来计算,图 2音识别系统基本结构原理图 也可以首先计算一帧信号的 后把某几个频率分量组合而得。对于数字信号,最低频率是 0,最高频率是 ,其余各中心频率按一定规则从 0 至 递增。 定义均值为: 公式( 2 则频带方差为: 公式( 2 确定检测门限值 M。在实际实用中,具体门限值可以根据实际环境的背景噪声特性来确定,一般取 M( 3 5) 背景噪声的频带方差值。 频带方差检测相对于传统端点检测方法的优点在于它利用了语音和噪声的频谱特性差异,有效地区分开了语音和噪声,避免了传统端点检 测方法中存在的问题,从而准确地检测出语音段的起止端点。 于能量的端点检测 1)基于短时能量和短时平均幅度的检测方法 语音和噪声的主要区别在他们的能量上,语音段的能量比噪声段的大,语音段的能量是噪声段能量叠加语音声波能量的和。传统检测方法认为,如果环境噪声和系统输入噪声比较小,就能够保证系统的信号噪声与背景区分开 10。但是,在实际应用中往往很难保证有这么高的信噪比,因而仅依靠短时能量或短时平均幅度来检测语音段的起止点常会遇到问题。而且在一些特殊情况,如当语音段的开始和末尾都是弱摩擦音时,开始 段的短时能量就比较小,而以鼻音结尾的语音,其末端的短时能量也比较小,它们都容易与噪声混淆。在这些情况下,只靠短时能量来检测语音段的起止点往往会漏掉某些音素。所以,要准确找出语音段的起止点,还需要研究两者的其他特征。 2)基于短时能量和短时平均过零率的检测方法 这种方法是在短时能量检测方法的基础上,加上短时平均过零率,利用能量和过零率作为特征来进行从检测 ,种方法也被称为双门限比较法。门限值对端点检测的准确性起着很大的的作用,一般利用计算并且综合实验经验值得到,本课题选用此方法,在第三章详细研究讨论。 于倒谱特征的语音信号端点检测 ni )(11 2)(11 在很多情况下语音处理的环境会有噪声的影响,由于倒谱距离对噪声环境具有更好的稳健性,目前大多数语音识别系统中,利用倒谱系数提取语音特征值,用作语音识别中的参考模板,但是在这里我们主要讨论利用倒谱距离进行语音端点检测的研究。 信号倒谱可以看成是信号能量谱密度函数 )(S 的对数,做傅立叶级数展开,可写成: 公式( 2 其中,且 公式( 2 一对谱密度函数 )(S 和 )( S ,应用 理可用倒谱距离表示对数谱的均方距离: 公式( 2 对数谱的均方距离可以表示两个信号谱的区别,故可以作为一个判决参数。用倒谱距离测量来判定各个信号帧是语音帧还是噪声帧,这就是倒谱距离测量法。前面所介绍的基于能量的检测法是倒谱距离测量法的特例。倒谱距离测量法根据每个信号帧与噪声帧的 倒谱距离的轨迹进行检测 11。 于信息熵的语音端点检测 熵可以表示系统状态自发实现的可能性程度,可以看成系统不肯定的度量,因此,在信息学中利用熵的这一概率特征来度量信息。用 H(u)表示信息熵,其中 u 代表事件,它是事件 u 不确定性的定量测度,同时也代表了事件 u 所含信息量的大小。对于一个有限离散概率场的不确定性可由随机变量的熵来表示 12。设 X 是取有限个值的随机变量, i=1, 2, , n, X 的熵定义为 : 且 公式( 2 熵 H 代表了 X 的信息 量,由它的性质可知,当 n 个概率相等时,取最大值,也就说明熵值越大, X 概率分布越模糊,越难以判断 13。 n )(lo g n 22 )()(l o g)(l o 2)(lo g0 ni ii lo g)( nn 假设语音 s(n)的帧长为 N,一帧语音中的最大幅度和最小幅度分别为 M 和别统计出熵值属于这一区域的每一个幅度值的比例作为这一值的概率。),( i , 个数,其概率为 pi=,定义此语音帧的熵为 : 公式( 2 由于语音信号的幅度相对于背景噪声而言其幅度的动态范围大,因此可以认为语音信号在 ()中的随机事件多,故平均信息量大,即熵值大。而无声段帧的幅度小,分布相对集中,熵值就小。利用信息熵可以很好的对无声段和有声段进行分别,也是采用信息熵门限的方法从语音前端和后端进行搜索,从而得到语音的起始点和终止点。 上述介绍了四种端点检测的方法,除此之外,还有基于 段带检测方法;基于小波变换的端点检测方法,基于 码器的端点检测等。 音识别的方法 语音识别的核心是把参数化的特征矢量映射到人们可以理解的文本信息,要建立一个语音识别系统不仅要提取最能反应语音特征的参数,还要针对识别 范围选择一个合适的算法。 态时间规整技术 动态时间规整( 把时间规整和距离测度计算结合起来的一种非线性规整技术,它是传统的模板匹配方法,通过将待识别语音信号的时间轴进行不均匀地扭曲和弯曲,使其特征与模板特征对齐,并在两者之间不断的进行两个矢量距离最小的匹配路径计算,从而获得两个矢量匹配时累积距离最小的规整函数。这种方法保证了待识别特征与模板特征之间最大的声学相似特征和最小的时差失真,是成功解决模式匹配问题最早和最常用的方法 14。 运算量较大,对语音信号的端点检测数要求较高 。这种方法主要用于孤立词、小词汇语音识别系统。 量量化技术 矢量量化技术是一种用一个 K 维矢量来表示一个原来用 K 个标量表征的语音信号的波型帧或参数帧,然后对矢量进行整体量化的方法 7。在语音识别前,要训练语音样本序列,通过 法类聚生成码本,不同语音码本在特征空间 M Mi ii lo g 的分布相互不重叠或者有重叠,通过相似度测量来区别不同语音,这些码本包含语音特征,由此可实现识别 15。 具体的矢量化过程是,将语音信号波形的 k 个样点的每帧构成 k 维空间中的一个矢量,大量的 k 维矢量以最佳邻近准则和最小失真准则的统计 进行划分,使其从无限的矢量空间聚类划分为 M 个有限的区域边界,而每个区域有一个中心矢量值,即码字,故共有 M 个码字,各码字的下标或序号的集合则构成了一本反映训练时 k 维矢量的码本。在语音识别时,实质上是一个将 k 维待处理矢量与己有的码本中的 M 个区域边界进行比较,找出与该待测输入矢量距离最小的码字序号来代替其识别结果的过程。 矢量量化是一种极其重要的数据压缩方法,但是训练过程中的计算方法复杂且计算量过大。一般应用于语音识别的都是改进后的有限状态矢量量化 (术和带学习功能的矢量量化 (术,其 中, 计算量小,适用于与上下文有关的语音识别。而 用其自适应性的学习功能进行码本优化,即在一定条件下,将错误的参考矢量移到远离输入矢量的地方,而将正确的参考矢量移到离输入矢量更近的地方,从而提高识别率 17。 术在孤立词和连续语音的汉语语音识别中也得到应用,但没有 术和 术普遍。 马尔柯夫模型 隐马尔可夫模型 (是一种典型的统计信号处理方法。其基本理论是在 1970 年前后由 人建立起来的,随后由 人将其应用到语音识别中。在 80 年代中期,由于 验室人对 深入浅出的介绍,才逐渐使 世界各国从事语音处理的研究人员所了解和熟悉,进而成为公认的一个研究热点 1。 一种状态的有限集,其中每一个状态与一个(通常是多维的)概率分布状态相关 18。 型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的 (不可观测的 )具有有限状态的,另一个是与 的每一状 态相关联的观察矢量的随机过程。隐特性要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随 机过程描述,而信号随时间的变化由隐 型参数包括 扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点, 型分为离散隐马尔柯夫模型 (连续隐马尔柯夫模型 (及半连续隐马尔柯夫模型 (一般来讲,在训练数据足够时, 于 9。 工神经网络 20 人工神经元网络 (其自适应性、非线性 、 并行性、学习特性及鲁棒性等特点而受到人们的极大关注,广泛应用于语音识别领域。采用人工神经网络技术进行语音识别其过程包含两部分 : 一是网络学习过程,二是语音识别过程。网络学习过程是将己知语音信号作为学习样本,通过神经网络的自学习,最终得到一组连接权和偏置;语音识别过程是将待测语音信号作为网络输入,通过网络联想得出识别结果。这两个过程中的关键是求取语音特征参数和神经网络学习。质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比 、推理和概括能力。但 具有 型的动态时间归正性能。 第三章 安多藏语语音预处理和特征参数分析 多藏语的基本特征 藏语属于拼音语言,其发音特点有它自己的独特规律,藏语共有 30 个辅音字母 4 个元音,辅音字母按照语音的发音部分,四个一组,排成了七组,这些辅音可以根据发音部分和发音方法来分,而这些字母发音按照音势的强弱,气流的多寡,带音不带音以及发音肌肉的松紧来划分。 多藏语辅音的发音特征 安多藏语在语音上的重要特征是声母分清音和浊音,声调无区别词义的作用,复辅音较多,安多 声母系的主要特征是清音与浊音对立,送气与不送气对立,声母数目较藏语的其他方言较多,韵母系的主要特征是都为单元音,没有复元音韵母 21。 30 个辅音的发音情况是, , , 是舌根塞音, , 不送气, 送气; , , 是舌面前塞擦音, , ,不送气, , 送气; , , 是舌尖中塞音, 不送气, 送气; , , , 都是鼻音, 的发音不分在舌根, 的发音部位在舌面前, 的发音在舌尖中, 的发音部位的双唇; , 是双唇塞音, 不送气, 送气, 是半元音; , , , 是舌尖前塞擦音, , 不送气, ,送气; 是舌尖前塞音,不送气; 与音标 a 的发音相近, 与音标 发音相近; 是舌尖中闪音; 是舌尖中边音; 是舌根擦音,并捎带送气成分; ,都是喉音,发 时候喉壁稍有摩擦,发 时声带紧缩,然后突然打开,实际上是一个喉塞音 22。 多藏语语音研究单元的选择 选择语音单元就是要确定所研究的语音基元是什么,对于不同语言,单元选择的考虑不同。 语音识别单元包括单词,音节,音素,通常依照研究任务选取识别单元,其中单词单元广泛应用于小词汇语音识别系统;音节单元多用于汉语语音的识别,因为汉语是单音节结构的语音;音素单元多用于大词汇量的语音识别系统。对于安多藏语语音方面的研究现在还处在起步状况,由于我们要做的是特定人孤立词识别的系统,所以选择安多藏语的常用单音节做识别单元。藏语有一种特殊的语言结构,单音节也可以理解成为一个词,本论文就是对安多藏语常用单音节作为基元进行语音处理、特征值提取以及语音识别的工作。 究词汇列表 藏文多字母构成的音节 ,如图 3示,这是藏文不同于一般拼音文字的一个重要特点,藏文音节最少由一个字母组成最多由六个字母组成,必有字母充当基字,藏文的 30 个辅音字母均可充当基础字,分别可带元音、上加字,下加字,前加字,后加字和又后加字。藏文上的前加字或上加字大体上相 当于复辅音声母中的前置辅音,基字相当于基本辅音 。 安多藏语按音节一般有单音节,双音节,三音节,四音节,五音节以上,本课题是对安多藏语的单音节常用词做研究,并且综合发音特征选择了带元音,带有后加字,前加字,上加字的单音节做研究,全面分析语音特征值,所选择常用单音节词如下表: 表 3究用安多藏语单音节词汇表 测试样本 汉语意思 他 火 什么 死 自己 里面 羊毛 门 测试样本 汉语意思 路 有 名字 你 衣服 雪 一 二 测试样本 汉语意思 三 四 五 六 七 八 九 十 多藏语语音信号基本理论 传统的藏语语音信号处理基于线性系统理论,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论