版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语音识别和语义识别,1,内容,1,语音识别,2,语义识别,2,8/3/2020,语音识别,Part 1,3,8/3/2020,根据定义,语音识别技术是一种允许机器通过识别和理解过程将语音信号转换成相应文本或命令的技术。本质上,这是一个模式识别的过程。将未知语音的模式与已知语音的参考模式逐一进行比较,并将最佳匹配的参考模式作为识别结果。4,2020/8/3,基本原理,系统包括五个部分:预处理、特征提取、参考模型、模式匹配和后处理。2020年3月5日1。预处理模块,对输入的原始语音信号进行处理(1)模拟/数字转换(2)滤除不重要的信息和背景噪声(3)检测语音信号的端点(找出语音信号的起点和终点),
2、双阈值比较法是根据语音信号的特征参数(能量和过零率)来判断清音和噪声。从而完成端点检测)(4)语音成帧(认为语音信号在10-30毫秒内是短期稳定的,将语音信号分割成段进行分析,并加入加窗函数)(5)预加重(高频部分被提升,使语音信号的频谱相对平坦,便于频谱分析或信道参数分析),6,2020/8/3,2特征提取是从语音信号中提取语音特征序列,提取的语音特征应能完整准确地表达语音信号。特征提取的目的是提取能够代表语音信号中语音特征的信息,并减少语音识别中要处理的数据量。基于声道模型和听觉机制的线性预测倒频谱系数lpcc(线性预测倒频谱系数)和梅尔频率倒频谱系数(梅尔频率倒频谱系数)的参数,7,8/
3、3/2020,2。特征提取,基于低通滤波器的倒谱参数(LPCC)分析方法的典型代表是基于低通滤波器的预测系数,通过基于杜宾或列文森迭代算法求解维纳霍夫方程得到,然后得到低通滤波器的倒谱参数(LPCC)。在MFCC计算中,首先用FFT将时域信号变换到频域,然后用按梅尔尺度分布的三角滤波器组对其对数能谱进行卷积,最后对每个滤波器的输出组成的矢量进行离散余弦变换,得到前n个系数。2020年3月8日。基于现代处理技术的特征提取、小波变换系数分析方法是将语音信号与一族在时域和频域都具有良好局部化特性的小波函数(小波变换)相结合,从而将信号分解成一组位于不同频率和时间周期的分量,即选择小波函数作为某一类光
4、滑函数的一阶导数,然后小波变换后的局部极大值反映了信号的急剧变化。2020年3月9日。模式识别,语音识别系统的模型通常由声学模型和语言模型组成,分别对应于语音到音节概率和音节到单词概率的计算。在语音识别过程中,可以通过将待识别的输入语音信号与模式进行匹配来获得识别结果。10、8/3/2020,模式识别和语音识别过程都是基于模式匹配的原理,而传统的语音识别系统是根据一定的度量算法实现模式库中被识别的特征参数和模板之间的最佳模式匹配的过程。目前,语音识别中常用的识别方法主要有:模板匹配法,以DynamiC Time Warping,DTw为代表);随机模型法,以隐马尔可夫模型为代表);该识别方法基
5、于人工神经网络(ANN),11,8/3/2020,模式识别-动态时间扭曲(DTW)技术,DTW采用了一种优化的算法动态扭曲方法,该算法的思想是均匀地加长或缩短未知量,直到它与参考模式的长度一致。在此过程中,未知量(待识别的语音信号)的时间轴被扭曲和不均匀弯曲,使得其特征与模板特征对齐(即时间是有规律的),并且匹配路径具有最小的距离这是一种将时间正则化和距离测量有机结合的非线性正则化技术,保证了待识别特征和模板特征之间的最大声学相似性和最小时差失真。它是最早也是最常用的成功解决模式匹配问题的方法。DTW方法的缺点是计算量大,语音信号的端点检测过多,不能充分利用语音信号的时间动态信息。因此,它主要
6、用于孤立词、小词等相对简单的汉语语音识别系统。12,8/3/2020,模式识别隐马尔可夫模型(HMM)技术,HMM方法不同于DTW方法,首先,它的模式库不是预先存储的模式样本,而是经过反复训练过程的一种迭代算法(如BaumWelch算法等)。)用于与训练输出信号形成一组具有最高符合概率的最佳隐马尔可夫模型参数:A. A是状态转移的概率分布;b是某一状态下系统输出的概率分布。这些参数都是反映训练中语音随机过程统计特征的数值参数,而不是模式特征参数本身。其次,在识别过程中,采用基于最优状态序列的整体约束最优准则算法铽算法计算待识别语音序列与隐马尔可夫模型参数之间的最大似然,并将相应的最优状态序列作
7、为识别输出。这个过程也是一个统计过程,它反映了待识别序列和隐马尔可夫模型的参数状态序列之间最大相关的随机过程。因此,隐马尔可夫模型方法可以看作是数字上的双重随机过程,它合理地模拟了人类语言活动的随机性,是一种比较理想的语音识别模型。研究结果表明,尽管隐马尔可夫模型在训练过程中比DTW更复杂,但识别过程比DTW简单得多。在孤立词和小词的汉语识别中,识别率高于DTW,解决了DTW无法实现的连续语音识别的应用问题。因此,在汉语语音识别中,隐马尔可夫模型方法不仅可以用于孤立词识别系统,还可以用于连续语音识别和说话人识别,这是目前汉语语音识别技术的主流。13,8/3/2020,模式识别-矢量量化(VQ)
8、技术,矢量量化技术,是一种使用K维矢量来表示最初由K个标量表征的语音信号的模式帧或参数帧,然后整体量化该矢量的方法。在语音识别之前,利用LBG算法(1980年由林德、布佐和格雷首先提出)通过最佳邻近准则和最小失真准则对大量的K维向量进行统计划分,使其可以从无限向量空间聚类中划分为M个有限的区域边界,每个区域都有一个中心向量值,即码字,因此总共有M个码字, 在语音识别中,本质上是一个将待处理的K维向量与现有码本中的M个区域边界进行比较,并找到与待测量的输入向量距离最小的码字编号来代替识别结果的过程。 由于码字序号是矢量量化技术中存储和传输的主要参数,因此具有高效的数据压缩性能和信息安全性能,但缺
9、点是训练过程中计算方法复杂,计算量过大。因此,将改进的有限状态矢量量化(FSVQ)技术和带学习函数的矢量量化(LVQ2)技术真正应用到语音识别中,其中FSVQ计算量小,根据最后的状态和量化结果利用状态转移函数确定下一个量化状态,适用于上下文相关的语音识别。LVQ2利用其自适应学习功能来优化码本,即在一定条件下,错误的参考向量远离输入向量,而正确的参考向量靠近输入向量,从而提高识别率。FSVQ和LVQ2也用于,14,8/3/2020,模式识别-人工神经网络(ANN)技术,一种基于ANN的新型语言识别系统,其模式识别过程是不同的:首先,其模式库是分布式的,即采用一些模拟人类思维过程的算法,在训练过
10、程中通过自学习建立一个类似于传统语言识别系统中模式库的参数系统,但这些参数以分布式的方式存在;其次,通过模拟人类的联想过程, 计算相关参数与识别特征之间的匹配距离,并逐层比较,最终形成最佳匹配识别结果。15,8/3/2020,模式识别-人工神经网络技术。人工神经网络是模拟人脑组织结构和思维过程的前沿研究领域。基于人工神经网络的语音识别系统通常由神经元、训练算法和网络结构组成。人工神经网络采用了许多现代信息技术成果,如并行处理机制、非线性信息处理机制和信息分布式存储机制。因此,人工神经网络具有高速的信息处理能力、较强的适应性和自动调整能力,能够在训练过程中不断调整自身的参数权重和拓扑结构,以满足
11、环境和系统性能优化的需要。它在模式识别中具有速度快、识别率高的显著特点,是近年来国内外语音识别系统的研究方向和热点。目前,用于汉语语音识别研究的人工神经网络主要包括基于反向传播算法的MLP神经网络和基于人类大脑皮层的科霍宁仿生信息特征区域的自组织神经网络,其识别率高于传统的人工神经网络方法。具有良好动态时变性能和结构的时延神经网络(TDNN)和具有良好动态时间相关特性的循环神经网络(IU明矾)是目前大词汇量连续汉语语音识别研究的热点。16,8/3/2020,语义识别,PART 2,17,8/3/2020,定义,计算机可以自动分割一个句子,它可以进一步整理句子的结构,甚至理解句子的意思,18,2
12、020/8/3,最大匹配法:从句子的左端开始,根据人们的习惯从左到右扫描单词。在大多数情况下,这种算法真的可以侥幸成功。但是,这种算法不可靠,所以添加了一个特殊的规则表。我们需要维护一个词表,一般不是单个词,如“民”、“尘”、“威”、“Xi”等;这些单词通常不会被单独挑出,它们必须与旁边的单词组合成一个单词。在分词过程中,一旦发现这些词是孤立的,就重新考虑将它们与前面的词结合的可能性。一种基于字符串匹配的分词方法,以2020年8月19日为例,当使用最大匹配法对“为人民服务”进行分词时,算法会先抽出“为人民”一词,然后发现“人民”一词只能单独作为一个词使用。查表时发现“民”不能分开画,所以考虑将
13、“人”字改为“民”。巧合的是,“为”和“为人民”两个词都可以组成词,从而可以得到“为人民服务”的正确划分。最大匹配法,20,8/3/2020,最小字数法,将句子视为一个整体,从全局角度评估句子划分方案。最初的方法是找到单词数最少的部分。单词列表配备了最少数量的单词。对于一个分词方案,它包含多少个单词,会被罚多少分;每出现一个不成文的单词,就会被加上一个惩罚。最好的分词方案是惩罚最小的方案。全分割路径选择方法:列出所有可能的分割组合,选择最佳分割路径。路径选择可以转化为图论中的最短路径问题,动态规划效率更高。基于字符串匹配的分词方法,2020年8月21日,“他说的真的有道理”是一个非常困难的测试
14、用例,“真的”和“真的”恰好是词,这给自动分词带来了很大的障碍。但是,“真”、“实”、“理”通常不是单独成词的,所以很多分词方案都会被扣分很多:他说是真的(罚:1 1 1 1 1 1 1=5),他说是真的(罚:1 1 1 2 1=6),至少首先统计每个词在大量真实语料中出现的频率,然后乘以每个分词方案中每个词出现的概率作为该方案的得分。使用动态规划,不难找到得分最高的方案。在大量的真实语料中,“你”、“意图”、“意见”、“看到”和“不同意”的出现概率分别为0.0181、0.0005、0.0010、0.0002和0.0001,因此“不同意”的得分为1.810-9,而“你”、23、8/3/2020
15、、交集歧义:中外著名科学著作,其中“中外”、“外科”、“科学”、“科学名称”组合歧义:组合歧义意味着同一字符串可以组合和分离。“这门的把手”中的“把手”只是一个词,而“把它举起来”的“把手”必须拆开,而且分词是模糊的,24,8/3/2020,所以我们必须跳出一元论的假设。此时,提出了一种统计语言模型算法。对于任意两个单词w1、w2,计算在语料库中单词w1后面紧跟w2的概率P(w1、w2)。这将生成一个大的二维表格。然后,句子划分方案的得分被定义为P(,w1) P(w1,w2) P(wn-1,wn),其中w1,w2,wn依次表示被划分的单词。我们还可以使用动态编程来找到得分最高的分词方案。该模型
16、解决了词性标注和语音识别等各种自然语言处理问题。统计语言模型算法,25,8/3/2020,被理解为单词分类问题,即自然语言处理中的序列标注问题。在一般实践中,隐马尔可夫模型、最大熵模型、MEMM模型、通用报告格式等。用于预测文本字符串中每个单词的标记62,如B、E、I、s。这四个标记分别表示:开始、内部等。例如,“南京长江大桥”的标记结果可能是:“南(B)北京(I)城市(E)龙(B)河(E)大(B)桥(E)”。基于序列标注的分词方法,2020年8月26日,基于深度学习的分词,基于深度学习的分词示例图。从上到下看,我们首先查找表单词,并将其映射到一个固定长度的特征向量(这里我们可以使用单词向量、边界熵、访问器种类等)。);然后,通过一个标准的神经网络,即线性层、sigmoid层和线性层,预测每个词属于B、E、I和s的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 旅行社计调经理的招聘面试全解析
- 基于地球仪视角的初中自然科学学习策略
- 护理礼仪的礼仪故事
- 护理课件制作中的游戏化设计
- 护理实践中的法律问题探讨
- 护理考试名师强化辅导
- 领导力培养与团队指导计划同仁堂副经理
- 基于家庭教育活动的家长培训计划设计
- 临床事务经理在患者招募中的作用
- 旅游网站运营专员应聘经验交流会
- 甘肃省兰州市树人中学2024年中考数学全真模拟试题含解析
- 天津市河西区2024年九年级结课质量调查英语试卷
- 2024外研版初中英语单词表汇总(七-九年级)中考复习必背
- 六安职业技术学院单招《职业技能测试》参考试题库(含答案)
- 有关物业管家培训课件
- 第二章 教育研究的选题与设计
- 新改版苏教版四年级下册科学全册知识点(精简版)
- 口腔颌面外科学课件:颌骨骨髓炎
- 上海市初中物理竞赛“大同杯”历年真题分类汇编(共9个)学生版+解析版
- 2023年广东高考英语听说考试真题D录音原文与参考答案
- 《史记》上册注音版
评论
0/150
提交评论