人工智能与未来 课件 6.3语音识别_第1页
人工智能与未来 课件 6.3语音识别_第2页
人工智能与未来 课件 6.3语音识别_第3页
人工智能与未来 课件 6.3语音识别_第4页
人工智能与未来 课件 6.3语音识别_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

NaturalLanguageProcessing第6章

自然语言处理2035陈勇斌

目录CONTENTS6.16.26.36.4自然语言处理那些事自然语言处理概述语音识别自然语言理解6.506语音合成6.6扩展:机器翻译6.3.1什么是语音识别6.3.2语音识别处理流程6.3.1什么是语音识别语音识别,也被称为自动语音识别(AutomaticSpeechRecognition.ASR),是将人说出的话转换为文本的技术。语音转换为文本6.3.1什么是语音识别

语音识别是识别技术的一个分支,识别技术还包含文字识别、图像识别等。识别指的是把具有某些不同特征或属性的事物区分开来,并正确归类的过程。如下面的写法都可以识别为数字“0”。6.3.1什么是语音识别

语音识别技术的用处相当广泛:在智能家居领域中,用户只需通过简单的语音指令,就可以控制家中的各种智能设备,如智能音箱、智能电视、智能空调等。例如,用户可以说“打开空调”,智能空调就会自动开启;或者说“播放音乐”,智能音箱就会开始播放用户喜欢的歌曲。此外,语音识别在数据录入、客户服务、智能医疗、人机接口等领域都有广泛的应用。

6.3.2语音识别处理流程语音识别整体上的处理流程如图所示,分为三个主要部分:语音采集与预处理、特征提取与选择、模型训练。1.语音采集与预处理声音是在空气中传播的波,但它与水波的传播方式有所不同。水波传播的是波的高低变化,即水面的上下起伏;而声音传播的是空气的密度变化。1.语音采集与预处理1.语音采集与预处理

当声带发声时,它们会振动并将空气挤出。这种振动导致空气被挤入的地方压力增高,形成高压区;而空气被挤出的地方则相对压力降低,形成低压区。高压区会向四周扩散,低压区也会紧随其后,高压和低压交替出现,这就是声带振动所引发的空气密度的周期性变化。这种空气密度的周期性变化会在空气中蔓延开来,语音就在空气中传播开来。(1)语音采集

我们利用麦克风采集空气中传播的声音,由于作为待识别对象的语音信号是时间连续的模拟信号,所以要把模拟信号转换成计算机可以处理的数字信号。这个过程在第3章有详细的说明,此处不再累述。(2)预处理

我们还要对采集到的语音信号进行预处理。人类的听觉范围大约是20Hz-20kHz,在原始语音信号中会有人类听不到的高频信号。这部分信息在语音识别中是不需要的,需要在预处理部分进行去除。2.特征提取与选择

语音经过采集与预处理之后,以振动的幅度为纵轴,以时间为横轴,就能够将声音可视化。从下图可以看出来,同样是语音“啊”,男声与女声存在较大差异。甚至同一个人随着说话的声音大小、语气、语调的变化,同一个字的波形差异也比较大。2.特征提取与选择

由于存在波形上的差异,直接采用波形数据进行语音识别并不可行。在识别之前需要进行语音的特征提取。完成语音特征提取的方法有很多种,常用的是梅尔频率倒谱系数(MelFrequencyCepstralCoefficients,简称MFCC)来提取语音特征。MFCC模拟了人耳对语音感知的特点,可以像人一样去提取语音特征。2.特征提取与选择MFCC的处理过程比较复杂,首先把声音分成很多片段,称为帧,对每帧进行一系列数学变换,得到39个数,这39个数排在一起称为特征向量。讨论(1)是不是从声音识别文字?

(2)不同人语速不同,声音大小不同,计算机怎么区别?

需要分两步骤:第一步:把不同人的声音变成统一的音节序列(拼音)第一步:从拼音根据上下文识别文字声学模型语言模型3.模型训练

语音识别采用了机器学习中的分类技术。语音识别在设计分类器的时候需要分两步进行:第一步是设计声学模型,利用声学模型将语音信号转换为音节序列(拼音)。第二步是设计语言模型,利用语言模型将音节序列识别为文本内容。

我们知道汉字的发音是由声母和韵母两个部分组合而成的,习惯上我们将声母和韵母统称为音素。一个汉字通常对应一个音节,每个音节通常由一个或多个音素组成,并且音节都有自己的声调,

例如“我”(wǒ)就是一个音节,它由一个声母“w”和一个韵母“ǒ”组成,并且带有第三声的声调。回顾我们小学学习的汉语拼音,它有那几部分组成呢?3.模型训练

以中文词汇“抱负”(bàofù)为例,我们通过麦克风录入“抱负”这个词汇的语音信号并进行预处理;然后进行特征提取与选择,找出最有效的分类特征;再利用训练好的声学模型对特征进行识别,得到“抱负”对应的音节序列(bàofù)3.模型训练

在这个例子中,声学模型会识别出特征向量对应的拼音音素序列“bàofù”。“bàofù”可以对应词汇“抱负”,也可以对应词汇“报复”,到底应该是哪个呢?最后需要利用语言模型将音节序列转换为文本。它利用学习的词汇表和概率分布,确定这个拼音序列最可能对应的中文词语。(1)声学模型

当前,主流声学模型采用隐马尔可夫模型(HiddenMarkovModel,HMM)。HMM内部有一些参数,声学模型的训练过程就是调整这些参数的过程。我们需要把大量已标记数据输入系统进行训练,算法就会不断调节各个地方的参数,直到各音素的HMM参数达到较理想的效果为止。安德烈·马尔科夫讨论:马尔科夫和他的马尔科夫链(1)声学模型

训练好声学模型后,就能把说的语音变成音素序列了。以“抱负”这个词的语音信号为例,声学模型会首先识别出特征向量对应的音素“b”,接着识别出了音素“ào”,两个音素拼起来是“bào”。然后识别出音素“f”,最后识别出了音素“ù”,两个音素拼起来是“fù”。至于“bàofù”对应“抱负”还是“报复”,还需要语言模型的帮助。(2)语言模型

在语音识别中,同音词的处理是一个重要挑战,因为不同的词可能有相同的发音。举一个例子,识别“他有着远大的抱负”这句话。当语音识别系统识别到这个读音“bàofù”的时候,有多个对应的词可以选,怎么选择呢?(2)语言模型

语音识别系统需要依靠上下文信息来准确识别用户的意图。具体到语言模型中利用学习的词汇表和概率分布,确定这个拼音序列最可能对应的中文词语。(2)语言模型首先,准备一个包含大量文本的语料库。为了简化说明,我们假设语料库中包含下图所示四个句子(实际应用中,语料库会包含成千上万的句子,后面生成的共现矩阵会非常大)。他因为受到欺负而想要报复。她有着远大的抱负和理想。报复不是解决问题的办法。我们要为实现自己的抱负而努力。示例语料库(2)语言模型遍历语料库中的每一个词,统计“报复”和“抱负”与它们上下文中词的共同出现频率。例如,“报复”在第一个句子中与“因为”、“受到”、“欺负”和“而”共现,“抱负”在第二个句子中与“有着”、“远大”和“理想”共现,以此类推。(2)语言模型根据统计结果,构建一个共现矩阵,如表所示。在这个矩阵中,行和列分别代表语料库中的词(为了简化,我们只列出与“报复”和“抱负”共现频率较高的词),矩阵中的每个元素表示两个词在语料库中共同出现的次数。他因为受到欺负而想要报复。她有着远大的抱负和理想。报复不是解决问题的办法。我们要为实现自己的抱负而努力。(2)语言模型例如,“报复”和“因为”在语料库中共同出现了1次,所以矩阵中对应位置的值为1。对角线元素(如“报复”与“报复”)通常设为0,因为我们不关注词自身的共现。他因为受到欺负而想要报复。她有着远大的抱负和理想。报复不是解决问题的办法。我们要为实现自己的抱负而努力。(2)语言模型分析这个矩阵,我们可以发现:“报复”与“因为”、“受到”、“欺负”和“而”等词有较高的共现频率,这些词通常与负面情境相关。“抱负”与“有着”、“远大”和“理想”等词有较高的共现频率,这些词通常与正面情境相关。

这些信息有助于语音识别系统在遇到发音相近但意义不同的词时做出更准确的判断。例如,当系统识别到“他有着远大的bàofù”这样的语境时,它更有可能将“bàofù”识别为“抱负”而不是“报复”。学习通讨论:在实际应用中有时候语音识别的准确率不高,原因可能有哪些?

在实际应用中,语音识别有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论