人工智能与未来 课件 第6章 自然语言处理_第1页
人工智能与未来 课件 第6章 自然语言处理_第2页
人工智能与未来 课件 第6章 自然语言处理_第3页
人工智能与未来 课件 第6章 自然语言处理_第4页
人工智能与未来 课件 第6章 自然语言处理_第5页
已阅读5页,还剩130页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

NaturalLanguageProcessing第6章

自然语言处理2035陈勇斌

知识目标:能理解计算机“听”语言和“懂”语言的基本原理,能描述自然语言处理相关概念,能描述自然语言处理应用的算法模型。能力目标:能结合现实生活,判断哪些场景是自然语言处理的应用;能结合应用,分析其建立的过程和方法。素养目标:培养学生能用自然语言处理解决问题的思维。目录CONTENTS6.16.26.36.4自然语言处理那些事自然语言处理概述语音识别自然语言理解6.506语音合成6.6扩展:机器翻译目录CONTENTS6.16.26.36.4自然语言处理那些事自然语言处理概述语音识别自然语言理解6.506语音合成6.6扩展:机器翻译

人类对机器的期望在于它能够与人类进行对话交流。试想,如果机器能够理解我们的语言,成为我们的贴心伴侣,与我们共享喜悦,分担忧愁,甚至在我们需要时提出建议,那该是多么美好的事情!

让机器具备说话能力,乃至全面掌握“能听会说”技能的核心技术,便是人工智能领域的自然语言处理。

小智的郊外野餐

一个周末,小智打算和同学去郊外野餐,但他不确定天气是否合适。这时,他想起了手机里面的语音智能助手“小悦”。通过询问“小悦”,得知天气不错。然后小智和同学们利用导航、乘坐公交车到达湖边,在那度过了愉快的一天。

这次经历让小智感受到了人工智能带来的便利,对机器能够与人进行语言交流的工作原理产生了浓厚的兴趣。而实际上,这里面涉及了自然语言处理技术。翻译机

智能家居

数字人学习通讨论:你用过或见过哪些自然语言处理场景?那么,什么是自然语言处理?为什么要研究自然语言处理?它又是如何理解人类的语言的?下面我们来一一学习。ArtificialIntelligenceandFuture人工智能与未来2035主讲:陈勇斌

NaturalLanguageProcessing第6章

自然语言处理2035主讲:陈勇斌目录CONTENTS6.16.26.36.4自然语言处理那些事自然语言处理概述语音识别自然语言理解6.506语音合成6.6扩展:机器翻译6.2.1什么是自然语言6.2.2什么是自然语言处理6.2.3为何研究自然语言处理6.2.4机器怎么进行自然语言处理6.2.1什么是自然语言

所谓自然语言就是指我们日常交流使用的语言,如汉语、英语、法语、俄语等。

自然语言随时间自然产生并演化而来,是人类日常交流的主要工具,并随着时间的变化不断发展和丰富,以适应人类社会的需求和文化变迁。

由人们专门为某种特定目的而创造的语言称为人工语言,如程序设计语言Python语言、C语言等,它们服务于特定的应用或计算需求。

还有一种是机器语言,它是计算机内部直接理解和执行的语言,通常由二进制代码构成。6.2.1什么是自然语言自然语言人工语言机器语言人类社会约定俗成程序设计语言计算机体系结构确定汉语、英语等Python、C等二进制代码简洁长度和规则都有一定的冗余精确含糊、歧义无二义性严谨、无歧义6.2.2什么是自然语言处理

自然语言处理(NaturalLanguageProcessing,简称NLP)是研究如何让机器理解与生成自然语言的学科,目的是实现人与计算机之间用自然语言进行有效通信。

简单说,自然语言处理就是让计算机像人类一样,能听、说、读、写自然语言。自然语言处理是人工智能重要分支,是涉及语言学、计算机科学、认知科学、数理统计、声学等学科的跨学科交叉研究领域。

GUI‌图形用户界面

通过如窗口、图标、按钮等实现用户与计算机之间交互

LUI‌语言用户界面利用语音识别、自然语言处理、语音合成等实现人与机器之间自然语音的交互‌

迈向6.2.2什么是自然语言处理6.2.2什么是自然语言处理由于自然语言的丰富性、多样性和复杂性使得机器理解和生成自然语言变得极为困难。自然语言处理是人工智能领域中最复杂、最具挑战性的任务之一,有“人工智能皇冠上的明珠”之美誉。

6.2.3为何研究自然语言处理人类与计算机之间存在很大的交流鸿沟。机器语言采用二进制代码表示指令和数据,对于人类来说非常难以理解。同样的,人类日常交流使用的自然语言对于机器来说同样难以理解。因此,人与计算机无法直接进行交流。

1+2+3+……+100机器语言人类语言6.2.4机器怎么进行自然语言处理

我们已经知道,计算机仅能理解机器语言,因此,为了让计算机能够领悟人类的自然语言,就必须将人类的语言转换成计算机能够识别和处理(计算)的数字形式。此时,计算机并不理解这些二进制数值代表的具体含义,计算机还需要通过在这些数值之上进行一系列自然语言处理的操作,才能最终理解我们的话并做出对应的反应。我们以前面小智与语音助手小悦对话为例,说明自然语言处理的过程4.返回结果语音智能助手把前面获取的用户查询结果通过语音合成技术进行播放,小智根据实际情况就可以做出相应的出行准备。比如,如果风景不错,那就规划一次湖边野餐。1.激活语音智能助手小智拿起手机,说出激活词:“小悦小悦。”手机的麦克风捕捉到声音后,内部的语音识别系统开始工作。2.语音识别用户指令语音智能助手被激活后,小智发出查询指令:“龙湖风景怎么样?”语音智能助手运用语音识别技术,将声音信号转化为文字信息。3.理解用户意图语音智能助手将语音转化为文字信息后,通过语义理解技术理解用户的意图,并利用信息检索与答案抽取技术获取用户查询指令的结果。我们以前面小智与语音助手小悦对话为例,说明自然语言处理的过程我们以前面小智与语音助手小悦对话为例,说明自然语言处理的过程我们以前面小智与语音助手小悦对话为例,说明自然语言处理的过程我们以前面小智与语音助手小悦对话为例,说明自然语言处理的过程学习通讨论:你觉得自然语言处理需要具备哪些能力?语音识别语义理解语音合成ArtificialIntelligenceandFuture人工智能与未来2035主讲:陈勇斌

NaturalLanguageProcessing第6章

自然语言处理2035陈勇斌

目录CONTENTS6.16.26.36.4自然语言处理那些事自然语言处理概述语音识别自然语言理解6.506语音合成6.6扩展:机器翻译6.3.1什么是语音识别6.3.2语音识别处理流程6.3.1什么是语音识别语音识别,也被称为自动语音识别(AutomaticSpeechRecognition.ASR),是将人说出的话转换为文本的技术。语音转换为文本6.3.1什么是语音识别

语音识别是识别技术的一个分支,识别技术还包含文字识别、图像识别等。识别指的是把具有某些不同特征或属性的事物区分开来,并正确归类的过程。如下面的写法都可以识别为数字“0”。6.3.1什么是语音识别

语音识别技术的用处相当广泛:在智能家居领域中,用户只需通过简单的语音指令,就可以控制家中的各种智能设备,如智能音箱、智能电视、智能空调等。例如,用户可以说“打开空调”,智能空调就会自动开启;或者说“播放音乐”,智能音箱就会开始播放用户喜欢的歌曲。此外,语音识别在数据录入、客户服务、智能医疗、人机接口等领域都有广泛的应用。

6.3.2语音识别处理流程语音识别整体上的处理流程如图所示,分为三个主要部分:语音采集与预处理、特征提取与选择、模型训练。1.语音采集与预处理声音是在空气中传播的波,但它与水波的传播方式有所不同。水波传播的是波的高低变化,即水面的上下起伏;而声音传播的是空气的密度变化。1.语音采集与预处理1.语音采集与预处理

当声带发声时,它们会振动并将空气挤出。这种振动导致空气被挤入的地方压力增高,形成高压区;而空气被挤出的地方则相对压力降低,形成低压区。高压区会向四周扩散,低压区也会紧随其后,高压和低压交替出现,这就是声带振动所引发的空气密度的周期性变化。这种空气密度的周期性变化会在空气中蔓延开来,语音就在空气中传播开来。(1)语音采集

我们利用麦克风采集空气中传播的声音,由于作为待识别对象的语音信号是时间连续的模拟信号,所以要把模拟信号转换成计算机可以处理的数字信号。这个过程在第3章有详细的说明,此处不再累述。(2)预处理

我们还要对采集到的语音信号进行预处理。人类的听觉范围大约是20Hz-20kHz,在原始语音信号中会有人类听不到的高频信号。这部分信息在语音识别中是不需要的,需要在预处理部分进行去除。2.特征提取与选择

语音经过采集与预处理之后,以振动的幅度为纵轴,以时间为横轴,就能够将声音可视化。从下图可以看出来,同样是语音“啊”,男声与女声存在较大差异。甚至同一个人随着说话的声音大小、语气、语调的变化,同一个字的波形差异也比较大。2.特征提取与选择

由于存在波形上的差异,直接采用波形数据进行语音识别并不可行。在识别之前需要进行语音的特征提取。完成语音特征提取的方法有很多种,常用的是梅尔频率倒谱系数(MelFrequencyCepstralCoefficients,简称MFCC)来提取语音特征。MFCC模拟了人耳对语音感知的特点,可以像人一样去提取语音特征。2.特征提取与选择MFCC的处理过程比较复杂,首先把声音分成很多片段,称为帧,对每帧进行一系列数学变换,得到39个数,这39个数排在一起称为特征向量。讨论(1)是不是从声音识别文字?

(2)不同人语速不同,声音大小不同,计算机怎么区别?

需要分两步骤:第一步:把不同人的声音变成统一的音节序列(拼音)第一步:从拼音根据上下文识别文字声学模型语言模型3.模型训练

语音识别采用了机器学习中的分类技术。语音识别在设计分类器的时候需要分两步进行:第一步是设计声学模型,利用声学模型将语音信号转换为音节序列(拼音)。第二步是设计语言模型,利用语言模型将音节序列识别为文本内容。

我们知道汉字的发音是由声母和韵母两个部分组合而成的,习惯上我们将声母和韵母统称为音素。一个汉字通常对应一个音节,每个音节通常由一个或多个音素组成,并且音节都有自己的声调,

例如“我”(wǒ)就是一个音节,它由一个声母“w”和一个韵母“ǒ”组成,并且带有第三声的声调。回顾我们小学学习的汉语拼音,它有那几部分组成呢?3.模型训练

以中文词汇“抱负”(bàofù)为例,我们通过麦克风录入“抱负”这个词汇的语音信号并进行预处理;然后进行特征提取与选择,找出最有效的分类特征;再利用训练好的声学模型对特征进行识别,得到“抱负”对应的音节序列(bàofù)3.模型训练

在这个例子中,声学模型会识别出特征向量对应的拼音音素序列“bàofù”。“bàofù”可以对应词汇“抱负”,也可以对应词汇“报复”,到底应该是哪个呢?最后需要利用语言模型将音节序列转换为文本。它利用学习的词汇表和概率分布,确定这个拼音序列最可能对应的中文词语。(1)声学模型

当前,主流声学模型采用隐马尔可夫模型(HiddenMarkovModel,HMM)。HMM内部有一些参数,声学模型的训练过程就是调整这些参数的过程。我们需要把大量已标记数据输入系统进行训练,算法就会不断调节各个地方的参数,直到各音素的HMM参数达到较理想的效果为止。安德烈·马尔科夫讨论:马尔科夫和他的马尔科夫链(1)声学模型

训练好声学模型后,就能把说的语音变成音素序列了。以“抱负”这个词的语音信号为例,声学模型会首先识别出特征向量对应的音素“b”,接着识别出了音素“ào”,两个音素拼起来是“bào”。然后识别出音素“f”,最后识别出了音素“ù”,两个音素拼起来是“fù”。至于“bàofù”对应“抱负”还是“报复”,还需要语言模型的帮助。(2)语言模型

在语音识别中,同音词的处理是一个重要挑战,因为不同的词可能有相同的发音。举一个例子,识别“他有着远大的抱负”这句话。当语音识别系统识别到这个读音“bàofù”的时候,有多个对应的词可以选,怎么选择呢?(2)语言模型

语音识别系统需要依靠上下文信息来准确识别用户的意图。具体到语言模型中利用学习的词汇表和概率分布,确定这个拼音序列最可能对应的中文词语。(2)语言模型首先,准备一个包含大量文本的语料库。为了简化说明,我们假设语料库中包含下图所示四个句子(实际应用中,语料库会包含成千上万的句子,后面生成的共现矩阵会非常大)。他因为受到欺负而想要报复。她有着远大的抱负和理想。报复不是解决问题的办法。我们要为实现自己的抱负而努力。示例语料库(2)语言模型遍历语料库中的每一个词,统计“报复”和“抱负”与它们上下文中词的共同出现频率。例如,“报复”在第一个句子中与“因为”、“受到”、“欺负”和“而”共现,“抱负”在第二个句子中与“有着”、“远大”和“理想”共现,以此类推。(2)语言模型根据统计结果,构建一个共现矩阵,如表所示。在这个矩阵中,行和列分别代表语料库中的词(为了简化,我们只列出与“报复”和“抱负”共现频率较高的词),矩阵中的每个元素表示两个词在语料库中共同出现的次数。他因为受到欺负而想要报复。她有着远大的抱负和理想。报复不是解决问题的办法。我们要为实现自己的抱负而努力。(2)语言模型例如,“报复”和“因为”在语料库中共同出现了1次,所以矩阵中对应位置的值为1。对角线元素(如“报复”与“报复”)通常设为0,因为我们不关注词自身的共现。他因为受到欺负而想要报复。她有着远大的抱负和理想。报复不是解决问题的办法。我们要为实现自己的抱负而努力。(2)语言模型分析这个矩阵,我们可以发现:“报复”与“因为”、“受到”、“欺负”和“而”等词有较高的共现频率,这些词通常与负面情境相关。“抱负”与“有着”、“远大”和“理想”等词有较高的共现频率,这些词通常与正面情境相关。

这些信息有助于语音识别系统在遇到发音相近但意义不同的词时做出更准确的判断。例如,当系统识别到“他有着远大的bàofù”这样的语境时,它更有可能将“bàofù”识别为“抱负”而不是“报复”。学习通讨论:在实际应用中有时候语音识别的准确率不高,原因可能有哪些?

在实际应用中,语音识别有时候不太准,可能是因为周围环境太吵,或者说话的人发音不太清楚、说得太快。另外,语音识别系统自己也有一些短板,比如不太擅长处理各种口音和方言,或者它的技术还不够好,不能很好地适应所有情况。还有,如果用来训练系统的数据和实际使用的情况不太一样,也会影响识别的准确度。ArtificialIntelligenceandFuture人工智能与未来2035主讲:陈勇斌

NaturalLanguageProcessing第6章

自然语言处理2035陈勇斌

目录CONTENTS6.16.26.36.4自然语言处理那些事自然语言处理概述语音识别自然语言理解6.506语音合成6.6扩展:机器翻译讨论:为了能看懂报纸、杂志等书籍,想想我们小时候是怎么学习语文的?先认识字和词再学习语法最后形成句子,来表达一定的语义6.4.1什么是自然语言理解6.4.2词法分析6.4.3语法分析6.4.4语义分析6.4.5自然语言理解应用6.4.1什么是自然语言理解

目前为止,我们已经完成了将语音转换成字符。但是,在计算机眼里,这些字符只是一些二进制数据,它并没有理解这些字符的具体含义。

自然语言理解(NaturalLanguageUnderstanding,NLU)是人工智能和自然语言处理领域的重要分支,其核心目标是让计算机理解人类语言的含义,并将其转化为机器可处理的结构化信息。其核心任务包括词法分析、语法分析、语义分析等。下面我们分别进行介绍。

6.4.2词法分析

和人类的学习过程类似,计算机要理解人类的语言也要完成这样一个过程,第一步是认识字和词,即识别语言中的基本单位如分词、词性标注等。我们先介绍分词,然后介绍词性标注。

1.分词

在自然语言理解的过程中,中文处理有一个独特的步骤,那就是分词。分词就是把在句子中的单词一个一个找出来。由于汉语句子是由连续的汉字组成,且词语间缺乏明显的分隔标志,因此,当计算机处理中文时,首要任务便是进行分词。例如,“明天我们去公园”可以切分成“明天\

我们\

去\

公园”

讨论:为什么分词这一步骤在英语处理中则不是必需的?相比中文,英语句子中的单词由空格明确分隔,例如:Tomorrowwewillgotothepark1.分词中文分词大致有三种方法基于语法和规则的分词法基于统计的分词法基于词典的分词法我们只讨论这种1.分词基于词典的分词法,也被称为最大匹配法。这种方法依赖于一个预先构建的词典。在进行分词时,该方法从左至右扫描句子中的汉字序列,并在词典中逐一查找这些汉字组成的片段。一旦找到匹配的词汇,即视为成功识别出一个词,随后继续对剩余的汉字进行同样的处理。

1.分词

基于词典的分词法通常选取词典中汉字词汇的最大可能片段。如果找到了对应的词,则将该片段切分为一个词。否则,去掉该片段的最后一个汉字,继续查词典,重复上述步骤,直到找到对应词条为止。下面我们使用这个方法对“明天我们去公园”进行分词,假设词典(是预先设计好的一个词库)最长的词条有5个汉字,那么分词过程如下所示。

1.分词第一轮明天我们去明天我们明天我明天没有这个词没有这个词没有这个词找到了去掉最后一个字去掉最后一个字去掉最后一个字第一轮:1.分词第二轮:在匹配出“明天”后,我们从剩余字符串“我们去公园”开始继续尝试匹配。第二轮我们去公园我们去公我们去我们没有这个词没有这个词没有这个词找到了去掉最后一个字去掉最后一个字去掉最后一个字1.分词第三轮:在成功匹配出“明天”、“我们”后,我们从剩余字符串“去公园”开始继续尝试匹配。第三轮去公园去公去没有这个词没有这个词找到了去掉最后一个字去掉最后一个字1.分词第四轮:匹配长度从2开始,尝试匹配“公园”,成功在词典中找到匹配词汇。第四轮公园找到了所以,对“明天我们去公园”进行分词的结果是:“明天\

我们\

去\公园”2.词性标注

在完成了分词以后,我们就可以理解了吗?恐怕还不行!比如“这个门没锁”,如果“锁”是动词,含义是门没有锁上的动作。如果“锁”是名词,表示“门上没有锁”。因此,计算机为了正确理解自然语言,还必须知道每一个词的词性。

词性标注是指为文本中的每个词语标注一个词性标签,例如名词、动词、形容词等。那么计算机又是如何进行词性标注的呢?

2.词性标注

当然是使用机器学习方法。主要分为三个步骤:建立训练语料库数据集。定义一些标注词性的符号,用这些符号对语料库的每一个词进行人工标注。机器学习。机器学习的方法有很多种,比如可以采用HMM。将人工标注好的语料库交给HMM学习,HMM将调节内部的各种概率参数,使之与语料库匹配。完成学习后,HMM就可以用来进行词性标注了。

2.词性标注应用。对于一个未进行标注的语句,HMM利用调节好的模型内部的各种概率参数进行计算,就可以计算出每个单词哪种词性出现的概率最大,而概率最大的可能就是计算机给出的词性标注结果。

这个/代词门/名词没/副词锁/动词这个/代词门/名词没/副词锁/名词

以“这个门没锁”为例,它的标注结果可以是如上图所示两种情况,至于计算机会给出哪种结果呢?就看“锁”是动词的概率大还是名词的概率大。

6.4.3句法分析

首先我们看一个句子:“在2024年国际人工智能大会上,一位身着黑色西装的年轻学者用流利的英语向全场观众深入浅出地阐释了基于深度学习的图像识别技术的最新进展。”

这句话比较复杂,不太好理解。我们可以通过分析句子的结构来理解复杂句子的中心思想。按照中学教的语法分析方法,找出句子中的主、谓、宾等句子成分,就可以得到一个简单的句子“学者阐释进展”,这就是这个句子的中心思想。这样我们才能对这个句子有一个准确的理解。

6.4.3语法分析

同样道理,如果计算机没有掌握语法知识就分不清楚句子成分,那么就很难理解上面句子的意思了。计算机要理解一个句子的意思,必须要先掌握语法知识。

怎么让计算机掌握语法知识呢?我们用一种常见的层次结构——树,来表示语法,我们称之为语法树,下面给出一个例子。

6.4.3语法分析通常情况,我们会把一个句子分成主语、谓语、宾语、定语、状语、补语等,并表示为一个树形结构。语法树用树形结构展示句子,这种图形化的分解方式能帮我们更轻松地理解句子是怎样构成的,特别适合分析复杂的语法关系。一个语法树我们喜欢人工智能6.4.3语法分析

使用语法树,可以让计算机判断一个句子是否符合语法。根据语法,从而理解句子的基本含义。

6.4.3语法分析

我们也可以通过语法树,让计算机自己生成有意义的句子。语法树还可以用来做句子结构转换,比如我们分析出了一个中文句子的语法树,就可以用英语对应的语法树,生成这个中文句子对应的英文句子。关于语法分析的方法,此处不做介绍,需要深入探索的,请参考相关资料。

6.4.4语义分析

事实上,经过语法分析后的语言离计算机能懂的机器语言还差很远。因此,还需要将语言转换成计算机能够解析的逻辑形式,这样计算机才能对输入的语言进行响应,这个过程就是语义分析。

语义分析是指将自然语言句子转化为反映这个句子语义的形式化表达。例如:“警察逮捕了这个小偷。”“这个小偷被警察逮捕了。”“警察把这个小偷逮捕了。”这些句子的结构不相同,但是它们表达的语义却是一样的,都可以表示为逮捕(警察,小偷)的意思。

6.4.4语义分析语义角色标注是一种浅层语义分析技术,以句子为单位,分析句子的谓词-论元结构。在一个句子中,谓词是对主语的陈述或说明,代表了一个事件的核心,跟谓词搭配的名词称为论元。语义角色标注的任务就是以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并且用语义角色来描述他们之间的关系。

6.4.4语义分析语义角色含义施事动作的主动发出者,决定了事件的状态受事动作的承受者,经历了事件的变化系事系动词连接的对象与事动作的间接承受者汉语中核心语义角色如表所示:

6.4.4语义分析比如:“大家都跑出了教室。”这句话中“大家”作为“跑出”的发出者,扮演的语义角色就是施事。“张三打破了窗户。”这句话中“窗户”作为“打破”的承受者,扮演的语义角色是受事。“你们是大学生。”这句话中“是”是系动词,“你们”是系动词连接的对象,扮演了系事的语义角色。“李四送我一本书。”这句话中“我”作为“送”的间接承受者,扮演了与事的语义角色。

6.4.4语义分析这样,“警察逮捕了这个小偷。”“这个小偷被警察逮捕了。”“警察把这个小偷逮捕了。”从这三句话中提取出句子中的核心词,赋予它们相应的语义角色就得到如下所示的结果。“警察逮捕了这个小偷”“这个小偷被警察逮捕了”“警察把这个小偷逮捕了”谓词:逮捕施事:警察受事:这个小偷语义分析举例6.4.5自然语言理解应用

至此,我们已经能够分析语言并从中获取信息,那我们如何将自然语言理解应用到具体的情景中呢?接下来我们就以前面6.1节的手机智能助手“小悦”为例,介绍一下自然语言理解是如何应用的。

6.4.5自然语言理解应用

智能助手“小悦”本质上是一个智能问答系统,这种系统通常是你提出一个问题,然后系统回答你的问题,它们更多的是解决知识型的问题。

答中国的首都在哪里?

北京现在外面多少度?

38度(假定现在温度38)问答系统是通过什么样的方法得到我们提出问题的答案呢?6.4.5自然语言理解应用首先对语句进行分词、词性标注、语法分析、语义分析等,理解问题的意图,然后从海量文档中检索出可能包含问题答案的文档片段,最后根据某种原则对候选答案进行打分,把概率最大的候选答案返回。6.4.5自然语言理解应用自然语言理解的应用远不止问答系统,机器翻译、情感分析、文本摘要、智能推荐等也都属于自然语言理解的典型应用,这里不做过多介绍。下面给出一个智能问答处理的例子:问:世界上最长的河流是哪个?问答系统在检索到的前150个文档句段中统计:尼罗河出现20次;亚马逊河:出现10次;伏尔加河:出现9次;雅鲁藏布江:出现2次所以,选择尼罗河为正确答案。学习通讨论:在自然语言处理的广阔领域中,词法分析、语法分析以及语义分析等步骤为什么占据着举足轻重的地位。

因为它们构成了机器理解人类语言的核心机制:词法分析通过识别单词的基本形式为后续处理奠定基础,语法分析解析句子结构以明确语言规则,语义分析则深入理解语言的含义和意图,三者共同确保了机器能够准确、全面地处理和分析自然语言。ArtificialIntelligenceandFuture人工智能与未来2035主讲:陈勇斌

NaturalLanguageProcessing第6章

自然语言处理2035陈勇斌目录CONTENTS6.16.26.36.4自然语言处理那些事自然语言处理概述语音识别自然语言理解6.506语音合成6.6扩展:机器翻译6.5.1什么是语音合成6.5.2语音合成原理6.5.1什么是语音合成

前面我们介绍了计算机如何听懂人类所说的话和计算机如何正确理解人类所说的话。在此基础上,为使计算机能更好地与人类进行交流和沟通,本节要讨论的是如何让计算机学说人类的话。我们将这一过程称为语音合成。6.5.1什么是语音合成语音合成的应用非常广泛,例如,在驾车导航的时候,我们常常听到这样的声音:“前方500米右转”。过一会,这个声音又会出现:“前方出现交通事故,请小心驾驶,注意保持安全车距。”这些声音都是计算机通过语音合成技术产生并进行播送的。6.5.1什么是语音合成

语音合成,也称为文语转换(TexttoSpeech,简称TTS)技术。其本质上解决的是“从文本转化为语音的问题”。给计算机一段文字,语音合成技术就可以将其转换为人类的说话声。6.5.1什么是语音合成

随着人工智能技术的不断发展,语音合成技术也在不断进步。现在的语音合成系统已经能够模拟出更加自然、逼真的语音效果,包括不同的语调、语速和音色等,使得计算机生成的语音越来越接近人类真实的声音。这种技术的广泛应用和不断发展,为人们的生活带来更多便利和创新体验。6.5.2语音合成原理

让计算机实现说人类语言其实并不容易,因此,研究者将计算机学说人类语言的过程分为前端和后端。前端主要负责把输入的文本转化为一个中间结果,然后把这个中间结果反馈给后端,由后端经过加工形成相应的声音。1.前端小时候我们在认字之前需要先学习拼音,有了拼音,我们就可以用它去拼读我们不认识的字。对于TTS来说,前端系统从文本转化出的中间结果就好像是拼音。

不过,光有拼音还不行,如果一个人说话的时候不能正确的使用抑扬顿挫的语调来控制自己说话的节奏,就会让人听着不舒服,甚至误解说话人想要传达的意思。所以前端还需要加上这种抑扬顿挫的信息来告诉后端怎么正确的“说话”。1.前端我们将这种抑扬顿挫的信息称之为韵律。韵律是一个非常综合的信息,为了简化问题,韵律又被分解成了如停顿,重读等信息。停顿就是告诉后端在句子的朗读中应该怎么停,重读就是在朗读的时候应该着重强调哪一部分。这些所有的信息综合到一起,叫做“语言规格书”。前端就像一个语言学家,把给它的纯文本做各种各样的分析,然后给后端开出一份规格书,告诉后端应该合成什么样的声音。1.前端语言规格书(部分内容)在实际的系统中,为了让机器能正确的说话,这份语言规格书远远比我们这里描述的要复杂。2.后端波形拼接后端要让计算机说话,主要是根据前端生成的“语言规格书”来生成符合该规格书里描述的声音。目前主流的后端技术主要有基于波形拼接的方法和基于参数生成的方法2.后端

基于波形拼接的方法就是把事先录制好的音频存储在电脑上,当我们要合成声音的时候,就可根据前端开出的“语言规格书”,在这些音频里去寻找那些最适合该规格书的音频片段,然后把片段一个一个拼接起来形成最终的合成语音。比如:我们想要合成“你真好看”这句话,我们就会从数据库里去寻找“你、真、好、看“”这四个字的音频片段,然后把这四个片段拼接起来,如上图所示。基于参数生成的方法此处不再介绍。学习通讨论:AI语音克隆:便利还是隐患?AI语音克隆技术带来了诸多便利:智能音箱、导航系统中提供个性化语音交互体验;还能用于语音合成与修复,帮助无法说话或声音受损的人群,并保存修复受损的历史声音资料等;同时,该技术也为娱乐产业开辟了新的创意空间,如模拟名人声音进行配音、演讲,为观众带来全新听觉享受。但也存在不少隐患:进行诈骗或恶意攻击,引发了诸多伦理和法律问题,如克隆声音的使用是否需原声音主人同意,以及如何界定合法与非法的语音克隆行为等,亟待规范和解决。ArtificialIntelligenceandFuture人工智能与未来2035主讲:陈勇斌

NaturalLanguageProcessing第6章

自然语言处理2035陈勇斌

目录CONTENTS6.16.26.36.4自然语言处理那些事自然语言处理概述语音识别自然语言理解6.506语音合成6.6扩展:机器翻译6.6.1机器翻译概述6.6.2神经机器翻译6.6.3编码器-解码器结构6.6.1机器翻译概述

机器翻译,又称为自动翻译,是利用计算机把一种自然语言转变为另一种自然语言的过程,一般指自然语言之间句子和全文的翻译。IBM英俄机器翻译系统机器翻译发展历程6.6.2神经机器翻译

神经机器翻译是一种基于人工神经网络的机器翻译技术。通常由编码器和解码器两部分组成。翻译时,首先通过编码器将源语言句子编码成实数向量,然后解码器利用这个向量逐词生成译文。

6.6.2神经机器翻译

编码器负责将源语言文本转换为中间表示,捕捉文本的语义和句法信息。编码器通常使用循环神经网络来逐词地处理源语言句子,最终生成一个固定长度的向量表示,也称为上下文向量或编码器隐藏状态。

6.6.2神经机器翻译

解码器接收编码器的上下文向量和一个起始符号,然后生成目标语言翻译的句子。解码器也通常使用循环神经网络,它逐步生成目标语言的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论