人工智能应用概论(第2版) 课件 第5、6章:智能语音、自然语言处理_第1页
人工智能应用概论(第2版) 课件 第5、6章:智能语音、自然语言处理_第2页
人工智能应用概论(第2版) 课件 第5、6章:智能语音、自然语言处理_第3页
人工智能应用概论(第2版) 课件 第5、6章:智能语音、自然语言处理_第4页
人工智能应用概论(第2版) 课件 第5、6章:智能语音、自然语言处理_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章

智能语音

《人工智能应用概论(第2版)》RengongZhinengYingyongGailun“十四五”广西壮族自治区职业教育规划教材

新编21世纪高等职业教育精品教材·通识课系列Part0101智能语音介绍Part0202智能语音技术应用Part0303智能语音体验目

录content[课程导入】“智能问答机器人”基于深度学习的自然语言处理(NLP)技术,帮助提升客服体验及服务效率,实现24小时无须等候智能服务,通过上下文多轮问答,实现用户问题解决率超90%;“AI外呼机器人”通过自研语音技术(TTS)的植入,实现个性化拟人声音服务,人机交流更亲切自然;【思考题】机器是如何实现识别人类说话,将语音转换成文字的?Part01智能语音介绍5.1智能语音技术概况除了语音导航、智能音箱、语音输入法等我们日常生活中的常见应用场景,只要把语音识别理解成“获取人类语言中的信息”,把语音合成理解成“让人类通过声音获取信息”,再把声纹识别、关键词唤醒等理解成可供选择的“功能”,将它们与不同载体、场景结合,就会形成各种各样的产品。5.1.1语音识别语音识别让机器识别人说出的话,即将语音转换成相应的文本内容(见图5-1),然后根据内容信息执行人的某种意图。语音识别又称言语识别,这项任务涉及将输入声学信号与存储在计算机内存的词表(语音、音节、词等)相匹配,而匹配个别语词的标准技术则要用输入信号与预存的波形(或波形特征/参数)相比较(模型匹配),相当于给机器装上了“耳朵”。5.1.1语音识别语音识别让机器识别人说出的话,即将语音转换成相应的文本内容(见图5-1),然后根据内容信息执行人的某种意图。语音识别又称言语识别,这项任务涉及将输入声学信号与存储在计算机内存的词表(语音、音节、词等)相匹配,而匹配个别语词的标准技术则要用输入信号与预存的波形(或波形特征/参数)相比较(模型匹配),相当于给机器装上了“耳朵”。5.1.1语音识别语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模型库等三个基本单元,它的基本结构如下图所示:5.1.1语音识别声学模型在进行语音识别之前我们要做不少准备工作。先用大量声音数据训练一个声学模型(见图5-3),用来将声音转换为声学符号。我们将要识别的语音按照一定时间间隔切割成彼此重叠、很小很小的段落,再通过声学模型将这些小片段识别成对应的语音状态。这些语音状态是声母、韵母的组成部分,能很好地对语音进行描述。5.1.1语音识别语言模型(LanguageModel,简称LM)是一个用于建模自然语言(即人们日常使用的语言)的概率模型。简单来说,语言模型的任务是评估一个给定的词序列(即一个句子)在真实世界中出现的概率。5.1.2语音合成语音合成(TexttoSpeech,TTS)技术,又称文语转换技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴(见图5-6)。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,即让机器像人一样开口说话。5.1.3声纹识别人们可以靠声音判断对方是谁,声音同样可以被用来证明“你是你”.和面容、指纹一样,人类的发声器官千差万别,发出的声音也不尽相同(见图5-10)。人声的这种特质被称为声纹(见图5-11)。5.1.3声纹识别事实上,录制和播放的过程会让声音衰减失真,与真人的声音相差甚远,很容易鉴别。或者干脆从产品设计层面出发,要求用户在规定时间内说出一组随机数字,或者与人脸识别、指纹识别等其他识别手段相结合,从而提升安全性(见图5-15).Part02智能语音技术应用5.2智能语音技术应用除了语音导航、智能音箱、语音输入法等我们日常生活中的常见应用场景,只要把语音识别理解成“获取人类语言中的信息”,把语音合成理解成“让人类通过声音获取信息”,再把声纹识别、关键词唤醒等理解成可供选择的“功能”,将它们与不同载体、场景结合,就会形成各种各样的产品。5.2.1酒店虚拟前台酒店前台工作人员每天都要拨打和接听大量的电话,经常出现接打不及时、处理问题没耐心、影响现场接待和客房周转等问题。基于人工智能技术的酒店虚拟前台可以实现前台电话智能接打,能够自动完成酒店的到店确认、退房确认、咨询和客需服务等工作,可同时接打多人电话,瞬间完成业务处理,实现全程无人化,带来高效智能的前台服务,从而提升前台业务效率,提高客房周转能力,解决人手不足和成本攀升等问题。5.2.2语音质检考虑到复杂业务处理或客户习惯喜好,目前仍配有人工客服接打客户电话,而为了提升客户服务水平,往往需要进行语音质检。传统的质检是采用人工抽检方式,质检覆盖率低且无法准确定位问题工单。人工听录音的质检方式,需要长时间集中精力,听取大量的无效信息,导致成本高,效率低,工作强度大。同时大量未质检的工单中的有效内容如客户诉求信息、服务信息等未能得到充分挖掘利用。而借助智能语音技术可大幅提高质检效率,充分发挥电话数据价值。5.2.3智能音箱酒店场合下的公共设施的操作可以采用语音控制来避免接触。5.2.4智能音箱智能音箱不仅是音箱,还是新一代的人机交互入口。它以蓝牙音箱的形式集播放网络音乐、查询各类信息、语音娱乐互动甚至控制智能家电等功能于一身。Part03智能语音体验5.3.2语音合成国内外不少人工智能头部企业建设了自己的人工智能开放平台,供外部使用。如科大讯飞的讯飞开放平台(见图5-26)、百度的百度AI开放图5-26讯飞开放平台“语音合成”测试界面平台(见图5-27)、阿里云的阿里灵杰平台(见图5-28)等。请大家访问这三家企业的人工智能开放平台,比较三家平台的“语音合成”AI能力实现效果。5.2.3探索与思考(1)在讯飞输入法中说古诗、说文言文、说当下流行语,观察其识别率如何。从声学模型和语言模型角度思考,语音识别准确率与哪些因素相关?(2)在使用讯飞输入法进行语音输入时,距离手机麦克风远近、周围环境安静程度对语音识别率有多大影响?除此,还有哪些外在环境因素会影响识别率?(3)讯飞输入法支持的方言里,有没有你家乡的方言?若增加一种方言,你认为可能要做哪些工作?(4)我们在运用语音合成技术时,除了法律法规之外,还应该遵守哪些道德规范?(5)除了本章介绍的智能语音技术,性别年龄识别、歌曲识别、对话情绪识别、语音审核等也是智能语音领域的技术。你能否结合你的专业对应的工作岗位,思考这些语音技术有哪些应用场景?(6)你认为智能语音交互会成为人机交互的主流方式吗?为什么?阅读延展谢谢THANKS第六章自然语言处理

《人工智能应用概论(第2版)》RengongZhinengYingyongGailun“十四五”广西壮族自治区职业教育规划教材

新编21世纪高等职业教育精品教材·通识课系列Part0101自然语言处理概论Part0202自然语言处理技术原理

Part0303自然语言处理的应用场景

录contentPart0404自然语言处理的典型实践案例【案例导入】打开翻译软件,将中文“三人行,必有我师焉”翻译成英文,看看哪家的翻译效果更好。Part01自然语言处理概论6.1.1自然语言处理定义自然语言处理(NaturalLanguageProcessing,NLP)研究的是能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。而用自然语言与计算机进行通信,有着十分重要的实际应用意义,也有着革命性的理论意义。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,又能以自然语言文本来表达给定的意图、思想等;前者称为自然语言理解,后者称为自然语言生成。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。6.1.2自然语言处理发展历程1950年,图灵提出了著名的“图灵测试”,这一般被认为是自然语言处理思想的开端。20世纪50年代到70年代,自然语言处理主要采用基于规则的方法。研究院认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,所以他们基于这个观点来进行研究。这一阶段虽然解决了一些简单的问题,但是无法从根本上将自然语言处理实用化。20世纪80年代以后,贾里尼克和他所在的IBM华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从70%提升到90%,从实验室走向实际应用。从2008年到现在,引入深度学习来做自然语言处理研究,由最初的词向量到2013年的word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。RNN成为自然语言处理最常用的方法之一后,Transformer、BERT、GNN等模型相继引发了一轮又一轮的热潮。6.1.3自然语言处理未来展望1)更优的算法。人工智能发展的三要素(数据、计算能力和算法)中,与自然语言处理研究者最相关的就是算法设计。2)语言的深度分析。未来语言中的难题还需要关注语义理解,从大规模网络数据中,通过深入的语义分析,结合语言学理论,发现语义产生与理解的规律,研究数据背后隐藏的模式,扩充和完善已有的知识模型,使语义表示更加准确.语言理解需要理性与经验的结合,理性是先验的,而经验可以扩充知识,因此需要充分利用世界知识和语言学理论指导先进技术来理解语义。3)多学科的交叉。在理解语义的问题上,需要寻找一个合适的模型。在模型的探索中,需要充分借鉴语言哲学、认知科学和脑科学领域的研究成果,从认知的角度去发现语义的产生与理解,有可能会为语言理解建立更好的模型。在科技创新的今天,多学科的交叉可以更好地促进自然语言处理的发展。6.1.4自然语言处理整体体系Part02自然语言处理技术原理6.2.1自然语言处理整体框架自然语言处理整体框架:包括三部分内容信息、自然语言技术、知识库。其过程是(1)需要构建一个知识库,包含实体、概念及它们之间的关系。(2)通过自然语言模型来理解和处理文本数据。(3)根据知识库推理得出信息,实现问题回答、文本分类等功能。这一过程涉及数据预处理、特征提取和模型应用等关键步骤,旨在让计算机更好地理解人类语言。6.2.2自然语言处理技术从研究内容来看,自然语言处理技术包括语法分析、语义分析、篇章理解,机器翻译、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等等.。6.2.3自然语言处理关键技术1-分词等分词、词性标注、句法分析、命名实体识别(1)分词模块负责将输入的汉字序列切分成单词序列,在该例子中经过分词的输出是“我/爱/自然语言处理”。(2)词性标注模块负责为分词结果中的每个单词标注一个词性,如名词、动词、形容词、连词、副词、标点符号等。(3)依存句法分析模块负责预测句子中单词与单词间的依存关系,确定句子的句法结构,包括主、谓、宾、定、补、状等,并用树状结构来表示整句的句法结构。(4)命名实体识别模块负责从文本中识别出具有特定意义的实体,如人名、地名、机构名、专有名词等。6.2.4自然语言处理关键技术2-消除语言歧义人类的语言多元且复杂,言语交流中同一个句子通常不止一种含义,自然语言处理的难题之一就是消除语言歧义(见图6-5),即消除如词法分析、句法分析、语义分析等过程中存在的歧义问题,简称消歧。6.2.4自然语言处理关键技术2-消除语言歧义第一,语言中充满了歧义,这主要体现在词法、句法及语义三个层次上。歧义的产生是由于自然语言所描述的对象——人类活动非常复杂,而语言的词汇和句法规则又是有限的,这就造成同一种语言形式可能具有多种含义。第二,消除歧义所需要的知识在获取、表达以及运用上存在困难。由于语言处理的复杂性,因此合适的语言处理方法和模型难以设计。从上述两个主要困难可以看出,自然语言处理这个难题的根源是人类语言的复杂性和语言描述的外部世界的复杂性。为解决语义歧义问题,目前常见的算法策略有基于贝叶斯分类、基于信息论、基于词典等消歧算法。消除语言歧义的基本过程如图6-6所示。图6-6消除语言歧义的基本过程6.2自然语言处理的应用场景自然语言理解和自然语言生成是自然语言处理的两大任务,如图6-7所示。接下来我们从这两大任务去了解自然语言处理的应用场景。Part03自然语言处理应用场景6.3.1应用场景自然语言理解(NaturalLanguageUnderstanding,NLU)和自然语言生成(NaturalLanguageGeneration,NLG)是自然语言处理的两大任务,如图6-7所示。接下来我们从这两大任务去了解自然语言处理的应用场景。6.3.2智能问答智能问答系统通常分为知识型机器人、闲聊型机器人和任务型机器人(客服机器人)。知识型机器人主要用于解决用户的问题,例如商品购买咨询、商品退货咨询等;闲聊型机器人主要用于深入地与用户进行无目的交流;任务型机器人(客服机器人)主要用于完成用户的某些特定任务,例如买机票、话费充值或者天气咨询。6.3.3智能写作近年自然语言处理模型性能的不断突破,促使其从规则、模板写作发展到了以神经网络模型为核心的智能写作,从辅助记者创作逐步走向自动化写作,应用场景也从模板化的资讯类数据报告,深入分析报告、诗歌创作、长故事文本创作、广告营销文本写作等更丰富、复杂的内容形式,贯穿信息监管、素材采集、文本编辑、文本创作、修改优化、敏感信息审核等多项业务环节。6.3.4文本情感分析情感分析作为一种常见的自然语言处理方法的应用,可以从大量数据中识别和吸收相关信息,而且可以理解更深层次的含义。例如:企业分析消费者对产品的反馈信息,或者检测在线评论中的差评信息等。通过情感分析,可以挖掘产品在各个维度的优劣势,明确如何改进产品。如对外卖评价进行情感分析,分析菜品口味、送达时间、送餐态度、菜品丰富度等多个维度的用户情感指数,从而从各个维度上改进外卖服务。6.3.4文本情感分析1、基于情感词典的情感分类方法先对文本进行分词和停用词处理等预处理,再利用事先构建好的情感词典,对文本进行字符串匹配,从而挖掘正面和负面信息。情感词典包含积极词语、消极词语、否定词、程度副词表四部分。6.3.4文本情感分析2、基于词典的文本匹配算法相对简单。遍历语句中分词后的词语,如果词语命中词典,则进行相应权重的处理。积极词语权重为加法,消极词语权重为减法,否定词权重取相反数,程度副词权重则和它修饰的词语权重相乘,如图6-9所示。利用最终输出的权重值,可以区分是积极、消极还是中性情感。6.3.5市场上较前沿的自然语言模型【OpenAI】ChatGPT(ChatGenerativePre-trainedTransformer)是OpenAI研发的一款聊天机器人程序,于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够基于在预训练阶段所见的模式和统计规律来生成回答,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成写邮件、视频脚本、文案、代码、论文等任务。【科大讯飞】讯飞星火认知大模型是。该模型具有七大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模交互。该模型开放半年内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论