《人工智能通识基础》课件 第5章 自然语言处理_第1页
《人工智能通识基础》课件 第5章 自然语言处理_第2页
《人工智能通识基础》课件 第5章 自然语言处理_第3页
《人工智能通识基础》课件 第5章 自然语言处理_第4页
《人工智能通识基础》课件 第5章 自然语言处理_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自然语言处理人工智能通识基础1.自然语言处理概述2.自然语言处理的原理3.自然语言处理的方法4.自然语言处理应用5.语言模型目录Contents自然语言处理概述011.1自然语言处理概念自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域以及人工智能领域的一个重要的研究方向。自然语言处理指的是利用电子计算机等工具对人类特有的语言信息(包括口语信息和文字信息)进行自动的计算处理,是机器语言和人类语言沟通的桥梁,可以用于实现人机交流的目的。1.2自然语言处理发展历史自然语言处理的原理02案例导入假如你正在开车,不方便用手操作手机,于是你对手机说:“嘿,Siri,明天北京的天气怎么样?”那么手机是如何理解你的语音指令,并给出准确的天气信息的呢?这就涉及到了自然语言处理技术。语音助手首先需要将你的语音信号转换成文字,然后通过自然语言处理技术理解这些文字的语义,识别出你想要查询的是“明天北京的天气”,最后再从数据库中获取相关信息并以语音的形式回答你。这个过程展示了自然语言处理在语音交互中的重要作用,接下来我们将详细讲解自然语言处理的相关知识。2.1自然语言处理的三个层面自然语言处理中的句子级别的分析技术,可以大致分为词法分析、句法分析、语义分析三个层面。2.1词法分析第一层面的词法分析,主要包括汉语分词和词性标注、命名实体识别三部分。和英文等语言不同,汉语之间没有明显的空格标记,文本中的句子以字串的形式出现。因此,汉语自然语言处理的首要工作就是要将输入的字串切分为单独的词语,然后就可以在此基础上进行其他分析,这一步骤称为分词(WordSegmentation)。例句:新时代,我们要有新作为,为实现中华民族伟大复兴的中国梦而努力。分词后词法单元序列:["新","时代",",","我们","要","有","新","作为",",","为","实现","中华","民族","伟大","复兴","的","中国","梦","而","努力","。"]。2.1词法分析除了分词,词性标注也属于词法分析的一部分。给定一个分好词的句子,词性标注的目的在于为每一个词赋予一个词性,这里的词性指名词、单词、形容词、副词等,这个过程称为词性标注(Part-Of-Speechtagging,POStagging)。例句:一带一路不仅带来了经济合作的机会,还促进了文化交流。词性标注结果:一带一路/专有名词不仅/副词带来/动词了/助词经济/名词合作/动词的/助词机会/名词,/标点符号还/副词促进/动词了/助词文化/名词交流/动词。/标点符号2.1词法分析在词性标注后,通常还会进行命名实体识别(NamedEntitiesRecognition,NER),其目的在于识别语料中人名、地名、组织机构名等命名实体。文本内容:在一个遥远的星球——蓝月星上,2045年7月23日,探险家艾琳在蔚蓝学院的礼堂内,向一群充满好奇的少年们讲述着她的星际旅行故事。她描述了如何在星辰湾与智慧生物“光语者”进行友好交流,并展示了从那里带回的奇异宝石。一个月后,8月30日,艾琳带领这群少年乘坐“星际追梦者”号飞船,前往位于蓝月星另一端的迷雾森林,寻找传说中的时间之泉。在这次探险中,他们不仅与蓝月星的自然保护组织“绿野联盟”紧密合作,还意外地得到了古老文明“月影族”遗留的技术援助。这段经历不仅让少年们对宇宙有了更深的认识,也让他们明白了团结与勇气的价值。实体类信息提取:人名:艾琳地名:蓝月星、蔚蓝学院、星辰湾、迷雾森林日期:2045年7月23日、8月30日机构名:绿野联盟、月影族、星际追梦者号2.2句法分析第二个层面的句法分析,指对输入的文本句子进行分析,最终得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。根据句法结构的表示形式不同,最常见的句法分析任务可以分为以下两种:2.2句法分析(1)短语结构句法分析,该任务也被称作成分句法分析(ConstituentSyntacticParsing),作用是识别出句子中的短语结构以及短语之间的层次句法关系;2.2句法分析(2)依存句法分析(DependencySyntacticParsing),作用是识别句子中词汇与词汇之间的相互依存关系;2.3语义分析自然语言处理的第三个层面是语义分析(SemanticParsing)。语义分析的最终目的是理解句子表达的真实语义。语义分析涵盖了多个层面,包括语义依存分析、语义角色标注、指代消解、上下文推理、语义文本相似度、情感分析等,以更深层次地理解语言表达。2.3语义分析语义依存分析旨在分析句子中各个语言单位之间基于事实或逻辑的语义关联,并将这些语义关联以依存结构的形式呈现出来。语义依存分析的目标是跨越句子表层的句法结构束缚,直接获取深层的语义信息。2.3语义分析语义角色标注旨在分析句子中谓词(通常是动词)与论元(如施事、受事、时间、地点等)之间的关系,并对这些关系进行标注。简单来说,它是对句子中的谓语以及谓语的各个论元进行标注的过程,目的是揭示句子中的深层语义信息。2.3语义分析指代消解,涉及确定文本中两个对象之间的关系,即定义一个对象指代上下文中另一个对象的条件。在语言学中,把一个语言单位指向另一个与之存在特殊语义关联的语言单位的过程称为指代,前者称为指代语,后者称为先行词。2.3语义分析语义文本相似度是指在对两个或多个文本进行比较时,基于文本中的词汇、短语和句子的语义关系计算它们之间的相似程度来衡量其语义上的一致性或相似性。自然语言处理的方法033.1基于规则的方法基于规则的自然语言处理方法的主要思想是通过词汇、形式文法等制定的规则引入语言学知识,从而完成相应的自然语言处理任务。这些规则主要依赖于语言学家的知识和手工构建,包括语法规则、模板匹配以及文本转换等,用于指导系统如何理解和生成自然语言。3.2基于机器学习的方法在自然语言处理领域,基于机器学习的算法多数倾向于采用有监督分类方法,它们巧妙地将复杂的自然语言处理任务简化为一系列分类问题。这一转化过程的核心在于,针对特定任务构建出精准的特征表示体系,并且搜集并整理出规模庞大的已标注语料库。借助这些精心准备的数据,模型得以进行深入的训练与学习,从而实现对自然语言的有效理解和处理。3.3基于大模型的方法NLP大模型是指通过大规模预训练和自监督学习技术构建的深度学习模型,旨在提高计算机对自然语言的理解和生成能力。这类模型通常具有数以亿计的参数,能够处理复杂的语言任务。其起源可以追溯到2017年,Google发布了Transformer模型,该模型为后续的NLP大模型发展奠定了基础。自然语言处理应用044.1机器翻译机器翻译是利用计算机技术实现从一种自然语言到另一种自然语言的自动翻译过程。早在20世纪40年代,人们就开始尝试使用计算机进行语言翻译。4.1.1基于规则的机器翻译基于规则的机器翻译依赖于语言学家制定规则,这些规则通常包括词汇、语法和语义等方面的知识,用于将源语言文本转换为目标语言文本。刚开始学习英语和中文之间的翻译的时候。需要学习大量的词汇和语法规则,才能准确地将一种语言的句子转换成另一种语言。为了翻译“今天天气很好”这句话,学习中文到英文的基本词汇对应关系,比如“今天”对应"today",“天气”对应"weather",“好”对应"nice"。掌握了一些基本的语法规则,比如中文的时间状语通常放在句首,形容词短语放在名词之前,这些词汇组合起来,得到英文翻译:"Today,theweatherissonice."4.1.2基于统计的机器翻译统计机器翻译则是通过分析大量的双语文本数据,通过概率统计方法学习语言之间的转换规则,从而实现自动翻译。基于统计的方法学习同样的翻译任务,它会通过分析大量的中英文平行语料库,找出“今天”、“天气”、“真好”这些词汇和短语对应的英文翻译。系统可能会发现“今天”经常被翻译成"today",“天气”对应"weather",“真好”对应"sonice"。然后,系统会根据这些统计出的对应关系,将这句话翻译成英文"Today,theweatherissonice."。4.1.3基于神经网络的机器翻译神经机器翻译是目前的主流技术,它使用深度学习算法,特别是Transformer模型,来学习语言之间的复杂映射关系。神经机器翻译能够更好地捕捉语言的语义和语法结构,从而提供更流畅、更自然的翻译结果。基于神经网络的方法来学习同样的翻译任务,不再需要手动分析词汇对应关系,而是将大量的双语文本输入到一个模型中。这个模型能够捕捉到更复杂的语言特征和上下文信息,比如“今天”不仅仅是一个时间状语,还可能影响句子的整体时态。因此,会生成一个更加自然和准确的翻译,比如"It'ssuchanicedaytoday."。4.2聊天机器人聊天机器人,也称为对话机器人,是一种通过文本或语音交互模拟人类对话的计算机程序。它们能够理解用户的查询并自动给出回应,广泛应用于客户服务、营销支持、个人助理、教育培训、健康咨询等多个领域。4.3情感分析情感分析是自然语言处理的一个重要分支,涉及从书面或口头语言中自动识别和提取观点、情感倾向、态度和情绪。情感分析可以帮助大家理解人们在文本中表达的情感态度,从而揭示用户对产品、服务、事件或主题的情感倾向和观点。4.4语音识别语音识别技术,也称为语音转文本,是人工智能领域中的一个重要技术。它旨在将人类的语音信号转换为文本信息,从而实现人机交互的自然语言处理。随着人工智能技术的不断发展,语音识别技术也在不断进步,其应用场景也逐渐多样化。4.4.1语音识别过程

语音识别的过程大致为收集声音、整理声音、提取特点、解读信息、输出结果。1)收集声音:使用麦克风或其他录音设备捕获用户的语音。当你对着智能手机说“嘿Siri,明天的天气怎么样?”时,手机的麦克风就开始收集你的声音。2)整理声音:将收集到的声音信号经过预处理,比如降噪,以确保后续处理的准确性。在录音之前,确保背景噪音被降低,以便更清晰地捕捉到你的声音。3)提取特点:用来分析声音,提取出音素、音调、节奏等特征。当你说“苹果”这个词时,语音识别系统会提取出“苹”和“果”两个音节的声学特征,如音高、音长等。4)解读信息:将提取的声音特征与已知的语音模式进行匹配,识别出具体的词汇和命令,以理解你说的内容。通过比较你说的话与内置的语音数据库,识别出你说的“苹果”是指一种水果,而不是其他含义。4.5文本纠错

文本纠错技术旨在自动修正输入文本中的拼写、语法、标点符号等错误,以提高文本的准确性、通顺性和规范性。通过自然语言处理技术基于上下文和语言规则对文本进行分析和推断,发现其中的错误,并给出正确的替换或修改建议。常用在文本编辑、文章审核、机器翻译、自动摘要等场景中。4.5.1文本纠错分类

拼写纠错旨在修正单词中的拼写错误,通常依赖于一个准确的字典和上下文分析。原句:今天的天气严热。纠错后:今天的天气炎热。语法纠错旨在修正句子中的语法错误,需要更复杂的语法分析和语义理解能力。原句:他因为下雨,所以没有去公园。纠错后:由于下雨,他没有去公园。4.5.1文本纠错分类

语义纠错旨在修正句子中的语义错误,以使其更符合常识和上下文。涉及到对上下文的理解,以及对词语含义的准确把握。原句:我昨天看了一场电影,非常感动。纠错后:我昨天看了一场电影,非常感人。实体纠错旨在修正文本中的实体错误,如人名、地名等。原句:白然语言处理应用很广泛。纠错后:自然语言处理应用很广泛。语言模型05案例导入语言模型就像是一个记忆力超群的聊天伙伴,它不仅能听懂你说的每一个词,还能根据之前的对话内容,预测你下一句可能会说什么。就像你在说:“我今天……”的时候,它就能机智地接上:“是要去看电影吗?因为昨天你提到了新上映的科幻大片。”而且,它还有个特异功能,就是能够理解语境中的微妙变化。比如,当你说“苹果”时,它知道你可能是在谈论水果,也可能是在谈论科技公司。但是语言模型也有局限性,这就是为什么自然语言处理的专家们要不断地训练和调整这些模型,让它们更加灵活,更加贴近人类的交流习惯。5.1ELMoELMo(EmbeddingsfromLanguageModels)是一种先进的词嵌入技术,由华盛顿大学的MatthewPeters等人在2018年提出,并获得了NAACL2018最佳论文奖。ELMo则是一种动态的、上下文化的词向量表示方法,它可以根据上下文生成相应的词向量。这意味着在不同的语境中,同一个词可以有不同的向量表示,从而更好地处理一词多义的问题。比如玩一个猜谜游戏,游戏的规则是:给参与游戏的人一个词,要猜这个词在句子中的意思。比如,单词“苹果”在不同的语境下可能指的是一种水果,也可能是指一个科技公司。在传统的词嵌入技术中,每个词都被赋予一个固定不变的向量表示,不管它出现在什么样的句子中。这就像是给一个谜底,却不考虑谜面的变化,显然这样的猜测有时候会出错。5.2BERTBERT(BidirectionalEncoderRepresentationsfromTransformers)是由GoogleAILanguage团队在2018年提出的预训练语言表示模型,它通过使用Transformer架构的编码器部分,能够捕捉到文本中词汇的双向上下文关系。BERT的创新之处在于其预训练阶段采用了掩码语言模型和下一句预测两种任务。比如玩一个猜词游戏,给参与游戏的人的句子是:“今天天气真好,我决定去★散步。”并且告诉你,被遮住的词是一个名词。参与游戏的人看到句子中“今天天气真好”,这让参与游戏的人联想到好天气通常与户外活动有关。开始在脑海中搜索与户外活动相关的名词,可能是“公园”、“河边”、“山”等。根据上下文,猜测被遮住的词是“公园”,因为“去公园散步”是一个常见的活动。然后揭晓答案,被遮住的词确实是“公园”。如果猜错了,参与游戏的人根据错误来学习,比如如果答案是“河边”,参与游戏的人就会记住在好天气时,人们也可能选择去河边散步。5.3GPTGPT(GenerativePre-trainedTransformer)是由OpenAI开发的一种先进的自然语言处理模型,它基于Transformer

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论