《人工智能通识基础（慕课版在线案例实训版）》-课件第3章人工智能进阶技术

上传人：y*** IP属地：山东上传时间：2026-05-07 格式：PPTX 页数：49 大小：2.47MB 积分：15 举报 版权申诉

《人工智能通识基础（慕课版在线案例实训版）》-课件第3章人工智能进阶技术_第2页

《人工智能通识基础（慕课版在线案例实训版）》-课件第3章人工智能进阶技术_第3页

《人工智能通识基础（慕课版在线案例实训版）》-课件第3章人工智能进阶技术_第4页

《人工智能通识基础（慕课版在线案例实训版）》-课件第3章人工智能进阶技术_第5页

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人工智能进阶技术第3章人工智能通识基础

（慕课版在线案例实训版）案例引入北京亦庄“AI城市”生态管理之道为构建现代化环境治理体系，北京亦庄积极探索将大数据、物联网、人工智能等数字技术深度融合于生态环保工作，构建了一个“天、地、空”一体化的智能监测与治理网络，通过“数智”模式实现精准、高效、科学的污染防治与生态保护。移动监测“侦察兵”：无人车走航监测。在亦庄，全国首批上路执勤的无人巡逻车被赋予了一项环保使命——移动监测大气。巡逻车车身搭载多参数环境传感器，可以每天24小时不间断地对道路积尘、PM2.5、PM10、氮氧化物等进行走航监测，实时绘制污染地图，精准锁定污染源头，成为会移动的大气污染“侦察兵”。中枢智慧“大脑”：一网统管与智能调度。亦庄构建了“城市运行大脑”，工作人员通过生态环境板块，可实现对全域集成监测。“城市运行大脑”系统能通过物联网传感器实时监控企业排放、工地扬尘，利用视频识别自动抓拍渣土车苫盖不全等违规行为。全区装了100个空气质量小微站，它们能够实时监测区域内PM2.5的数值，如果小微站周边空气PM2.5数值超标，“城市运行大脑”地图上就会显示成红色，工作人员就能及时发现问题，精准地进行区域执法，从而形成“监测-

预警-

调度-

处置”的闭环管理。生态感知“智慧眼”：AI赋能生物多样性保护。在麋鹿自然保护区，亦庄部署了基于“人工神经网络”的计算机深度学习鸟类识别系统。该系统能够通过深度学习，自动识别视频中鸟类的种类、数量，实现了鸟类调查的自动化、连续化和精准化，同时也为生物多样性保护与科普宣传提供了更有利的技术支撑。思考：无人车监测相比固定监测站有何优势？亦庄所使用的智能管理设备应用了哪些人工智能技术？自然语言处理计算机视觉智能语音处理多模态融合01020304目录CONTENTS01自然语言处理自然语言通常指的是人类语言，是人类思维的载体和交流的基本工具，更是人类智能发展的外在体现形式之一。自然语言处理主要研究用计算机理解和生成自然语言的各种理论和方法，属于人工智能领域的一个重要分支。本节将介绍自然语言处理中的自然语言理解、语义分析、情感分析、文本生成等技术原理。自然语言理解流程3.1.1自然语言理解自然语言理解（NaturalLanguageUnderstanding，NLU）研究如何让计算机理解自然语言，并能够执行人类所期望的某些语言功能，包括理解并回答人们用自然语言提出的有关问题，生成文本摘要和对文本进行释义，把一种自然语言表示的信息自动地翻译为另一种自然语言等。3.1.1自然语言理解词汇理解就是识别文本中的词汇单元，主要包括分词、词性标注等。分词就是将由一串连续的字符构成的句子分割成词语序列。词性是词语在句子中扮演的语法角色，也称词类。词性标注是指标出句子中每个词相应的词性，需要结合上下文确定词在句子中的具体词性。01词汇理解方法说明基于规则的

分词方法按照预先定义的规则，将待分词的句子与一个“充分大的”机器词典中的词条进行匹配。如果在词典中找到了某个字或词语，则表示匹配成功统计分词方法利用词语共同出现的概率来分词。例如，在大规模语料库中，“研究”和“人工智能”一起出现的概率较高，所以会被划分为两个词分词常用的方法句子“我喜欢画画”中各词语词性3.1.1自然语言理解词汇理解就是识别文本中的词汇单元，主要包括分词、词性标注等。分词就是将由一串连续的字符构成的句子分割成词语序列。词性是词语在句子中扮演的语法角色，也称词类。词性标注是指标出句子中每个词相应的词性，需要结合上下文确定词在句子中的具体词性。01词汇理解句法分析的主要任务是依据给定的形式语法规则，对输入的句子进行分析，以确定其语法结构。句法分析的输出通常以一种树状结构来表示，称为句法树。句法分析主要分为成分句法分析和依存句法分析两种方法。02句法分析“我的猫喜欢晒太阳”的

成分句法树“我的猫喜欢晒太阳”的

依存句法树3.1.1自然语言理解词汇理解就是识别文本中的词汇单元，主要包括分词、词性标注等。分词就是将由一串连续的字符构成的句子分割成词语序列。词性是词语在句子中扮演的语法角色，也称词类。词性标注是指标出句子中每个词相应的词性，需要结合上下文确定词在句子中的具体词性。01词汇理解句法分析的主要任务是依据给定的形式语法规则，对输入的句子进行分析，以确定其语法结构。句法分析的输出通常以一种树状结构来表示，称为句法树。句法分析主要分为成分句法分析和依存句法分析两种方法。02句法分析在句法分析的基础上，计算机可以采用语义角色标注（SRL）的方法进行语义理解。利用语义角色标注确定句子中各个成分的语义角色，如施事者、受事者、工具、时间、地点等。通过语义角色标注，计算机可以更好地理解事件

的核心要素和它们之间的关系。03语义理解句子“萌萌用水彩笔在纸上画了一幅画”各语义角色3.1.1自然语言理解词汇理解就是识别文本中的词汇单元，主要包括分词、词性标注等。分词就是将由一串连续的字符构成的句子分割成词语序列。词性是词语在句子中扮演的语法角色，也称词类。词性标注是指标出句子中每个词相应的词性，需要结合上下文确定词在句子中的具体词性。01词汇理解句法分析的主要任务是依据给定的形式语法规则，对输入的句子进行分析，以确定其语法结构。句法分析的输出通常以一种树状结构来表示，称为句法树。句法分析主要分为成分句法分析和依存句法分析两种方法。02句法分析在句法分析的基础上，计算机可以采用语义角色标注（SRL）的方法进行语义理解。利用语义角色标注确定句子中各个成分的语义角色，如施事者、受事者、工具、时间、地点等。通过语义角色标注，计算机可以更好地理解事件

的核心要素和它们之间的关系。03语义理解语用理解关注的是语言在特定语境中使用所传达的实际意义，包括说话者的意图、话语的隐含信息、语言行为的功能等方面。语用理解需要结合上下文、语气、社会文化背景等因素，可以通过分析句子的语气（如疑问、祈使、陈述）、词汇选择（如礼貌用语、命令用语）等来推断说话者的意图。04语用理解3.1.2语义分析词义消歧词义消歧（WSD）是指计算机通过上下文分析确定多义词在句子中的具体含义。词汇之间还会存在多种语义关系。计算机可以通过特定的算法和模型，计算这些语义关系。词向量表示词向量是词嵌入的结果，即每个词语在实数向量空间中的表示。常见词向量模型有Word2Vec、GloVe、FastText等，这些模型能够捕捉词语的语义关系，并广泛应用于下游任务中。词向量表示示意图3.1.2语义分析词义消歧词义消歧（WSD）是指计算机通过上下文分析确定多义词在句子中的具体含义。词汇之间还会存在多种语义关系。计算机可以通过特定的算法和模型，计算这些语义关系。词向量表示词向量是词嵌入的结果，即每个词语在实数向量空间中的表示。常见词向量模型有Word2Vec、GloVe、FastText等，这些模型能够捕捉词语的语义关系，并广泛应用于下游任务中。基于深度学习的语义分析随着深度学习的发展，基于神经网络的模型（如BERT、GPT、RoBERTa等）在语义分析上表现十分出色。这类模型能够通过上下文更好地理解多义词、复杂句结构等。知识图谱辅助的语义分析知识图谱将语义分析与结构化知识库结合起来，使计算机能够利用已有的知识分析文本的深层含义。这种技术在智能问答、语义搜索等任务中尤为有效。3.1.3情感分析基于情感词典的情感分析01基于情感特征的情感分析02基于深度学习的情感分析03情感分析中的情绪识别05细粒度情感分析04情感与语境的结合063.1.4文本生成文本生成模型生成的科幻小说片段文本生成是指利用计算机模型根据给定的输入信息自动生成自然语言文本的过程。文本生成技术被广泛应用于各大领域，包括机器翻译、新闻生成、报告生成等。大部分文本生成任务可以建模为条件式生成问题，这里的条件与具体任务相关，可以是源语言文本（机器翻译）、文档（文本摘要）或主题（可控文本生成）等。输入信息可以是各种形式，如关键词、主题、语义框架等。3.1.4文本生成自然语言文本特征通用语言文本特征：直观特征、推断特征、分布特征、关联特征、多模特征。行业语言文本特征：文本撰写格式固定，行文表达灵活；文本语法和语义特征复杂；文本跨语言分析困难；技术性强，融合时涉及层次多。自然语言文本特征通用语言文本特征：直观特征、推断特征、分布特征、关联特征、多模特征。行业语言文本特征：文本撰写格式固定，行文表达灵活；文本语法和语义特征复杂；文本跨语言分析困难；技术性强，融合时涉及层次多。3.1.4文本生成自然语言文本生成的方法基于规则的文本生成方法：这种方法基于预先定义的规则和模板来生成文本。适用于一些格式比较固定、内容相对简单的文本生成任务，如新闻报道、法律文书、产品说明书、天气预报等。统计机器学习文本生成方法：统计机器学习文本生成方法主要有n-gram模型和隐马尔可夫模型。基于深度学习的文本生成方法：词嵌入、循环神经网络（RNN）及其变体、Transformer架构。n-gram模型的运作原理3.1.4文本生成自然语言文本特征通用语言文本特征：直观特征、推断特征、分布特征、关联特征、多模特征。行业语言文本特征：文本撰写格式固定，行文表达灵活；文本语法和语义特征复杂；文本跨语言分析困难；行业文本技术

性强。自然语言文本生成的方法基于规则的文本生成方法：这种方法基于预先定义的规则和模板来生成文本。适用于一些格式比较固定、内容相对简单的文本生成任务，如新闻报道、法律文书、产品说明书、天气预报等。统计机器学习文本生成方法：统计机器学习文本生成方法主要有n-gram模型和隐马尔可夫模型。基于深度学习的文本生成方法：词嵌入、循环神经网络（RNN）及其变体、Transformer架构。隐马尔可夫模型的运作原理3.1.5自然语言处理的应用场景应用领域应用场景说明信息获取与交互机器翻译利用计算机技术将一种自然语言文本自动转换为另一种自然语言文本。现代机器翻译系统主要基于神经机器翻译模型，能够实现高质量、多语种的实时翻译，有效打破了人类之间的语言壁垒，典型应用包括百度翻译、有道翻译等翻译软件搜索引擎通过自然语言理解，搜索引擎能够解析用户的查询意图，而不仅仅是匹配关键词。语义搜索、知识图谱等技术的应用，使得搜索引擎能够返回更精准、更具关联性的结果，并直接提供答案而非仅仅是网页链接人机沟通与对话系统智能助理以Siri、小爱同学等为代表的智能助理，集成了语音识别、自然语言理解和语音合成等技术。用户可以通过发送语音或文本指令，完成日程管理、信息查询、设备控制等多种操作，实现了便捷的人机交互体验智能客服机器人基于规则或深度学习模型，智能客服机器人能够模拟人类对话，自动回答用户的常见问题，处理业务流程，从而实现每天24小时不间断服务，降低企业人力成本，广泛应用于客户服务、电子商务和在线咨询等领域商业智能与舆情分析情感分析自动识别和提取文本中蕴含的情感倾向（如积极、消极、中性）。企业利用情感分析技术分析用户评论、社交媒体帖子等，以监控品牌声誉、评估产品满意度、洞察市场动态信息抽取从非结构化或半结构化的文本中，自动抽取出结构化的信息实体及其关系。例如，从新闻报道中抽取公司名称、并购金额、时间等关键信息，构建结构化数据库；从简历中提取个人技能、工作经历等信息，用于人才筛选内容生成与辅助创作文本摘要自动生成一篇长文本的核心内容摘要。根据技术原理，可分为抽取式摘要（直接从原文中选取关键句）和生成式摘要（重新组织语言生成摘要）。该技术广泛应用于新闻聚合、报告生成和文献综述等场景自动生成文本利用预训练语言模型，根据给定的提示词或上下文，自动生成连贯、流畅的文本。应用场景包括营销文案撰写、代码生成、新闻稿件编写、创意写作辅助等，显著提高了内容生产的效率自然语言处理的代表性应用场景与智能客服机器人进行深度对话选择至少两个不同行业或平台的智能客服机器人，并与其进行深度对话。结合对话体验，分析各款智能客服机器人的回答效果与回答质量，最终写作一份500～800字的体验报告。实训要求课堂协作实训（1）选择智能客服机器人，如淘宝客服、微信小助手等，并说明选择理由，如用户量大、功能典型等。（2）与智能客服机器人进行深度对话，提出的问题需要覆盖事实查询（如“订单物流到哪了？”）、复杂推理（如“如何办理跨店退换货且不扣运费？”）、情感交互（如“对客服态度不满意，想投诉”）3个核心场景，每个场景至少提出3个问题，提出的具体问题需贴合真实用户需求。可以先从简单事实查询入手（测试基础能力），再过渡到复杂推理（测试逻辑能力），最后用情感交互（测试共情能力）。（3）详细记录提出的问题、智能客服机器人回答结果、响应时间、是否解决用户问题等关键数据。记录时需标注“智能客服机器人是否理解问题核心”“回答是否解决需求”。（4）根据记录分析智能客服机器人的回答效果与回答质量。对回答效果的分析可以计算问题解决率（如3个事实查询问题中，2个问题得到解决，则解决率为66.7%），分析未解决的原因（如答非所问、引导转人工）。对回答质量的分析可以从回答的准确性、流畅性、个性化等方面展开。（5）根据记录的资料和分析结果写作体验报告。实训思路02智能语音处理智能语音处理是人工智能和自然语言处理领域的重要分支，其核心目标是使机器具备识别、理解、生成人类语音的能力，从而实现更自然的人机交互体验。这一领域的研究涵盖了语音识别、语音合成等技术。3.2.1语音识别语音识别是以语音为研究对象，通过语音信号处理和模式识别等技术让机器自动识别和理解人类的语言内容。通俗地说，就是让机器能听懂人类说话。“雷克斯”（RadioRex）玩具3.2.1语音识别语音识别的原理机器要识别出人类说的话，也需要进行学习，这个过程被称为训练。训练包括声学模型训练和语言模型训练。声学模型训练的目的是将声音特征提取的参数转换为有序的音素输出，简单来说就是把声音信号对应到单个文字的发音。语言模型训练的目的是根据声学模型输出的结果，根据组合的可能性大小给出文字序列。智能拼音输入法给出的词组排序3.2.1语音识别语音识别的原理机器要识别出人类说的话，也需要进行学习，这个过程被称为训练。训练包括声学模型训练和语言模型训练。声学模型训练的目的是将声音特征提取的参数转换为有序的音素输出，简单来说就是把声音信号对应到单个文字的发音。语言模型训练的目的是根据声学模型输出的结果，根据组合的可能性大小给出文字序列。语音识别的过程要想让机器听懂人类说的话，首先机器必须清楚人类说了哪些字、词、句，这一步是语音识别需要完成的内容。因为几乎所有人类的语言都对应有文字，而文字是容易编码并被机器识别的，所以语音识别最核心的任务就是语音转文字。简单来说，语音识别是一个先编码后解码的过程，主要包括语音采集、预处理、特征提取和后处理。语音识别的过程3.2.2语音合成语音合成的原理要想让机器像人类一样说话，可以仿照人的言语过程，在机器中首先形成一个要讲的内容，它一般以表示信息的字符代码的形式存在；然后按照复杂的语言规则，将信息的字符代码形式转换成由基本发音单元组成的序列，同时检查内容的上下文，决定声调、重音、必要的停顿等韵律特性，以及陈述、命令、疑问等语气，并给出相应的符号代码表示。这样组成的代码序列相当于一种“言语码”。语音合成是一种将文本转换为语音的技术。它把文字信息转化为可听的语音信号，使机器能够像人一样开口说话。例如，现在人们使用的语音导航软件、有声读物软件等都广泛应用了语音合成技术。发声模型语音合成的过程语音合成模型模仿的是人类的发声系统。语音合成的过程一般由文本分析、韵律处理、声学处理、声码器、语音片段挑选、语音后处理等组成。文本处理系统一般由独立的自然语言处理模块完成，而语音合成系统则更注重对韵律模型、声学模型、语音库及声码器的研究。语音合成的原理要想让机器像人类一样说话，可以仿照人的言语过程，在机器中首先形成一个要讲的内容，它一般以表示信息的字符代码的形式存在；然后按照复杂的语言规则，将信息的字符代码形式转换成由基本发音单元组成的序列，同时检查内容的上下文，决定声调、重音、必要的停顿等韵律特性，以及陈述、命令、疑问等语气，并给出相应的符号代码表示。这样组成的代码序列相当于一种“言语码”。3.2.2语音合成语音合成是一种将文本转换为语音的技术。它把文字信息转化为可听的语音信号，使机器能够像人一样开口说话。例如，现在人们使用的语音导航软件、有声读物软件等都广泛应用了语音合成技术。语音合成的过程3.2.2语音合成任务说明分词将输入的文本按照语义和语法规则划分成一个个词语，这一步是为了更好地理解文本的结构，因为不同的词语组合方式会影响语音的语调、停顿等词性标注确定每个词的词性，如名词、动词、形容词等。词性标注有助于确定词语在句子中的功能，从而为语音合成的韵律处理提供依据语义理解分析文本的含义，包括理解句子的主题、意图等文本分析的主要任务文本分析是指对输入的文本进行处理，包括分词、词性标注、语义理解等。这一步模拟人类对自然语言的理解过程，使机器能够更准确地理解文本含义，为后续环节做准备。文本分析3.2.2语音合成语音特征说明基频基频是语音信号中最重要的特征之一，它决定了声音的高低，也就是音调。例如，在合成语音时，欢快的语句基频较高，而悲伤的语句基频会比较低时长根据词语的重要性、语法结构和语速要求，确定每个音节或词语的时长。例如，在强调某个词语时，它的时长可能会适当延长。一般在句子中，实词的时长会比虚词的时长长音强即声音的强弱，它可以体现语音的轻重缓急。例如，在表达愤怒情绪时，语音的音强会比较大；而在轻柔的语气中，语音的音强则较小韵律处理涉及的主要语音特征韵律处理主要是为合成的语音规划音高、音长、音强等语音特征，目的是让合成的语音能确切地表达语意，使输出的音频更符合实际情况。韵律处理3.2.2语音合成声学处理方法操作原理特点参数合成法根据韵律模型生成的参数，如基频、时长、音强等，使用数学模型计算生成语音波形可以灵活地控制语音的各种特征，但生成的语音可能会缺乏自然度拼接合成法从预先录制的语音库中选择合适的片段（如音节、单词或短语），然后拼接在一起形成完整的语音生成的语音自然度较高，但需要大量的语音数据来构建语音库，并且拼接过程可能会出现不连贯的情况声学处理的主要方法把前两个阶段处理的结果合成为最终的音频文件，即生成语音波形。这一步主要采用参数合成法和拼接合成法，声学处理的主要方法包括：参数合成法、拼接合成法。声学处理3.2.2语音合成声码器是语音合成过程中的一个核心组件，其作用是将声学参数转换为实际的语音信号。它模拟人类声带和共振腔的作用，通过算法合成出接近人类自然发声的语音。常见的声码器算法包括基于参数的方法（如WORLD声码器）和基于深度学习的方法（如WaveNet、HiFi-GAN等）。基于参数的方法计算效率高，但自然度稍低；基于深度学习的方法自然度高，但计算量较大。声码器声码器的运作原理3.2.2语音合成在语音片段挑选中，系统依据文本分析、韵律处理及声学处理所获取的声学参数，从语音库中挑选出与当前语音拼接合成任务需求最为匹配的语音片段。语音片段挑选优化任务说明平滑处理对生成的语音波形进行平滑处理，减少模型误差或拼接不连贯等原因导致的语音质量下降。例如，消除语音中的突变点，使声音过渡更加流畅、自然韵律调整根据文本的情感色彩和表达意图进一步优化语音的韵律，包括调整语调、重音等，使语音更加生动、自然语音后处理的常见优化任务语音后处理是指对生成的语音波形进一步优化，语音后处理的常见优化任务包括：平滑处理、韵律调整。语音后处理3.2.2语音合成将文本进行语音合成的基本流程体验与分析智能客服语音交互流程通过拨打真实的客服电话，完整体验语音识别（听懂你说什么）和语音合成（它对你说话）结合的交互流程，根据体验完成一份500～800字的《智能客服语音交互体验分析报告》。报告内容应包括体验对象、语音识别效果分析、语音合成效果分析、流程分析。实训要求课堂协作实训（1）每位学生准备一部可正常通话的手机。提前查找并记录1～2个提供语音导航的官方客服电话。准备好纸笔或电子文档，用于实时记录。（2）在相对安静的环境下，拨通所选的客服电话，进入语音导航系统。全程使用语音导航系统进行交互，至少完成一项完整的业务查询或操作（如查询话费、查询余额）。在交互过程中，重点记录以下信息。语音合成表现：系统播报的语音是否清晰，语速是否适中，语气是否友好自然，有无明显的机械感或发音错误。语音识别表现：你说出的指令，如“查话费”“人工服务”，系统能否一次性准确识别？是否需要重复，出现识别错误时，系统如何应对。交互流程设计：整个语音引导过程是否顺畅，菜单层级是否过深，有没有让你感到困惑或不耐烦的地方？（3）实训结束后，根据记录完成《智能客服语音交互体验分析报告》。在分析报告中可以从感性体验上升到理性分析，基于发现的问题，站在产品经理的角度思考并提出有建设性的优化方案。实训思路03计算机视觉计算机视觉是人工智能领域的一项重要研究分支，旨在使机器具备“看”的能力，通过自动分析和理解图像或视频数据，完成特定任务。计算机视觉技术涉及图像获取、图像处理、特征提取、模式识别和深度学习等多个学科知识。随着深度学习和神经网络的广泛应用，计算机视觉技术不断发展，逐渐应用到身份识别、自动驾驶、医疗诊断、工业检测等领域，为人们的生产和生活带来了巨大的变革。3.3.1图像分割语义分割是将图像中的每个像素归类到特定的类别，使每个像素都有语义标签的过程。语义分割被广泛应用于自动驾驶等领域，通过识别行驶道路和障碍物的类型，帮助车辆做出正确的决策。语义分割实例分割是对图像中每个物体实例进行分割的过程，即不仅标记物体的类别，还要区分同一类别中不同的个体。实例分割在场景理解和物体检测中应用广泛。实例分割全景分割结合了语义分割和实例分割的优点，即同时对图像中的“物体”和“背景”进行识别与分割。全景分割技术被广泛应用于复杂场景理解，使系统可以全面感知环境中的各个对象。全景分割图像分割是指将图像分成若干个特定的、具有独特性质的区域，并提出感兴趣目标的技术和过程。图像分割是计算机视觉的核心任务之一，也是很多复杂视觉应用的前置步骤。图像分割技术的3个关键技术如下。3.3.1图像分割原图语义分割实例分割全景分割3.3.2目标识别目标识别是从图像或视频中识别出物体的具体类别。例如，识别一张图片中的人物为某位特定人物，或者在物品分类中区分不同种类的动物或植物。目前，目标识别被广泛应用于人脸识别、指纹识别和商品识别等领域。人脸识别首先人脸识别系统会对输入的人脸图像进行预处理操作。之后，系统会利用先进的特征提取算法来获取人脸的关键特征。这些特征被转化为特定的特征向量，用于代表该人脸。在特征匹配阶段，系统将待识别的人脸特征向量与数据库中存储的已知人脸特征向量进行比对。人脸识别系统运作流程3.3.2目标识别目标识别是从图像或视频中识别出物体的具体类别。例如，识别一张图片中的人物为某位特定人物，或者在物品分类中区分不同种类的动物或植物。目前，目标识别被广泛应用于人脸识别、指纹识别和商品识别等领域。指纹识别系统先通过指纹采集设备获取指纹图像，然后对指纹图像进行预处理。接着，系统会提取指纹的特征点，如脊线、谷线的端点和分叉点等关键信息，并将这些特征点转化为特定的特征模板。在识别时，系统会把待识别指纹的特征模板与数据库中的已有指纹模板进行匹配。指纹识别系统的运作流程3.3.2目标识别目标识别是从图像或视频中识别出物体的具体类别。例如，识别一张图片中的人物为某位特定人物，或者在物品分类中区分不同种类的动物或植物。目前，目标识别被广泛应用于人脸识别、指纹识别和商品识别等领域。商品识别系统首先利用图像采集设备获取商品的图像信息，然后对图像进行处理和分析，提取商品的关键特征，包括商品的形状、颜色、包装图案及商品上的标识文字等。系统能够将提取的商品特征与商品数据库中的信息进行匹配。商品识别系统的运作流程3.3.3目标检测目标检测是指识别图像或视频中的目标物体，并标注其位置。目标检测不仅要识别出物体的类别，还要框出物体的边界位置。它同时解决了“是什么”和“在哪里”的问题。目标检测被广泛应用于安防监控、智能驾驶、行为识别等领域。基于深度学习的目标检测随着深度学习技术的发展，卷积神经网络在目标检测应用中获得了巨大的成功。基于卷积神经网络的常见目标检测算法主要包括以下3种。R-CNN系列：其运作机制基于一种分阶段的处理流程。YOLO系列：其核心创新点在于能够在单次网络推理过程中完成整个目标检测流程。SSD系列：单发多盒检测器（SingleShotMultiBoxDelector，SSD）采用了一种独特的基于卷积特征金字塔的检测架构，该架构可被视作构建了一个多层次的特征金字塔体系，其中每一层特征图都能针对不同尺寸的物体进行位置预测。R-CNN运作机制无人售货柜3.3.3目标检测目标检测是指识别图像或视频中的目标物体，并标注其位置。目标检测不仅要识别出物体的类别，还要框出物体的边界位置。它同时解决了“是什么”和“在哪里”的问题。目标检测被广泛应用于安防监控、智能驾驶、行为识别等领域。基于深度学习的目标检测随着深度学习技术的发展，卷积神经网络在目标检测应用中获得了巨大的成功。基于卷积神经网络的常见目标检测算法主要包括以下3种。R-CNN系列：其运作机制基于一种分阶段的处理流程。YOLO系列：其核心创新点在于能够在单次网络推理过程中完成整个目标检测流程。SSD系列：单发多盒检测器（SingleShotMultiBoxDelector，SSD）采用了一种独特的基于卷积特征金字塔的检测架构，该架构可被视作构建了一个多层次的特征金字塔体系，其中每一层特征图都能针对不同尺寸的物体进行位置预测。自动驾驶系统采集环境信息无人机巡检高压电力线3.3.3目标检测基于深度学习的目标检测随着深度学习技术的发展，卷积神经网络在目标检测应用中获得了巨大的成功。基于卷积神经网络的常见目标检测算法主要包括以下3种。R-CNN系列：其运作机制基于一种分阶段的处理流程。YOLO系列：其核心创新点在于能够在单次网络推理过程中完成整个目标检测流程。SSD系列：单发多盒检测器（SingleShotMultiBoxDelector，SSD）采用了一种独特的基于卷积特征金字塔的检测架构，该架构可被视作构建了一个多层次的特征金字塔体系，其中每一层特征图都能针对不同尺寸的物体进行位置预测。多目标检测多目标检测指在图像或视频中同时检测多个物体的检测技术。例如，在城市交通监控中识别多个行人、车辆。虽然多目标检测技术面临着遮挡、视角变化等挑战，但其可借助非极大值抑制（NMS）和多尺度特征融合等技术，提升多目标检测的精度和稳定性。目标检测是指识别图像或视频中的目标物体，并标注其位置。目标检测不仅要识别出物体的类别，还要框出物体的边界位置。它同时解决了“是什么”和“在哪里”的问题。目标检测被广泛应用于安防监控、智能驾驶、行为识别等领域。3.3.4目标跟踪目标跟踪是指在视频序列中持续跟踪一个或多个目标的位置和运动轨迹的技术，主要包括单目标跟踪、多目标跟踪和视觉-运动融合跟踪。目标跟踪在智能监控、自动驾驶和视频分析等场景中具有重要的应用价值。3.3.5图像理解图像理解是指对图像进行深层次的语义分析，使系统能够“理解”图像内容的含义。图像理解是完成高级计算机视觉任务的关键环节，如场景理解、图像描述生成、视觉问答等。场景理解场景理解是指人工智能系统分析图像或视频中包含的场景信息的过程，如城市街道、室内空间等。通过场景理解，系统可以识别出图像中的物体关系和空间

布局。图像描述

生成图像描述生成是通过自然语言生成算法，为图像生成符合人类理解的描述文字。图像描述生成在视觉和语言融合方面有重要应用，尤其在视觉辅助、智能搜索等领域，图像描述生成能够有效提升用户体验。视觉问答视觉问答是一项基于图像的问答技术，使系统能够回答有关图像内容的问题。视觉问答应用于智能客服、图片搜索、教育辅助等场景，能够使人工智能系统通过“理解”图像信息来辅助人类回答问题。3.3.6计算机视觉的应用场景应用领域应用场景说明智能安防人脸识别通过摄像头捕捉人脸图像，与数据库中的身份信息进行比对，实现身份核验、门禁控制、嫌疑人追踪等功能行为分析对监控视频中的人体姿态和动作序列进行分析，识别如跌倒、徘徊等异常行为，并触发预警异常事件检测在无须预设特定行为规则的情况下，智能安防系统能够自主学习正常场景模式，并对人群异常聚集、遗留物等偏离该模式的异常事件进行检测自动驾驶环境分析辅助自动驾驶系统识别道路标线、行人、车辆及其他障碍物，识别限速、禁行等交通标志及红绿灯状态，为决策规划提供依据可行驶区域分割对图像进行像素级分类，精确划分出道路、人行道、绿化带等区域，指导车辆在安全区域内行驶医疗影像分析病灶检测在CT、MRI、X光等影像中自动检测和标记肿瘤、结节等病变区域，辅助医生诊断疾病图像分割对器官、组织或病灶进行精确分割，量化其体积、形状等特征，为手术规划和放疗方案设计提供依据计算机辅助诊断基于深度学习模型，对影像数据进行综合分析，生成初步的诊断建议，作为医生的决策参考工业制造产品缺陷检测在生产线上，利用工业相机拍摄产品图像，通过图像处理和模式识别算法，自动检测产品表面的划痕、瑕疵、装配错误等缺陷，替代传统的人工目检机器人引导为工业机器人提供“眼睛”，使其能够识别、定位和抓取工件，完成分拣、装配、焊接等复杂任务，实现柔性生产智慧生活与零售移动支付基于二维码或人脸识别的移动支付方案，通过摄像头快速读取信息，完成身份验证和交易授权增强现实在社交媒体、游戏和电商中，通过摄像头实时捕捉用户或环境信息，将虚拟信息（如滤镜、特效、商品模型）叠加到真实世界中，为用户提供沉浸式体验无人零售在无人便利店中，通过视觉传感器追踪顾客拿取或放回的商品，实现商品自动结算，重构了零售流程计算机视觉的代表性应用场景撰写无人便利店智能管理系统设计方案课堂协作实训学生自由分组，以2～3人为一组，撰写无人便利店智能管理系统设计方案，设计方案需完整覆盖用户从进店到离店的全流程，重点阐述身份验证、商品取放检测、自动结算3个核心环节拟采用的核心技术，并简述其技术要点和优势。绘制或描述清晰的硬件布局图，说明摄像头、传感器、智能门禁等关键硬件在店内的部署位置和作用。设计方案应结构清晰、语言精练、图文并茂，字数为500～800字。实训要求（1）明确系统的核心功能和划分系统核心功能模块，如入门身份验证模块、店内购物行为分析模块、结算区自动结算模块。（2）针对各功能模块，说明所选用的技术组合，并阐述技术实现原理。（3）根据系统核心功能和所选用的技术说明硬件布局方案。（4）将以上信息进行整合，形成完整的系统设计方案。实训思路04多模态融合模态指的是信息的来源或形式。多模态融合是一种结合不同类型的数据（如文本、图像、语音等）进行分析和决策的技术，旨在使人工智能系统获得对复杂环境的全面理解。多模态融合系统的核心思想是利用不同模态的数据提供信息的互补性，将各个模态的信息融合，提升信息的完整性、准确性和鲁棒性。这种技术被广泛应用于自动驾驶、医学诊断、情感计算等领域，使系统具备更强的环境感知和分析能力。3.4.1多模态融合的方法3.4.2多模态融合的应用场景应用领域应用场景说明自动驾驶环境感知多模态融合能够将摄像头、激光雷达、毫米波雷达、卫星导航等设备感知到的信息整合到一起，从而使系统获得周围环境的三维视图和物体高精度的定位，为自动驾驶系统进行路径规划和驾驶决策提

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《人工智能通识基础（慕课版 在线案例实训版）》-课件 第3章 人工智能进阶技术

文档简介

温馨提示

最新文档

评论

相关文档

《人工智能通识基础（慕课版在线案例实训版）》-课件第3章人工智能进阶技术