《人工智能通识基础(慕课版 在线案例实训版)》-课件 第2章 人工智能基础技术_第1页
《人工智能通识基础(慕课版 在线案例实训版)》-课件 第2章 人工智能基础技术_第2页
《人工智能通识基础(慕课版 在线案例实训版)》-课件 第2章 人工智能基础技术_第3页
《人工智能通识基础(慕课版 在线案例实训版)》-课件 第2章 人工智能基础技术_第4页
《人工智能通识基础(慕课版 在线案例实训版)》-课件 第2章 人工智能基础技术_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能基础技术第2章人工智能通识基础

(慕课版在线案例实训版)案例引入知识图谱构建法律超级“大脑”“北大法宝”是国内领先的法律信息数据库,它深度融合了知识图谱技术,将法律法规、司法案例、法学论文、法律文书等海量、异构的法律信息进行结构化处理,构建了一个庞大的法律知识系统。该平台拥有包括“法律法规”“司法案例”“法学期刊”“法宝律师”“专题参考”“English”“检察文书”“行政执法”“法宝视频”“法宝书城”“法考系统”等十余个检索系统,全面涵盖法律信息的各种类型。各种法律信息形成了一个庞大的系统性知识体系,用户使用关键词可以获得以关键词为核心的可视化的知识网络。例如,用户搜索某部法律文件时,“北大法宝”不仅可以向用户展示该法律文件的全文,还会清晰地展示该法律文件的修订历史、修改的原因和背景、引用该法律文件的司法案例等。这对于用户研究法律变迁和适用旧法案件至关重要。用户输入案情要素,“北大法宝”能够快速推送与之最相似的过往案例,并基于大数据分析提供特定罪名的量刑范围

预测。“北大法宝”相当于一个拥有海量法律知识和判例经验的“法律专家系统”,赋能了律师、法官、法学生及企业法务等专业人士,将他们从工作内容烦琐的“信息检索员”角色中解放出来,使其能够更专注于案件策略制定、法律适用性分析等工作中,从而极大地提高了整个法律行业的工作效率与智慧水平。思考:与传统的法律文件、司法案例搜索系统或平台相比,“北大法宝”有什么优势?“北大法宝”将海量、异构的法律信息整合成庞大的知识系统。请思考,在这个过程中,确保这个“法律大脑”高智商、高可靠性的最大挑战是

什么?目录CONTENTS人工智能的三要素深度学习机器学习知识图谱0102030401人工智能的三要素人工智能技术的发展与应用依赖于数据、算法和算力3个核心要素的协同作用。这些要素既是理解人工智能技术原理的基础,也是构建和优化人工智能系统的关键支撑。本节将围绕人工智能的核心要素展开探讨,为后续深入学习奠定理论基础。2.1.1数据数据的定义数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字、符号的组合,图形、图像、视频、音频等,也可以是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2……”“晴、阴、雨”“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息。数据的作用在人工智能领域,数据具有多方面至关重要的作用。模型训练的基石影响模型性能评估模型性能人工智能领域涉及的数据类型现实世界中的数据并非以单一的形式存在的,而是呈现出多样性与复杂性。类型说明数值型数据由数字组成,可以是整数、分数、小数等。通常用于表示可以量化的属性,如年龄、身高、体重、价格等,也可进行数学运算,如加法、减法、乘法和除法文本型数据由自然语言组成,没有固定的结构,可以是单词、句子、段落、文档等。在使用之前,通常需要对其进行预处理,如分词、去停用词、提取词干、词形还原等,以从数据中提取有用的特征或表示图像数据可以是照片、图片、图表,也可以是视频帧,在使用之前,通常需要对其进行缩放、裁剪、归一化等预处理,并通过卷积神经网络等模型进行特征提取音频数据由声音信号组成的数据,可以是音乐、语音、环境声音等。在使用之前,通常需要对其进行采样、滤波、特征提取等预处理,以从音频数据中提取有用信息时间序列数据按照时间顺序排列的数据,通常用于描述随时间变化的现象,如股票价格、气温、销售额等。在使用之前,通常需要对其进行平滑、去趋势、差分等预处理,以提取时间序列中的趋势、季节性和周期性等信息视频数据由连续的图像帧组成,同时可能包含音频信息,可以是电影、电视剧、短视频等。在使用之前,通常需要对其进行去噪、转换帧率、调整分辨率、变换空间等预处理图形数据通常用于表示节点和边之间的关系,如社交网络、地图等。在使用之前,通常需要对其进行图嵌入、节点特征提取等预处理多维数据通常包含多个属性或特征,如多维数据集、多维数组等。在使用之前,通常需要对其进行降维、聚类等预处理传感器数据通常来自各种传感器设备,如温度传感器、湿度传感器、加速度计等。这类数据在物联网(InternetofThings,IoT)、环境监测等领域具有广泛的应用。在使用前,通常需要对其进行去噪、校准等预处理人工智能领域涉及的数据类型2.1.1数据数据的获取方式开发者确定所需的数据类型和范围后,需要采用合适的方法获取数据。获取方式具体说明使用网络爬虫抓取数据使用Python、JavaScript等语言构建网络爬虫,也可使用八爪鱼、火车头等网络爬虫工具抓取数据使用传感器采集数据通过部署各种传感器设备(如湿度传感器、温度传感器等),可以实时采集各种环境数据,如温度、湿度、光照、声音等通过开放API获取数据通过网站或平台提供的开放API以规范的方式获取数据购买数据集从数据集供应商处购买特定领域的,已经做好预处理和数据标注的数据集通过数据库查询数据通过结构化查询语言(StructuredQueryLanguage,SQL)从关系数据库中获取所需的数据通过用户交互获取数据设计调查问卷并邀请用户填写,收集用户的反馈和意见使用数据分析工具获取数据使用百度指数、飞瓜数据、蝉妈妈等工具收集用户行为数据,如点击次数、浏览时间、购买记录等获取数据的常用方式2.1.2算法算法的定义算法是指解题方案的准确而完整的描述,是解决问题的一系列清晰指令。这些指令通常由计算机执行,用于计算、数据处理、自动推理和决策制定等任务。算法负责将原始数据转化为有价值的信息,它决定了人工智能系统能够理解和处理信息的深度和广度。算法的作用算法的作用主要体现在以下3个方面。支持数据处理与分析推动人工智能技术进步拓宽人工智能的应用领域人工智能领域的常用算法不同的算法有不同的特点,能够解决不同的问题。监督学习算法无监督学习算法强化学习算法深度学习算法人工智能领域常用算法2.1.3算力算力的定义算力是支持计算机通过处理数据,实现特定结果输出的计算能力。算力是支撑人工智能算法运行和数据处理的基础资源。人工智能的不断发展使其对算力的需求也在不断增加。算力的作用算力是人工智能模型高效、准确处理任务的重要支撑,是人工智能发展不可或缺的核心要素之一,其作用主要体现在以下两个方面。支持人工智能模型的训练、应用与迭代决定人工智能应用的性能和效率算力的类型算力可以分为3种类型,即基础算力、智算算力和超算算力,它们分别提供基础通用计算、人工智能计算和科学工程计算。类型释义特点适用场景基础算力由基于中央处理器(CentralProcessingUnit,CPU)芯片的服务器所提供的算力,是最基本的计算能力具有广泛的适用性,能够满足日常办公、网页浏览、文件处理、移动计算及物联网等常规应用场景的基本计算需求适用于对计算性能要求不高、但需要稳定可靠的计算支持的场景智算算力主要是基于图形处理器(GraphicsProcessingUnit,GPU)、现场可编程逻辑门阵列(FieldProgrammableGateArray,FPGA)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)等芯片的加速计算平台提供的算力擅长处理大规模的并行计算和执行复杂的算法,具有性能更优、能耗更低等优点,能够快速处理海量的数据和执行复杂的人工智能算法主要用于人工智能模型的训练和推理计算超算算力由超级计算机之类的高性能计算集群所提供的算力,是一种强大的计算能力算力系统通常由大量的高性能处理器、高速内存和存储设备组成,具备极高的计算性能和强大的并行处理能力,能够处理极端复杂的问题或数据密集型的问题主要用于尖端科学研究、工程模拟、气象预报、药物研发、航空航天等对计算能力要求极高的领域,这些领域的计算任务通常非常复杂,需要大量的计算资源和高性能的计算设备来支持各类算力的特点与适用场景2.1.3算力人工智能算力的构成人工智能算力是一个复杂且多层面的系统,涵盖了硬件、软件、网络通信等多个方面,这些组成部分相互协作,共同支撑起人工智能应用的强大计算能力。硬件部分硬件部分包括处理器、内存和存储设备。人工智能算力常用的处理器包括CPU、GPU、ASIC、FPGA。人工智能算力中常用的内存有随机存取存储器(RAM)和高带宽存储器(HBM)。人工智能算力常用的存储设备有固态硬盘、高速网络存储设备(如网络附接存储、存储区域网)。处理器说明CPU主要负责控制和协调各个硬件组件的工作,以及进行一些通用计算任务。虽然它在处理大规模并行计算时效率较低,但在处理复杂的逻辑和控制流程方面仍然起着重要作用GPU具有大量的计算核心,擅长并行计算,能够快速进行大规模的矩阵运算和卷积操作,非常适合深度学习中的模型训练和推理任务ASIC具有可定制化的特点,与GPU相比,其在性能、功耗和成本方面更具优势FPGA具有较高的灵活性和适应性,可用于加速特定的算法或任务。同时,FPGA的功耗相对较低,适用于一些对功耗要求较高的边缘计算场景人工智能常用的处理器2.1.3算力人工智能算力的构成人工智能算力是一个复杂且多层面的系统,涵盖了硬件、软件、网络通信等多个方面,这些组成部分相互协作,共同支撑起人工智能应用的强大计算能力。硬件部分硬件部分包括处理器、内存和存储设备。人工智能算力常用的处理器包括CPU、GPU、ASIC、FPGA。人工智能算力中常用的内存有随机存取存储器(RAM)和高带宽存储器(HBM)。人工智能算力常用的存储设备有固态硬盘、高速网络存储设备(如网络附接存储、存储区域网)。项目释义对人工智能的价值RAM计算机中用于暂时存储数据和程序的存储器人工智能的计算需要大容量的内存来存储中间结果和临时数据,RAM具有较高的容量和相对较快的读写速度,能够满足人工智能的内存需求HBM一种专门为高性能计算设计的存储器,具有极高的带宽和较低的延迟在人工智能领域,特别是对于数据规模较大的深度学习模型,HBM可以提供更快的数据访问速度,从而加速模型的训练和推理过程人工智能算力中常用内存2.1.3算力人工智能算力的构成人工智能算力是一个复杂且多层面的系统,涵盖了硬件、软件、网络通信等多个方面,这些组成部分相互协作,共同支撑起人工智能应用的强大计算能力。硬件部分硬件部分包括处理器、内存和存储设备。人工智能算力常用的处理器包括CPU、GPU、ASIC、FPGA。人工智能算力中常用的内存有随机存取存储器(RAM)和高带宽存储器(HBM)。人工智能算力常用的存储设备有固态硬盘、高速网络存储设备(如网络附接存储、存储区域网)。软件部分软件部分包括深度学习框架、分布式计算框架、编译器和优化器。深度学习框架是一种用于构建、训练和部署深度神经网络模型的工具集合。分布式计算框架可以将计算任务分配到多个计算节点上进行并行处理,提高模型的训练效率。编译器用于将高级编程语言编写的人工智能代码转换为可以在特定硬件上高效运行的机器码。优化器可以对神经网络模型本身进行优化,以提高模型在特定算力设备上的运行效率。网络通信在多节点的人工智能计算集群中,以太网是最常用的网络通信方式之一。它可以将多个计算节点连接在一起,实现数据和指令的传输。InfiniBand是一种高性能的网络通信技术,主要用于数据中心内部的高速通信。在大规模的人工智能计算集群中,InfiniBand可以提供比以太网更高的带宽和更低的延迟。2.1.4数据、算法、算力的关系数据是人工智能的“燃料”,为人工智能发展提供原料。算法是人工智能的“大脑”,是将数据转化为知识与决策的逻辑规则。算力是人工智能的引擎,是算法

执行与模型训练的物质基础。人工智能产品三要素分析学生自由分组,以2~3人为一组,选择1~2款现实生活中使用的人工智能产品,拆解该产品应用中数据、算法、算力的作用、协同工作原理。撰写一份500字左右的分析报告,报告需清晰列出所选AI应用,并分别从数据、算法、算力3个维度进行详细分析。重点阐述三者之间的协同关系,并说明如果其中某一个要素薄弱,会对应用产生什么影响。实训要求课堂协作实训(1)小组讨论,选择一个日常生活中常见的AI应用,如抖音/快手的视频推荐系统、智能音箱、人脸识别门禁等。(2)拆解所选应用中数据、算法、算力三要素。例如,分析这个应用需要哪些数据(例如,推荐系统需要用户的点击、观看时长、点赞、评论等行为数据)。猜测它可能使用了什么类型的算法(例如,推荐系统可能用到协同过滤、深度学习等算法),思考它需要什么样的算力支持(例如,需要在云端服务器集群上进行大规模计算,还是可以在手机端本地完成)。(3)写作分析报告,并用流程图或文字描述数据、算法、算力三者在这个应用中是如何相互作用、缺一不可的。例如,海量数据(数据)通过复杂的推荐算法(算法)在强大的服务器集群(算力)上进行计算,最终为用户提供个性化的推荐结果。实训思路02机器学习机器学习是人工智能的核心技术之一,它使计算机能够从数据中学习规律、模式和趋势,从而具备一定的

智能决策和预测能力。本节重点介绍机器学习的内涵、类型、常见任务与算法。2.2.1机器学习的内涵人类学习与机器学习的原理机器学习机器学习是一种让计算机能够自动从数据中获取知识和经验,并利用这些知识和经验进行模式识别、预测和决策的技术。简单来说,机器学习就是让计算机像人一样,通过数据来学习知识,发现事物规律,进而获得某种分析问题、解决问题的能力。2.2.2机器学习的类型简单来说,监督学习就是利用有标注的数据训练模型,使模型能够预测新数据的标签。监督学习01监督学习的原理2.2.2机器学习的类型在无监督学习中,数据没有预先定义的输出标签或目标值,算法的目的是从数据本身的结构、分布等特性中挖掘信息,发现数据中的规律、模式或者对数据进行分组等操作。无监督学习02简单来说,监督学习就是利用有标注的数据训练模型,使模型能够预测新数据的标签。监督学习01无监督学习的原理2.2.2机器学习的类型半监督学习结合了监督学习和无监督学习的特点,模型利用少量的标注数据和大量的未标注数据来进行学习。半监督学习03强化学习的原理是智能体通过与环境的交互,学习如何采取行动以获得最大化的奖励。强化学习包括智能体、环境、状态、动作、奖励、策略等要素。强化学习04在无监督学习中,数据没有预先定义的输出标签或目标值,算法的目的是从数据本身的结构、分布等特性中挖掘信息,发现数据中的规律、模式或者对数据进行分组等操作。无监督学习02简单来说,监督学习就是利用有标注的数据训练模型,使模型能够预测新数据的标签。监督学习01机器人走迷宫的游戏2.2.2机器学习的类型半监督学习结合了监督学习和无监督学习的特点,模型利用少量的标注数据和大量的未标注数据来进行学习。半监督学习03强化学习的原理是智能体通过与环境的交互,学习如何采取行动以获得最大化的奖励。强化学习包括智能体、环境、状态、动作、奖励、策略等要素。强化学习04在无监督学习中,数据没有预先定义的输出标签或目标值,算法的目的是从数据本身的结构、分布等特性中挖掘信息,发现数据中的规律、模式或者对数据进行分组等操作。无监督学习02简单来说,监督学习就是利用有标注的数据训练模型,使模型能够预测新数据的标签。监督学习01要素说明“机器人走迷宫”示例说明智能体执行动作的主体,它可以是一个软件程序、一个机器人或者其他能够执行动作的实体。它通过与环境的交互来学习如何采取行动以获得最大化的奖励机器人是智能体,能够根据获得的相关信息做出前进、后退、向左转、向右转等动作环境智能体进行交互的外部世界,可以是物理环境,也可以是虚拟环境。环境会受到智能体动作的影响而改变状态,并且会向智能体反馈奖励信号迷宫的每个路口、障碍物的位置等构成了环境,当机器人做出前进、后退等动作时,游戏环境会发生变化,并且根据机器人的行为给予相应的奖励状态对环境和智能体在某一时刻情况的完整描述,它包含了智能体做出决策与执行动作所需要的所有信息机器人的状态可能包括它在迷宫中的位置、周围墙壁的位置、是否持有钥匙等信息。机器人根据当前状态来执行动作,并且随着机器人的行动和环境的变化,状态也会发生改变动作智能体在某一状态下可以选择的行为,它决定了智能体如何与环境进行交互动作可能是机器人的各种运动方式,如前进、后退、旋转等奖励环境对智能体执行动作做出的反馈,它体现了智能体在当前状态下执行的动作的好坏。正奖励代表智能体的动作对实现目标是有益的;负奖励代表智能体的动作对实现目标是不利的机器人选对一个路口会得到一个正奖励,而如果机器人碰到了障碍物或选错了路口,就会得到一个负奖励。奖励信号是智能体学习的重要依据,它引导智能体朝着能够获得更多奖励的方向学习策略智能体从状态到动作的映射,它决定了智能体在给定状态下应该如何执行动作。策略可以是确定性的,即给定一个状态,策略会明确地指定一个唯一的动作;也可以是随机性的,即给定一个状态,策略会给出执行不同动作的概率。策略是智能体的行为准则,它决定了智能体在不同状态下的动作选择。智能体通过学习不断地优化策略,以提高在环境中获得奖励的能力智能体的策略可以是根据当前所在的位置、迷宫的结构及已探索的路径,决定是向左转、向右转、直行还是保持当前位置进行进一步的观察。机器人通过这些策略在迷宫中寻找通向出口的最优路径强化学习的要素2.2.3机器学习领域中常见的任务与算法分类是监督学习的核心任务之一,即给定一个由输入样本(特征)和其对应的已知输出(类别标签)组成的训练数据集,构建一个模型,该模型能够将新的、未曾见过的输入样本分配到预定义的类别中。分类任务要求训练数据包含明确的类别标签,其核心目标是判断输入属于哪个类别,输出是离散的、无序的标签,如“是”或“否”“猫”或“狗”“垃圾邮件”或“正常邮件”。分类任务典型算法有决策树、支持向量机、逻辑回归、朴素贝叶斯、k

近邻算法。分类分类任务的原理2.2.3机器学习领域中常见的任务与算法分类是监督学习的核心任务之一,即给定一个由输入样本(特征)和其对应的已知输出(类别标签)组成的训练数据集,构建一个模型,该模型能够将新的、未曾见过的输入样本分配到预定义的类别中。分类任务要求训练数据包含明确的类别标签,其核心目标是判断输入属于哪个类别,输出是离散的、无序的标签,如“是”或“否”“猫”或“狗”“垃圾邮件”或“正常邮件”。分类任务典型算法有决策树、支持向量机、逻辑回归、朴素贝叶斯、k

近邻算法。分类通过一系列的“如果……那么……”判断规则对数据进行递归划分,最终形成一棵树状结构。每个内部节点代表一个特征测试,每个分支代表测试结果,每个叶节点代表一个类别标签。决策树决策树算法原理示例2.2.3机器学习领域中常见的任务与算法分类是监督学习的核心任务之一,即给定一个由输入样本(特征)和其对应的已知输出(类别标签)组成的训练数据集,构建一个模型,该模型能够将新的、未曾见过的输入样本分配到预定义的类别中。分类任务要求训练数据包含明确的类别标签,其核心目标是判断输入属于哪个类别,输出是离散的、无序的标签,如“是”或“否”“猫”或“狗”“垃圾邮件”或“正常邮件”。分类任务典型算法有决策树、支持向量机、逻辑回归、朴素贝叶斯、k

近邻算法。分类通过一系列的“如果……那么……”判断规则对数据进行递归划分,最终形成一棵树状结构。每个内部节点代表一个特征测试,每个分支代表测试结果,每个叶节点代表一个类别标签。决策树其核心思想是在特征空间中寻找一个最优超平面,将不同类别的样本分开,并最大化类别间的间隔。支持向量是指距离超平面最近的样本点,它决定了超平面的位置。支持向量机(SVM)支持向量机的原理x2x1O最优超平面最大化间隔支持向量2.2.3机器学习领域中常见的任务与算法分类是监督学习的核心任务之一,即给定一个由输入样本(特征)和其对应的已知输出(类别标签)组成的训练数据集,构建一个模型,该模型能够将新的、未曾见过的输入样本分配到预定义的类别中。分类任务要求训练数据包含明确的类别标签,其核心目标是判断输入属于哪个类别,输出是离散的、无序的标签,如“是”或“否”“猫”或“狗”“垃圾邮件”或“正常邮件”。分类任务典型算法有决策树、支持向量机、逻辑回归、朴素贝叶斯、k

近邻算法。分类通过一系列的“如果……那么……”判断规则对数据进行递归划分,最终形成一棵树状结构。每个内部节点代表一个特征测试,每个分支代表测试结果,每个叶节点代表一个类别标签。决策树其核心思想是在特征空间中寻找一个最优超平面,将不同类别的样本分开,并最大化类别间的间隔。支持向量是指距离超平面最近的样本点,它决定了超平面的位置。支持向量机(SVM)其核心思想在于它并非直接预测样本的类别,而是预测样本属于某个类别的概率,它通过Sigmoid函数将线性回归的输出映射到(0,1)区间,得到一个概率值。通过设定一个阈值,将概率值转换为二分类结果。逻辑回归它通过计算样本属于各个类别的后验概率,并选择概率最大的类别作为预测结果。在朴素贝叶斯中,假设特征之间相互独立,即一个特征的出现不影响其他特征的出现。这个假设被称为“朴素”的假设,也是算法名称的由来。朴素贝叶斯通过计算待分类样本与训练集中各个样本的距离,找到距离最近的k

个样本。如果这k

个样本中的大多数属于某一个类别,则该待分类样本也属于这个类别。k

近邻算法2.2.3机器学习领域中常见的任务与算法回归任务的目标是建立一个模型,描述输入特征与连续目标变量之间的映射关系。回归模型的输出是定量的、连续的数值,如价格、温度、销量。回归任务常见的应用场景如预测房价、预测温度等。线性回归是回归任务的常见算法。回归线性回归是一种用于预测分析的统计学方法,它通过建立一个或多个自变量(解释变量)与一个因变量(响应变量)之间的线性关系来预测连续的数值。线性回归算法的核心思想是通过建立自变量(特征)与因变量(目标)之间的线性关系模型,实现对新数据的预测。线性回归线性回归的一般模型2.2.3机器学习领域中常见的任务与算法聚类属于无监督学习任务,其目的是将数据集中的样本划分为若干个簇,使得同一簇内的样本相似度较高,不同簇的样本相似度较低。聚类算法不需要预先定义类别标签,模型能够自动发现数据中的潜在结构和模式。聚类任务常见的应用场景如客户分类、图像分割等。聚类任务常见算法有k

均值聚类算法、DBSCAN。聚类简单来说,k

均值聚类算法就是通过迭代的方式,找到k

个聚类中心,让所有数据点到最近聚类中心的距离之和

最小。k

均值聚类算法k均值聚类算法原理中心点2.2.3机器学习领域中常见的任务与算法聚类属于无监督学习任务,其目的是将数据集中的样本划分为若干个簇,使得同一簇内的样本相似度较高,不同簇的样本相似度较低。聚类算法不需要预先定义类别标签,模型能够自动发现数据中的潜在结构和模式。聚类任务常见的应用场景如客户分类、图像分割等。聚类任务常见算法有k

均值聚类算法、DBSCAN。聚类简单来说,k

均值聚类算法就是通过迭代的方式,找到k

个聚类中心,让所有数据点到最近聚类中心的距离之和

最小。k

均值聚类算法基于密度的聚类算法,该算法一般假定类别是可以通过样本分布的紧密程度来决定的。同一个类别中,样本之间是紧密相连的,也就说通过将紧密相连的样本划分为一类,这样就生成了一个聚类类别。DBSCAN的核心在于基于样本点的密度进行聚类,即通过找出样本空间中密集的区域来进行簇的划分。DBSCAN每个密集区域当作一个聚类簇噪声点噪声点DBSCAN原理2.2.4机器学习的应用场景应用方向应用场景说明金融欺诈检测通过分析用户的历史交易行为模式,构建异常检测模型。当出现与常规模式显著偏离的交易时(如异地大额消费),系统可实时预警并阻止潜在的信用卡欺诈或盗刷行为信用评分利用机器学习模型分析申请人的多维度数据(如收入、负债、历史还款记录等),自动评估其信用风险医疗医疗影像分析对X光片、CT(ComputedTomography,计算机断层扫描)、MRI(MagneticResonanceImaging,磁共振成像)等医学影像进行分析,辅助医生识别病灶,如肿瘤、病变等药物发现通过分析化合物结构与生物活性之间的关系,机器学习模型可以预测特定分子的药效和毒性,从而在庞大的化学库中筛选出有潜力的候选药物,降低实验成本个性化治疗方案推荐基于患者的个体特征(如基因信息、生活习惯、既往病史),机器学习模型可以为不同患者推荐最优的治疗方案或药物剂量推荐系统协同过滤通过分析大量用户的历史行为数据(如点击、购买、评分等),发现用户或物品之间的相似性。例如,“购买了A商品的用户也购买了B商品”,或“与你兴趣相似的用户喜欢C电影”基于内容的推荐根据物品本身的属性特征,如电影的类型、导演、演员,文章的关键词等,以及用户的历史偏好,为用户推荐具有相似特征的物品混合推荐将协同过滤与基于内容的推荐等多种方法相结合,以弥补单一方法的不足,提升推荐的准确性和多样性机器学习的代表性应用场景2.2.4机器学习的应用场景应用方向应用场景说明自动驾驶环境感知通过融合摄像头、激光雷达、毫米波雷达等多源传感器数据,利用计算机视觉技术实时识别车辆周围的行人、其他车辆、车道线、交通信号灯等静态物体和动态物体行为预测基于对其他交通参与者,如车辆、行人过去几秒的运动轨迹和状态,利用循环神经网络或时序模型预测其未来的行为意图和运动路径,为车辆的决策规划提供依据路径规划与决策在感知和预测的基础上,利用强化学习算法,根据当前交通状况和导航目标,实时做出安全、合理的驾驶决策,如加速、减速、变道或超车机器学习的代表性应用场景根据数据表构建决策树课堂协作实训学生根据下表所示的客户数据信息构建决策树,用于帮助银行预测新客户张明是否会违约。张明的信息如下。年收入:70万元;信用记录:差;是否有工作:是;贷款金额:40万元。实训要求客户数据信息根据数据表构建决策树课堂协作实训(1)分析客户数据的所有特征,从中挑选一个最能区分“好客户”和“坏客户”的特征作为根节点,在此可以选择“信用记录”作为根节点。(2)递归提问,构建子树。在“信用记录差”的人群中,“是否有工作”这个特征能最好地区分结果,可以选择它作为下一个节点。(3)综合步骤(1)(2)用图示化的方式画出决策树。(4)将新客户张明的信息代入决策树,预测其是否会违约,从而判断是否要为其提供贷款。实训思路03深度学习深度学习是机器学习领域的一个重要分支,它以人工神经网络为核心架构,通过构建多层网络结构来实现对数据特征的自动提取与复杂模式的学习。与传统机器学习相比,深度学习在处理图像、语音、文本等非结构化数据时表现出更强的适应性。随着大数据和计算能力的快速发展,深度学习已在计算机视觉、自然语言处理、医疗诊断等多个领域取得突破性进展。2.3.1深度学习的内涵深度学习深度学习是机器学习的一个分支,它采用深度人工神经网络的复杂结构,通过模拟人脑的学习方式,让机器能够从海量数据中自动学习并发现复杂的模式和规律,并做出决策。深度学习本质上是一种端到端的学习范式。人们只需向深度学习模型提供原始数据和期望的输出,该模型就能自动构建起从输入到输出的复杂映射关系,中间的特征工程过程几乎完全自动化。人工神经网络结构2.3.2深度学习与机器学习的区别人工

智能机器

学习深度

学习机器学习是一个广阔的领域,它赋予计算机学习的能力。深度学习则是这个领域中最前沿、最强大的技术之一,它通过模拟人脑的神经网络结构,实现了从数据中自动学习特征的能力,从而在处理复杂问题上取得了革命性的突破。人工智能、机器学习、深度学习之间的关系2.3.2深度学习与机器学习的区别机器学习需要特征工程。它在把数据“喂”给模型之前,需要由人类专家或数据科学家手动设计和提取特征。这个过程非常耗时,且效果很大程度上取决于专家的经验。在数据充足的情况下,深度学习模型能够自动学习特征,实现端到端的学习。无需特征工程,开发者只需把原始数据直接输入深度学习模型,深度学习模型会从低级到高级,逐层自动从数据中学习和提取有用的特征。整个学习过程是自动的,无需人工干预。机器学习与深度学习的学习流程对比2.3.2深度学习与机器学习的区别机器学习与深度学习的对比维度机器学习深度学习特征提取需要人工设计特征自动从数据中学习特征数据需求在小到中等数据集上表现良好需要海量数据才能发挥最大的效用硬件要求通常在CPU上就能高效训练强烈依赖GPU、TPU等高性能计算单元学习方式分步骤学习,每一个步骤都要经过设计端到端学习,从输入直接到输出性能表现性能有上限,受限于特征工程的质量在数据充足的情况下,能够达到顶尖的准确率机器学习与深度学习的对比2.3.3深度学习的典型模型卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理网格结构数据设计的深度学习模型,它模拟了人类视觉系统的工作机制,通过逐层提取数据的局部特征(如边缘、纹理、形状等),并逐步压缩信息,最后组合为全局特征,完成分类、检测、生成等任务。一个典型的卷积神经网络由输入层、卷积层、激活函数、池化层、全连接层和输出层组成。卷积神经网络卷积神经网络结构原理2.3.3深度学习的典型模型循环神经网络(RecurrentNeuralNetwork,RNN)是一种具有短期记忆能力的人工神经网络。其核心特征在于网络结构中存在循环连接,在循环神经网络中,神经元既可以接收其他神经元的信息,也可以接收自身的信息,形成具有环路的网络结构。循环神经网络的记忆机制使得网络能够处理变长的序列数据,并且可以捕捉到序列中的时序信息。此外,循环神经网络还可通过堆叠多个循环单元来增加网络的深度,提高网络的表达能力。循环神经网络循环神经网络结构原理2.3.3深度学习的典型模型生成对抗网络(GenerativeAdversarialNetwork,GAN)是一种基于博弈论的深度学习模型,它通过两个神经网络之间的对抗性训练过程,学习数据的内在分布,并能够生成与真实数据高度相似的新样本。生成对抗网络由生成器和判别器两部分组成。生成器的任务是通过学习真实数据分布,生成逼真的合成数据;判别器的功能是作为一个二分类器,用于判断输入样本是来自真实数据,还是来自生成器生成的样本。生成对抗网络生成对抗网络结构原理2.3.4深度学习的应用场景应用方向应用场景说明医疗健康医学影像分析利用深度学习模型对医学影像,如X光片、CT、MRI、病理切片等进行自动分析药物研发用于预测分子的生物活性、筛选候选药物、优化药物分子结构智能交通交通管理利用深度学习模型预测车流量与监测交通状态自动驾驶·深度学习模型用于处理摄像头、激光雷达数据等多模态数据,实现对道路、车辆、行人、交通标志等元素的精确检测、分割和跟踪;·运用深度学习训练决策模型,使其能够在复杂的交通场景中学习类似人类驾驶员的驾驶策略,优化行驶路径和乘坐舒适性工业制造工业质检基于深度学习构建缺陷检测模型,使目标检测系统可识别微米级缺陷,大大提高产品检测精准度生产流程优化数字孪生系统通过GAN生成虚拟生产环境,并结合物理仿真模型实现工艺参数的离线优化验证信息推荐推荐系统深度学习通过学习用户和物品的深层、非线性特征表示,显著提高了推荐系统的精准度和个性化程度深度学习的代表性应用场景深度学习应用案例解析每个学生搜集2~3个深度学习应用案例,解析案例中应用的深度学习技术,说明技术应用产生的效果,最后写作一份500~800字的案例解析报告,每个案例解析要包括案例名称、应用的深度学习模型、应用效果。实训要求课堂协作实训(1)学生通过网络搜索搜集2~3个深度学习的应用案例。(2)对搜集到的案例进行解析,包括使用的深度学习模型(如CNN、RNN)、达到的应用效果。(3)写作案例解析报告,报告中要展示搜集的案例截图或关键信息。实训思路04知识图谱知识图谱是一种以结构化方式组织和表达知识的技术,能够将分散、异构的数据转化为结构化、语义化的知识网络,其核心作用在于实现数据的有序组织和深度关联,通过揭示实体间的隐含关系,打破数据孤岛,为人工智能系统提供可解释、可推理的知识基础。2.4.1知识图谱的内涵知识图谱知识图谱是一个用于描述物理世界中概念、实体及其相互关系的语义网络。它以图的形式组织知识,通过节点和边的关联关系,结构化地描述现实世界的知识体系。知识图谱的作用是通过图模型实现知识的可视化表达与计算机可理解的语义化推理能力。知识图谱包括实体、关系和属性3个要素,三者以“实体-关系-实体”或“实体-属性-属性值”三元组结构组成知识的基本表达单位,最终构成网状的知识结构。实体指现实世界中可区分的事物或概念;关系用于描述实体之间存在的特定联系,在知识图谱中体现为连接实体节点的边;属性用于描述实体本身所具有的特征或性质。知识图谱(示例)三元组结构2.4.2知识图谱的构建构建方法构建思想自顶向下法先定义知识图谱的本体和数据模式,在确定本体框架的基础上,通过人工编辑或借助半自动化工具,从结构化数据或非结构化数据中提取实体实例,并将其填充到预先定义好的模式中自底向上法从开放链接的数据源中提取实体、关系和属性,然后将这些知识要素进行归纳、组织,逐步向上抽象为概念,最后形成上层模式混合法结合了自顶向下法和自底向上法两种方法。通常,在初期采用自顶向下法,由专家定义一个核心的本体框架,确保知识图谱的顶层结构正确。随后,采用自底向上法,从海量数据中大规模抽取知识,并将其填充到已有的框架中。对于在自底向上法中抽取产生的新概念、新关系,以及质量不高的知识,再通过人工审核、众包或主动学习等方式对其进行修正、确认和模式归纳,从而反哺和优化上层本体构建知识图谱的方法2.4.2知识图谱的构建Step01数据获取此环节主要包括数据收集和数据预处理两项任务。数据收集就是通过各种渠道采集数据;数据预处理就是对数据进行清洗、集成与标准化,提高数据质量。Step02信息抽取信息抽取是从原始数据中自动识别和抽取出结构化知识的过程,是知识图谱构建的核心环节。任务类型释义实体抽取识别文本中具有独立语义的实体,如人名、地名、组织机构名、商品名等关系抽取从文本中抽取实体间的语义关系属性抽取识别并抽取实体的特征描述信息抽取的主要任务2.4.2知识图谱的构建Step01数据获取此环节主要包括数据收集和数据预处理两项任务。数据收集就是通过各种渠道采集数据;数据预处理就是对数据进行清洗、集成与标准化,提高数据质量。Step02信息抽取信息抽取是从原始数据中自动识别和抽取出结构化知识的过程,是知识图谱构建的核心环节。抽取方法说明基于规则的方法基于人工设计的规则和模式,通过关键词匹配、正则表达式等技术实现信息抽取。该方法将信息抽取视为模式匹配问题,需要人工设计规则和词典。例如,构建人名词典、地名词典、组织机构词典、包含属性名称和属性值的词典等,然后用词典去匹配文本实现信息抽取;设计“X于Y年成立”之类的句式模板匹配关系等基于传统机器学习的方法将实体抽取、关系抽取和属性抽取视为分类问题,通过训练相应的分类模型识别每个词的实体标签、实体对之间的关系类型、属性名称和属性值基于深度学习的方法利用神经网络自动学习文本特征表示,通过端到端学习,模型自动捕捉文本的深层语义信息常用的抽取方法2.4.2知识图谱的构建Step01数据获取此环节主要包括数据收集和数据预处理两项任务。数据收集就是通过各种渠道采集数据;数据预处理就是对数据进行清洗、集成与标准化,提高数据质量。Step02信息抽取信息抽取是从原始数据中自动识别和抽取出结构化知识的过程,是知识图谱构建的核心环节。Step03知识融合由于数据来源多样,经过信息抽取后得到的知识可能存在冗余、歧义和冲突,知识融合就是消除知识的不一致性,将分散的知识整合为统一的知识体系。任务类型释义指代消解识别文本中代词或名词短语所指向的具体实体,以确保上下文信息的连贯性实体消歧区分具有相同名称但含义不同的实体,如区分“小米”指的是企业名称还是食物名称实体链接将从非结构化数据或半结构化数据中抽取的实体链接到知识库中对应的正确实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论