《智能建造数字技术基础》课件 第4章 数据管理及分析_第1页
《智能建造数字技术基础》课件 第4章 数据管理及分析_第2页
《智能建造数字技术基础》课件 第4章 数据管理及分析_第3页
《智能建造数字技术基础》课件 第4章 数据管理及分析_第4页
《智能建造数字技术基础》课件 第4章 数据管理及分析_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《智能建造数字技术基础》数据管理及分析4章第XXX主讲人指导人XXX时间指导人教材配套PPT学习导读行业PPT模板/hangye/本章首先介绍常见的经典数据分析方法和手段;其次介绍人工智能的概念、意义、发展历史及现状;最后结合人工智能在无损检测等方面应用案例对无损检测基本理论、特点进行讲解。在建筑工程的全生命周期中也会产生海量的数据,如设计勘探数据、检测数据、监测数据、维护养管数据等。这些数据包含了非常丰富的信息,如果能够有效地挖掘和分析,可以有效地提升设计、建造和养护的水平等。然而,这些数据往往以各种形式的报告、记录表、信息表等纸质文档或电子文档的形式进行管理存储,存在数据丢失、分类混乱、冗余等问题,造成数据割裂、碎片化、不连贯的后果,大大提高了分析难度,降低了数据的利用价值。数据分析是指用适当的统计分析方法,从收集来的数据中提取有用信息且形成结论,并对数据加以详细研究和概括总结的过程。数据分析的方法有很多,大致可以分为经典方法和基于机器学习(人工智能)的方法两种,其中机器学习的方法代表了未来的发展趋势。目录CONTENT01数据库技术及数据格式标准化行业PPT模板/hangye/02经典的数据分析方法和手段03基于人工智能的分析方法和手段04大数据技术STEPONE数据库技术及数据格式标准化01/数据库技术及数据格式标准化数据库技术数据格式的标准化数据库技术数据库技术是通过研究数据库(其模型如图4-1)的结构、存储、设计、管理以及应用的基本理论和实现方法,并利用这些理论来实现对数据库中的数据进行处理、分析和理解的技术。也就是说,数据库技术是研究、管理和应用数据库的一门软件科学。数据库技术研究和管理的对象:数据通过对数据的统一组织和管理,按照指定的结构建立相应的数据库和数据仓库;利用数据库管理系统和数据挖掘系统设计出能够实现对数据库中的数据进行添加、修改、删除、处理、分析、理解、报表和打印等多种功能的数据管理和数据挖掘应用系统;并利用应用管理系统最终实现对数据的处理、分析和理解。涉及的具体内容:图4-1数据库模型数据库技术借助数据库技术,可以建立功能丰富的数据管理平台(如图4-2),便于对大量数据的有效管理及利用。图4-2数据管理平台示意图数据格式的标准化在实际的应用过程中,由于设备厂商的不同、传感器的不同、设备种类的不同,即使同一家厂商生产的不同型号的设备产生的数据格式往往也不同,所以很难实现从原始数据端统一数据格式。存在的问题:可以采用“头文件”的形式对数据进行封装。该文件可以采用统一的文件类型,如json格式,文件内部的存储结构、内容定义等公开统一。通过“头文件”对原始数据的基本信息、分析结果信息等进行记录。在下一级的数据管理应用中只需对该文件进行读取解析即可。解决方法:数据格式的标准化在检测行业,检测数据一般包含原始数据文件、检测信息、以及结果报告等,针对检测信息可以采用json(JavaScriptObjectNotation)格式作为数据存储格式(如图4-3),json具有易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率的特点。案例:其主要由三部分信息组成:第一部分:检测基本信息,包含检测日期、人员、单位、种类等信息;第二部分:项目信息,包含项目名称、编号、当前测区等信息;第三部分:检测数据信息,由两部分组成:(1)检测数据基本信息:包含文件名称、所检测构件编号、名称、BIMID、检测内容等信息;(2)检测数据结果信息:包含当前测点位置信息、评价结果、评价结果等级、病害类型、描述型结果、数值型结果、图片型结果、设计值等参数。图4-3检测信息json头文件STEPTWO经典的数据分析方法和手段02/经典的数据分析方法和手段描述统计信度与效度分析假设检验相关分析方差分析判别分析ROC曲线分析时间序列分析分析方法小结描述统计描述统计又称叙述统计,是统计学中用来描绘或总结观察量的基本情况的统计方法总称。主要内容包括:研究者可以通过对数据资料的图像化处理,将资料摘要变为图表,以便直观了解整体资料分布的情况。通常采用频数分布表与图示法,如多边图、直方图、饼图、散点图等。研究者可以通过分析数据资料,了解各变量内的观察值集中与分散的情况。运用的工具有集中量数与变异量数。集中量数有平均数、中位数、众数、几何平均数、调和平均数等;变异量数有全距、平均差、标准差、相对差、四分差等。在推论统计中,测量样本的集中量数与变异量数都是变量的无偏估计值,但是以平均数、变异数、标准差的有效性为最高。数据的次数分配情况往往会呈现正态分布,为表示测量数据与正态分布偏离的情况,会使用偏度、峰度两种统计数据。为了解个别观察值在整体中所占的位置,需要将观察值转换为相对量数,如百分等级、标准分数、四分位数等。描述性统计学为测量样本和有关内容提供简单的总结,并以简单易懂的图表来表示,进而为行为决策提供参考。信度与效度分析信度分析和效度分析都是评估测量工具质量的方法,它们都涉及到测量工具的可靠性和准确性问题。信度分析:信度分析主要关注测量工具的稳定性和一致性,即在相同条件下,重复使用该工具是否会得到相似的结果。常用的信度分析方法包括重测信度、内部一致性信度和切割半信度等。这些方法可以帮助评估测量工具的稳定性和一致性,从而确定测量结果的可靠程度。在智能建造领域,主要用来评估数据的可靠性和一致性,这对于保证智能建造过程中数据的准确性和稳定性至关重要。效度分析:效度分析则主要关注测量工具是否能够准确地测量研究或实践所关注的概念。效度分析可以分为内容效度、构效度和准确度效度等。在智能建造领域,主要用来评估量表或问卷的有效性,即是否能够真正测量出我们想要了解的内容(帮助研究者确定其测量工具是否准确、可靠和有效)。假设检验假设检验又称统计假设检验,其基本思想如图4-4,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是由本质差别造成的统计推断方法。图4-4假设检验的基本思想假设检验中显著性检验是最常用的、最基本的方法。显著性检验的基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计分析,并根据概率对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有:Z检验;t检验;卡方检验;F检验等。相关分析相关分析是研究两个或两个以上随机变量间的相关关系的分析方法,其示意图如图4-5。图4-5相关分析示意图两个变量之间的相关程度通过相关系数R来表示,其值在-1和1之间。正相关时,R值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时则相反,一个变量增加,另一个变量将减少;R的绝对值越接近1,两变量的关联程度越强;R的绝对值越接近0,两变量的关联程度越弱。方差分析方差分析(如图4-6)又称变异数分析,是用于检验两组或两组以上的均值是否具有显著性差异,也就是检验各组别间是否有差异的数理统计方法。图4-6方差分析一般认为不同组的均值间的差别基本来源有两个:(1)试验条件,即不同的处理造成的差异,称为组间差异。(2)随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示。方差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。例如,医学研究几种药物对某种疾病的疗效;农业学研究土壤、肥料、日照时间等因素对某种农作物产量的影响;建筑学研究混凝土配比对抗压强度的影响等,这些都可以使用方差分析方法来解决。判别分析判别分析(如4-7)又称分辨法,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。简单而言,就是通过辨别分析来对数据进行分组或分类。图4-7判别分析判别分析通常都要设法建立一个判别函数(常用有线性判别函数和典则判别函数),然后利用此函数来进行判别。具体判别方法有最大似然法、距离判别法、Fisher(也称典则)判别法和Bayes判别法等。ROC曲线分析ROC曲线全称为“受试者工作特征曲线”,是一种常用于评估分类模型的性能指标。ROC曲线是在不同分类阈值下得到的假阳性率(FP)为横坐标,真阳性率(TP)为纵坐标,绘制出的一条曲线。在ROC曲线上,每个点对应着一个不同的分类阈值。分类指标评估中的基本指标:(1)TP(真阳性率,TruePositiveRate):将所有正类(阳性)样本预测为正类(阳性)的比率;(2)FN(假阴性率,FalseNegativeRate):将所有正类(阳性)预测为负类(阴性)的比率;(3)FP(假阳性率,FalsePositiveRate):将所有负类(阴性)预测为正类(阳性)的比率;(4)TN(真阴性率,TrueNegativeRate):将所有负类(阴性)预测为负类(阴性)的比率;ROC曲线分析图4-8不同分类阈值下的TP率与FP率对于苛刻的阈值,大量病例被判断为阳性,FP和TP均趋近1,而宽松的阈值则相反,FP和TP均趋近0。对于一种好的分类模型,在不同阈值下,FP尽可能小而TP尽可能大,此时ROC曲线的斜率大,且ROC曲线下面的面积(AUC)也大,如图4-8。对于一个实用的分类模型,TP显然应该大于FP,所以ROC曲线一般都处于y=x这条直线的上方。AUC越接近1.0,分类模型效果越好;小于等于0.5时,则无应用价值。时间序列分析图4-8不同分类阈值下的TP率与FP率时间序列是按时间顺序的一组数字序列,其为现实的、真实的一组数据,而不是数理统计中做试验得到的。同时,它也是动态的,并具有内在关联性。表现形式:(1)确定性变化:包括长期趋势变化、季节性周期变化、循环变化等。(2)随机性变化。时间序列分析就是根据时间序列数据的特性,建立模型并通过统计分析来获取模型参数,进而去拟合时间序列(如图4-9)的观测数据,最终起到预测的作用。分析方法小结总体而言:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法,主要是阐述获得了哪些数据;信度分析主要是说明获取的数据是否可靠;假设检验、相关分析、方差分析、判别分析、受试者操作特征曲线分析等主要是证明之前提出的假设是否成立;时间序列分析主要是承认事物发展的延续性,应用过去数据的规律,推测事物未来的发展趋势。经典的数据分析方法还包括:多重响应分析;距离分析;项目分析;对应分析;决策树分析;神经网络;系统方程;蒙特卡洛模拟等。STEPTHREE基于人工智能的分析方法和手段03/基于人工智能的分析方法和手段人工智能的发展历程人工智能的分类与发展现状人工智能的基本理论机器学习的基础机器学习的分类浅层学习的算法概述深度学习的算法概述强化学习的算法概述迁移学习预测模型的验证与评价人工智能的发展历程早在公元前384—322年,亚里士多德的三段论就奠定了智能算法的逻辑基础。1945年以约翰·冯·诺依曼(JohnvonNeumann)为首起草了“存储程序通用电子计算机方案”——EDVAC,奠定了现代计算机结构体系。1950年,图灵(Turing)在论文“Computingmachineryandintelligence”中提出了著名的“图灵测试”,论述了机器智能的判定方法。1956年,在美国汉诺斯小镇召开的达特茅斯会议,以麦卡赛、明斯基、罗切斯特和申农等为首的科学家首次提出了“人工智能”这一术语,标志着人工智能学科的诞生。国际范围内,人们对人工智能的发展历史有一套划分标准。人工智能技术的发展主要可以分为如下5个时期:孕育时期(1956年前);形成时期(1956—1970年);暗淡时期(1966—1974年);知识应用时期(1970—1988年);集成发展时期(1986年至今)。人工智能的分类与发展现状(1)专用人工智能(narrowAI)针对特定任务或领域进行设计和训练的人工智能。专用人工智能的应用范围较窄,但在特定任务或领域中表现出的性能往往非常出色,例如语音识别、图像识别等,是目前人工智能的主流。(2)通用人工智能(generalAI)是指能够具有多种智能能力,能够在多种任务和领域中表现出类似于人类的智能水平的人工智能。通用人工智能的研究方向是实现人工智能的强人工智能,目前仍处于探索和研究阶段。(3)超级人工智能(superAI)是指具有远超人类智能水平的人工智能,处于愿景阶段。分类:总的来说,专用人工智能和通用人工智能都是人工智能的重要发展方向,各有其应用和研究的价值和意义。发展现状:专用人工智能取得重要突破;通用人工智能开始起步。人工智能的基本理论关于智能的定义有很多,通常可以认为智能是知识与智力的总和。具体地说,智能具有下述特征:具有感知能力。具有记忆与思维的能力。具有学习能力及自适应能力。具有行为能力。人工智能的定义:简而言之,通过感知、记忆(存储)、思维(运算)、学习(纠错)、适应(训练)从而产生行为(分析并给出结果)。人工智能的基本理论人工智能研究的基本内容:(1)机器感知所谓机器感知,就是使机器(计算机)具有类似于人的感知能力,其中以机器视觉与机器听觉为主,并形成了两个专门的研究领域,即模式识别与自然语言理解。(2)机器思维所谓机器思维,是指对通过感知得来的外部信息及机器内部的各种工作信息进行有目的的处理。(3)机器学习人类具有获取新知识、学习新技巧,并在实践中不断完善、改进的能力,机器学习就是要使计算机具有这种能力。(4)机器行为与人的行为能力相对应,机器行为主要是指计算机的表达能力,即“说”“写”“画”等。对于智能机器人,其还应具有人的四肢功能,即能走路、能取物、能操作等。(5)智能系统及智能计算机的构造技术为了实现人工智能的近期目标(实现机器智能)及远期目标(制造智能机器),就要建立智能系统及智能机器,为此需要开展对模型、系统分析与构造技术、建造工具及语言等的研究。机器学习的基础机器学习的定义:所谓机器学习,就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善,其为人工智能的主要研究领域之一,其经典的神经元模型有图4-11所示。图4-11经典的神经元模型学习系统:学习系统应具有如下条件和能力:(1)具有适当的学习环境。(2)具有一定的学习能力。(3)能应用学到的知识求解问题。(4)能提高系统的性能。图4-12学习系统的基本结构数据集:好的模型(函数)应具有表达训练集的数据分布规律的能力,而判断模型的好坏则需要使用测试数据集。机器学习的分类按系统的学习能力:(1)有监督学习有监督学习是从<x,y>这样的示例对中学习统计规律,然后对于新的x,给出对应的y。典型的应用有手写数字识别、垃圾邮件过滤、情感分析、股票预测等。(2)无监督学习无监督学习是指给机器的训练数据没有任何标记或者答案,典型的应用有聚类分析、异常检测、以及将高维数据转换为低维数据,以便更好地可视化和理解数据等。(3)半监督学习半监督学习是介于有监督和无监督之间,即给机器的训练数据中只有一部分是有标记的。由于没有标签数据的数量常远大于有标签数据数量,所以采用半监督学习有助于提高准确性。(4)强化学习强化学习是指智能体与环境交互,在环境中采取行动,得到奖励或惩罚,从而逐步调整策略,以获得最大化的长期累积奖励。典型的应用场景如游戏(AlphaGo等)、无人驾驶技术、优化电力网络、水资源分配等。(5)主动学习主动学习是指在训练过程中,在数据标注不足的情况下,算法主动选择样本进行标注,以提高模型的准确性和泛化能力。典型应用场景包括图像识别、自然语言处理等。机器学习的分类按系统的学习深度:(1)数据依赖性;(2)硬件依赖性;(3)特征处理;分为浅层学习和深度学习,它们之间的区别有:典型的浅层学习方法:有线性回归;逻辑回归;支持向量机(SVM);决策树;KNN等。典型的深度学习方法:多层感知机(MP);卷积神经网络(CNN);循环神经网络;自编码器;生成对抗网络等。(4)问题解决方式;(5)执行时间。机器学习的分类按系统的使用目的:(1)分类用于确定某个数据的类别,如人脸识别、垃圾邮件识别、缺陷的有无及类型等。(2)回归(预测)用于预测连续值的变量,如房价、股票、温度等。(3)聚类用于将数据分组为相似的子集,如客户分群、图像分割、社交网络分析等。(4)降维用于减少数据的维数,以便于可视化、压缩、降噪或提高效率,如主成分分析、线性判别分析、自编码器等。(5)关联规则用于发现数据中的频繁项集和有趣的关系,如市场篮分析、生物信息学、文本挖掘等。(6)异常检测用于识别数据中的异常或离群点,如信用卡欺诈检测、网络入侵检测、计算机视觉的应用等。(7)推荐系统用于根据用户的偏好或行为,向用户推荐相关的产品或服务,如电商平台、视频网站、音乐软件等。浅层学习的算法概述分类算法:分类(Classify)(如检测中是否为缺陷)是机器学习和模式识别中很重要的一环,分析方法(也称为分类器)有很多,常用的有以下几种。(1)贝叶斯分类法基于贝叶斯定理的统计学分类方法,它是一类利用概率统计知识进行分类的算法,具有计算简单、易于实现等特点。图4-13贝叶斯网络模型(2)决策树算法是一种简单但广泛使用的分类器,它基于树型结构,通过训练数据构建决策树来进行分类。决策树在分离节点时利用了信息熵的方法,具有可解释性强、易于理解等特点。图4-14决策树模型浅层学习的算法概述分类算法:(3)支持向量机把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。支持向量机适合解决高维、非线性问题,具有泛化能力强等特点。图4-15支持向量机(4)k近邻查询是一种基于距离度量的分类方法,通过到最近的k个邻居(样本),在前k个样本中选择频率最高的类别作为预测类别。该方法具有简单易懂等特点。图4-16KNN浅层学习的算法概述分类算法:(5)人工神经网络是一种模拟人脑神经元工作方式的分类方法,具有适应性强等特点。ANN是机器学习的一个庞大的分支,有几百种不同的算法,重要的人工神经网络算法有多层感知器神经网络(Multi-PerceptronNeuralNetwork,简称MP),反向传递(BackPropagation,简称BP)等。图4-17神经元网络模型(6)AdaBoost算法是一种基于加权投票的分类方法,具有精度高等特点。AdaBoost会为每个样本赋予一个权重值,在上一个模型中被错分的样本在下一个模型中将具有更高的权重,以此来尽可能保证每个样本都能够被划分正确,最后再将每个模型的预测结果集成起来作为最终的预测输出。浅层学习的算法概述回归:回归(Regression)的目的是预测连续性数值的目标值,可以用来建立变量之间的关系式,并根据输入变量来预测输出变量的值。(1)贝叶斯分类法

浅层学习的算法概述回归:(2)树回归解决非线性数据的拟合问题,一个可行的方法是分类回归树(ClassificationAndRegressionTrees,简称CART,如图420)算法,该算法既可以用于分类,也可以用于回归。此外,还有逻辑回归(LogisticRegression)、支持向量机回归(SupportVectorRegression)等方法。图4-18树回归浅层学习的算法概述聚类:(1)划分式聚类算法(Partition-basedMethods):聚类算法(Clustering,如图4-19)是一种无监督学习的算法,用于将数据集中的数据分成不同的聚类或组,使得同一组内的数据相似度尽可能高,不同组内的数据相似度尽可能低。需要事先指定聚类的中心,基于距离来划分数据,即认为两个对象的距离越近,其相似度就越大。常见的划分式聚类算法有k-means及其变体k-means++、bi-kmeans、kernelk-means等。图4-19聚类浅层学习的算法概述聚类:(2)基于密度的聚类算法(Density-basedMethods):根据数据点的密度来划分数据,能够处理非凸形状的数据并对噪声不敏感。基于密度聚类算法的一个典型代表是DBSCAN(Density-BasedSpatialClusteringofApplicationwithNoise),它的核心思想是将簇定义为密度相连的点的最大集合,能够把高密度的区域划分为簇,并将低密度的区域视为噪声。图4-20DBSCAN聚类算法概念DBSCAN法的示意图(如图4-20),其中,每个圆圈表示一个数据点,不同颜色的圆圈表示它们属于不同的聚类;黑色的圆圈表示噪声点;虚线的圆表示邻域半径的范围。可以看到,DBSCAN算法能够将数据集划分为三个聚类,并将一些离群点识别为噪声点。浅层学习的算法概述聚类:(3)层次化聚类算法(HierarchicalMethods):层次化聚类算法是一种基于连接的聚类方法,它可以将数据集划分为嵌套的聚类,形成一个树状结构。常见的层次化聚类算法有AGNES、DIANA、BIRCH等。图4-21层次化聚类算法凝聚型层次化聚类算法的示意图(如图4-21),使用单链接作为相似度度量,即两个聚类之间的距离等于它们最近的两个数据点之间的距离。图中,每个数据点用字母表示,每个圆圈表示一个聚类,每个水平线表示一次合并操作。可以看到,最开始每个数据点都是一个单独的聚类,然后按照最近邻的原则进行合并,直到最后只剩下一个包含所有数据点的聚类。如果在某个水平线上切割这棵树,就可以得到不同层次的聚类结果。(4)基于图的聚类算法(Graph-basedMethods):将数据点看作图中的节点,将数据点之间的相似度看作图中的边,通过切割图中的边来划分数据。常见的基于图的聚类算法有谱聚类(SpectralClustering)、最小生成树聚类(MSTClustering)等。浅层学习的算法概述主成分分析:主成分分析(PCA)是一种常用的数据降维方法,也属于无监督学习范畴。它的作用是将高维的数据投影到低维的空间中,同时保留数据中最重要的信息。其通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组不相关的变量叫主成分。图4-22PCA示意图主成分分析示意图如图4-22,其中,每个点表示一个数据样本,箭头表示新的坐标轴(PC1和PC2),它们是通过对协方差矩阵进行特征值分解得到的。可以看到,PC1是沿着数据点分布最广的方向,也就是数据变化最大的方向,它反映了数据中最主要的信息;PC2则是与PC1正交的方向,它反映了数据中次要的信息。如果我们只保留PC1这个坐标轴,就可以实现对数据的一维降维,同时尽量减少信息损失。浅层学习的算法概述关联分析:关联规则挖掘算法(AssociationRules)是一种较为常用的无监督学习算法,其目的在于发掘数据之间的关联性,发现大型数据集中的有意义的联系或模式。通常,这些联系或模式用形如XY的蕴含表达式表示,其中X和Y是不相交的项集,也就是包含一个或多个项的集合。例如,X={牛奶,尿布},Y={啤酒},则XY表示购买牛奶和尿布的人也倾向于购买啤酒。关联规则挖掘算法的主要任务是从给定的事务集中找出满足最小支持度和最小置信度的所有规则,经典算法包括Apriori算法和FP-growth算法等。深度学习的算法概述卷积神经网络:卷积神经网络(CNN,如图4-23)常用于处理视觉图像等数据,是利用卷积层、池化层、激活层和全连接层等组件,从输入数据中提取特征,并进行分类或预测等任务。卷积神经网络具有端到端训练的特点,使用反向传播算法和梯度下降法等优化方法,直接从输入数据到输出结果进行训练,无需人为设计特征提取器,因此,其在图像分类、物体检测、人脸识别、自动驾驶、医学图像分析等领域都有广泛的应用和优异的表现。图4-23卷积神经网络深度学习的算法概述卷积神经网络:(1)输入层输入层接收原始数据,如图像或视频,并将其转换为张量(多维数组)的形式,以便后续的处理。(2)卷积层卷积层(如右图),使用一组可学习的滤波器或内核,对输入数据进行卷积操作,从而提取特征。卷积操作是一种线性变换,将输入数据和滤波器进行点乘和求和,得到输出数据的一个元素。卷积层可以有多个滤波器,每个滤波器可以捕捉不同的特征,如边缘、角点、纹理等。深度学习的算法概述卷积神经网络:

(4)池化层池化层对卷积层的输出进行压缩,以减少参数的数量,同时保留重要的特征信息。池化(如图)操作输入数据划分为若干个区域,并对每个区域选取最大值、平均值或求和,作为该区域的代表值进行输出。池化不仅可以提高运算速度,还可以防止过拟合。深度学习的算法概述卷积神经网络:(5)全连接层全连接层将前一层的输出展平为一维向量,并与下一层的每个神经元进行全连接。全连接层通常位于网络的最后一层或倒数第二层,并使用softmax或sigmoid等函数作为输出激活函数。CNN的流程是将输入数据依次通过上述各个层,并使用反向传播算法和梯度下降法等优化方法,调整网络中的参数(滤波器和权重),以最小化损失函数(如交叉熵或均方误差),从而提高网络在训练数据上的拟合程度和在测试数据上的泛化能力。深度学习的算法概述循环神经网络(RNN):循环神经网络(如图4-26)主要用于处理序列数据,如语音、文本、视频等。它的特点是在序列的演进方向进行递归,并在自身网络中循环传递,因此可接受更广泛的时间序列结构输入。图4-26循环神经元网络循环神经网络的应用领域主要有:(1)自然语言处理(NaturalLanguageProcessing,NLP)(2)计算生物学(ComputationalBiology)(3)时间序列预测(TimeSeriesForecasting)在计算过程中,每个用于预测的输出o_i,不仅取决于该时间步的输入x_i,而且与上一时间步的隐藏状态h_(i-1)有关,从而能够捕捉序列中的时序信息和语义信息。深度学习的算法概述长短时记忆网络(LSTM):长短神经元网络(如图4-27)是一种特殊的循环神经元网络,在循环神经元网络的基础上增加了一个记忆单元,用于存储长期的依赖信息,以及三个门结构(输入、遗忘、输出),用于控制信息的流入、流出和更新。图4-27LSTM的架构示意长短神经元网络的特点是它成功地解决了原始循环神经元网络的缺陷,即梯度消失和梯度爆炸问题,能够有效地学习长期的依赖关系,在语音识别、图片描述、自然语言处理等许多领域中成功应用。强化学习的算法概述

强化学习的基本构成:强化学习(ReinforcementLearning,RL),又称再励学习、评价学习,通过在与环境的交互过程中,形成策略以达成回报最大化或实现特定目标。(1)智能体(agent):是一个嵌入到环境中的系统,能够通过采取行动来改变环境的状态。(2)环境(environment):是一个外部系统,智能体处于这个系统中,能够感知到这个系统并且能够基于感知到的状态做出一定的行动。(3)状态(state):是对环境的完整描述,展现环境的信息。(4)动作(action):是智能体可以做出的行为,动作集合是智能体可以做出的所有行为。(5)奖励(reward):是由环境给的一个标量的反馈信号,这个信号显示了智能体在某一步采取了某个策略的表现如何。(6)策略(policy):是智能体用于决定下一步执行什么行动的规则。可以是确定性的或者随机性的。(7)价值函数(valuefunction):是用来度量给定策略下,当前状态或者动作的好坏程度。可以是状态价值函数或者动作价值函数。强化学习的算法概述生成对抗网络(GAN):生成对抗神经元网络(GAN)是一种非监督式学习的方法,通过两个神经网络相互博弈的方式进行学习。由于其利用对抗训练来学习数据的潜在特征,而不需要标注数据或先验知识,因此可以产生高质量、多样性、逼真的合成结果,在图像生成、图像转换、图像增强、图像修复、文本生成、语音合成、视频生成等领域得到了广泛的应用。应用领域:在GAN中,两个神经网络分别是生成器(Generator)和判别器(Discriminator)。生成器从一个随机向量(Z)出发,生成一些样本(X),比如图片。判别器的任务是判断样本是否真实,即来自真实数据分布还是生成器的输出分布。生成器和判别器的目标是相反的。生成器希望生成的样本能够骗过判别器,即让判别器输出接近1的值。判别器希望能够准确地区分真实样本和生成样本,即让真实样本的输出接近1,生成样本的输出接近0。迁移学习迁移学习(如图4-28)是一种机器学习的方法,它利用已有的知识来帮助学习新的知识,从而提高学习的效率和性能。迁移学习通过结合深度学习或强化学习来实现,其核心是找到源域和目标域之间的相似性,通过这种相似性的迁移达到迁移学习的目的。分类:(1)基于实例(Instance-based):通过选择源域中与目标域相关或相似的实例,来辅助目标域的学习。(2)基于映射(Mapping-based):通过构建源域和目标域之间的映射关系,来转换数据或特征空间。(3)于网络(Network-based):通过重用源域中预训练好的网络结构或参数,来初始化或调整目标域中的网络模型。(4)基于对抗(Adversarial-based):通过引入对抗性网络或损失函数,来消除源域和目标域之间的差异或不一致。图4-28迁移学习的架构示意预测模型的验证与评价模型评估是对训练好的模型性能进行评估,是模型开发过程不可或缺的一部分,它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。(1)模型评估的类型机器学习的任务有回归,分类和聚类,针对不同的任务有不同的评价指标。为此,我们需要把数据集划分为训练集和测试集,按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。(2)过拟合、欠拟合欠拟合(underfitting)是指模型在训练数据上的精度就不高。另一方面,很多时候我们在训练集上的误差很小,但实际预测时却表现不好,这种现象就叫过拟合。(3)泛化能力泛化能力(generalizationability)是指机器学习算法对新鲜样本的适应能力。机器学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。

模型评估概述:在AI分析中,通常有3种数据:训练集、评估集和测试集。如果将已知的全部用于训练,有时候会发现尽管拟合程度很好,但是对于训练集之外的测试数据的拟合程度却并不令人满意。其原因一般在于在模型训练时的过拟合。因此,将数据集分出一部分来(这部分不参加训练)对训练集生成的参数进行测试,相对客观地判断这些参数对训练集之外的数据的符合程度,这种思想就称为交叉验证(CrossValidation),常用的方法有k折交叉验证和留一验证。(1)k折交叉验证(K-foldcross-validation)初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其他结合方式,最终得到一个单一估测。这种方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次。其中,10折交叉验证是最常用的。(2)留一验证(Leave-One-Out)留一验证指只使用原样本中的一个样本当作验证资料,而剩余的则留下来当作训练资料。这个步骤一直持续到每个样本都被当作一次验证资料为止。预测模型的验证与评价

样本集:通常我们把训练集上的误差称为训练误差,把新样本上的误差称为泛化误差。而我们的目标就是要得到泛化误差小的模型,泛化误差越小越好。泛化误差可分解为偏移的平方、方差和噪声之和。在一个训练集D上,模型f对测试样本x的预测输出为f(x;D),那么学习算法f对测试样本x的期望预测(亦即均值)为f,如真值为y,则偏移(模型预测值与真实标记的差别称为偏移):Bias2(x)=[

f(x)-y]2

(4-4)方差Var(模型的输出值之间的差异,它表示了模型的离散程度):Var(x)=ED[(f(x;D)-

f(x))2](4-5)偏移与方差的示意图如图所示。预测模型的验证与评价

基本误差指标:针对分类的AI模型,其主要的评估指标有:

预测模型的验证与评价

常见分类模型评估指标:

针对分类的AI模型,其主要的评估指标有:

预测模型的验证与评价

常见分类模型评估指标:

针对分类的AI模型,其主要的评估指标有:5.mAP参数mAP(meanAveragePrecision)参数是指平均精度均值,它是目标检测算法的主要评估指标。mAP的计算方式如下:(1)对于每个类别,计算其精确率~召回率曲线,即在不同的置信度阈值下,该类别的精度情况;(2)对于每个类别,计算其平均精度(averageprecision,AP),即在精确率~召回率曲线下的面积;(3)mAP就是所有类别的AP的平均值。预测模型的验证与评价

常见分类模型评估指标:6.混淆矩阵混淆矩阵是监督学习中的一种可视化工具,主要用于模型的分类结果和实例的真实信息的比较。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论