《人工智能导论》课件-2.机器学习与深度学习_第1页
《人工智能导论》课件-2.机器学习与深度学习_第2页
《人工智能导论》课件-2.机器学习与深度学习_第3页
《人工智能导论》课件-2.机器学习与深度学习_第4页
《人工智能导论》课件-2.机器学习与深度学习_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2.1机器学习与深度学习

物联网工程学院基础概念机器学习是一种让计算机系统能够从数据中自动学习和改进的技术。它通过分析大量数据,识别出数据中的模式和规律,从而实现对新数据的预测或分类等任务。随着现代计算机性能的提高,对包含较多隐含层的大规模深层神经网络的训练开始变得可行,这种使用深层神经网络进行机器学习方法也被称为深度学习。发展历程1950年阿兰·图灵1957年1959年1974年1995年2006年2016年2022年弗兰克·罗森布拉特阿瑟·萨缪尔保罗·韦博斯万普尼克杰弗里·辛顿DeepMindOpenAI基础概念机器学习往往用于处理难以通过直接编程来解决的问题。机器学习算法是一种能够从训练数据中学习的算法。这里的“学习”是指通过对数据的处理,算法可以提高解决某类任务的性能。基础概念机器学习监督学习非监督学习利用一组已知类别的样本来调整分类器的参数,使其达到所要求性能的过程。{在没有类别信息的情况下,通过对所研究对象的大量样本的数据分析来实现对样本的分类或发现数据中的内在结构。分类与回归分类回归监督学习的预测任务主要可以分为分类(Classification)和回归(Regression)两类。分类与回归分类分类是根据给定的输入数据(特征)将每个样本分配给预定义的类别或标签中的一个。分类的输出是离散的,表示样本所属的类别。分类的结果是预定义且离散的,例如识别猫和狗图片就是一个二分类任务,对图片的预测结果只有两种:猫或者狗。识别手写阿拉伯数字则是一个多分类任务,识别结果为0~9中的一个数字,即一共有十种分类结果。分类与回归回归回归同样是机器学习中的一种任务,但其目标是根据已知的输入变量和输出变量(目标变量)的关系,预测未知输出变量的值。与分类不同,回归问题的输出是连续的数值,而不是离散的类别。例如,在房价预测中,算法需要根据房屋的面积、位置、房龄等特征预测房屋的售价;在股票价格预测中,算法需要根据历史交易数据预测未来某个时间点的股票价格。评价指标评价指标是针对相同数据输入不同算法模型,或输入不同参数的同一种算法模型时,给出的关于算法或参数好坏的定量指标。在模型评估过程中,通常需要使用多种不同的指标进行评估,以全面反映模型的性能。这里我们以邮件分类为例,探讨几种常用评价指标的计算方式。评价指标假设邮件分类的结果有两种:正常邮件和垃圾邮件。我们将正常邮件定义为正类(Positive),垃圾邮件定义为负类(Negative),则邮件分类可能出现以下四种情况:TP(真正类,TruePositive)——将正常邮件识别成了正类;FP(假正类,FalsePositive)——将垃圾邮件识别成了正类;TN(真负类,TrueNegative)——将垃圾邮件识别成了负类;FN(假负类,FalseNegative)——将正常邮件识别成了负类;不难看出,TP和TN是正确的分类,而FP和FN是错误的分类。实际情况正常邮件垃圾邮件预测结果正类TPFP负类FNTN评价指标根据以上结果,我们可以定义分类准确率(Accuracy),即预测正确的结果占总样本的百分比,计算公式为:虽然准确率能够判断总的正确率,但是在样本不均衡的情况下,并不能作为很好的指标来衡量结果。比如在样本集中,正样本有90个,负样本有10个,样本是严重不均衡的。对于这种情况,我们只需要将全部样本预测为正样本,就能得到90%的准确率,但是完全没有意义。所以,我们需要寻找新的指标来评价模型的优劣。评价指标精确率(Precision)是针对预测结果而言的指标,其含义是在被所有预测为正的样本中实际为正样本的概率,计算公式为:精确率反映了对正样本结果中的预测准确程度,也就是模型识别出的正类中,真正的正类所占的比例。在邮件分类的例子中,精确率反应了模型预测的正类中正常邮件的比例,这体现了模型给出的正类的准确程度,因此精确率又称查准率。评价指标召回率(Recall)是针对原样本而言的指标,其含义是在实际为正的样本中被预测为正样本的概率,计算公式为:观察公式,真正类TP表示被模型找出的正类,假负类FN表示实际是正类但被模型误判为负类,所以TP+FN表示总体样本中实际正类的数量,也就是说召回率反应的是模型在全体样本中找出所有实际正类的能力,因此召回率又称查全率。评价指标F1值(F1Score)是用于综合评估分类模型性能的指标,它结合了精确率和召回率。F1值是精确率和召回率的调和平均数,它可以用来衡量模型在保持精确率和召回率之间的平衡时的性能。F1值可以用以下公式计算:2.2人工神经网络

物联网工程学院基础概念人工神经网络(ArtificialNeuralNetwork,ANN)是一种受人脑神经系统启发的机器学习模型,它通过模拟人脑神经元之间的连接和信息处理方式,实现对复杂数据的分析和预测。ANN由大量互连的处理单元(人工神经元)组成,这些单元通过不同的连接方式形成网络,从而实现对输入数据的非线性变换和输出。神经网络关键组件l

神经元(Node/Neuron):人工神经网络的基本处理单元,每个神经元接收来自其他神经元的输入信号,经过加权求和和激活函数处理后输出信号。l

连接(Connection):神经元之间的连接代表了信号传递的路径,每个连接都有一个权重(Weight),表示该连接的强度或重要性。l

激活函数(ActivationFunction):用于引入非线性因素,将神经元的输入映射到输出。常见的激活函数包括Sigmoid、ReLU等。l

网络层(Layer):人工神经网络通常由多层组成,包括输入层、隐藏层和输出层。输入层接收外部数据,隐藏层对数据进行非线性变换,输出层产生最终结果。神经元模型MP神经元模型下图为麦卡洛(McCullough)和皮茨(Pitts)于1943年提出的MP神经元模型,该模型是基于生物神经元的结构和工作原理构建的抽象和简化模型,用于模拟神经元的信息处理过程。生物神经元主要由细胞体、树突、轴突和突触四部分组成。神经元通过树突接收来自其他神经元的输入信号,这些信号在细胞体内进行整合,当整合后的信号强度超过一定阈值时,神经元会通过轴突输出信号。MP模型是人工神经网络发展的早期重要成果之一,它为后续更复杂神经元模型和神经网络结构的发展奠定了基础。激活函数Sigmoid函数,也称为S型生长曲线或逻辑函数(LogisticFunction),是一种在生物学和信息科学中广泛使用的S型函数。它的数学表达式通常为:激活函数ReLU(RectifiedLinearUnit)函数是另一种在深度学习中广泛使用的激活函数。与Sigmoid函数相比,ReLU函数更加简单和高效。它的定义是:对于任何实数输入x,如果x大于等于0,则输出x;否则输出0。感知机感知机(Perceptron)是神经网络的基础结构之一,它最早由FrankRosenblatt在1957年提出,作为线性二分类模型,为后来更复杂的神经网络模型奠定了基础。感知机由两层神经元组成,如图所示:感知机感知机主要由以下几部分组成:l

输入层:接收输入特征。在感知机中,输入层通常包含多个输入节点,每个节点对应一个输入特征。这些输入特征可以是连续的数值,也可以是离散的符号。l

权重:每个输入特征都对应一个权重。权重表示了输入特征对输出结果的重要性或影响力。在感知机的学习过程中,权重的值会根据训练数据进行调整。l

激活函数:激活函数用于对输入特征和权重的加权和进行变换,以产生最终的输出结果。l

输出层:输出层接收激活函数的输出,并作为感知机的最终输出结果。在二分类问题中,输出通常为+1或-1,分别代表两个不同的类别。多层前馈网络多层前馈网络(MultilayerFeedforwardNeuralNetwork,MLP)是一种基础且广泛应用的人工神经网络模型,在机器学习和深度学习中占据重要地位。多层前馈网络由多个神经元层组成,信息在网络中以单向传播的方式进行处理,从输入层流向隐藏层,最终到达输出层,不形成循环。这种网络结构使得多层前馈网络能够处理复杂的非线性问题。多层前馈网络多层前馈网络通常包括三种类型的层次结构:l

输入层:接收外部输入信号,即待处理的数据或特征。输入层的神经元数量通常与输入数据的特征维度相对应。l

隐藏层:位于输入层和输出层之间,是前馈神经网络进行特征提取和变换的关键部分。隐藏层可以有一层或多层,每一层都包含一定数量的神经元。这些神经元通过权重和激活函数对输入信号进行非线性变换,从而提取出对任务有用的特征。l

输出层:生成网络的最终输出结果。输出层的神经元数量取决于任务的需求,例如在分类任务中,输出层的神经元数量可能等于类别的数量。深度神经网络深度神经网络(DeepNeuralNetworks,简称DNNs)是一种具有多个隐藏层的人工神经网络,与传统神经网络相比,这使得它们更加复杂和资源密集。深度神经网络深度神经网络(DeepNeuralNetworks,简称DNNs)的发展历程可以追溯到20世纪40年代。早期的研究主要集中在模拟人脑神经系统的行为。1958年,FrankRosenblatt提出了感知机(Perceptron),这是第一个能够学习权重并进行简单分类的人工神经网络,标志着神经网络研究的正式起步。然而,由于感知机只能解决线性可分问题,其发展在1969年遇到瓶颈,神经网络研究进入第一次寒冬。直到1986年,反向传播(Backpropagation)算法和激活函数(如Sigmoid)的引入,使得多层神经网络的训练成为可能,神经网络开始复兴。1998年,LeNet-5卷积神经网络实现了手写数字识别,进一步推动了神经网络的发展。进入21世纪,随着GPU和分布式计算技术的发展,计算机算力显著提升,为深度学习的兴起奠定了基础。2006年,深度置信网络(DBN)的提出标志着深度学习时代的来临。此后,深度学习在图像识别、语音识别等领域取得了显著突破。LeNet-5卷积神经网络深度神经网络深度神经网络典型的DNNs包括输入层、多个隐藏层和输出层。每个神经元接收来自前一层神经元的输入信号,对这些信号加权求和后,加上一个偏置项,然后通过一个激活函数(如ReLU、Sigmoid等)产生输出信号,作为下一层神经元的输入。这一过程在网络中逐层进行,直至最后一层输出层给出最终结果。AlexNet在2012年的ImageNet大赛中获得了冠军,标志着深度学习在图像分类领域的重大突破,其结构如下图所示:深度神经网络深度神经网络在多个领域都有广泛的应用,包括但不限于:l

计算机视觉:在图像识别、物体检测、图像分割等l

自然语言处理(NLP):在机器翻译、文本摘要、情感分析、语音识别等l

医疗影像分析:在医疗领域,DNNs用于分析医学影像,如X光片、CT扫描和MRI,辅助医生进行疾病诊断。l

游戏AI:如DeepMind的AlphaGo在围棋领域取得了重大成就。l

自动驾驶:DNNs在自动驾驶汽车的感知、决策和控制系统中扮演着关键角色。2.3使用百度EasyDL训练神经网络

物联网工程学院平台介绍百度EasyDL是基于飞桨开源深度学习平台,面向企业AI应用开发者提供零门槛AI开发平台,实现零算法基础定制高精度AI模型。EasyDL提供一站式的智能标注、模型训练、服务部署等全流程功能,内置丰富的预训练模型,支持公有云、设备端、私有服务器、软硬一体方案等灵活的部署方式,访问地址为/easydl/。平台介绍EasyDL从2017年11月中旬起,在国内率先推出针对AI零算法基础或者追求高效率开发的企业用户的零门槛AI开发平台,提供从数据采集、标注、清洗到模型训练、部署的一站式AI开发能力。对于各行各业有定制AI需求的企业用户来说,无论您是否具备AI基础,EasyDL设计简约,极易理解,最快5分钟即可上手学会,15分钟完成模型训练。将采集到的原始图片、文本、音频、视频、OCR、表格等数据,经过EasyDL加工、学习、部署后,可通过公有云API调用,或部署在本地服务器、小型设备、软硬一体方案的专项适配硬件上,通过离线SDK或私有API进一步集成,流程如下:平台介绍根据企业用户的应用场景及深度学习的技术方向,EasyDL共推出6大通用产品及1个行业产品:EasyDL图像:适用于图片内容检索、安防监控、工业质检等场景EasyDL文本:适用于文本内容审核、文本自动生成、留言分类、电商评价打分等场景EasyDL语音:适用于区分不同声音类别等场景EasyDLOCR:适用于证照电子化审批、财税报销电子化等场景EasyDL视频:适用于视频内容审核、人流/车流统计、养殖场牲畜移动轨迹分析等场景EasyDL结构化数据:挖适用于客户流失预测、欺诈检测、价格预测等场景EasyDL零售行业版:适用于货架巡检、自助结算台、无人零售柜等场景开发流程AI开发流程是一个系统且复杂的过程,它涵盖了从需求分析、数据准备、模型选择与训练、评估与调优,到最终部署和运营的全生命周期。模型选择EasyDL提供了多种可选择的模型,为了创建可以进行汽车类型识别的模型,在EasyDL主页点击“立即使用”按钮,并在弹出的菜单中选择“图像分类”。数据处理模型选择完成后即可进入EasyDL开发平台,该开发平台提供了包括数据处理、模型训练、服务管理、模型部署在内的多个功能模块。数据处理接下来准备训练模型所需的数据,点击左侧菜单中的“数据总览”管理数据集。平台支持统一纳管自训练模型的数据集,并支持自主版本迭代、数据查看、导入导出和删除等操作。点击右侧“创建数据集”按钮进入数据集创建界面,如下图所示,点击“创建并导入”完成创建。数据处理创建完成后接下来导入数据,既可以使用自己的本地数据集,也可以使用平台提供的数据集,这里我们选择使用平台提供的数据。在“导入方式”一栏选择“公开数据集”,并在“选择数据集”一栏选择“汽车类型分类-->V1”,点击“确认并返回”,如图所示。数据标注导入完成后即可在“数据总览”界面看到所创建的数据集。此时的数据集还未进行标注,也就是图像没有对应的标签,暂时无法用于进行监督学习。点击右侧的“查看”按钮可以看到数据集中的图片,以及可选的标签。用户可以对标签进行编辑,例如新增、修改、删除标签,标签应避免使用中文。可以发现此时的数据集中的图片都是“无标签”状态。如图所示。数据标注回到“数据总览”页面,点击右侧的“标注”按钮进行数据标注。判断图中汽车的类型,在右侧的标签列表中选择对应的标签,并点击“保存当前标注”。如下图所示:智能标注当前数据集含有840张汽车图片,这意味着需要进行840次标注。为了提高工作效率,EasyDL平台提供了智能标注功能,只需要为每个标签标注至少10张图片,即可开启智能标注。智能标注流程为启动智能标注、系统筛选难例、用户标注难例、完成标注。智能标注流程智能标注模型训练点击左侧菜单中的“模型训练”按钮进入训练界面,并点击右侧的“创建任务”按钮,创建训练任务。设置模型名称后描述后点击“下一步”,如下图所示:模型训练在数据准备阶段,选择要使用的数据集,此处可以自定义验证集和训练集,配置完成后点击“下一步”,如右图所示:模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论