人工智能应用概论(第2版) 课件 第三章:机器学习_第1页
人工智能应用概论(第2版) 课件 第三章:机器学习_第2页
人工智能应用概论(第2版) 课件 第三章:机器学习_第3页
人工智能应用概论(第2版) 课件 第三章:机器学习_第4页
人工智能应用概论(第2版) 课件 第三章:机器学习_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章

机器学习

《人工智能应用概论(第2版)》RengongZhinengYingyongGailun“十四五”广西壮族自治区职业教育规划教材

新编21世纪高等职业教育精品教材·通识课系列Part0101机器学习概念Part0202机器学习的工作原理及算法Part0303机器学习分类目

录contentPart01机器学习概念

【课程导入】人类学习与机器学习相同与相异1.1机器学习的定义机器学习是一门多学科交叉专业,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序语音和手写识别、游戏和机器人等领域。1.2机器学习的原理机器学习与人类学习模式相似,如古代诸葛亮夜观天象实现草船借箭、牛顿被苹果砸发现“万有引力”、中国古人发现自然规律的“二十四气节”,春耕秋收。机器学习是一种使计算机能够从数据中学习并做出决策的技术。它通过训练模型来识别数据中的模式和规律,从而实现对未知数据的预测和分类。如人脸识别、猫狗识别、农作物病虫害识别、电路版上瑕疵识别等。1.3机器学习的地位机器学习在人工智能学科体系,乃至计算机科学体系中都占有举足轻重的地位。1.4机器学习的发展历程机器学习发展过程也是人工智能发展的过程,从IBM西洋跳棋人机PK到深度学习神经网络谷歌的阿尔法狗,再到最近的Ai大模型出现。1.5机器学习的分类机器学习是一个比较宽泛的概念,主要包括监督学习、无监督学习、强化学习等。1.6机器学习的算法分类Scikit-learn是机器学习领域中最知名的Python库之一,在学习机器学习的过程中,必绕不开Scikit-learn。Scikit-learn提供了一幅清晰的路线图给大家做算法选择。1.7【课堂练习】【课堂思考】简述机器学习与人类学习有什么相同之处?Part02机器学习的工作原理及算法2.1线性回归算法线性回归算法是一种通过属性的线性组合来拟合图中的点,找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。线性回归的基础概念涉及到统计学和机器学习领域,它利用称为线性回归方程的最小平方函数对一个或多个自变量和一个因变量之间的关系进行建模。2.1线性回归算法【案例】探索学习时长与分数之间的关系。某门课程中学生学习时长(天数)与期末考试分数统计表如表3-2所示。【问题】找出一根线拟合图中的点2.1线性回归算法(1)拟合图中的点有无数条直线,哪条直线是最好拟合图中的点。(2)计算出每个点分别到每条线上的误差之和(3)误差最小的就是最佳的拟合线,该线就是我们的要找的线(方程),该方程是我们的模型。2.2K最近邻分类算法K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。如果K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于红色的三角形一类。如果K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,还是少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于蓝色的正方形一类。2.2K最近邻分类算法

【做一做】使用无监督学习对10000篇新闻报到分析,对其新闻内容特征进行提取,K1科技类、游戏类K2、汽车类K3。请问下黑色点是属于哪个区域?属于哪些新闻?如何分析K1K2K3?2.3决策树算法决策树分类算法的关键就是根据“先验数据”构造一棵最佳的决策树,用以预测未知数据的类别。决策树是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。信用等级决策树算法模型2.4支持向量机SVM算法SVM想要的就是找到各类样本点到超平面的距离最远,也就是找到最大间隔超平面。【案例】使用SVM算法完成水果识别分类。比如红色表示“苹果”,黄色表示“猕猴桃”,那么如何找到一个平面最大化的将两类群体分开,如右图所示,分开有很多种方式,左侧也可以分开,右侧也能分开。但明显的,右侧会“分的更开”,因而如何寻找到这样的一个空间平面,让标签项各类别最为明显的分开,此算法过程即为支持向量机。将点分开时,离平面最近的点要尽可能的远,比如右侧时A点和B点离平面最近,那么算法需要想办法让该类点尽可能地远离平面,这样就称为“分的更好”。左侧时挨着平面最近的两个点离平面太近,所以右侧的分类更好。SVM算法完成水果识别分类2.4支持向量机SVM算法SVM想要的就是找到各类样本点到超平面的距离最远,也就是找到最大间隔超平面(多维)。Part03机器学习分类3.1监督学习【知识回顾】机器学习是一种使计算机能够从数据中学习并做出决策的技术。它通过训练模型来识别数据中的模式和规律,从而实现对未知数据的预测和分类。监督学习(supervisedlearning)是机器学习的一类,给机器学习的训练数据打上标签。房价预测模型:是根据房子的特征来预测房子价格。收集10个房子样本,样本的特征包括有地区、房子大小、年龄等共13个特征,10个房子的房价,作为标签。先将房子13个特征和标签作为值,放入SVM或者决策树算法,由电脑来计算,计算误差最小的方程。我们把这个过程称为监督学习。3.1监督学习监督学习分为回归和分类。回归的预测结果是连续性的,比如房价预测、路程花费时间预测、股价走势预测。监督学习分为回归和分类。分类的预测结果是离散的,比如肿瘤是良性/恶性,邮件是垃圾邮件/非垃圾邮件,天气时好还是坏。3.2无监督学习无监督学习是机器学习中的一种重要方法,与监督学习相对应。它的目标是从无标签的数据中发现隐藏的结构和模式,而不需要预先定义的目标变量。无监督学习的核心思想是通过对数据的统计特性和相似性进行分析,来发现数据中的潜在结构和模式。无监督学习可以分为两类问题:聚类和降维。聚类问题是将数据分成不同的组或簇,使得同一组内的数据相似度高,不同组之间的相似度低。降维问题是将高维数据映射到低维空间,以减少特征维度和数据复杂性。3.2无监督学习电商平台对客户的浏览痕迹、购买数量等特征进行学习分类。Google新闻按照内容结构的不同分成财经,娱乐,体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论