人工智能通识导论(理论篇)课件 第2章-让机器思考:机器学习的萌芽_第1页
人工智能通识导论(理论篇)课件 第2章-让机器思考:机器学习的萌芽_第2页
人工智能通识导论(理论篇)课件 第2章-让机器思考:机器学习的萌芽_第3页
人工智能通识导论(理论篇)课件 第2章-让机器思考:机器学习的萌芽_第4页
人工智能通识导论(理论篇)课件 第2章-让机器思考:机器学习的萌芽_第5页
已阅读5页,还剩110页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章让机器思考团结创新共赢机器学习的萌芽1目录Introduction0101初识机器学习0303分类0202聚类0404回归机器学习与人类学习初识机器学习模仿机器学习的定义初识机器学习

不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域。

塞缪尔(ArthurLeeSamuel)

开发了一个可以自我学习的西洋跳棋程序,这个程序也是世界上第一个能够自我对弈的程序。机器学习的定义初识机器学习汤姆·米切尔(TomMitchell)机器学习之父、卡内基梅隆大学计算机学院院长

一个计算机程序,由一些任务(T)中的表现(P)来度量,通过经验(E)学习改进。机器学习模型初识机器学习机器学习会尝试从输入和输出数据之间挖掘关联关系,并不断验证和迭代更新。一旦通过检验,这种关系规则则会被固化为数学模型。数据的“属性”数据的“答案”机器学习与传统编程初识机器学习让机器用人类归纳的经验、规则解决问题让机器自己学习经验和规则机器学习三要素初识机器学习模型定义了学什么算法定义了怎么学策略定义了何时结束学习“啥时候学到头?”得到最优模型“如何能最优?”“学来做什么?”人工智能、机器学习和深度学习的关系初识机器学习

机器学习是人工智能的一个分支,也是人工智能的一种实现方法,而深度学习是一种实现机器学习的技术。下列关于人工智能、机器学习、深度学习关系描述正确的是机器学习和深度学习分别属于人工智能的不同领域A人工智能包含机器学习,机器学习包含深度学习B机器学习和深度学习的交叉领域即为人工智能C机器学习是深度学习研究领域重要的分支之一D提交单选题5分机器学习的分类初识机器学习机器学习监督学习无监督学习强化学习分类回归聚类机器学习——监督学习初识机器学习机器学习——无监督学习初识机器学习机器学习——强化学习初识机器学习

强化学习是智能体(Agent)在当前的状态(state)下,通过与环境的交互和相应的策略,采取行动(action),获得一定的奖赏(reward),并根据奖赏来决定自己下一步的状态,是一个不断追求更好的学习模型。机器学习——强化学习初识机器学习数据、信息与知识初识机器学习数据是可以被记录和识别的一组有意义的符号,是对客观事物的逻辑归纳,可以用来表示一个事实、一种状态、一个实体的特征,或一个观察的结果。数据、信息与知识初识机器学习信息由数据加工得来的,是数据结合语义反映出的有意义的内容。90信

息数

据数据、信息与知识初识机器学习知识是对信息的提炼和概括,它是高度概括的信息。考得不错真苗条长寿数据、信息与知识初识机器学习

知识图谱可以通过图技术把人类知识表达出来,它是一个庞大的图形网络知识库,由“实体-关系-实体”的三元组组成,用来描述各种实体以及它们之间的关系。样本与特征初识机器学习

数据集是指按特定要求采集和组织起来的一组数据,每一组数据称为一个样本,每个样本由若干个特征组成。样本特征特征编码初识机器学习

通常情况下,我们收集到的数据可能是各种不同的类型,比如数值、文字和符号。但对于机器学习来说,它能处理的数据只能是不同的数值,因此需要将原始数据转换为机器学习可以理解和处理的特征。二值化,比如用0表示“女”,用1表示“男”(适用于多元取值的特征)特征归一化与标准化初识机器学习

血压一般以10为单位进行变化,而血糖以0.1为单位进行变化,那么与血压相比,血糖的变化对模型的影响可能微乎其微。因此非常有必要进行数据的缩放,以消除量纲的影响。特征归一化初识机器学习

特征归一化是对数值型特征进行处理的一种方法,它将数据映射到[0,1]的范围内。归一化非常依赖最大最小值,因此对特征中的异常值非常敏感特征标准化初识机器学习

特征标准化又称作中心化,核心就是把数据都转换到0值的附近。为原特征的均值,SD为原特征的标准差标准化依赖于标准差,能减少异常值对模型的影响。特征归一化与标准化初识机器学习归一化标准化计算过程使用最小值和最大值来缩放使用平均值和标准差来缩放数据分布不改变原始数据的分布,平均值、标准差不固定将数据分布在平均值为0,标准差为1结果范围数据介于[0,1]和[-1,1]之间数据不受特定范围的限制,但大致在[-3,3]之间异常值影响对异常值非常敏感相对不敏感机器学习的步骤初识机器学习机器学习的步骤初识机器学习

数据决定了机器学习的上限,算法只是尽可能逼近这个界限。

通过直接调查获得的原始数据,称为一手数据或直接的统计数据;由别人调查得到的数据,或将原始数据进行加工和汇总后公布的数据,称为二手数据或间接的统计数据。机器学习的步骤初识机器学习众包——数据收集和处理的新方式机器学习的步骤初识机器学习机器学习的步骤初识机器学习中位数:将数据按大小顺序排列后处在中间位置的数,描述数据的中等水平。众数:集合中出现频率最高的数值,描述数据的一般水平。均值:方差:标准差:初识机器学习机器学习的步骤初识机器学习机器学习的步骤初识机器学习机器学习的步骤初识机器学习机器学习的步骤可以通过模型的“泛化能力”评估模型的好坏。“泛化能力”是指一个模型对未见过的数据或新情况的适应能力,即模型在训练集之外的数据上的表现。它反映了模型学习到的规律和特征的普适性和推广性。初识机器学习机器学习的步骤“好”的要求模型预测的偏差尽量小,偏差代表了模型的预测期望与真实结果的偏离程度。为了能够充分利用数据,就要想办法让模型预测的方差尽量小,方差代表了数据变动所导致的模型性能的变化,它刻画了数据变化所造成的影响。初识机器学习机器学习的步骤

模型都会受到噪声干扰。噪声是指数据中包含的错误或异常值,这些噪声会干扰模型的学习和预测能力,导致模型的性能下降。模型无法完全去除数据中的干扰噪声,而是要考虑在有噪声的情况下,如何尽可能提高识别的准确率,这就需要很好地平衡并处理好信息和噪声的关系。初识机器学习机器学习的步骤

拟合是指统计模型和已知的观察结果相吻合的程度。当模型过拟合时,意味着它把噪声误判为了信息。当模型欠拟合时,说明它错过了本该捕捉到的信息,即学习不到位。聚类什么是聚类

聚类是一种典型的无监督学习算法,通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(Cluster)。聚类聚类的应用聚类K-Means聚类

K-Means聚类算法在没有标签数据的前提下,使算法根据样本距离的远近将数据集最优地划分为k个簇(k需要预先设定)。聚类K-Means聚类1、随机初始化k(k=2)个聚类中心聚类K-Means聚类2、计算数据点到聚类中心的距离聚类K-Means聚类曼哈顿距离欧氏距离切比雪夫距离欧氏距离曼哈顿距离切比雪夫距离设有两个样本X={x1,x2,x3,…,xn},Y={y1,y2,y3,…,yn}聚类K-Means聚类3、将每个数据归并到与其距离最短的聚类中心所在的聚类集合中,数据划分为两类。聚类K-Means聚类4、更新聚类中心。计算每个聚类集合中所有数据点的坐标均值,即为该聚类集合新中心。聚类K-Means聚类5、重新计算每个点到新聚类中心的距离。聚类K-Means聚类6、重复以上过程,达到停止条件时终止迭代。

聚类迭代的停止条件判断并不唯一,通常有以下两种:(1)达到最大迭代次数(2)聚类中心不再变化组内高相似,组间大差别每个数据点到其所属簇的中心的距离平方和(SSE)越小越好无监督学习中的聚类算法试图将数据点分成不同的“簇”,这些“簇”是基于____定义的。数据点的物理位置A数据点的标签B用户预定义的规则C数据点之间的相似性D提交单选题5分聚类K-Means聚类不足之处:需要提前指定K值随机的初始中心可能会影响聚类结果重复计算簇中心,计算开销较大肘部法则肘部k值后,SSE的下降速度会逐渐变慢;但k值增加,计算复杂度也会增加。聚类鸢尾花聚类鸢尾花数据集(IrisDataset)是机器学习中一个著名的经典数据集。聚类鸢尾花聚类

鸢尾花数据集包含3类共150条记录,每类各50个数据。每条记录都有4项特征:花萼长度(SepalLength)、花萼宽度(SepalWidth)、花瓣长度(PetalLength)、花瓣宽度(PetalWidth),和所属类别(Class)(山鸢尾iris-setosa,变色鸢尾iris-versicolour,维吉尼亚鸢尾iris-virginica)。特征标签聚类鸢尾花聚类原始数据散点图聚类鸢尾花聚类

选择花瓣长度(PetalLength)和花瓣宽度(PetalWidth)两个特征,使用K-means聚类算法(k=3),将样本数据聚为0、1、2三类,分别与iris-setosa、iris-versicolour和iris-virginica对应。分

类什么是分类分类是一种监督学习算法,它能根据输入数据的特点,将它们归到有限个提前定义好的类别中。伯乐通过马的身材高矮、四肢长短等身体特征好马或差马?分

类决策树决策树(DecisionTree)是一类常见的分类算法,基于树结构来进行决策。一棵决策树一般包含一个根节点、若干个内部节点和若干个叶子节点。每个内部结点表示一个属性上的测试,每个叶子节点代表一种类别。分

类决策树分

类信息熵

“熵”(entropy)在希腊语中的含义是“变化”或“进化”,是由热力学中的概念而来的,中译名“熵”是由我国物理学家胡刚复创造的一个形声字。信息熵是对信息杂乱程度的量化描述。

表示能量和温度

用数学上的除法得到的比值,即热能相对温度的变化率。分

类信息熵分

类信息熵信息增益=划分前的熵-划分成子集后的熵信息增益量越大,说明消除的不确定性就越多,意味着这种划分方式更好。分

类构建是否外出打球的决策树14天中有5天不会外出打球,9天外出打球,所以原始熵为:选哪个特征作为树根?分

类构建是否外出打球的决策树分

类构建是否外出打球的决策树信息增益最大分

类构建是否外出打球的决策树如果天气晴且湿度大不外出打球分

类决策树的应用

以医疗诊断为例,糖尿病是以高血糖为主要特征的代谢性疾病,在我国具有较高的发病率。医生需要根据患者的葡萄糖耐受力测试、BMI指数、年龄和家庭病史等做出决策:该患者是否患病?分

类决策树的应用

银行和金融机构会使用决策树来评估客户借贷申请的风险,通过分析申请人的信用历史和收入等情况,预测客户是否会违约。

借贷历史优良&收入水平高,或者借贷历史差&收入水平高&贷款额低,银行预测其可能不会违约,并因此通过该客户的贷款申请。分

类决策树若数据集发生变化树结构可能会变化单棵决策树性能不够稳定!!分

类随机森林

随机森林是一种集成学习算法,它通过构建多个决策树并结合它们的预测结果来提高模型的准确性和稳定性。随机森林通过多树投票机制确定最终结果分

类随机森林随机数据:每颗树不是用全部数据,而是用从数据中“随机抽取”的一部分。随机特征:每颗树在分裂时,只随机挑选部分特征来做判断,而不是用所有特征。随机森林=多颗随机化的决策树+集体智慧(投票或平均)分

类随机森林与决策树分

类贝叶斯公式贝叶斯定理的提出者英国数学家托马斯·贝叶斯(1702-1761)

人对某一事件未来会发生的认知,大多取决于该事件或类似事件过去发生的频率。P(A)是事件A的初始概率,称为先验概率。B是新出现的一个事件,它会影响事件A。P(B|A)表示当A发生时B的概率,它是一个

条件概率。P(A|B)表示当B发生时A的概率,它后验概率。贝叶斯公式:分

类贝叶斯公式分

类朴素贝叶斯

如果来了第6位病人,是一个打喷嚏的建筑工人,那么他可能得的是感冒还是脑震荡呢?分

类朴素贝叶斯假设“打喷嚏”和“建筑工人”这两个特征相互独立。打喷嚏的建筑工人是感冒的可能性:P(感冒|打喷嚏✖️建筑工人)=P(打喷嚏✖️建筑工人|感冒)*P(感冒)P(打喷嚏✖️建筑工人)分

类朴素贝叶斯分母是完全相同的,所以只需要比较分子的大小,就可以知道谁的概率大!P(感冒|打喷嚏✖️建筑工人)=P(打喷嚏|感冒)*P(建筑工人|感冒)P(打喷嚏✖️建筑工人)P(脑震荡|打喷嚏✖️建筑工人)=P(打喷嚏|脑震荡)*P(建筑工人|脑震荡)P(打喷嚏✖️建筑工人)2/31/301/2分

类预测是否外出基于天气数据集,预测天气为晴天、温度高和有风时是否适合外出?分

类预测是否外出计算先验概率:分

类预测是否外出计算条件概率:当不外出时,温度高的概率当外出时,天气是晴天的概率分

类预测是否外出

当天气为晴天、温度高和有风时不适合外出!分

类贝叶斯算法的应用

贝叶斯推理在密码破译、医学诊断、电商推荐、垃圾邮件识别、金融投资决策等领域有着广泛的应用,并且它在人工智能和计算光学成像领域也扮演重要角色。依托于分布在全球各处的8个天文射电望远镜采集的数据,通过对黑洞的科学认知,从中猜测出一张“合理的”照片成为可能。重建黑洞照片分

类分类模型评估

对一个分类模型,人们有时会看重其判断正确的能力,而有时则更关注它决策错误的风险。仅仅依靠精确性来评价分类结果是有缺陷的,尽管它客观,但没有考虑执行决策的后果。我们希望找到一种平衡风险和收益的方法,因为在某些场合下,大致的正确比精确的错误更好。分

类分类模型评估准确率=4/5=0.8挑出的好瓜中有多少比例是真正的好瓜?所有好瓜中有多少比例被挑出来了?分

类混淆矩阵

对于二分类问题,其中一种分类称为正类(Positive),另外一种分类称为负类(Negative),两者是相对而言的,没有绝对性。分

类混淆矩阵精确率召回率分

类查准率与查全率不能接受漏报,提高查全率不能接受误检,提高查准率地震预报疾病检测商品推荐垃圾邮件检测人脸识别分

类P-R曲线

查准率和查全率是一对矛盾的度量。实际中更常用的是F1分数(F1score)度量,同时兼顾了分类模型的查准率和查全率,它是基于查准率和查全率的调和平均数,值越大意味着模型越好。B<AP-R曲线直观地显示出学习器在样本总体上的查全率、查准率。回归数据的相关性

相关性是统计学上的一个概念,它是指一个变量变化的同时,另一个因素也会伴随发生变化,体现了两个事物之间相互关联的程度。

回归皮尔逊相关系数注意:如果两个变量本身就是线性的关系,皮尔逊相关系数能说明相关性强弱。但在不知道这两个变量是什么关系的情况下,即使皮尔逊相关系数值很大,也不能说明这两个变量线性相关,甚至不能说它们相关。回归什么是回归

回归是分析变量之间相互关系的一种方法,是一种监督学习算法。通过回归可以:解释已有规律预测未知和未来回归一元线性回归

在回归分析中,如果只包含一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。存在多条直线,哪条合适?回归最小二乘法

在给定原始数据的情况下,最小二乘法的目的就是在函数图像上,尝试找出一条“最佳”的直线(或平面),使得直线(或平面)到原始数据点之间的距离平方和尽能小。回归房屋价格预测最小二乘法:回归多元线性回归

如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。回归多元线性回归回归共线性问题

多元线性回归模型里的自变量之间应该是各自独立的,不应该高度相关。如果其中有两个变量之间存在高度相关性会导致对系数的估计不准确,这个就被称为共线性问题。减少一个变量回归线性回归的应用预测分析

用于预测数值型的结果,如零售商可以根据历史销售数据预测未来销售额。趋势分析

通过时间序列数据拟合线性回归模型,可以识别出数据的长期趋势(上升或下降),如股票价格随时间的变化趋势、流行病的发展趋势等。回归线性回归的应用因果关系分析

可以帮助确定一个或多个自变量对因变量的影响程度,如农业科学家可以通过线性回归量化不同因素对农作物产量的贡献,从而优化种植策略。数据简化

可以将复杂的数据关系简化为线性关系,如在数据分析初期,线性回归可以帮助快速理解数据的主要特征和关系。回归逻辑回归

如果目标变量y是分类型变量,如预测用户的性别(男、女),预测月季花的颜色(红、白、……),那就需要用分类算法;如果y是连续型变量,如预测用户的收入(4千,1万,2万,……),预测员工的通勤距离(500米,1000米,……),那就需要用到回归模型。分类问题也可以转化为回归问题回归逻辑回归

逻辑回归(LogisticRegression)虽然是一个实现二分类的分类模型,但它首先要通过一个线性函数来计算数据样本属于某个类别的概率值,从而根据此概率值来判断是否属于此类别(称为正例)或者另外一个类别(称为反例),这也是它为何会称为“逻辑回归”的原因。提高阈值回归逻辑回归

逻辑回归需要构造一个函数,可以将(-∞,+∞)里的函数值映射到(0,1)的区间范围内。回归逻辑回归

数据集中出现了一些非常小的肿瘤样本时,就有可能导致线性回归模型发生改变,为了减小平均误差,回归线要向0的方向稍作移动。因此,这个阈值点对应的肿瘤大小也会向左发生移动,这就导致了原来是非恶性的样本被判断为恶性。回归逻辑回归

sigmoid函数既能够更好地拟合以概率为基础的分类结果,又能够抑制两边比较接近0和1的极端样本,使之钝化,同时还必须保持函数拟合时对中间部分数据细微变化的敏感度。回归逻辑回归的应用金融领域在信用评估中,逻辑回归可以根据客户的个人信息、财务状况等因素,预测客户是否有能力按时还款。医疗领域在疾病预测中,逻辑回归可以根据患者的症状、体征等因素,预测患者是否患有某种疾病。电商领域在商品推荐中,逻辑回归可以根据用户的购买记录、评价等因素,推荐符合用户喜好的商品。回归回归模型的评估决定系数

决定系数R²是衡量回归模型拟合程度的统计量,它表示回归模型对真实值的拟合程度,代表了模型中因变量可由自变量解释的百分比。

越大越好回归回归模型的评估均方误差

均方误差(MSE)是衡量模型预测误差的一种常用指标,它是预测值与真实值差的平方的平均值,用于衡量模型预测的准确性。MSE值越接近于0,说明模型预测误差越小。均方根误差(RMSE)是均方误差的算术平方根。回归回归模型的评估平均绝对误差

平均绝对误差(MAE)是预测值与真实值差的绝对值的平均值,对异常值的敏感度较低且易于理解。其值越接近于0,表示模型预测的准确率越高。获校重点建设教材立项1项本章小结106机器学习是让计算机具备从数据中学习并提升自我性能的能力。通过对大量数据的分析和学习,机器学习算法能够自动地找出数据中的规律和模式,并据此进行预测、分类、决策等任务。尽管传统机器学习方法现在面临着诸多挑战,但其理论与方法依然具有重要的研究价值和应用前景。一方面,其理论成果可以为深度学习等新兴技术提供借鉴和启示;另一方面,在数据规模适中、问题相对简单的场景下,传统方法仍然具有高效、可靠的优势。算法伦理与数据治理算法偏见算法偏见是指算法系统在设计、数据或决策过程中,由于数据集、算法设计缺陷或者人为因素,导致对特定群体产生系统性不公平结果的现象。

1)数据集样本不足,样本不均衡,样本存在歧视性关联等2)选择与偏见相关特征,或通过“代理变量”留下算法漏洞3)在数据集标注、算法权重和阈值等参数的设定、目标函数的优化过程中融入人为偏见算法伦理与数据治理算法偏见-COMPAS错误标记为“高风险”的比例错误标记为“低风险”的比例黑人45%28%白人23%48%

*COMPAS,用于预测被告的再犯风险,辅助法官决定量刑、保释或假释。算法伦理与数据治理算法偏见-物体识别Azure

:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论