Python工程应用-数据分析基础与实践课件-第1章_第1页
Python工程应用-数据分析基础与实践课件-第1章_第2页
Python工程应用-数据分析基础与实践课件-第1章_第3页
Python工程应用-数据分析基础与实践课件-第1章_第4页
Python工程应用-数据分析基础与实践课件-第1章_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章概论西华大学机器学习第一章机器学习概述XXX学校XXX2022目录Contents什么是机器学习机器学习的应用机器学习研究内容问题的常规处理方法各概念间关系

本章知识图谱3什么是机器学习一1.1什么是机器学习5故事一:瑞雪兆丰年第一年冬天:下大雪第二年收获季节:大丰收冬天:没怎么下雪第三年收获季节:颗粒无收冬天:下大雪第四年收获季节:大丰收冬天:下大雪现象1:头一年瑞雪现象2:来年丰收现象间的规律1.1什么是机器学习6故事二:挑芒果颜色大小产地形状物理属性:品质:甜多汁1.1什么是机器学习7故事二:挑芒果if(颜色是嫩黄and尺寸是大的and购自最喜欢的小贩):芒果是甜的if(软的):芒果是多汁的……计算机程序:1.1什么是机器学习8机器学习过程人类的归纳过程机器学习的应用二2.1图像和计算机视觉101、ImageNet竞赛和WebVision竞赛2、物体识别与目标跟踪3、辅助成像和艺术创作2.2日常生活及消费112.3金融领域12分析股票信用评价保险行业欺诈检测房地产行业2.4医疗领域13辅助诊断临床实验新药研发个性化用药2.5自然语言处理14自然语言处理的研究内容非常广泛,主要包括以下几个方面:句法语义分析信息提取文本挖掘机器翻译信息检索问答系统对话系统文本自动摘要

自然语言生成2.6安全和异常行为检测152.7工业和商业领域162.8娱乐领域17智能音响视频网站动画游戏机器学习主要研究内容三3.1机器学习的主要研究内容

机器学习研究的是从已有数据中通过选取合适的算法进行学习,自动归纳逻辑或规则,并根据这个归纳的结果对新数据进行预测。机器学习包含了三个基本的要素,即数据、算法和模型。

机器学习包含了监督学习、非监督学习和强化学习几种类别。3.1机器学习的主要研究内容监督学习(SupervisedLearning),又称为有监督学习,它是从有标记的数据中进行模型学习,然后根据这个模型对未知样本进行预测。算法模型输入输出数据中提取的样本特征样本对应标签3.1机器学习的主要研究内容非监督学习(UnsupervisedLearning),又称为无监督学习,它和有监督学习的最大区别在于输入样本没有经过标记,需要自动从样本中进行学习。非监督学习不局限于解决有正确答案的问题,所以目标可以不必十分明确。它常常被用于视频或者音频内容分析、社交网络分析等场合。3.1机器学习的主要研究内容半监督学习(Semi-SupervisedLearning),是一种介于监督学习和非监督学习当中的机器学习方法。半监督学习使用大量的未标记数据,同时使用一部分标记数据来进行学习。标记数据监督学习方法未标记的数据3.1机器学习的主要研究内容强化学习(ReinforcementLearning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。强化学习也是使用未标记的数据,但是可以通过某种方法(通常是奖惩函数)知道结果离正确答案越来越近还是越来越远。机器学习问题的常规处理方法四4.1开发机器学习应用的一般步骤254.2如何选择合适的算法264.3使用Python开发机器学习应用27

Python有2.X和3.X两个大的版本,其代码不完全兼容,因此在选择开发环境和版本的时候,会对初学者造成一定的困扰。本书中的案例代码都是在3.X下实现并调试通过的,本书将在附录中详细介绍环境的搭建问题。建议:按附录A第2种方法安装4.4机器学习模型的评价281.分类任务

分类是最常见的机器学习任务,针对分类任务的常见的评价指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1-score)、ROC曲线和AUC曲线等。

首先介绍混淆矩阵的概念。如果用的是二分类的模型,那么把预测情况与实际情况的所有结果两两混合,结果就会出现以下4种情况,就组成了混淆矩阵。4.4机器学习模型的评价291.分类任务

实际结果阳性(1)阴性(0)预测结果阳性(1)TP(真阳性)FP(假阳性)阴性(0)FN(假阴性)TN(真阴性)4.4机器学习模型的评价301.分类任务

记N为总体,即N=TP+FP+FN+TN(1)准确率

准确率的定义为预测正确的结果占总样本数的百分比,用上述概念来表示则有:4.4机器学习模型的评价311.分类任务

记N为总体,即N=TP+FP+FN+TN(2)精确率

精确率,又叫精准率或者查准率,它是针对预测结果而言的,其含义是在所有被预测为正的样本中实际为正的样本的概率,意思就是在预测为正样本的结果中,我们有多少把握可以预测正确,其计算公式为:4.4机器学习模型的评价321.分类任务

记N为总体,即N=TP+FP+FN+TN(3)召回率

召回率,又叫查全率,它是针对原样本而言的,它的含义是在实际为正的样本中被预测为正样本的概率,其计算公式为:4.4机器学习模型的评价331.分类任务

记N为总体,即N=TP+FP+FN+TN(4)F1分数F1分数是精确率和召回率之间的调和平均值,其范围是[0,1],具体的计算公式如下:4.4机器学习模型的评价342.回归任务

在回归问题中,预测值通常为连续值,其性能不能用分类问题的评价指标来评价,通常用均方误差(MSE)、均方根误差(RMSE)和平均绝对误差(MAE)等来评价回归模型的性能。其中均方误差表示所有样本的样本误差的平方的均值,均方根误差即对于均方误差开方,平均绝对误差表示所有样本的样本误差的绝对值的均值。MSE、RMSE和MAE越接近0,模型越准确。假定有m和样本,h(xi)表示第i个样本的预测值,yi表示第i个样本的实际值,那么上述三个指标的计算公式如下:4.4机器学习模型的评价352.回归任务

(1)均方误差(MSE)

(2)均方根误差(RMSE)

4.4机器学习模型的评价362.回归任务

(3)平均绝对误差(MAE)

4.4机器学习模型的评价373.聚类任务

聚类模型的评价方式大体上可分为外部指标和内部指标。(1)外部指标

1)杰卡德相似系数(JaccardSimilarityCoefficient)

Jaccard系数为集合之间的交集与它们的并集的比值,取值在[0,1]之间,值越大相似度越高。Jaccard距离用于描述集合之间的不相似度,距离越大相似度越低。计算公式如下:4.4机器学习模型的评价383.聚类任务

聚类模型的评价方式大体上可分为外部指标和内部指标。(1)外部指标2)皮尔逊相关系数(PearsonCorrelationCoefficient)

衡量两个正态连续变量之间线性关联性的程度,取值在[-1,1]之间,越接近1或-1,相关度越强,计算公式如下,其中Cov(X,Y)表示X和Y的协方差,D(X)表示X的方差。4.4机器学习模型的评价393.聚类任务

聚类模型的评价方式大体上可分为外部指标和内部指标。(1)内部指标

内部指标是无监督的,不需要基准数据集,也不需要借助于外部参考模型,仅利用样本数据集中样本点与聚类中心之间的距离来衡量聚类结果的优劣。内部指标主要有:紧密度(Compactness)分割度(Seperation)戴维森堡丁指数(Davies-bouldinIndex,DBI)邓恩指数(DunnV

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论