00机器学习初步_第1页
00机器学习初步_第2页
00机器学习初步_第3页
00机器学习初步_第4页
00机器学习初步_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本周导读(第1页/共1页)我的作业目录模式笔记模式本周我们将开始学习机器学习。大多数数据分析师日常处理的工作任务都可以划分为驱动力分析和分类这两类问题。在本周我们将介绍三种最简单、最基本的机器学习算法:决策树、线性回归以及K-means聚类,旨在帮助同学通过这三大机器学习模型解决实际问题,不涉及更多统计理论知识以及其他算法原理。本周课程示例数据Shared Bike Sample Data - ML.zip学完本章,你将收获 了解机器学习的基本知识以及机器学习在数据分析中的应用; 掌握决策树的算法逻辑和算法实现,应用决策树模型解决数据分析问题; 掌握线性回归模型的实操步骤,应用线性回归模型分析实际问题; 掌握K-means聚类算法,通过K-means聚类可以解决分类问题;本周需掌握的重点: 决策树、线性回归以及K-means聚类三种算法的逻辑; 决策树、线性回归以及K-means聚类三种算法的实现; 决策树、线性回归以及K-means聚类三种算法结果分析;关于视频:如果同学认为老师语速较慢,建议1.25倍速观看1. 机器学习简介(第1页/共1页)我的作业目录模式笔记模式作为当下数据领域最热门的分支之一,了解机器学习将有助于数据分析师解决更多分析任务。在本节中,你将了解什么是机器学习,以及机器学习算法在日常生活中可以有哪些广泛的应用?区别于一般模型,机器学习模型在创建过程中有哪些优势呢?监督学习与无监督学习的区别是什么呢?视频问题反馈测试一下【单选题】以下关于机器学习的说法哪个是正确的?A机器学习是编程语言的一种B机器学习是深度学习的一个分支C机器学习可以用来预测D机器学习与人工智能无关提交答案测试一下【单选题】以下哪种算法不属于机器学习?AAdaboost算法B模糊逻辑C随机森林DK最邻近算法提交答案2 机器学习在数据分析中应用(第1页/共1页)我的作业目录模式笔记模式我们已经对机器学习有了基本的认识,在这一节中我们再来了解一下数据分析中的机器学习。本节我们将通过一个对电商网站的高价值用户分析的案例来了解机器学习在数据分析中的定义和应用以及作为一种数据分析方法,机器学习与其他方法相比有哪些特点。视频问题反馈三种常见的数据分析方法:三种主要的数据分析方法的使用特点: 统计分析:防止主观偏好的影响; 机器学习分析:找出不易被人察觉的信息和规律,但不易解释; 图表分析:通过能直接表达信息的表格和图形,来得到分析洞见;机器学习在数据分析中的应用测试一下【单选题】以下关于机器学习的定义哪一项是错误的:A机器学习的理念是在最少的人为干预下做出决策B机器学习是工程学的一个分支C从数据中学习并识别规律D是一种将分析模型构建自动化的数据分析方法提交答案3.1 决策树的理论基础(第1页/共1页)我的作业目录模式笔记模式同学如果看不清视频示例可以下载示例代码:【决策树】示例代码.zip。注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处自己重新敲一遍代码,自己多动手练习才能真正掌握哦!决策树是应用最广的机器学习算法之一。决策树的核心任务是把样本数据分类到可能的对应类别,这种树形结构可以有效帮助数据分析师处理分类问题,基于决策树模型推理出商业洞见。在应用决策树模型时非常重要的一点是测量对应节点的熵。熵用于表示一个随机变量可能出现的期望值,它是随机变量不确定性的度量值。变量的不确定性越大,熵也就越大。在这一节中,老师将用一个非常简单的案例让大家理解熵的概念。视频问题反馈测试一下【单选题】下面关于熵的描述哪个是错误的:A熵是信息不确定性的度量B熵的取值在0-1之间C不确定性越大,熵越大D不确定性越小,熵越大提交答案3.2 决策树的算法实现(第1页/共1页)我的作业目录模式笔记模式在共享单车的案例中,数据分析师需要通过用户特征来划分推荐者,这是一个非常典型的分类问题,应用决策树模型可以非常快速的找出相应的用户特征。在掌握了决策树的算法原理后,接下来我们将在R studio中编辑R的代码跑出决策树模型,并且根据得到的结果分析案例问题。视频问题反馈决策树的本质是一棵由多个判断节点组成的树。在树的每个节点做参数判断,进而在树的最末枝(叶子节点)能够对所关心变量的取值做出最佳判断。用一句话概括:分支做判断,叶子下结论。在共享单车公司的案例中,决策树模型通过人群特征取值的判断,为我们划分出推荐者比例有显著区别的人群,找出了区分推荐者人群的关键特征。我们可以将决策树的结果整理成这种表格的形式,并基于此得出分析结论。4.1 线性回归的基本概念(第1页/共1页)我的作业目录模式笔记模式同学如果看不清视频示例可以下载示例代码:【线性回归】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处自己重新敲一遍代码,自己多动手练习才能真正掌握哦!在上一节我们学习了决策树模型,决策树模型可以用于解决驱动力分析和分类问题。在本节中,你将了解另一个同样被数据分析师广泛应用的机器学习模型线性回归。在本节你需要掌握的重点有: 线性回归的数学公式; 使用最小二乘法选取直线(确定直线参数); 哑变量对于线性回归的重要意义;视频问题反馈关于哑变量的解释:根据R的运行结果,我们可以看到两个城区为朝阳区,组别为对照组没有出现在模型结果里。原因在于在线性回归中,分类变量会自动转换成 分类数目-1个哑变量(dummy variable,取值为0或1的变量)。其中,分类变量转换的某一个哑变量会作为参照点,而不出现在模型结果里(或理解成线性系数为0)。我们可以将线性回归结果表示为:分数 = -7.24 + 0.47 x 年龄 + 0 x (对照组) - 0.97 x (实验组) + 0 x (朝阳区) - 0.09 x (东城区) + 1.40 x (海淀区) + 0.35 x (西城区)其中,Delta函数定义(以组别为例):1x?(实验组) =用户组别=实验组0x?(实验组) =用户组别实验组测试一下【单选题】下面关于哑变量的描述哪项是正确的:A哑变量指变量值为0-1之间的变量B哑变量指含有多个分类的变量C哑变量可以为文字D哑变量值只能为0或1提交答案4.2 实操步骤及重要概念R2(第1页/共1页)我的作业目录模式笔记模式在线性回归实操步骤的第一步选自变量这个环节有两大难点:一是去除多重共线性干扰,二是选择最优自变量组合。在这一步中,你需要了解两个非常重要的概念:R2(决定系数) 和adjusted R2(决定系数)。我们可以通过决定系数来衡量模型拟合数据的好坏。视频问题反馈R2(决定系数)调整R2(adjusted R2 )R2/ 调整R2值区间的经验判断: 小于0.3:非常弱的模型拟合 0.3-0.5:弱的模型拟合 0.5-0.7:适度的模型拟合 大于0.7:良好的模型拟合R2/ 调整R2的应用: 普通R2 - 单自变量建议使用 调整R2(adjusted R2 )- 多自变量建议使用测试一下【单选题】下面关于R平方的描述哪个是错的?A是解释自变量的系数B衡量数据是否适合使用线性模型表示C评估因变量有多大程度能够被模型预测出来D取值范围1D调整R平方值越大,线性关系越弱提交答案4.3 线性回归在数据分析中的实操(第1页/共1页)我的作业目录模式笔记模式在理解了R2和调整R2概念之后,接下来你将了解到如何使用线性回归模型解决数据分析问题。线性回归的第一步是选取模型自变量,在这一步中我们需要先消除多重共线性并且选取最优自变量的组合。进而通过RStudio跑出线性回归模型,根据模型结果,我们可以得到一个线性回归的数学公式以及按照线性回归系数排列的自变量排名。基于这样的结果,数据分析师可以发现不同用户特征对用户所给满意分的影响程度。视频问题反馈检查强多重共线性是否依然存在挑选模型输入自变量线性回归结果如何读取:根据代码运行结果,我们可以的出线性回归公式为:分数 = -7.24 + 0.47 x 年龄 + 0 x (对照组) - 0.97 x (实验组) + 0 x (朝阳区) - 0.09 x (东城区) + 1.40 x (海淀区) + 0.35 x (西城区)根据线性回归系数,我们可以得出例如如下结论:用户的年龄每增加一岁,线性回归模型预测此用户会多给0.47分;用户在实验组,相对对照组会少给0.97分;那如果是多个变量标签应该如何计算呢?例如我们想知道年龄为25岁,组别为实验组,城区为海淀区的用户所给满意分数,计算过程如下:分数=-7.24 + 0.47x 25(年龄)-0.97(实验组)+1.40(海淀区)=4.94 分测试一下【单选题】下面关于多重共线性的说法错误的是:A多重共线性对模型有干扰B解决多重共线性相关的方法是模型中增加新的变量C判断多重共线性的标准是GVIF或VIF大于10D多重共线性的存在会误导强相关变量的线性系数值提交答案测试一下【单选题】下面对回归系数描述正确的是:A回归系数值表示在其他参数不变的情况下,每一个自变量值每增加1,对因变量变化的影响B回归系数值表示在其他参数不变的情况下,每一个因变量值每增加1,对自变量变化的影响C回归系数值越大越好D回归系数值越小越好提交答案5. K-means聚类(第1页/共1页)我的作业目录模式笔记模式同学如果看不清视频示例可以下载示例代码:【k-means聚类】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处自己重新敲一遍代码,自己多动手练习才能真正掌握哦!在前面的学习中我们已经掌握了三大基本模型之二:线性回归和决策树,这一节我们继续学习在数据分析师工作任务中非常实用的模型K-means聚类。在应用K-means聚类模型解决实际问题前,你需要先对K-means聚类的基本概念以及K-means聚类的算法原理有所了解。同时,作为数据分析师你需要在RStudio中跑出K-means聚类模型,并且能够将运行结果进行可视化。通过对运行结果进行分析,你可以得出根据用户特征划分的几类用户作为数据分析师进一步产生洞见的基础!聚类有很多种不同的算法实现方式,本课程介绍的K-means算法是最简单。最易理解的一个,在本门课程中同学主要掌握这种算法就可以了。视频问题反馈聚类结果如何读取:我们可以计算各个聚类下的一些基本统计量,以最显著的特征为聚类的依据。如下所示:聚类ABCDE标签一4020000135030标签二21500012120标签三222000070512针对标签一而言,我们看到在变量A处的值与标签二、三的区别最显著,标签一的分类依据即为变量A;标签二在变量B和变量D处明显区别于其他标签,标签二的分类依据即为变量B和变量D;同理可得,标签三的分类依据为变量C和变量E。当聚类不易区分时,我们采用上述方式划分聚类,但如果可视化的结果非常清晰,我们也可以直接从可视化图形中得出聚类结果。想要了解更加复杂的 K-means 的计算过程的同学可以到这个网站中查看K-means聚类的可视化演示:/class/ee103/visualizations/kmeans/kmeans.html测试一下【单选题】下面关于K means说法正确的是:A属于监督学习B是一种回归方法C可以对目标变量进行预测D主要用于划分观测数据的类别提交答案6. 机器学习的挑战(第1页/共1页)我的作业目录模式笔记模式我们已经学习了三种非常强大的机器学习模型,在今后的学习我们还会掌握其他更加强大的机器学习模型,那是不是掌握这些我们就可以解决全部问题了呢?其实不然,我们在使用机器学习模型完成数据分析项目时同样会遇到一些挑战。视频问题反馈本周总结(第1页/共1页)我的作业目录模式笔记模式本周的课程到这里就愉快的结束啦,让我们一起回顾一下本周学习的内容吧!视频问题反馈本周你需要掌握的重点内容:本周掌握的三种算法模型可以解决的问题:机器学习的定义决策树的算法步骤在决策树这一部分,你还需要掌握“熵”和“信息增益”的概念及计算方法。线性回归的实操步骤在线性回归这一部分,你还需要掌握去除多重共线性的方法以及选择最优自变量组合,同时你需要了解线性回归系数代表的业务洞见。K-means聚类算法原理在K-means聚类这一部分,你还需要了解K-means聚类的实操步骤,了解如何选取参数。上一节1/1下一节作业六机器学习(第1页/共1页)我的作业目录模式笔记模式本周作业数据与本周课程中使用的示例数据一致,已经下载过的同学可以不用重复下载。没有下载示例数据的同学请点击:Shared Bike Sample Data - ML.zip请同学下载本周作业文件:ML作业-题目.zip,本周作业I、II、都需在这个文件中完成。完成作业后请提交作业文件或完成作业代码。在得到用户满意分调研数据后,业务同事想了解不同人群(依据城区、年龄和组别)所给的满意分数的差异。数据分析师在接到业务同事的需求后,认为可以用决策树模型来对人群进行分类,进而预测不同人群所给的满意分数数值,找出不同人群之间的差异。测试一下【单选题】数据分析师需要使用决策树模型预测不同人群所给的满意分数,下列哪一项可以是运行该决策树的代码:Artree_fit - rpart(分数 城区+年龄+组别, data=survey.sample.data)Brtree_fit - rpart(推荐者 城区+年龄+组别, data=survey.sample.data)Crtree_fit - rpart(年龄 城区+分数+组别, data=survey.sample.data)Drtree_fit - rpart(推荐者 城区+分数+组别, data=survey.sample.data)提交答案测试一下【单选题】根据上一题的运行结果,我们得到了如下所示的可视化视图。现在业务同事想将人群分成四类来看是否有不一样的业务洞见。请同学们在R中尝试,帮助数据分析师完成决策树参数的调整:Acontrol=rpart.control(maxdepth = 2)Bcontrol=rpart.control(minsplit = 2)Ccontrol=rpart.control(minbucket = 20)Dcontrol=rpart.control(maxdepth = 4)提交答案课间思考作业请根据前两题的提示,在 RStudio 中写出完成本次分析(用决策树模型来预测不同人群所给的满意分数,将受访用户划分为四个人群)的代码,并将运行结果可视化呈现,根据可视化结果得出你的分析结论。请将你的分析结论汇报给业务同事,汇报内容包括:1.决策树模型运行代码2.模型结果可视化视图3.基于模型结果产生的业务洞见(可以参考课程中的表格+文字)我的回答写作业上一节1/1下一节作业六机器学习(第1页/共1页)我的作业目录模式笔记模式本周作业数据与本周课程中使用的示例数据一致,已经下载过的同学可以不用重复下载。没有下载示例数据的同学请点击:Shared Bike Sample Data - ML.zip请同学下载本周作业文件:ML作业-题目.zip,本周作业I、II、都

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论