机器学习实践教程高职全套教学课件_第1页
机器学习实践教程高职全套教学课件_第2页
机器学习实践教程高职全套教学课件_第3页
机器学习实践教程高职全套教学课件_第4页
机器学习实践教程高职全套教学课件_第5页
已阅读5页,还剩167页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章数值计算基础全套可编辑PPT课件第01章数据计算基础.pptx第02章数据分析.pptx第03章数据可视化.pptx第04章线性模型.pptx第05章朴素贝叶斯.pptx第06章支持向量机.pptx第07章决策树.pptx第08章聚类分析.pptx第09章集成学习.pptx第10章房价预测.pptx第11章手写数字识别.pptxPython列表与NumPy数组Broadcasting(广播)两个规格不同的数组如何做算术运算?广播的含义是“较小”的数组扩展成与“较大”数组相同规格的数组。SimplestBroadcasting广播的条件广播会从右往左进行,逐个匹配对应的维度,判断是否兼容,若发现不兼容,则报错。两个维度满足下面条件之一,即被认为是兼容的:两个维度值相同。其中之一的值为1。

判断是否满足广播的条件假设a数组的形状为(2,5,3),下面两个数组能否与a做运算?(2,5,1)(1,3)数组a(5,1)和b(1,6)从右往左来考虑数组a首先拿到的维度是1,数组b首先拿到的维度是6。NumPy会把a[:,0]复制6次。取形状中的第二个维度,这时数组a拿到的维度是5,数组b拿到的维度是1。NumPy会把b[0,:]复制5次。a(5,6)和b(6,)数组b其实就是一维数组,你可以看成是形状为(1,6)的数组。数据b会被扩展,NumPy会把b[:]复制5次。a(5,6)和标量b标量可作任意扩展,NumPy会把b重复多次,扩展成(5,6)。第2章数据分析SeriesSeries由一维数组及索引组成。DataFrameDataFrame可看作是由Series组成的字典。所有Series共享相同的index。使用时类似于关系数据库中的表。四个常用方法describe()value_counts()map(fn)apply(fn)map与applySeries中有map,DataFrame中没有map,可用apply来实现。apply方法使用时需要指定axis。0or‘index’:applyfunctiontoeachcolumn.1or‘columns’:applyfunctiontoeachrow.两种选择操作符基于索引的选择(index-basedselection)iloc基于标签的选择(label-basedselection)loc它们有什么区别?df.iloc[0:100]df.loc[0:100]第3章数据可视化导入Figure表示图形,包含了Axes,artists,canvas。创建Figure的办法:Axes和AxisAxes是用数据画出来的图形。Axes由一个或多个Axis组成。Axis即为轴(如x轴、y轴等)。ArtistArtist表示一切可见的元素。比如:Text对象,Line2D对象,Patch对象等。大多数Artist会与Axes绑定在一起,不能共享,也不能移动。面向对象风格pyplot风格选哪种风格?两种风格功能相同不要混合使用,坚持一种风格交互式环境下(jupyternotebook)以pyplot风格为佳大型Python项目中以OO风格为佳MACD指标异同移动平均线(MACD)MACD(MovingAverageConvergenceandDivergence)利用收盘价的短期(常用为12日)指数移动平均线与长期(常用为26日)指数移动平均线之间的聚合与分离状况,对买进、卖出时机作出研判的技术指标。MACD线的计算公式MACD=12-Period

EMA

26-Period

EMA金叉与死叉MACD金叉MACD由下向上突破signal,为买入信号。MACD死叉MACD由上向下突破signal,为卖出信号。第4章线性模型什么是机器学习从数据生成规则、发现模型帮助我们预测、判断、分组和解决问题特征与标签特征(feature)-自变量标签(label)-因变量机器学习算法分类监督学习(supervisedlearning)训练数据集全部有标签无监督学习(unsupervisedlearning)训练数据集没有标签半监督学习(semi-supervisedlearning)在训练数据集中,有的数据有标签,有的数据没有标签监督学习的分类回归问题标签是连续数值预测房价、股价等分类问题标签是离散性数值手写数字识别、鉴别真伪等什么是强化学习从环境给它的奖惩中学习反复试错、不断收集反馈,收集可供自己学习的信号,每经过一个训练周期,都变得比原来强一点深度学习使用深层神经网络算法的机器学习模型能对非结构的数据集进行自动的复杂特征提取CRISP-DM线性模型线性数据模型公式均方误差(MeanSquaredError)作出预测两个衡量指标均方误差(MeanSquaredError,MSE)

平均绝对误差(MeanAbsoluteError,MAE)Bootstrap方法应用场景不知道总体的分布。想知道总体的某些特征。Bootstrap应用步骤采用重复抽样技术从总体中抽取一定数量的样本。根据抽出的样本计算待估计的统计量。重复上述N次(一般大于1000),得到N个统计量。计算上述N个统计量的样本方差,以此估计统计量的方差。岭回归(RidgeRegression)代价函数(CostFunction)LASSO回归代价函数方差与偏差(biasandvariance)偏差方差窘境(bias-variancedilemma)逻辑回归(LogisticRegression)线性回归与逻辑回归Sigmoid函数逻辑回归与线性回归线性回归只能用于回归问题,逻辑回归更多用于分类问题。线性回归要求y是连续的,而逻辑回归要求y是离散的。线性回归要求X和y呈线性关系,而逻辑回归没有这种要求。线性回归可以直观的表达,逻辑回归则不能。混淆矩阵(ConfusionMatrix)第5章朴素贝叶斯问题某种特定的癌症的患病率为0.1%。现有一检测方法:患者中检测为阳性的概率为95%。健康人群中检测为阳性的概率为2%。如果被检测为阳性,实际患上这种癌症的概率是多少?计算患癌概率贝叶斯公式P(H)被称为先验概率(priorprobability)P(D|H)被称为似然概率(likelihoodprobability)P(H|D)被称为后验概率(posteriorprobability)三个概念朴素贝叶斯计算案例身高“高”体重“中”鞋码“中”是男还是女?词频TF一个单词在文档中出现的次数。逆向文档频率IDF一个单词在文档中的区分度。TF-IDF值TF-IDF=TF*IDF

词项在少数文档中多次出现时,权重值最大,区分能力最强。

词项在一篇文档中出现次数很少,或在很多文档中出现,权重值次之,或者说区分能力一般。词项在所有文档中都出现,权重值最小。计算TF-IDF假设一个文件夹里一共有10篇文档,其中一篇文档有1000个单词,“this”这个单词出现20次,“bayes”出现了5次。“this”在所有文档中均出现过,而“bayes”只在2篇文档中出现过。我们来计算一下这两个词语的TF-IDF值。sklearn的三种算法高斯朴素贝叶斯特征变量是连续变量,符合高斯分布比如说人的身高,物体的长度。多项式朴素贝叶斯特征变量是离散变量,符合多项分布在文档分类中特征变量体现在一个单词出现的次数或者是单词的TF-IDF值等。伯努利朴素贝叶斯特征变量是布尔变量,符合0/1分布在文档分类中特征是单词是否出现。第6章支持向量机找到分界线支持向量支持向量带来的问题计算速度快,仅靠外围数据点就能找到决策边界。对支持向量的位置比较敏感。缓冲带允许一定量的数据位于错误的一边。通过调整惩罚参数来控制缓冲带。(越大越宽容)核技巧心脏病检测局限性小数据集多组数据两组之间存在大量重叠第7章决策树某相亲平台数据示意表三种节点根节点树的最顶端节点。内部节点树中间的那些节点。叶节点树最底部的节点。构造决策树熵(Entropy)假设随机变量X的概率分布为:随机变量X的熵定义为:条件熵表示在已知随机变量X的条件下随机变量Y的不确性:假定数据集Y,特征X将其分成那么信息增益定义为集合Y的熵H(Y)与特征X条件下的条件熵H(Y|X)之差:性别推测数据集如何构造决策树?身高的条件熵身高(X1)出现的频率及分割出来的子集:高(Y1)–2/8中(Y2)–3/8矮(Y3)–3/8计算H(Y)身高的信息增益计算信息增益体重的信息增益鞋码的信息增益基尼指数有n个类,样本属于第k类的概率记为pk特征X条件下的基尼指数回归问题的过拟合分类问题的过拟合第8章聚类分析聚类(Cluster)将对象的集合分成由类似的对象组成的多个类。K均值(K-Means)1.从样本中选择K个点作为初始中心点(完全随机)2.计算每个样本到各个中心点的距离,将样本划分到距离最近的质心所对应的簇中。3.计算每个簇内所有样本的均值,并使用该均值更新簇的中心点。4.重复步骤2与3,直到达到以下条件之一:中心点的位置变化小于指定的阈值。达到最大迭代次数。轮廓系数(SilhouetteCoefficient)a(i)表示第i个向量到同一簇内其它点的距离的平均值。b(i)表示第i个向量到相邻簇内所有点的平均距离的最小值。主要缺点每个数据点只能属于一个群组。群组被假定是正圆形的。群组被假定是离散的(不能重叠或嵌套)。第9章集成学习集成学习框架两种范式

串行集成法AdaBoost利用基学习器之间的相关性并行集成法Bagging利用基学习器之间的独立性Bagging算法BootstrapAGGregatING自助采样通过放回采样得到若干个训练样本的采样集聚合基分类器在分类问题上投票,在回归问题上平均包外样本(out-of-bag)单个样本至少出现一次的概率为0.632。约有36.8%的原始训练集的样本未被使用。用包外样本来估计基分类器的好坏。随机森林(RandomForest)与Bagging的主要区别:引入了随机特征选择第10章房价预测主要内容探索数据数据可视化与相关性空值的处理文本属性与流式处理模型选择探索数据加载数据查看空值属性的直方图对收的中位数分组分组统计分层抽样加载数据longitude——经度。latitude——纬度。housing_median_age——房屋年龄的中位数。total_rooms——总房间数。total_bedrooms——总卧室数量。population——总人数。households——家庭数量。median_income——收入中位数。median_house_value——房价中位数。ocean_proximity——房屋与大海的距离。查看空值通过info方法属性的直方图housing.hist(bins=50,figsize=(18,15))房价中位数是我们要预测的目标值。对收入中位数进行分组0-1.51.5-33-4.54.5-66-inf分组统计value_counts方法展示数据hist方法展示直方图分层抽样构造StratifiedShuffleSplit对象n_splits=1表示只分1次test_size=0.2表示20%的数据条目作为测试集验证分层抽样的有效性数据可视化与相关性根据地理位置展示数据相关关系相关系数3个新属性根据地理位置展示数据带颜色和大小的地理位置散点图解读散点图对角线图形无意义房价中位数与房屋年龄:无明显相关性房价中位数与收入中位数:明显相关性家庭数量与卧室总数:几乎为直线的散点图相关系数使用corr方法计算相关系数矩阵解读相关系数值:接近1表示强正相关,接近-1表示强负相关,接近0表示弱相关房价中位数与收入中位数的相关系数:0.688新属性与相关性重新计算包含新属性的相关性矩阵列出与房价中位数相关性最强的新属性示例代码与结果空值的处理列出有NaN的行处理NaNSimpleImputer类列出有NaN的行处理NaN方案一:丢弃有NaN的区域方案二:丢弃有NaN的属性方案三:用中位数替换NaNSimpleImputer类SimpleImputer类来专门处理空值SimpleImputer类的用法:先构造对象调用fit和transform方法文本属性与流式处理文本属性OrdinalEncoder转换器OneHotEncoder类流式处理自定义PipelineColumnTransformer文本属性OrdinalEncoder转换器OneHotEncoder类流式处理自定义转换器称为AttributesAdder继承BaseEstimator和TransformerMixin实现fit和transform方法自定义PipelineColumnTransformer模型选择分离标签数值处理Pipeline线性回归决策树随机森林模型微调最佳参数模型分离标签房价中位数median_house_value是我们要预测的目标。目标值也称为标签,在使用时需要将其单独分离出来。数值处理Pipeline自定义添加3个新属性的转换器把文本属性去掉定义num_pipeline来处理数值属性用ColumnTransformer来同时处理文本属性和数值属性用机器学习算法来进行训练线性回归线性模型构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论