机器学习基础复习提纲_第1页
机器学习基础复习提纲_第2页
机器学习基础复习提纲_第3页
机器学习基础复习提纲_第4页
机器学习基础复习提纲_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习基础复习提纲1、选择题(16分)和2、是非题(14分)Python语言的特点:Simple(简单)EasytoLearn(易学)FreeandOpenSource(免费、开源)High-levelLanguage(高级语言)Portable(可移植性)Interpreted(解释型)ObjectOriented(面向对象)Extensible(可扩展性)Embeddable(可嵌入性)ExtensiveLibraries(丰富的库)动态类型,交互式,多继承,函数返回值,函数作为参数,变长参数,缺省参数,命名参数,三种forforiinlist:print("序号:%s值:%s"%(list.index(i)+1,i))foriinrange(len(list)):print("序号:%s值:%s"%(i+1,list[i]))fori,valinenumerate(list):print("序号:%s值:%s"%(i+1,val))for和while中的break,continue,elsefor…..else可以在无法循环或者程序执行完的时候执行,while….else同理break跟continue和c一样List,Tuple,Dictionary,setList是可变有序的列表,可以随意添加和删除其中的元素Tuple和list结构相似,但是tuple一旦初始化就不能修改字典具有极快的查找速度,且dictionary的key是不可变对象(字符串和整数都可作为key)Set与dictionary类似,它是一组储存key的无序的集合,且key不能重复range()函数产生Listlist=range(1,100)产生1到99的一个数组numpy.min,max,sort,argmin,argmax,argsort,flipud,[::-1]min,max计算矩阵或者数组中的最小值,最大值argmin,argmax分别计算矩阵或数组最大值,最小值所在位置的索引sort(axis=-1,kind='quicksort',order=None)axis中0代表行,1代表列,kind代表算法,order指排序的字段名argsort返回按小到大数值的索引值flipud用于翻转矩阵[::-1]表示将数组倒序scatter,plot,bar,box,绘制多轴图,subplot(numRows,numCols,plotNum)scatter画散点图plot画折线图bar画柱状图box画箱图多轴图调用subplot(numR,numC,plotNum)因此构造RxC的矩阵plotNum指矩阵中的位置机器学习的一般慨念,比如:有监督的机器学习、无监督的机器学习、强化学习等机器学习模型评价方法和评价性能指标及其在sklearn中相关的函数属性的类型,数据预处理技术(如sklearn.preprocessing.StandardScaler,preprocessing.scale,preprocessing.MinMaxScaler(),preprocessing.normalize,processing.Normalizer()),过拟合和欠拟合,过拟合处理技术,参数和超参数,sklearn.preprocessing.StandardScaler标准化处理preprocessing.scale与上面的StandardScaler类似,但是标准化处理可以将处理好的数组保存preprocessing.MinMaxScaler()归一化preprocessing.normalize,processing.Normalizer()正则化,每一个向量内所有元素的平方和等于1过拟合产生的原因:数据过少+模型过于复杂+有噪音解决方案:1数据处理2辅助分类节点3正则化欠拟合产生的原因:训练模型太简单,没有学习到通用的特征解决方案:1添加更多的特征项2减少正则化参数3使用更深的模型4使用集成方法寻求最优的模型f(x,θ)中的θ成为参数,而通过一类参数来定义结构模型或者优化策略这类参数称为超参数支持向量机的核函数,神经网络中的层数,梯度下降的步长,聚类算法的类别个数,正则化的系数都是最常见的超参数各个机器学习算法的基本性质比如LinearRegression,DecisionTree,SVM,KNN,MLP,SOM,K-means,DBSACNLinearRegression线性回归即y=wx+bDecisionTree决策树SVM支持向量机假设在空间中有一个能正确划分数据集并且集合间距最大的分离超平面正常来说空间中存在无数个超平面,因此我们需要让margin(间隔)最大,当所需要的超平面是非线性的情况下,可以引入核函数,从低维空间映射到高维空间,常用的核函数有多项式核函数,高斯径向基核函数,S型核函数KNN(KNearNeighbor最近邻算法)其中最重要的是超参数k值的选择,k代表选出k个于所需要预测的目标最近的k个单位,一般来说距离选用欧氏距离(也可以选用曼哈顿距离,切比雪夫距离)KNN有着非常明显的优点和缺点:优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高(因为每个数都需要进行计算)MLP多层感知器分为inputlayer,hiddenlayer,outputlayer还可以通过mlp的反向传播来更新hiddenlayer里面的weight,从而达到更精准的预测值SOM算法因此,总结来说,竞争学习的步骤是:(1)向量归一化(2)寻找获胜神经元(3)网络输出与权值调整步骤(3)完成后回到步骤1继续训练,直到学习率衰减到0。学习率处于(0,1],一般随着学习的进展而减小,即调整的程度越来越小,神经元(权重)趋于聚类中心。K-meansk-means初始随机选择k个质心点,然后通过欧氏距离计算后分成k类别,分类结束之后,通过各类的平均点重新计算质心点,然后进行第二轮的分类,最终当质心点不再发生改变的时候分类结束DBSCAN。(形象来说,我们可以认为这是系统在众多样本点中随机选中一个,围绕这个被选中的样本点画一个圆,规定这个圆的半径以及圆内最少包含的样本点,如果在指定半径内有足够多的样本点在内,那么这个圆圈的圆心就转移到这个内部样本点,继续去圈附近其它的样本点,类似传销一样,继续去发展下线。等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值,就停止了。那么我们称最开始那个点为核心点,如A,停下来的那个点为边界点,如B、C,没得滚的那个点为离群点,如N)。3、简答题(40分)学过的机器学习算法相关类的作用及其构造函数主要参数的意义;与超参数调整相关类的使用数据预处理的方法,如独热编码preprocessing.OneHotEncoder(),sklearn.feature_extraction.DictVectorizer,线性回归特征扩展方法preprocessing.PolynomialFeatures,文本处理sklearn.feature_extraction.text.CountVectorizer独热编码preprocessing.OneHotEncoder()独热编码即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。sklearn.feature_extraction.DictVectorizer()特征抽取将特征与值的映射字典组成的列表转换成向量,DictVectorizer通过使用scikit-learn的estimators,将特征名称与特征值组成的映射字典构成的列表转换成Numpy数组或者Scipy.sparse矩阵。线性回归特征扩展方法preprocessing.PolynomialFeatures:用来产生交叉特征,并且多项式包含相互影响的特征集文本处理sklearn.feature_extraction.text.CountVectorizer函数只考虑每个单词出现的频率;然后构成一个特征矩阵,每一行表示一个训练文本的词频统计结果。其思想是,先根据所有训练文本,不考虑其出现顺序,只将训练文本中每个出现过的词汇单独视为一列特征,构成一个词汇表各种性能指标的计算,如二类分类问题的混淆矩阵、accuracy、precision、recall、f1、P-R曲线和ROC曲线,回归问题的R-squared,聚类问题的关联矩阵、Randindex和JaccardIndex回归问题的R-squared多类分类问题的各种处理策略三种策略一对一,一对多,多对多多标签分类问题的各种处理策略问题转换改编算法集成方法学习过的主要集成机器学习算法的基本原理主要机器学习算法的具体实现,如决策树如何选择属性,朴素贝叶斯方法如何预测,k-means算法的2个主要步骤,层次聚类如何选择合并的簇Python语言lambda表达式、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论