数据分析师知识分类总结_第1页
数据分析师知识分类总结_第2页
数据分析师知识分类总结_第3页
数据分析师知识分类总结_第4页
数据分析师知识分类总结_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析家的知识分类总结,C1统计基本概念篇, 1 .识别异常值是什么连续型变量的异常值的方法请举出一个。1 )异常值outlier:组的观测值中,与平均值的偏差超过2倍的标准偏差的测定值为异常值:与平均值的偏差超过3倍的标准偏差的测定值2 ) 判断异常值的规则:标准偏差已知: Nair (Nair )检验法标准偏差未知: t检验法、grubbs (grubbs )检验法、风格检验法、dicson检验法偏差度检验法3 )箱形图用的规则较多,箱线图、箱线图(或箱形图)能够在同一图中表示多个距离和四分位,“箱”表示四分位和四分位的位置,“线” 对于分别求出与各要素对应的数据的总和,将各要素的数据除以该要素的数据的总和,即(2)、2 .数据标准化技术、3 .缺失值处理方法、1 )原样丢弃包含缺失数据的记录的情况剔除法这样的方法存在较大的限制。 这是因为减少了样本量,以信息的完善为代价,导致了资源的浪费,大量废弃了隐藏在这些对象中的信息。 此方法在缺少的数据量的比例较大的情况下,特别是在缺少的数据没有随机分布的情况下,数据有可能偏离,有可能得出错误的结论。 2 )缺陷a .用平均值替换所有缺陷数据:平均值替换法B.K-最近邻法:首先,根据欧元距离或相关分析确定最接近具有缺陷数据的样本的k个样本,对该k个值进行加权平均,推定该样本的缺陷数据。 c .用预测模型预测单个缺失数据:该方法最大限度地利用已知的相关数据,是一种比较流行的缺失数据处理技术。 例如,回归替换法的弊端: a或者容易忽略随机误差的b研究者必须假设存在缺少值的变量与其他变量有线性关系。4 .常用的采样方法是什么?1 .简单采样,即简单的随机采样是每个尺寸为n的可能采样2 .系统采样整体的各单元首先按一定顺序排列,编号后,按不一定的规则进行采样。 其中最常用的是等距采样,根据总体单位数和采样单位计算采样距离(即相同间隔),以相同距离或间隔提取采样单位。 例如,从1000个电话号码中提取10个访问号码,将间隔设为100,决定起点(起点间隔),然后每100个提取访问号码。 3 .层次取样将整个调查划分为同质的、彼此不交叉的层(或类型),在各层(或类型)独立地提取样本4 .聚类取样(层较深地进行取样,缩小取样范围),5 .统计学基础,1 )随机变量平均,方差,标准偏差,2 ) 方差:用于表示分布的散步的大小,3 )标准偏差:以表示,分布的散步的大小,6 .常用分布,1 )离散变量-二元分布是b(n,p )平均: E(x)=np方差: Var(x)=np(1-p )标准偏差:2)离散变量-泊松分布3 )连续型随机变量-正态分布,7 .统计定理,8假设检验, C2机器学习的数学基础,范数:向量的范数可简单地理解为向量的长度、从向量到坐标系原点的距离或空间中的两个点之间的距离。 向量范数定义:向量范数可简单地理解为向量的长度、从向量到坐标系原点的距离或对应空间中两个点之间的距离向量范数的性质:向量范数满足函数|x|不负|x|=0并且阶数|cx|=|c|x|,并且L2范数:|x|是x向量的每一元素的平方和的平方根,其中L2范数是Euclidean或Frobenius范数Lp范数3360| x|或与x向量的每一元素的绝对值p乘的1/p乘l范数3360| x|是x向量的整数闵可夫斯基距离闵可夫斯基距离的两个n维变量A(x11,x12,x1n )和B(x21,x22,x2n )之间的闵可斯基距离为欧元距离fromnumpyimport * vector1=mat ( 1,2,3 ) vector2=如下5 ) print sqrt (vector1- vector2) * (vector1- vector2).t ) )、距曼哈顿距离二维平面的n维向量fromnumpyimport * vector1=mat ( 1,2,3 ) vector2=mat ( 4, 56 printsum (ABS (vector1- vector2) )切比雪夫距离fromnumpyimport * vector1=mat ( 1,2,3 ) vector2=mat ( 4,7, 5 )在printabs (vector1- vector2).max ()角度馀弦机学习中,测量样本向量之间的差异的fromnumpyimport * cosv 12=dot (vector 1, vector2)/(Lina GL.norm (vector1) * Lina GL.norm (vector2) ) print cos v 12,汉明距离(Hammingdistance )定义:两个等长字符串s1和s2之间的汉明距离是将一个改变为另一个所需的最小替换值例如,字符串“1111”和“1001”之间的汉明距离为2。 fromnumpyimport * matv=mat ( 1,1,0,1,0,0,1 、 0,1 、 0,0,0,1,1 ) sm str=nonzero (matv 0-matv 1 ) . print shape (sm str 0 ) 0 jaccardsimilaritycoefficient (jaccardsimilaritycoefficient ) (1) jaccardsimilaritycoefficient相似系数两个集合a和b的交叉元素在a、b的并列集合中所占的比例称为两个集合的jaccardsimilaritycoeffic 用符号J(A,b )表示特征间的相关性,矩阵-空间的变换,C3数据挖掘算法篇, IEEE数据挖掘国际会议ICDM-十大数据挖掘算法C4.5-分类决策树算法改进id3k -均值-基于分类的聚类算法SVM-支持向量机Apriori-关联分析EM-最大期望page rank- -网页排名AdaBoost-迭代算法(分类) KNN-K邻接分类算法NaveBayes-贝叶斯分类算法CART-分类回归树(CART,classificationandgexpressiontree ) 机器学习方法主要以监督学习(supervisedlearning )和无监督学习(unsupervisedlearning )监督学习为分类,用现有的训练样本训练获得最佳模型,利用该最佳模型将所有输入映射到适当的输出,判断输出并实现分类,是未知的模型监督学习中的典型例子是KNN和SVM。 无监督学习与监督学习的区别主要在于没有训练样本,直接对数据进行建模。 典型的事例是聚类,其目的是收集类似的东西,不在乎这类是什么。 分簇算法通常只需要知道如何计算相似度,并且可能没有实际意义。 如何选择监督学习,还是不做监督学习? 可以从定义开始,如果在分类过程中有训练样本,可以考虑采用监督学习的方法。 否则,监督学习就不能使用。 【分类】kNN-k最近邻分类算法,思路:特征空间中k个最相似的(即特征空间中最近邻的) 如果大多数样本属于某个类别,则该样本也属于该类算法步骤: step.1-初始化距离为最大值step.2-未知样本和每个训练样本的距离diststep.3-当前k个最近样本中的最大距离maxddisttm 如果小于maxdist,则将此训练样本重复K-最近邻样本的步骤5- -步骤2、3和4。 未知样本与所有训练样本的距离为step.6-统计K-选择最近邻样本的各类标签的出现次数为step.7-最频繁出现的类标签作为未知样本的类标签的算法与训练集、距离或类似度的测量、k的大小这3个因素相关优点:简单易懂,易于实现,不需要估计参数,适合于对不需要训练的罕见事件进行分类的缺点:懒惰的算法在对样本进行分类时计算量大,存储器开销大,评价慢,解释差,提示决策树等规则ROC关注指标,AOC(AreaunderROCcurve)-衡量分类模型好坏的标准,ROC曲线(receiveroperaturecharacteristic )横轴-负的正的等级率(falsepostiverateFPR )特异度, 分类实例中所有负例均占负例比例的(1-Specificity )纵轴-真正的类率(truepostiverateTPR )灵敏度、Sensitivity (正类垄断率)调整用于该分类器分类的阈值时,得到通过(0,0 )、(1,1 )的曲线通常,该曲线应全部位于连接(0,0 )和(1,1 )的线上。 因为连接(0,0 )和(1,1 )的ROC曲线实际上表示随机的识别器。 当计算AUC的值时,首先,AUC值是概率值。当随机选择正样本和负样本时,当前分类算法基于所计算的Score值来在负样本之前排列正样本的概率是AUC值具体地,统计所有MN(M是正类样本的数目,n是负类样本的数目)个正负样本对中的哪个组的正样本的score大于负样本的score。 二元组中正负样本的score相等时,以0.5计算。 然后除以MN。 实现该方法的复杂性是O(n2)。 第三方法(即,n=M N )为样本数,实际上与所述第二方法相同,但降低了复杂性。 这是首先将score从大到小排列,接着将与最大score对应的sample的rank设为n,将与第2大的score对应的sample的rank设为n-1等。 然后,将所有正样本的rank相加,扣除组合2个M-1种正样本的情况。 得到的是,在所有样本中,正类样本的score是否大于负类样本的score。 然后除以MN。 即AUC计算【分类】决策树归纳分类算法决策树构造:根节点非叶节点(决策点)叶节点分支决策树算法(贪婪算法):从有监视的学习非参数学习算法顶端递归构筑决策树的每个步骤选择在当前状态下最好/优选分割停止的条件:一个节点上的数据都没有属于同一类别的属性,分割数据的决策树种类:分类树-离散变量决策树-连续变量决策树,决策树的学习过程:特征选择决策树生成:递归结构剪枝:缩小树结构的规模,缓和拟合, 决策树算法-ID3, ID3算法导出分类系统的信息熵:条件熵:分类系统中的条件熵是指固定了样本的某个特征点x时的信息熵,样本的特征点x取值xi的概率为Pi,并且该特征点被固定为值xi时的条件信息熵对于X=xi ),H(C|X )是当分类系统中的特征x固定时的条件熵(X=(x1,x2, ), xn ) ) :信息增益:根据信息增益的公式,分类系统中特征量x的信息增益以Gain(D,X)=H(C)-H(C|X )、决策树算法-C4.5、C4.5算法按照信息增益来选择属性, 即选择信息增益率是选择最佳特征的优点:分类规则容易理解,能够处理能够完成高精度的连续属性的离散化处理的不完整数据的信息增益比率度量是ID3算法中的增益度量Gain(D,x )和分裂信息度量分裂信息量度(d,x )对应于特征量度x (取值x1、x2、xn,各自具有概率的P1、P2、Pn、Pk除以在采样空间中取特征量度x值的xk的总数)的熵。SplitInformation(D,X)=-P1log2(P1)-P2log2(P)-,-Pnlog2(Pn)GainRatio(D,X)=Gain(D,X)/SplitInformation(D,x )连续分布的特征:是否要将C4.5连续属性转换为离散属性如果有n个样本的话,我们有N-1种离散化的方法: vj的分散右子树。 计算该N-1情况下的最大信息增益率。 C4.5连续属性的处理:1)按升序对特征的采集方式进行排序;2 )将两个特征的采集方式之间的中间点设为可能的分裂点,将数据集分为两个部分,并计算每个可能的分裂点的信息增益(InforGain )。 优化算法仅计算分类属性已更改的特征的值。 3 )将校正后的信息增益(InforGain )为最大的分裂点作为其特征量的最佳分裂点4 )将最佳分裂点的信息增益(GainRatio )作为特征量的GainRatio进行计算。 叶的修剪、修剪原因和目的:决策树在训练样本过拟合问题决策树中常用的修剪方法有预修剪(Pre-Pruning )和后修剪(Post-Pruning )两种。 基于一些原则,预剪枝快速停止树的生长,如树的深度达到用户希望的深度,节点样本数量低于用户指定数量,不纯度指标下降的最大宽度低于用户指定宽度等。 另一种方法是使用检查技术来检查与当前节点相对应的采样集合,如果采样集合中的采样数目小于预定最小可允许值,则停止节点的增长,将该节点改变为叶节点,否则继续扩展该节点。 后剪枝是通过用完全成长的树剪枝来实现的,通过删除节点的树枝可以剪枝,可以使用的后剪枝方法有多种。 例如成本复杂的剪枝、最小的误差剪枝、悲观的误差剪枝等。 随机森林,概念:随机森林以随机方式将许多决策树组合成一个森林,按决策树进行分类时决定样本的最终类别,随机森林Python实现# importlibraryfromsklearn.ensembleimportrandomffer usera

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论