数据分析师知识分类总结_第1页
数据分析师知识分类总结_第2页
数据分析师知识分类总结_第3页
数据分析师知识分类总结_第4页
数据分析师知识分类总结_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据分析师知识分类总结C1 统计基本概念篇1. 异常值指什么?请列举1种识别连续型变量异常值的方法? 1)异常值异常值OUTLIER:一组观测值中与平均值的偏差超过两倍标准差的测定值 高度异常的异常值:高度异常的异常值:与平均值的偏差超过三倍标准差的测定值 2)判断异常值的规则:判断异常值的规则: 标准差已知:奈尔(NAIR)检验法 标准差未知:T检验法,格拉布斯(GRUBBS)检验法,风度检验法,狄克逊(DIXON)检验法,偏度检验法 3)盒形图 用的比较多箱线图箱线图(或称箱形图)能在同一张图上体现多个距和四分位数,“箱”显示出四分位数和四分位距的位置,“线”则显示出上、下界2. 数据标准

2、化技术 (1)总和标准化。分别求出各要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 (2)2.数据标准化技术3.缺失值处理方法 1)直接丢弃含缺失数据的记录直接丢弃含缺失数据的记录 如:个案剔除法,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。 2)补缺补缺 A. 用平均值来代替所有缺失数据用平均值来代替所有缺失数据:均值替换法 B. K -最近距离邻居法最近距离邻居法:先根据欧式距离或相关分析来确定距离具

3、有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。 C.用预测模型来预测每一个缺失数据:该方法最大限度地利用已知的相关数据,是比较流用预测模型来预测每一个缺失数据:该方法最大限度地利用已知的相关数据,是比较流行的缺失数据处理技术。如:回归替换法行的缺失数据处理技术。如:回归替换法 弊端:弊端: A 容易忽视随机误差 B 研究者必须假设存在缺失值所在的变量与其他变量存在线性关系4.常用的抽样方法有哪些 1. 简单抽样简单抽样 即简单随机抽样,指保证大小为N的每个可能的样本都有相同的被抽中的概率。 2. 系统抽样系统抽样 将总体中的各单元先按一定顺序排列,并编号,然后按照不一

4、定的规则抽样。其中最常采用的是等距离抽样,即根据总体单位数和样本单位计算出抽样距离(即相同的间隔),然后按相同的距离或间隔抽选样本单位。例如:从1000个电话号码中抽取10个访问号码,间距为100,确定起点(起点间距)后每100号码抽一访问号码。 3. 分层抽样分层抽样 是把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本 4.整群抽样(整群抽样(CLUSTER SAMPLING)(层层深入抽样,不断缩小抽样的范围)(层层深入抽样,不断缩小抽样的范围)5.统计学基础 1)随机变量均值,方差,标准差 2)方差:用来表示分布的散步大小 3)标准差:用表示,表示分布散步

5、大小6.常用分布 1)离散变量)离散变量-二项分布二项分布 记为b(n,p) 均值:E(x)=np 方差:Var(x)=np(1-p) 标准差: 2)离散变量)离散变量-泊松分布泊松分布 3)连续型随机变量)连续型随机变量-正态分布正态分布7.统计定理8 假设检验C2 机器学习的数学基础 范数: 向量的范数可以简单形象的理解为向量的长度向量的长度,或者向量到坐标系原点的距离,或者相应空间内的两个点之间的距离。 向量的范数定义:向量范数可简单理解为向量的长度,或者向量到坐标系原点的距离,或者相应空间内的两个点之间的距离 向量范数性质:向量范数是一个函数|X| 满足非负性|X| = 0,齐次性|C

6、X| = |C| |X| ,三角不等式|X+Y| = |X| + |Y| L1 范数: |X|为 X 向量各个元素绝对值之和。 L2 范数: |X|为 X 向量各个元素平方和的开方,L2 范数又称 EUCLIDEAN 范数或 者 FROBENIUS 范数 LP 范数: |X|为 X 向量各个元素绝对值 P 次方和的 1/P 次方 L范数: |X|为 X 向量各个元素绝对值最大那个元素,如下:各类距离意义与Python实现 闵可夫斯基距离(Minkowski Distance) - 闵式距离闵式距离 两个 n 维变量 A(x11 ,x12 ,x1n )与 B(x21 ,x22 ,x2n )间的闵

7、可夫斯基距离定义为:欧式距离欧式距离 from numpy import * vector1 = mat(1,2,3) vector2 = mat(4,5,6) print sqrt(vector1-vector2)*(vector1-vector2).T)曼哈顿距离曼哈顿距离 二维平面两点 N维向量 from numpy import * vector1 = mat(1,2,3) vector2 = mat(4,5,6) print sum(abs(vector1-vector2)切比雪夫距离切比雪夫距离(Chebyshev Distance) from numpy import * vec

8、tor1 = mat(1,2,3) vector2 = mat(4,7,5) print abs(vector1-vector2).max()夹角余弦夹角余弦机器学习中用来衡量样本向量之间的差异from numpy import *cosV12 = dot(vector1,vector2)/(linalg.norm(vector1)*linalg.norm(vector2)print cosV12汉明距离(汉明距离(Hamming distance) 定义:两个等长字符串 s1 与 s2 之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间

9、的汉明距离为 2。from numpy import *matV = mat(1,1,0,1,0,1,0,0,1,0,1,1,0,0,0,1,1,1)smstr = nonzero(matV0-matV1);print shape(smstr0)0杰卡德相似系数杰卡德相似系数(Jaccard similarity coefficient) (1)杰卡德相似系数 两个集合 A 和 B的交集元素在 A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号 J(A,B)表示 (2)杰卡德距离 特征间的相关性特征间的相关性矩阵-空间的变换C3 数据挖掘算法篇IEEE 数据挖掘国际会议ICDM-十

10、大数据挖掘算法 C4.5 - 分类决策树算法 改进ID3 K-Means - 基于划分的聚类算法 SVM - 支持向量机 Apriori - 关联分析 EM -最大期望(EM) PageRank - 网页排名 AdaBoost - 一种迭代算法(分类) KNN - K邻近分类算法 Nave Bayes - 贝叶斯分类算法 CART -分类回归树(CART,CLASSIFICATION AND REGRESSION TREE)机器学习分类 机器学习方法主要分为有监督学习有监督学习(SUPERVISED LEARNING)和无监督学习无监督学习(UNSUPERVISED LEARNING) 监督学

11、习监督学习就是分类,通过已有的训练样本去训练得到一个最优模型,然后利用这个最优模型将所有输入映射为相应的输出,对于输出进行判断实现分类,这就对未知数据进行了分类。监督学习中的典型例子是KNN和和SVM。无监督学习无监督学习与监督学习的不同之处,主要是它没有训练样本没有训练样本,而是直接对数据进行建模直接对数据进行建模。典型案例就是聚类聚类了,其目的是把相似的东西聚在一起,而不关心这一类是什么。聚类算法通常只需要知道如何计算相似度就可以了,它可能不具有实际意义。如何选择监控学习还是无监督学习?可以从定义入手,如果在分类过程中有训练样本训练样本,则可以考虑采用监督学习监督学习的方法,否则不能使用监

12、督学习。数据挖掘模型监督学习分类KNN决策树朴素贝叶斯分类Logistic回归SVM支持向量机回归半监督学习非监督学习聚类分析-Kmeans关联分析Apriori数据降维【分类】kNN k最邻近分类算法 思路:思路:如果一个样本在特征空间中的K个最相似个最相似(即特征空间中最邻近即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别 算法步骤算法步骤: STEP.1-初始化距离为最大值 STEP.2-计算未知样本和每个训练样本的距离DIST STEP.3-得到目前K个最临近样本中的最大距离MAXDIST STEP.4-如果DIST小于MAXDIST,则将该训练样本作为K-最

13、近邻样本 STEP.5-重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完 STEP.6-统计K-最近邻样本中每个类标号出现的次数 STEP.7-选择出现频率最大的类标号作为未知样本的类标号该算法涉及3个主要因素:训练集、距离或相似的衡量、训练集、距离或相似的衡量、K的大小。的大小。优点:优点:简单,易于理解,易于实现,无需估计参数,无需训练;适合对稀有事件进行分类缺点:缺点:懒惰算法,对测试样本分类时的计算量大,内存开销大,评分慢;可解释性较差,无法给出决策树那样的规则ROC关注指标AOC (Area under roc curve)-度量分类模型好坏的标准 ROC 曲线(recei

14、ver operating characteristic) 横坐标-负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity) 纵坐标-真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率) 调整这个分类器分类时候使用的阈值,我们就可以得到一个经过(0, 0),(1, 1)的曲线,这就是此分类器的ROC曲线。一般情况下,这个曲线都应该处于(0, 0)和(1, 1)连线的上方。因为(0, 0)和(1, 1)连线形成的ROC曲线实际上代表的是一个随机分类器。 AUC的值就是计算出RO

15、C曲线下面的面积http:/ 首先AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的SCORE值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。 具体来说就是统计一下所有的 MN(M为正类样本的数目,N为负类样本的数目)个正负样本对中,有多少个组中的正样本的SCORE大于负样本的SCORE。当二元组中正负样本的 SCORE相等的时候,按照0.5计算。然后除以MN。实现这个方法的复杂度为O(N2)。N为样本数(即N=M+N) 第三种方法实际上和上述第二种方法是一样的,但是复杂度减小了。它

16、也是首先对SCORE从大到小排序,然后令最大SCORE对应的SAMPLE 的RANK为N,第二大SCORE对应SAMPLE的RANK为N-1,以此类推。然后把所有的正类样本的RANK相加,再减去M-1种两个正样本组合的情况。得到的就是所有的样本中有多少对正类样本的SCORE大于负类样本的SCORE。然后再除以MN。即AUC 计算【分类】决策树一种归纳分类算法决策树结构:决策树结构:根节点非叶子节点(决策点)叶子节点分支决策树算法(贪心算法):决策树算法(贪心算法):有监督的学习非参数学习算法自顶向下递归方式构造决策树在每一步选择中都采取在当前状态下最好/优的选择停止分割的条件:停止分割的条件:

17、一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割决策树种类:决策树种类:分类树-对离散变量做决策树回归树-对连续变量做决策树决策树的学习过程:决策树的学习过程:特征选择决策树生成:递归结构剪枝:缩小树结构规模、缓解过拟合决策树算法-ID3ID3算法推导 分类系统信息熵分类系统信息熵: 条件熵条件熵:分类系统中的条件熵指的是当样本的某一特征X固定时的信息熵 因此样本特征X取值为XI的概率是PI,该特征被固定为值XI时的条件信息熵就是H(C|X=XI),那么H(C|X)就是分类系统中特征X被固定时的条件熵(X=(X1,X2,XN): 信息增益:信息增益:根据信息增益的公式, 分类

18、系统中特征X的信息增益就是: GAIN(D, X) = H(C)-H(C|X)决策树算法-C4.5 C4.5算法用信息增益率信息增益率来选择属性,即选用信息增益比信息增益比选择最佳特征 优点:分类规则易于理解,准确率较高;能够完成对连续属性的离散化处理;能够对不完整数据进行处理 信息增益比率度量是用ID3算法中的的增益度量Gain(D,X)和分裂信息度量SplitInformation(D,X)来共同定义的。分裂信息度量SplitInformation(D,X)就相当于特征X(取值为x1,x2,xn,各自的概率为P1,P2,.,Pn,Pk就是样本空间中特征X取值为xk的数量除上该样本空间总数)

19、的熵。 SplitInformation(D,X) = -P1log2(P1)-P2log2(P)-,.,-Pnlog2(Pn) GainRatio(D,X) = Gain(D,X)/SplitInformation(D,X) 对于连续分布的特征: C4.5先把连续属性转换为离散属性再进行处理。如果有N条样本,那么我们有N-1种离散化的方法:VJ的分到右子树。计算这N-1种情况下最大的信息增益率。 C4.5 对连续属性的处理:对连续属性的处理: 1)对特征的取值进行升序排序 2)两个特征取值之间的中点作为可能的分裂点,将数据集分成两部分,计算每个可能的分裂点的信息增益(INFORGAIN)。优

20、化算法就是只计算分类属性发生改变的那些特征取值。 3)选择修正后信息增益(INFORGAIN)最大的分裂点作为该特征的最佳分裂点 4)计算最佳分裂点的信息增益率(GAIN RATIO)作为特征的GAIN RATIO。叶子裁剪 剪枝原因和目的:解决决策树对训练样本的过拟合问题 决策树常用的剪枝常用的简直方法有两种:预剪枝预剪枝(Pre-Pruning)和后剪枝后剪枝(Post-Pruning)。 预剪枝预剪枝是根据一些原则及早的停止树增长停止树增长,如树的深度达到用户所要的深度、节点中样本个数少于用户指定个数、不纯度指标下降的最大幅度小于用户指定的幅度等。 另外一个方法来实现预剪枝操作,那就是采

21、用检验技术对当前结点对应的样本集合进行检验采用检验技术对当前结点对应的样本集合进行检验,如果该样本集合的样本数量已小于事先指定的最小允许值,那么停止该结点的继续生长,并将该结点变为叶子结点,否则可以继续扩展该结点。 后剪枝后剪枝则是通过在完全生长的树上剪去分枝实现的,通过删除节点的分支来剪去树节点,可以使用的后剪枝方法有多种,比如:代价复杂性剪枝、最小误差剪枝、悲观误差剪枝代价复杂性剪枝、最小误差剪枝、悲观误差剪枝等等。随机森林 概念:概念:随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候决定测试样本的最终类别随机森林1.随机选择样本给定训练样本集,数量为N,有放回有放

22、回采样到N个样本(会重复)2.随机选择特征总量为M的特征向量中,随机选择(无放回)(无放回)m个特征没然后计算m个特征的增益(mB)=P(A U B)。支持度揭示了。支持度揭示了A与与B同时出现的概率同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。 2) 置信度置信度(CONFIDENCE)的公式式:的公式式:CONFIDENCE(A-B)=P(A | B)。置信度揭示了。置信度揭示了A出出现时,现时,B是否也会出现或有多大概率出现是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低

23、,则说明A的出现与B是否出现关系不大。 例如:购物篮分析:牛奶=面包 例子:支持度:3%,置信度:40% 支持度3%:意味着3%顾客同时购买牛奶和面包 置信度40%:意味着购买牛奶的顾客40%也购买面包H(x) = EI(xi) = E log(2,1/p(xi) = H(x) = EI(xi) = E log(2,1/p(xi) = -p(xi)log(2,p(xi) -p(xi)log(2,p(xi) (i=1,2,.n)(i=1,2,.n),单位是,单位是bit. 3) 如果事件A中包含K个元素,那么称这个事件A为K项集事件 A满足最小支持度阈值的事件称为频繁K项集。 4) 同时满足最小

24、支持度阈值和最小置信度阈值的规则称为强规则APRIORI算法实现步骤算法实现步骤 1、发现频繁项集,过程为(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集重复步骤(1)(5)直到不能发现更大的频集 2、产生关联规则,过程为: 根据前面提到的置信度的定义,关联规则的产生如下: (1)对于每个频繁项集L,产生L的所有非空子集; (2)对于L的每个非空子集S,如果 P(L)/P(S)MIN_CONF 则输出规则“S L-S” 注:L-S表示在项集L中除去S子集的项集降维(PCA,kernel PCA,LDA等) 数据降维:又称数据约简,指采用某种映射映射方法,将原高维空间中的数据点映射到低维度的空间中。 原因:1)在原始的高维空间中,包含有冗余信息冗余信息以及噪音信息噪音信息 2)feature太多会造成模型复杂,训练速度过慢,因此要引入降维 3)多维数据很难进行可视化分析,需要降维分析 降维的本质是,其中,目前最多使用向量表达形式。 降维分类:1)根据数据的特性可以划分为和 2)根据是否考虑和利用数据的监督信息可以划分为 3)根据保持数据的结构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论