数据分析总结范文数据分析岗位笔试题目总结_第1页
数据分析总结范文数据分析岗位笔试题目总结_第2页
数据分析总结范文数据分析岗位笔试题目总结_第3页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、阿里巴巴1、异常值是指什么请列举1种识别连续型变量异常值的方法 异常值 (Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一 般是指一组观测值中与平均值的偏差超过两倍标准差的测立值.常见的异常值检验方法如 下1基于统计的方法1基于距离的方法1基于密度的方法1基于聚类的方法1基 于偏差的方法1基于深度的方法t检验按照t分布的实际误差分布范用来判别异常值, 首先剔除一个可疑值,然后按t分布来检验剔除的值是否为异常值。狄克逊检验法假设一组数据有序xl<x2<-<xn,且服从正态分布,则异常值最有可能出 现在两端xl和xna格拉布斯检验法与狄克逊检

2、验法思想一样,其检验公式为指数分布检验SPSS和R语言中通过绘制箱图可以找到异常值,分布在箱边框外部:2、什么是聚类分析聚类算法有哪几种请选择一种详细描述其讣算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统讣 分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)«聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析计算方法主要有层次的方法(hierarchical method)、划分方法 (partitioning method)、

3、基于密度的方法(density-based method)、基于网格的方法 (grid-based method) x基于模型的方法(model-based method)等。其中,前两种算法是利用 统计学定义的距离进行度量。常见的聚类方法有K-pototypes算法,K-Means算法,CLARANS算法(划分方法),BIRCH 算法(层次方法),CURE算法(层次方法),DBSCAN算法(基于密度的方法),CLIQUE算法(综 合了基于密度和基于网格的算法):k-means算法的工作过程说明如下首先从n个数据对象任意选择k个对象作为初始聚 类中心;而对于所剩下其它对象,则根据它们与这些聚类

4、中心的相似度(距离),分别将它们分 配给与其最相似的(聚类中心所代表的)聚类;然后再汁算每个所获新聚类的聚类中心(该聚类 中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为I匕。一般都采用均方差 作为标准测度函数.k个聚类具有以下特点各聚类本身尽可能的紧凑,而各聚类之间尽可能 的分开。其流程如下(1)从n个数据对象任意选择k个对象作为初始聚类中心;(2)根据每个聚类对象的均值(中心对象),汁算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象(4)循环、进行划分;(3)重新il算每个(有变化)聚类的均值(中心对象);直到每个聚类不再发生变化为I卜(标准测量函数收敛)。优点本

5、算法确左的K个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明 显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,讣算的复杂度为 O(NKt),其中N是数据对象的数目,K是聚类中心,t是迭代的次数。缺点K是事先给泄的,但非常难以选立;初始聚类中心的选择对聚类结果有较大的影 响。数据标准化技术是将数据按比例缩放,使之落入一个小的特左区间。去除数据的单位 限制,将其转化为无疑纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。常用 的方法有(1)总和标准化。分別求岀各要素所对应的数据的总和,以各要素的数据除以该要素的 数据的总和,即缺失值处理方法1)直接丢弃含缺失数据的记

6、录 如个案剔除法,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备,会造成资源的大量浪费, 丢弃了大疑隐藏在这些对象中的信息。当缺失数据所占比例较大,特别是肖缺数据非随机分 布时,这种方法可能导致数据发生偏离,从而得出错误的结论。2)补缺扎用平均值来代替所有缺失数据均值替换法,均值替换法也是一种简便、快 速的缺失数据处理方法。使用均值替换法插补缺失数拯,对该变量的均值估计不会产生影响。 但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差 变小。B. K -最近距离邻居法先根据欧式距离或相关分析来确左距离具有缺失数据样本最近的 K个样本,将这K个值加权

7、平均来估计该样本的缺失数据。C. 用预测模型来预测每一个缺失数据该方法最大限度地利用已知的相关数据,是比较流 行的缺失数据处理技术。如回归替换法,该方法也有诸多弊端,第一,容易忽视随机误差, 低估标准差和苴他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。 第二,研究者必须假设存在缺失值所在的变量与苴他变量存在线性关系,很多时候这种关系 是不存在的。.Apriori算法和信息爛信息爛是数学中一个抽象的概念,他表示了信息源的不确泄 度,这里不妨把信息嫡理解成某种特九信息的出现概率,当一种信息出现概率更高的时候, 表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信

8、息传播的角度来 看,信息爛可以表示信息的价值。支持度Support (A->B) =P (A U B) o支持度揭示了 A与B同时出现的概率。如果A与B同 时出现的概率小,说明A与B的关系不大:如果A与B同时出现的菲常频繁,则说明A与B总是相关的。置信度(Confidence)的公式式Confidence (A-B)=P (A B)。It信度揭示了 A出现时,B 是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置 信度太低,则说明A的出现与B是否岀现关系不大。H(x)=EI(xi)=E log (2, l/p(xi) =-Ep(xi) log(2, p(

9、xi) (i=l, 2,. n),单位是 bit. 苴中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输 岀用x表示。P(x)表示输出槪率函数。变量的不确立性越大,爛也就越大,把它搞淸楚所需 要的信息疑也就越大.以频繁项集II, 12, 13为例产生强关联规则,最小置信度为40%(1)频繁项集11,12,13的非空子集有11,12, 11,13, 12,13, 11, 12, 13 产 生 强 关 联 规 则(II ,12二13confidence二support(II, 12, 13)/support(II, 12)=2/4=0. 5II,I3=12conf i

10、dence=support(Il ,12 ,13 )/support(II,13)=2/4=0. 512, 13二 >11conf idence=support(Il ,12 ,13 )/support (12,13)=2/4=0. 5Il=>12,13confidenee=support(Il ,12 ,13 )/support(II)=2/6=0. 3312 二II, 13confidenee=support(Il ,12 ,13 )/support(12)=2/7=0. 2913 二II, 12confidence二support (II, 12, 13) /support(

11、13) =2/6=0. 33 则强关联规则为II, 12二13:11,13;12,13二11 3、根据要求写出SQL (没有学习过,之后的学习中需要补)表A结构如下Member_ID (用户的ID,字符型)Log_time (用户访问页而时间,H期型(只有一天的数据)URL (访问的页而地址,字符型)要求提取岀每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A致) 参考答案create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ;5、用户调研某公司针对A、B、

12、C三类客户,提出了一种统一的改进il划,用于提升客户的周消费次数,需要你来制立一个事前试验方案,来支持决策,请你思考下列问题a)试验需要为决策提供什么样的信息c)按照上述目的,请写岀你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。a) 试验要能证明该改进计划能显箸提升A、B、C三类客户的周消费次数。b) 根据三类客户的数量,采用分层比例抽样;需要采集的数据指标项有客户类别,改进汁划前周消费次数,改进计划后周消费次数;选用统计方法为分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验 常见的抽样方法有哪些? 常用的有以下六种类型简单抽样(Simple sam

13、pling)即简单随机抽样,指保证大小为n的每个可能的样本都有相同的被抽中的概率。例如按照“抽签法”、“随机表”法抽取访问对象,从单位人名 目录中抽取对象。优点随机度髙,在特质较均一的总体中,具有很高的总体代表度:是最简单的抽样技术,有标准而且简单的统计公式。缺点未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低:有可能抽到一个“差”的样本,使抽出的样本分布不好,不能很好地代表总体C系统抽样(Systematic random sampling)将总体中的务单元先按一立顺序排列,并编号,然后按照不一定的规则抽样。其中最常采用的是等距离抽样,即根拯总体单位数和样本单位讣算出抽样距离(即相

14、同 的间隔),然后按相同的距离或间隔抽选样本单位。例如从1000个电话号码中抽取10个访问 号码,间距为100,确圧起点(起点V间距)后每100号码抽一访问号码。优点兼具操作的简便性和统计推断功能,是目前最为广泛运用的一种抽样方法。如果起点是随机确定的,总体中单元排列是随机的,等距抽样的效果近似简单抽样;与简单抽样相比,在一左条件下,样本的分布较好。缺点抽样间隔可能遇到总体中某种未知的周期性,导致"差”的样本;未使用可能有用的抽样框辅助信息抽取样本,可能导致统计效率低。分层抽样(Strat辻i亡d random sampling)是把调查总体分为同质的、互不交叉的层(或类型),然后在

15、各层(或类型)中独立抽取样本。例如调査零售店时,按照其规模大 小或库存额大小分层,然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型 若干;调查城市时,按城市总人口或工业生产额分出超大型城市、中型城市、小型城市等,再 抽出具体的各类型城市若干。优点适用于层间有较大的异质性,而每层内的个体具有同质性的总体,能提高总体估计的精确度,在样本量相同的情况下,其精度高于简单抽样和系统抽样:能保证“层”的代表性,避免抽到“差”的样本:同时,不同层可以依据情况采用不同的抽样框和抽样方法。缺点要求有高质量的、能用于分层的辅助信息:由于需要辅助信息,抽样框的创建需要更多的费用,更为复杂:抽样误差估讣比

16、简单抽样和系统抽样更复杂。整群抽样(Cluster sampling)(层层深入抽样,不断缩小抽样的范围)是先将调查总体分为群,然后从中抽取群,对被抽中群的全部单元进行调査。例如入户调査,按地块 或居委会抽样,以地块或居委会等有地域边界的群体为第一抽样单位,在选岀的地块或居委 会实施逐户抽样:市场调查中,最后一级抽样时,从居委会中抽取若干户,然后调查抽中户家中所有18 岁以上成年人。优点适用于群间差异小、群内各个体差异大、可以依据外观的或地域的差异来划分的群体。缺点群内单位有趋同性,其精度比简单抽样为低。前面谈到抽样方法的一些基本分类和各自特点,需要注意的是,在实际的运用中,一个 调查方案常常

17、不是只局限于使用某一种抽样方式,而根据研究时段的不同采用多种抽样方 法的组鸽为实现不同的研究目的,有时甚至在同一时段综合运用几种抽样方法。例如,设计一个全国城市的入户项目,在抽样上可以分为几个不同的步骤,包括1)在项目正式开始前,可以采用判断抽样法选出某一城市先作试点,在问卷设计初期可 以采用任意抽样法选出部分人群进行问卷试访。2)采用分层随机抽样法,确定全国要分别在多少个超大型市、多少个中型 市、多少个 小型市实施(先分岀城市的几个层次,再依据研究需要在各层用PPS法选取具体城市)3)采用简单抽样法或PPS抽样法,确左抽出城市中应抽的地块或居委会:4)采用整群抽样法,确左抽出地块或居委会应访

18、问的家庭户:5) 在项目后期,可以采用判断抽样法选取某城市进行深入研究。置信度与置信区间P (xl<x<X2) =l-a,称1-a为置信度,xl,x2为宜信区间 置信度 越大,置信区间越宽;置信区间越宽,置信度越大;置信度越小,宜信区间越窄ROC曲线及含义ROC曲线指受试者工作特征曲线 (receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标, 是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设左出多个不同的临界值, 从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线, 曲线

19、下而积越大,诊断准确性越高。在R0C曲线上,最靠近坐标图左上方的点为敏感性和特 异性均较髙的临界值。10.数据挖掘步骤 理解数据和数据的来源(understanding)。 获取相关知识与技术(acquisition)。 整合与检查数据(integration and checking)。 去除错误或不一致的数拯(data cleaning)。 建立模型和假设(model and hypothesis development)0 实际数据挖掘工作(data mining)o 测试和验证挖掘结果(testing and verfication)。 解释和应用(interpretation and

20、 use)。1如何评估促销活动?1 Bayes公式(全概率公式) 探索在已知结果的情况下,是由哪种原因引起的概率:1逻辑回归(分类问题)逻辑回归适合求解哪些问题逻辑回归本质上解决的是分类问题,Logistic回归的主要用途寻找危险因素寻找某一疾病的危险因素等;预测根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大:判别实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概 率有多大,也就是看一下这个人有多大的可能性是属于某病。I线性回归 线性回归(一元和多元)中对误差的假设都是假过服从均值为0方差为泄 值的正态分布,拟合系数的求解方法可以有最小二乘法梯度下降法等

21、。关于残差的假设为零 均值,同方差,正态性,不相关,样本随机。回归分析的自变疑为连续性变量,而方差分析的自变量为离散型分类变量;广义线性回归于线性回归的最大区别是随机误差的分布不一泄是正态分布,与非线性模 型的最大区别是非线性回归无明确的随机误差分布假定。1过拟合现象以及避免的方法所谓过拟合问题过拟合反映的是在学习训练中,模型对 训练样本达到非常高的逼近精度,为了能够对样本完全正确的分类,使得它的构造如此精细 复杂,规则如此严格,以至于任何与样本数拯稍有不同的文档它全都认为不属于这个类别, 在测试数据上往往显示出很差的效果.产生过拟合是因为由于对样本数据,可能存在隐单元的表示不唯一,即产生的分

22、类的决策而不唯一.权值 学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的 特征.过度拟合解决方法权值衰减.它在每次迭代过程中以某个小因子降低每个权值,此方法的动机是保持权 值较小,避免weight decay,从而使学习过程向着复杂决策而的反方向偏。减少特征的数疑,有人工选择,或者采用模型选择算法 验证数据一个最成功的 方法是在训练数据外再为算法提供一套验证数据,应该使用在验证集合上产生最小误差的迭 代次数,不是总能明显地确左验证集合何时达到最小误差. Cross-validation with some patterns 交叉验证方法在可获得额外的数据提供验证集合时工作得很好,但是小训练集 合的过度拟合问题更为严重.k-fold交叉方法: 把训练样例分成k份,然后进行k次交 叉验证过程,每次使用不同的一份作为验证集合,其余k-1份合并作为训练集合.每个样例会 在一次实验中被用作验证样例,在k-l次实验中被用作训练样例;正则化方法 正则化是结 构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型 复杂度的单调递增函数,模型越复杂,正则化项就越大,正则化方法的作用是保留所有特征 但减小参数的取值。1监督学习与非监督学习 有监督学习对具有概念标记(分类)的训练样本进行学习

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论