


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、阿里巴巴1、异常值是指什么请列举 1 种识别连续型变量异常值的方法异常值(Outlier) 是指样本中的个别值, 其数值明显偏离所属样本的其余观测 值。在数理统计里一般是指 一组观测值中与平均值的偏差超过两倍标准差的测定 值.常见的异常值检验方法如下:基于统计的方法 基于距离的方法 基于密度的方法 基于聚类的方法 基于偏差的方法 基于深度的方法t 检验:按照 t 分布的实际误差分布范围来判别异常值 ,首先剔除一个可疑值, 然后按 t 分布来检验剔除的值是否为异常值。狄克逊检验法 :假设一组数据有序 x1<x2<<xn,且服从正态分布,则异常值最 有可能出现在两端 x1 和 x
2、n。格拉布斯检验法 :与狄克逊检验法思想一样,其检验公式为:指数分布检验:SPSS和 R 语言中通过绘制箱图可以找到异常值 ,分布在箱边框外部;2、什么是聚类分析聚类算法有哪几种请选择一种详细描述其计算原理和步骤。聚类分析 (cluster analysis)是一组将研究对象分为相对同质的群组 (clusters)的 统计分析技术。聚类分析也叫分类分析 (classification analysis或) 数值分类 (numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析计算方法主要有: 层次 的方法 (hierarchical method) 、
3、划分 方法 (partitioning method) 、基于 密度 的方法 (density-based method) 、基于 网格 的方法 (grid-based method) 、基 于模型 的方法 (model-based method) 等。其中,前两种算法是利用统计学定义的距离进行度 量。 常见的聚类方法有: K-pototypes 算法, K-Means 算法, CLARANS算法(划分方法) , BIRCH算法(层次方法) ,CURE算法(层次方法),DBSCAN算法(基于密度的方法) ,CLIQUE 算法(综合了基于密度和基于网格的算法) ;k-means 算法的工作过程说
4、明如下:首先从 n 个数据对象任意选择 k 个对 象作为初始聚类中心 ;而对于所剩下其它对象,则根据它们与这些聚类中心的相 似度(距离),分别将它们分配给与其最相似的 (聚类中心所代表的 )聚类 ;然后再计 算每个所获新聚类的聚类中心 (该聚类中所有对象的均值 );不断重复这一过程直 到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。其流程如下:(1) 从 n 个数据对象任意选择 k 个对象作为初始聚类中心 ;(2) 根据每个聚类对象的均值 (中心对象 ),计算每个对象与这些中心对象的距 离 ;并根据最小距
5、离重新对相应对象进行划分 ;(3) 重新计算每个 (有变化)聚类的均值 (中心对象);(4) 循环 (2)、(3)直到每个聚类不再发生变化为止 (标准测量函数收敛 )。优点:本算法确定的 K 个划分到达平方误差最小。当聚类是密集的,且类 与类之间区别明显时, 效果较好。 对于处理大数据集, 这个算法是相对可伸缩和 高效的,计算的复杂度为 O(NKt),其中 N是数据对象的数目, K是聚类中心, t 是迭代的次数。缺点:1. K 是事先给定的,但非常难以选定 ;2. 初始聚类中心的选择对聚类 结果有较大的影响。3. 数据标准化技术是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制,
6、 将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 常用的方法有:(1)总和标准化。分别求出各要素所对应的数据的总和,以各要素的数据除以 该要素的数据的总和,即4. 缺失值处理方法1)直接丢弃含缺失数据的记录如:个案剔除法, 这种方法却有很大的局限性。 它是以减少样本量来换取信息的 完备,会造成资源的大量浪费, 丢弃了大量隐藏在这些对象中的信息。 当缺失数 据所占比例较大, 特别是当缺数据非随机分布时, 这种方法可能导致数据发生偏 离,从而得出错误的结论。2)补缺A. 用平均值来代替所有缺失数据 :均值替换法, 均值替换法也是一种简便、 快速的缺失数据处理方法。 使用均值
7、替换法插补缺失数据, 对该变量的均值估计 不会产生影响。但这种方法是建立在完全随机缺失( MCAR)的假设之上的,而 且会造成变量的方差和标准差变小。B. K -最近距离邻居法 :先根据欧式距离或相关分析来确定距离具有缺失数 据样本最近的 K 个样本,将这 K个值加权平均来估计该样本的缺失数据。C. 用预测模型来预测每一个缺失数据: 该方法最大限度地利用已知的相关数 据,是比较流行的缺失数据处理技术。如:回归替换法 ,该方法也有诸多弊端, 第一,容易忽视随机误差, 低估标准差和其他未知性质的测量值, 而且这一问题 会随着缺失信息的增多而变得更加严重。 第二,研究者必须假设存在缺失值所在 的变量
8、与其他变量存在线性关系,很多时候这种关系是不存在的。5.Apriori 算法和信息熵 信息熵是数学中一个抽象的概念, 他表示了信息源的不确定度, 这里不妨把 信息熵理解成某种特定信息的出现概率, 当一种信息出现概率更高的时候, 表明 它被传播得更广泛,或者说,被引用的程度更高。我们可以认为, 从信息传播的 角度来看,信息熵可以表示信息的价值 。支持度: Support(A->B)=P(A U B)。支持度揭示了 A与 B同时出现的概率 。如果 A与 B同时 出现的概率小,说明 A与B的关系不大;如果 A与B同时出现的非常频繁,则说明 A与 B 总是相关的。置信度 (Confidence)
9、 的公式式: Confidence(A->B)=P(A | B) 。置信度揭示了 A 出现时, B 是否 也会出现或有多大概率出现 。如果置信度度为 100%,则 A和 B可以捆绑销售了。如果置信 度太低,则说明 A 的出现与 B 是否出现关系不大。H(x) = EI(xi) = E log(2,1/p(xi) =- p(xi)log(2,p(xi) )(i=1,2,.n),单位是 bit. 其中, x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号 集,随机变量的输出用 x 表示。 P(x)表示输出概率函数。变量的不确定性越大,熵 也就越大,把它搞清楚所需要的信息量也就越大
10、.以频繁项集 I1,I2, I3为例产生强关联规则,最小置信度为 40%(1) 频繁项集I1,I2,I3的非空子集有 I1,I2,I1,I3,I2,I3,I1,I2,I3(2) 产生强关联规则I1,I2=>I3 confidence=support(I1,I2,I3)/support(I1,I2)=2/4=I1,I3=>I2 confidence=support( I1,I2,/support(I1,I3)=2/4=I2,I3=>I1 confidence=support( I1,I2,/support(I2,I3)=2/4=I1=>I2,I3 confidence=s
11、upport( I1,I2,/support(I1)=2/6=I2=>I1,I3 confidence=support( I1,I2,/support(I2)=2/7=I3=>I1,I2 confidence=support( I1,I2,/support(I3)=2/6=则强关联规则为:I1,I2=>I3;I1,I3;I2,I3=>I13、根据要求写出 SQL (没有学习过,之后的学习中需要补) 表 A 结构如下:Member_ID (用户的 ID,字符型 )Log_time (用户访问页面时间,日期型 (只有一天的数据 )URL (访问的页面地址,字符型 )要求:提
12、取出每个用户访问的第一个 URL(按时间最早 ),形成一个新表 (新表 名为 B,表结构和表 A 一致)参考答案:create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ;5、用户调研某公司针对 A、 B、C 三类客户,提出了一种统一的改进计划,用于提升客 户的周消费次数, 需要你来制定一个事前试验方案, 来支持决策, 请你思考下列 问题:a) 试验需要为决策提供什么样的信息c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以 及你选择的统计方法。a) 试验要能证明该改进计
13、划能显着提升 A、B、C 三类客户的周消费次数。b) 根据三类客户的数量,采用分层比例抽样 ;需要采集的数据指标项有: 客户类别, 改进计划前周消费次数, 改进计划后 周消费次数 ;选用统计方法为:分别针对 A、B、C 三类客户,进行改进前和后的周消费 次数的,两独立样本 T-检验6.常见的抽样方法有哪些 常用的有以下六种类型:简单抽样 ( Simple sampling)即简单随机抽样, 指保证大小为 n 的每个可能的样本都有相同的被抽中的概 率。例如:按照 “抽签法 ”、“随机表”法抽取访问对象,从单位人名目录中抽取对 象。优点:随机度高, 在特质较均一的总体中, 具有很高的总体代表度;
14、是最简单的抽 样技术,有标准而且简单的统计公式。缺点: 未使用可能有用的抽样框辅助信息抽取样本, 可能导致统计效率低; 有可能 抽到一个 “差”的样本,使抽出的样本分布不好,不能很好地代表总体。系统抽样 ( Systematic random sampling) 将总体中的各单元先按一定顺序排列, 并编号,然后按照不一定的规则抽样。 其中最常采用的是等距离抽样,即根据总体单位数和样本单位计算出抽样距离 (即相同的间隔),然后按相同的距离或间隔抽选样本单位。 例如:从 1000 个电 话号码中抽取 10 个访问号码,间距为 100,确定起点(起点间距)后每 100 号码抽一访问号码。优点: 兼具
15、操作的简便性和统计推断功能,是目前最为广泛运用的一种抽样方法。 如果起点是随机确定的, 总体中单元排列是随机的, 等距抽样的效果近似简 单抽样;与简单抽样相比,在一定条件下,样本的分布较好。缺点:抽样间隔可能遇到总体中某种未知的周期性,导致 “差”的样本;未使用可能 有用的抽样框辅助信息抽取样本,可能导致统计效率低。分层抽样 ( Stratified random sampling)是把调查总体分为同质的、互不交叉的层(或类型) ,然后在各层(或类型) 中独立抽取样本。例如:调查零售店时,按照其规模大小或库存额大小分层,然 后在每层中按简单随机方法抽取大型零售店若干、 中型若干、小型若干; 调
16、查城 市时,按城市总人口或工业生产额分出超 大型城市、中型城市、小型城市 等,再 抽出具体的各类型城市若干。优点:适用于层间有较大的异质性, 而每层内的个体具有同质性的总体, 能提高总 体估计的精确度, 在样本量相同的情况下, 其精度高于简单抽样和系统抽样; 能 保证 “层”的代表性,避免抽到 “差”的样本;同时,不同层可以依据情况采用不同 的抽样框和抽样方法。缺点:要求有高质量的、 能用于分层的辅助信息; 由于需要辅助信息, 抽样框的创 建需要更多的费用,更为复杂;抽样误差估计比简单抽样和系统抽样更复杂。整群抽样( Cluster sampling)(层层深入抽样,不断缩小抽样的范围) 是先
17、将调查总体分为群, 然后从中抽取群,对被抽中群的全部单元进行调查。 例如:入户调查, 按地块或居委会抽样, 以地块或居委会等有地域边界的群体为 第一抽样单位, 在选出的地块或居委会实施逐户抽样; 市场调查中, 最后一级抽 样时,从居委会中抽取若干户,然后调查抽中户家中所有 18 岁以上成年人。优点:适用于群间差异小、 群内各个体差异大、 可以依据外观的或地域的差异来划 分的群体。缺点:群内单位有趋同性,其精度比简单抽样为低。 前面谈到抽样方法的一些基本分类和各自特点, 需要注意的是, 在实际的运 用中,一个调查方案 常常不是只局限于使用某一种抽样方式,而根据研究时 段的不同采用多种抽样方法的组
18、鸽为实现不同的研究目的, 有时甚至在同一时段 综合运用几种抽样方法。例如,设计一个全国城市的入户项目,在抽样上可以分为几个不同的步骤, 包括:1)在项目正式开始前,可以采用 判断抽样法选出某一城市先作试点 ,在问 卷设计初期可以采用任意抽样法选出部分人群进行问卷试访。2)采用 分层随机抽样法 ,确定全国要分别在多少个超大型市、多少个中型PPS市、多少个小型市实施(先分出城市的几个层次,再依据研究需要在各层用 法选取具体城市)3) 采用简单抽样法 或 PPS抽样法,确定抽出城市中应抽的地块或居委会;4) 采用整群抽样 法,确定抽出地块或居委会应访问的家庭户;5) 在项目后期,可以采用 判断抽样法
19、 选取某城市进行深入研究。8.置信度与置信区间P(x1<x<x2)=1-a,称 1-a为置信度, x1,x2为置信区间 置信度越大,置信区间越宽;置信区间越宽,置信度越大; 置信度越小,置信区间越窄曲线及含义ROC曲线指受试者工作特征曲线 (receiver operating characteristic curve), 是反映 敏感性 和特异性连续变量 的综合指标 ,是用构图法揭示敏感性和特异性的相互关系,它通过将连续 变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、 ( 1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲
20、线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。10. 数据挖掘步骤 理解数据和数据的来源( understanding)。 获取相关知识与技术( acquisition )。 整合与检查数据( integration and checking)。 去除错误或不一致的数据( data cleaning)。 建立模型和假设( model and hypothesis development)。 实际数据挖掘工作( data mining)。 测试和验证挖掘结果( testing and verfication)。 解释和应用( interpretation and use )。11.
21、 如何评估促销活动11. Bayes公式(全概率公式) 探索在已知结果的情况下,是由哪种原因引起的概率;p(Bi | A)p(BiA)p(Bi)p(A|Bi)p(A)p(Bj)p(A|Bj)12. 逻辑回归(分类问题)逻辑回归适合求解哪些问题:逻辑回归本质上解决的是分类问题, Logistic 回归的 主要用途:寻找危险因素:寻找某一疾病的危险因素等; 预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多 大;判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情 况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。11. 线性回归 线性回归(一元和多
22、元) 中对误差的假设都是假定服从均值为 0方差为定值 的正态分布, 拟合系数的求解方法可以有最小二乘法梯度下降法等。 关于残差的 假设为 :零均值,同方差,正态性,不相关,样本随机。回归分析的自变量为连续性变量,而方差分析的自变量为离散型分类变量; 广义线性回归于线性回归的最大区别是随机误差的分布不一定是正态分 布,与非线性模型的最大区别是非线性回归无明确的随机误差分布假定。12. 过拟合现象以及避免的方法所谓过拟合问题: 过拟合反映的是在学习训练中 ,模型对训练样本达到非常高的逼近精度, 为了能够对样本完全正确的分类, 使得它的构造如此精细复杂, 规则如此严格, 以至于任何与 样本数据稍有不
23、同的文档它全都认为不属于这个类别 ,在测试数据上往往显示出很差的效 果.产生过拟合是因为:1. 由于对样本数据 ,可能存在隐单元的表示不唯一 ,即产生的分类的决策面不唯一 .2. 权值学习迭代次数足够多 (Overtraining), 拟合了训练数据中的噪声和训练样例中没有代表 性的特征 .过度拟合解决方法:1.权值衰减 .?它在每次迭代过程中以某个小因子降低每个权值,此方法的动机是保持权值较小,避免weight decay, 从而使学习过程向着复杂决策面的反方向偏。2. 减少特征的数量,有人工选择,或者采用模型选择算法3. 验证数据一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该
24、使用在验证集合上产生最小误差的迭代次数 ,不是总能明显地确定验证集合何时达到最小误差.with some patterns交叉验证方法在可获得额外的数据提供验证集合时工作得很好,但是小训练集合的过度拟合问题更为严重 .k-fold 交叉方法 :把训练样例分成 k 份 ,然后进行 k 次交叉验证过程 ,每次使用不同的一份作为验证集合 ,其余 k-1份合并作为训练集合 .每个样例会在一次实验中被用作验证样例 ,在 k-1 次实验中被用作训 练样例 ;5.正则化方法正则化是结构风险最小化策略的实现, 是在经验风险上加一个正则化项或惩罚项。 正则化项 一般是模型复杂度的单调递增函数,模型越复杂,正则化
25、项就越大,正则化方法的作用是: 保留所有特征但减小参数的取值。13. 监督学习与非监督学习 有监督学习:对具有概念标记(分类)的训练样本进行学习, 以尽可能对训练样本集外的数 据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性 低。所有的分类回归算法都是有监督算法, 常见的算法有: SVM,KNN,决策树算法 ,朴素 Bayes 算法,神经网络,最小平方拟合,最大熵等。无监督学习:对没有概念标记(分类)的训练样本进行学习, 以发现训练样本集中的结构性 知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。聚类就是典型的 无监督学习,常见的无监督学习算法
26、:聚类,PCA,关联规则算法 Aprior , FP-Growth 等。14. 分位数 3 原则3 原则: 在 -3 , +3 区间上的概率密度曲线之下的面积占总面积的%,对于 标准正态分布有 p 3 x 3 0.997 。15.常见分布的密度函数均值和方差16. 常见的区间估计以及假设检验表对于均值的检验,方差已知一般采用 U 检验(标准正太分布) ,方差未知采 用 T 检验( t 分布);关于方差的检验,一般都采用卡方检验,若是两个正太总体采用F 检验;俐表1正态总体参数朿估样总体统i憧淤!8信区间单ft&旨区间玩三£r.t* v(Oj)9 J JiQ 冷 r J(&qu
27、ot;沖(f - t<rTc:«57 = _、心1)S/fiF+r,("l)二)(30: X +f /乃D =)V*( jS -1:x «* 也c3c:爭E)f(u-lTs (r-l>S: *fo.fcz2ii eg)丿JX '%&;> Jg: 成心叶1spT叫(5"后舍<r r f 土虫)x * 0石) y 叫才 a:未三Hi-M:Ry.丄丄V- f»(FF_/e(n. -fl:2L+l,VF+/«(”; +" 2|S(; J丄+ 丄丿(fT T 七2 氏 | *)(T -£
28、;(q 七2存:二+ 8)X '*,£) y沁,旳£几誥也”21)1T¥ s: F u)_) j“ Lns j)©Ai?(可人(agl)Y>单个正态总体对总体均值的检验p原僦殳备择假设条件臨法检验统计宣统计里的分布扌晩域/ K=Ho检验总幟值W m»w8戏侧检验方差b已知检验法卑7 &mi)«Y 厂“ JU(“ “朽), ! 2 2Z,r f %檢验总IW值Hf u<Ho 左侧检验方差/已筠(检验法(Cil)(y,tJ A=Uo检验总体均值存 M>Me右侧检验方差G:已知U检验法& 3Ng仏7
29、曲)Hg M附检验总床均值双侧检验方差/未知T-r_S / &(f%(“l)u 仏(“1),却)/ K=Ho检验总幟值码 U<Uo左侧检验方差G:未知伽法T rM-c心-D(-aCw-L): U*检验总体均值右侧检鲨方差G未知/检验法T片-山T77Tf("-l(如a-i)rwo)单个:E态总体対总体方差瞬验原慷殳解假设级计略布拒绝域/): 0 =0?協鋭沐方差你c3G:取側卷验坨值®才检醱法z(x w72 = 7 ZC-(O,xW)U(xiW-Ho) -亍 Q =G;检验总沐方差lh c2 < G;左创检验拔值迢汕V(X. -U)2zJ(«)(0,心(d叫 0 =0:检验总沐方差:c1 > Go右側栓验坨值口已知才椅验法zZ2W(Xl(«),-H») CT -G-检验欝方差/ c3 <::加矗验均値H未知讯验決卄弟G。£(T
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新疆师范大学《中医文献学》2023-2024学年第二学期期末试卷
- 信阳航空职业学院《世界地理专题实验》2023-2024学年第二学期期末试卷
- 2025-2030年中国OLED材料市场竞争状况与投资策略研究报告
- 甘肃泰安县市级名校2024届中考数学全真模拟试卷含解析
- 麻醉术后护理
- 6G移动通信技术展望
- 2024-2025企业负责人安全培训考试试题(a卷)
- 2024-2025企业员工岗前安全培训考试试题及答案(名校卷)
- 2025年生产经营负责人安全培训考试试题及答案考试直接用
- 2025公司员工安全培训考试试题及参考答案1套
- 专题04 三角函数-备战2025年高考数学真题题源解密(新高考卷)解析版
- GB/T 44442-2024智能制造远程运维系统评价指标体系
- DCS基础知识题库100道及答案(完整版)
- 腕踝针疗法完整版本
- 提升质量意识-强化质量管理
- 大众传媒文化智慧树知到期末考试答案章节答案2024年复旦大学
- 拨叉加工工艺及夹具设计毕业设计
- CJT156-2001 沟槽式管接头
- 河南省信阳市固始县2023-2024学年四年级下学期期末数学试题
- 合作社用地租赁合同样本
- 2024-2030年中国街舞培训行业市场发展现状及竞争格局与投资战略研究报告
评论
0/150
提交评论