




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2012年3月20日,数据分析描述统计,前言,在做数据分析的时候,一般首先要对数据进行描述性统计分析,以便于描述测量样本的各种特征及其所代表的总体的特征以及发现其数据的内在规律,再选择进一步分析的方法。 描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。,目录,集中趋势 离散趋势 探索分析,集中趋势,定义 在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。 度量方法 集中趋势的度量包括了均值(mean),中位数(median),众数(mode)。,均值、中位数、众数用那一个去度量平均水平呢?以及为什么?,均值、中位数、众数的渊源,定义 均值:表示一系列数据或统计总体的平均特征的值 中位数:将总体单位的某一数量标志的各个数值按照大小顺序排列,居于中间位置的那个数值就是中位数。 众数:众数是指变量数列中出现次数最多或频率最大的变量值。,1.众数、中位数、算术平均数的比较,均值比中位数、众数对数据的概括能力要强。 相对于中位数和众数而言均值对数据的灵敏度较大。 均值比中位数、众数偏于计算和分析。 均值的抗耐性较差,极容易受个别和少数极端值的影响。 均值适用范围比中位数、众数窄。,2.众数、中位数、算术平均数数值关系,(一)对称分布情况下 (二)偏态分布情况下,数据类型与集中趋势测度值,为该数据类型最适合用的测度值.,均值、中位数、众数的代表性衡量及使用,前面我们知道均值、中位数、众数的定义不同,特点和适用范围不同,在衡量这些平均指标的代表性时要根据不同的情况加以具体分析。 1.对于不同的总体在平均指标相等的情况下,我们一般用总体的标准差这个指标来衡量这些平均指标的代表性大小,一般来说,标准差较大的总体其平均指标的代表性较小。 2.对于不同的总体在其平均指标不相等的情况下,我们一般用离散系数来衡量这些平均指标的代表性,一般来说,这时离散系数较小的总体其平均指标的代表性较大。 3.对于同一总体中算术平均数、中位数、众数的代表性高低的衡量。由于这些起代表意义的平均指标本身所具有的特点不同,应用范围不同,在描述和反映不同现象时的代表性也不同,只有根据它们的不同特点,正确恰当地根据不同的情况选择不同的平均指标,才能够提高这些平均指标的代表性,更客观、准确地反映和描述事物现象的本质特征。,例子,找一个能够代表二次装修年限的代表性指标,均值、中位数、众数,哪一个更合理? 作业3.sav,数据的均值是6.70,中位数是6.众数是10。,如果一只脚放在摄氏1度的水里,另一只脚放在摄氏79度的水里,平均水温40度。你感觉舒服极了!?,这只是一个笑话。说明了只了解数据的集中趋势是不够的。还需要看数据的离散程度。,离散趋势,1. 离散趋势的各测度值是对数据离散程度所做的描述 2. 反映各变量值远离其中心值的程度,因此也称为离中趋势 3. 从另一个侧面说明了集中趋势测度值的代表程度。,离散趋势测度指标,1、全距 2、四分位差 3、平均差 4、标准差 5、方差 6、离散系数,四分位差是四分位数中间两个分位之差。,平均差是总体各单位标志值对其算术平数的离差绝对值的算术平均数。,总体各单位标志值对其算术平均数离差平方的算术平均数的平方根又称均方差或均方根差,标准差的平方即为方差,一组变量值的最大值与最小值之差,变异系数,定义:标准差与平均数的比值称为变异系数,是衡量资料中各观测值变异程度的另一个统计量。记为C.V。 作用:反映单位均值上的离散程度,常用在两个总体均值不等的离散程度的比较上。若两个总体的均值相等,则比较标准差系数与比较标准差是等价的。 变异系数又称离散系数。,标准差解决了单位相同、平均数相同的数据离散程度,那么不满足这两点数据的离散度比较还能用标准差吗?,标准差与标准误的区别,标准差 定义:总体各单位标志值对其算术平均数离差平方的算术平均数的平方根,又称均方差或均方根差。 计算公式: 标准差是方差的算术平方根。 标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。,标准误,定义:标准误差定义为各测量值误差的平方和的平均值的平方根,故又称为均方误差。 计算公式: 为了描述由抽样所致的样本指标(均数或率)的离散程度。需要计算统计量的变异指标,称样本统计量的标准差为标准误。 标准误的意义:反映样本统计量的离散程度,也反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性大。,,LOGO,标准差和标准误的区别,标准差衡量的是样本数据的离散程度. 标准差主要有两点作用:对样本进行标准化处理和确定异常值,标准误是样本均值的标准,表示的是抽样的误差。 标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误。,标 准 差,标 准 误,95%的参考值范围,参考值的概念 参考值的计算 参考值与置信区间的区别,参考值的概念,医学参考值是指包括大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。习惯上取该人群的95%的个体某项医学指标的界值。 取单侧还是双侧根据指标的实际情况而定。例如人体血压,过高过低都为异常。参考值范围需要确定上下限。若指标仅过高和过低为异常,则取单侧。过低异常,则取下限;过高异常则单侧去上限。,参考值的计算,计算数据的95%参考值有两种方法: 数据服从正态分布时可以从正态分布原理求出; 数据非正态分布时否则就应当用百分数法求出。,可信区间与参考值范围的区别,1.从意义来看 95参考值范围是指同质总体内包括95个体值的估计范围,而总体均数95可信区间是指按95可信度估计的总体均数的所在范围。 2.从计算公式看 若指标服从正态分布,95参考值范围的公式是:1.96s。 总体均数95可信区间的公式是: 。 前者用标准差,后者用标准误。前者用1.96,后者用为0.05,自由度为v的t界值。,可信区间的解释,从总体中做随即抽样,对于含量为n的每个样本而言。都可以算得一个区间。以95%的可信区间为例: 理解1 意味着同一总体中做100次重复抽样,可得到100个可信区间,平均有95个可信区间包含总体均数。只有5个可信区间不包含总体均数。 理解2 对于某一区间而言,它包含总体均数的可能性为95%,而不包含总体均数犯错误的概率仅为5%。,例子 作业5.sav,分别求两组数据95%的参考值范围和可信区间。,对于第一组数据,因近似呈正态分布,所以95%的参考值为: (3.01,6.39)对于第二组数据,峰度和偏度不为0,即数据不服从正态分布,直接取2.5%和97.5%: 即(63.40,97.02),第一组数据的置信区间为: (4.53,4.87) 第二组数据的置信区间为(87.11,88.65),异常值的检验与处理,当一组数据对称分布时,经验法则表明: 约有68%的数据在平均数加减1个标准差的范围之内; 约有95%的数据在平均数加减2个标准差的范围之内; 约有99%的数据在平均数加减3个标准差的范围之内。 当一组数据不再是对称分布时,切比雪夫不等式表明: 至少有75%的数据落在平均数加减2个标准差的范围以内; 至少有89%的数据落在平均数加减3个标准差的范围以内; 至少有94%的数据落在平均数加减4个标准差的范围以内。,什么样的数值是异常值呢?,1.异常值的定义,定义:一组测定值中与平均值的偏差超过两倍标准差的测定值。 与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。,2.异常值的危害,异常值的存在对分析结果(均值和标准差)产生重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值和标准差计算的准确性的前提。,异常值的检验方法一:,异常值的检验方案二:,用SPSS绘制一组数据的箱线图。 异常值:值与框的上下边界的距离在1.5倍框的长度到3倍框的长度之间的个案。 极端值:值距离框的上下边界超过3倍框的长度的个案。,在箱线图里面异常值用“o”表述。极端值用“*”表示,最小值,四分之一分位数,中位数,四分之三分位数,最大值,异常值的检验方法三:,计算统计量 (X1+X2+Xn)/n s=(Xi-)/(n-1)(i=1,2n) Gn=(X(n)-)/s 注:式中样本平均值; s样本标准差; Gn格拉布斯检验统计量。 确定检出水平,查表得出对应n,的格拉布斯检验临界值G1-(n)。 当GnG1-(n),则判断Xn为异常值,否则无异常值 给出剔除水平的G1-(n),当当GnG1-(n)时,Xn为高度异常值,应剔除。,SPSS中异常值检验的几种方法介绍,离群值(箱图探索).值与框的上下边界的距离在1.5倍框的长度到3倍框的长度之间的个案。框的长度是内距。 极端值(箱图).值距离框的上下边界超过3倍框的长度的个案。框的长度是内距 在回归模型诊断里面,一般称预测值与实际值的偏差为“残差“,残差有几种表示方法:标准化残差, 学生化残差等等,按照需要取一种残差,再按照某种标准取一个阀值来限定异常点,只要那个点的残差大于阀值,就可以认为它是异常点。,正态性检验方法,1.直方图 2.茎叶图 3.箱线图 4.P-P图 5.Q-Q图 6 偏度、峰度检验法: 7.样本的四分位差和标准差的比值 8.Kolmogorov-Smirnov正态性检验 9.Shapiro-Wilk(W检验),1.直方图 直方图:用矩形的宽度和高度表示频数分布的图形。 图为作业3第一次评 分结果直方图,数据分组,频数,2.茎叶图,频数,树茎,树叶,茎叶图相当于横置的直方图,但它可以保留原始数据的信息。,3.箱线图,中位数与上四分位数的距离,下四分位数与众位数间的距离,判断方法:观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置,则分布较为对称,否则是偏态分布,如何看数据是否服从正态分布呢?,4.P-P图,理论累积概率,实际值计算的累积概率,实际值计算的累积概率,差值,解读:若数据服从正态分布,P-P图样本数据点呈对角线分布。P-P趋势图应随机分布在Y=0的两侧。,5. Q-Q图 以上两种方法以Q-Q图为佳,效率较高。,观察值分位数,观察值分位数,理论分位数,观察值分位数与理论分布分位数的差值,解读:若数据服从正态分布,Q-Q图样本数据点呈对角线分布。Q-Q趋势图应随机分布在Y=0的两侧。,6 偏度、峰度检验法: g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误g1及g2然后作U检验。两种检验同时得出U0.05的结论时,才可以认为该组资料服从正态分布,7.样本的四分位差和标准差的比值,比值= 表示四分位差,S表示标准差。若数据服从正态分布,则比值接近于1.3。,8.Kolmogorov-Smirnov正态性检验,定义:K-S检验是检查单一样本是否来自某一特定分布的方法。 检验方法:以样本数据的累积频数与特定理论分布比较,若两者间的差距较小,则推论该样本取自某特定分布族。,8.Kolmogorov-Smirnov正态性检验,定义:K-S检验是检查单一样本是否来自某一特定分布的方法。 检验方法:以样本数据的累积频数与特定理论分布比较,若两者间的差距较小,则推论该样本取自某特定分布族。 假设:,8.Kolmogorov-Smirnov正态性检验,表示样本的累积概率函数, 表示特定分布的分布函数 构建统计量 当原假设为真时,D的值应较小; 对于给定的 注:对于特定的样本量及显著性水平 可以查表得到d的值。,9.Shapiro-Wilk(W检验),W检验是建立再次序统计量的基础上,将 n个独立观测值按非降次序排列,记为 : 检验统计量为: 其中系数 在样本容量为n时有特定的值另外,系数 还具有如下性质:,9.Shapiro-Wilk(W检验),总体分布为正态分布时,W 的值应该接近1,因此,再显著性水平 下,如果统计量W的值小于其 分位数,则拒绝原假设。 即拒绝域为 其中 分位数可查表。 如若在计算中有 ,则在显著水平为 上未落入拒绝域,即可认为该批数据服从正态分布;若在计算中有 ,则在显著水平为 上落入拒绝域,认为该批数据不服从正态分布。,例子:,K-S方法和S-W方法是有区别的,一般情况下,K-S方法在心理测量中经常使用,S-W方法在样本容量小于50时可以使用,判别:如果P值小于 0.05,则拒绝数据正态的原假设,即数据不是正态分布。,方差齐性检验,定义:方差齐性实际上是指要比较的两组数据的分布是否一致,通俗的来说就是两者是否适合比较 方法:常用Levene方差齐性检验,也称为Levene检验 优点:相较其他方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中级会计师考试试卷及答案
- 2025年计算机科学竞赛试卷及答案
- 2025年城市规划专业知识考试题及答案
- 数据分析与处理技术考试试卷及答案2025年
- 民办学校学生资助与奖学金管理委托合同
- 物流园区设施维护与物业管理一体化合同
- 拆迁安置补偿金分配与离婚财产分割及房产分配协议
- 短视频网红KOL推广合作合同
- 高清影视虚拟角色租赁合同及后期特效服务
- 互联网金融服务用户隐私权保护与数据安全协议
- 棋牌室运营方案策划书
- 康美药业审计风险分析
- MOOC 大学摄影-河南理工大学 中国大学慕课答案
- 赛事承办合同
- (高清版)DZT 0248-2014 岩石地球化学测量技术规程
- 缺血性卒中患者的血压管理
- 太空舱民宿可行性研究报告
- 2024年上海高职院校学生技能大赛短视频创作与运营赛项样题
- 四害消杀报告
- 光伏安装施工危险源辨识、风险评价及控制措施
- 广告宣传栏及雕塑采购项目服务投标方案(技术标)
评论
0/150
提交评论