第二课基本统计描述与数据转换11.doc_第1页
第二课基本统计描述与数据转换11.doc_第2页
第二课基本统计描述与数据转换11.doc_第3页
第二课基本统计描述与数据转换11.doc_第4页
第二课基本统计描述与数据转换11.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二课 基本统计描述与数据转换描述统计分析引:统计分析的目的是研究总体特征。而往往由于客观条件的限制,我们只能够得到从总体中随机抽取的一部分观察对象,称之为样本,只有通过对样本的描述和研究,才有可能对总体进行某种可能的推断。描述统计分析是推断统计分析的基础。一、描述统计分析的基本内容包括:集中趋势分析:众数:出现频率最高的数中位数:将数据排序后位于正中间的数值。适合于所有分布类型的数据分位数:四分位数、中位数、百分位数。理解分位数的含义。均值:一组数据的简单算术平均数或加权算术平均数。适合于正态分布或对成分布资料。几何平均数:算术平均数的变形,专门用来处理特殊数据的平均数,如发展速度调和平均数:算术平均数的一种变形。离散趋势分析极差:数据最大值减去最小值,最简单的离散程度测度值标准差、方差:最常用的离散程度测侧度值,一般适合于正态分布资料最小值、最大值标准误:样本平均数的标准差偏度、峰度测量偏度系数:Skew ness,当分布对称时,偏度系数为0。当偏度系数为正值,可以判断为右偏(正偏),反之,判断为左偏(负偏)。 峰度系数:Kurtosis ,是对数据分布平峰或尖峰程度的测度。峰度是针对标准正态分布而言的。峰度系数为0,表明数据为标准正态分布。若峰度系数大于0,则数据为尖峰分布;反之为平峰分布。统计图形分析:直方图、PP 图、茎叶图、箱线图等上述三种图形是描述统计分析过程中常用的几种图形,是用于观察数据的分布形态的辅助工具。二、菜单介绍:1、frequencies 过程:生成频数分布表,适合于定性资料,以及部分定量资料。2、descriptive:进行一般的描述统计统计分析,包括集中趋势值,离散趋势值,偏度系数,峰度系数等。适合服从正态分布的定量资料。使用频率最高。3、Explore:适合于数据分布状况不清时的探索性数据分析。4、ratio:对连个连续性变量计算相对指标。三、frequencies 过程。四、descriptive过程主要针对连续性资料,可以计算一系列描述统计量。并且可以将变量的原始数据标准化并以变量的形式保存。五、explore 过程适用于对资料的性质、分布特点完全不清楚时,称之为探索性分析。能计算常用描述统计量,并绘制统计图形,包括茎叶图、箱线图。箱线图:首先找出一组数据的五个特征值,包括最小值、最大值、中位数、两个四分位数(上四分位数和下四分位数),然后,连接两个四分位数构成箱子,最后连接两个极值点与箱子,形成箱式图。可观察数据呈正态分布、左偏分布、右偏分布还是其他类型的分布,如型分布。例:某班学生英语成绩如下:76 90 97 71 70 93 86 83 78 85 81 绘制箱线图如下:茎叶图:将数据分成茎和叶两部分,通常以数据的高位数值为茎,低位为叶,树叶上一般保留数据的最后一个数字,树叶长在树茎上。通过茎叶图,也可以看出数据的分布形状及数据的离散状况。实际上是横放的直方图。适合于数据量较少的情况。该图形的优势,既保留原始数据的信息,又能看出数据的分布状况。这是比直方图优越的地方。【例】某生产车间50名工人日加工零件数如下(单位:个)。试绘茎叶图观察分布特征。117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图似横置直方图的直方图M-estimators: 用于对集中趋势进行最大稳健估计。当数据中存在异常值较多时,适合于用该估计值代替平均值来反映数据的集中趋势。通常有四种统计量:Huber、Andrew、Hampel、 Tukey。若这四个统计量的结果较为接近,且与均数相差不大,则说明数据分布不太偏,也就说明均值可以代表数据的集中趋势。Levene : 方差齐性检验。适合于对分组数据检验各组间数据是否方差齐。Shapiro wilk 检验:正态性检验的方法之一。当检验一组数据是否服从正态分布,可以运用该检验方法。一般适合于小样本场合。K-S检验:正态性检验的方法之一。当检验一组数据是否服从正态分布,可以运用该检验方法。一般适合于连续性数据,大样本场合。Transform/Data菜单详解本章主要介绍数据管理的基本内容,包括数据的合并、拆分、转置、编码等内容,是进行正式统计分析前的重要一步。Transform菜单主要针对数据中变量的变换,如根据已知变量产生一个新的变量,Data 菜单主要针对数据库的维护,如数据文件的合并、拆分、汇总等。3.1 SPSS对话框元素介绍下面所介绍的是在SPSS所有的统计分析中都会出现的典型的对话框,了解对话框的基本结构有助于更好的掌握SPSS。一、一级对话框元素介绍1、 候选变量列表框 2、选入变量列表框 3、变量移动钮 4、五个标准按钮 5、其他按钮二、二级对话框元素介绍1、单选框 2、复选框 3、下拉列表框 4、文本框 以回归分析(AnalyzeRegression)3.2 Transform 菜单详解 本菜单功能丰富,主要针对数据文件中的变量进行各种转换。一、Compute过程(重点掌握)Compute过程是Transform菜单中最常用的一个过程,功能是用于给变量赋值。方法一:第一步:产生一个新变量“new” ,并给该变量赋值1;第二步:对该新变量进行修改,修改条件:当血磷值超过1的时候,令“new”的取值为2方法二:用逻辑函数any例2 :打开cars.sav文件,对产地为欧洲的汽车的数据进行转换,将“马力”增加20函数介绍:1、Arithmetic 函数数学函数Abs (?) 返回变量的绝对值Arsin(?)返回变量的反三角函数值Mod (?,?) 返回数值表达式除以模数后的余数,要求模数不能为0Rnd(?)返回数值表达式四舍五入后得到的整数值Trunc (?) 返回数值表达式截尾以后得到的整数值2、CDF 返回累积分布函数的累积概率值 如:CDF.Normal(X1, 0, 1) =X2X1X2-20.02-10.1600.510.8420.98 3、日期和时间函数(略)4、随机变量函数 (Random numbers) RV.Normal(mean,stddev)返回来自指定均值和标准离差的正态分布的随机数RV.EXP(shape)返回服从指定参数的指数分布随机数RV.Possion(mean) 返回服从指定均值的泊松分布的随机数RV.Uniform ( min,max) 返回指定最小值和最大值的均匀分布的随机数(1) 产生一系列随机数(操作讲解)(2) 应用:如有100个case, 想打乱它们的顺序,该如何解决?方法:首先产生一个均匀分布的随机数,然后按随机数进行排序后即可。 如:从编号为1300的灯泡中随机抽20个进行检验,如何实现? 方法:运用计算机产生20个1到600间的随机数,取出他们对应的灯泡进行检验即可。5、统计函数CFVAR(标准离差/均值);MAX/最大值;MIN/最小值;MEAN/均值;SD/标准差;SUM /求和; VARIANCE/方差例: 运用产生随机数的方法产生一个数据文件,文件命名为chengji.sav,包含学号(x1),语文(x2)、数学(x3)、英语(x4)四个变量名,计算各门功课的平均成绩/总分。6、逻辑函数ANY 7、字符串函数8、转换函数 converse 主要用于字符型变量与数值型变量的转换二、Count过程该过程用于标示某个值或某些值在某个变量的取值中是否出现。标示:SPSS会自动用数字1来标注满足所需条件的记录。如果想知道哪些记录的血磷脂在23之间,则可以通过count过程实现。(操作)例2 :在cars.sav文件中标出美国产的汽车马力在135以下的记录注意:Count 在标示数据的过程中,不能对同时满足多个取值条件的记录进行标示,只能对满足某一个条件的变量进行标示。三、Recode过程该过程用于将原变量按照某种一一对应的关系生成新变量,可以将新值赋给原变量也可以生成一个新变量。例2:打开cars.sav,将美国产的汽车进行编码,马力在100以下的取值为0,马力在100200的取值为10,马力在200以上的取值20,生成新变量temp四、Rank Cases过程该过程是专门履行排次序的功能的。因为在非参数统计中,经常要用到秩次这个统计量。例:请分组计算血磷脂的秩次。五、其他菜单1、Random Number Seed 该过程用于随机种子的设定,可以保证随机数重复出现操作:固定随机种子,并产生20个随机数 不固定随机种子,并产生20个随机数2、Automatic Recode(与Rank case 过程相似,略)3、Replace Missing Value 与Create Times Series均属于针对于时间序列数据,此处略。3.3 Data菜单详解Transform倾向于对变量进行处理操作,而Data倾向于对整个数据文件进行处理操作该菜单所履行的功能分为下列三类:简单命令:包括插入变量、插入记录和到达某条记录,直接用鼠标拖放就可以快速完成,无需调用菜单。上述命令也可以通过优化工具栏,将上述命令设置在工具栏中直接调用。方法:单击工具栏,右键toolbarscustomize ,然后按照需要进行设置。简单过程:包括排序、拆分文件、选择观测和加权观测,使用频繁。专用过程:包括定义日期变量、数据转置、文件的合并、数据汇总等。一、Sort Case过程当我们调用该过程时,多半是针对多变量排序,如果仅对单变量排序,右键即可。例1:见书P37例2:请将chengji.sav按学号升序、总分成绩降序排列数据。二、Merge Files过程(重点掌握)该过程用于合并多个来自SPSS的数据文件1、纵向合并(记录合并)从外部数据文件中增加记录到当前数据文件中,要求两文件具有相同的变量。例1: 右侧列表框中显示的是合并后新数据文件中显示的变量,若不需要那么多变量,直接将其选入左侧列表框。例2:运用随机数产生服从均值为1,方差为2的正态分布的随机数( x1) 10个,其中前5个为第一组,后5个为第二组。令组别变量为group. 将该数据文件合并到xuelin.sav中2、横向合并(增加变量)从外部文件中增加变量到当前数据文件,称为横向合并。对数据要求较高: 默认按照相同记录号进行合并 如果按照一个一一对应的关键变量进行匹配合并,则记录要按照该变量进行升序排列例2 :练习:运用随机数产生两个SPSS数据文件,命名为merge1.sav和merge2.sav并将其合并。其中第一个文件包含学号(x1,取值1-10),语文(x2),数学(x3);第二个文件包含学号(x1,取值为1020),化学(x4),生物(x5) 三、Aggregate过程(重点掌握)该过程主要用于对数据进行分类汇总,即对数据文件按照分组变量(如性别、宗教信仰等)进行分组,然后对给各组进行汇总统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论