第4章_样本描述与数据准备_第1页
第4章_样本描述与数据准备_第2页
第4章_样本描述与数据准备_第3页
第4章_样本描述与数据准备_第4页
第4章_样本描述与数据准备_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章 样本描述与数据准备 样本数据采集到以后,不能立即用于数据分析,因为样本可能存在错误数据、缺失数据或者异常数据,或者采集的数据不符合要求,不具有代表性,这些情况会直接影响到分析结果的准确性和准确性。所以,进行数据分析以前,需要首先了解一下样本数据的基本特征,并对缺失值和异常值等进行适当的处理。第一节 样本的描述一、基本数学知识 样本数据采集到以后,常用一些统计量描述原始数据的集中程度和离散状况,对数据的总体特征进行归纳。(1)描述中心趋势的统计量 算术平均数:样本数据的总和除以数据个数得到算术平均数,算术平均数是描述样本数据中心趋势最常用的统计量,因为具有计算简便、稳定的优点。 中位数:将样本数据(假设有个数)按照升序或者降序排列,如果为奇数,则数列中间的数为中位数;如果为偶数,则中位数为居中两数的均值。中位数不如算术平均数稳定,即在同一总体中取相同大小的不同样本时,中位数的变化比算术平均数大。但是中位数不受极值的影响,因而在经济统计中应用较多。 众数:样本数据中出现频数最大的那个数称为众数。众数容易理解,但是不容易确定,与中位数一样,不受极值的影响。 截尾平均数:将样本数据进行排序后,按照一定的比率去掉两端的某些数,对剩下的数据求平均值,得到截尾平均数。常用的截尾平均数有5%截尾平均数,即两端去掉5%的数据以后剩余的数求平均数。截尾平均数与算术平均数相比,较少受极值的影响。 几何平均数:个非负数的几何平均数可以表示为: 几何平均数应用于任何两个相邻数之比为常数或者接近常数的数据资料。 调和平均数:个数的调和平均数可以表示为: 其它中心趋向的度量还有某种四分数、十分数和百分数的平均值。其中,分位数是随机变量的一种数字特征,假设连续型随机变量的密度函数是,给定常数 ,若满足:则称为的分位数。(2)描述离散趋势的统计量仅仅利用描述中心趋势的统计量,不能够反映整个数据集合的分布状况,具有不同分布的数据可能具有相同的算术平均数、中位数或者众数等。因此,还需要统计量来反映数据与描述中心趋向统计量之间的离散状况。这样的统计量主要包括以下几种: 极差:极差是样本数据中最大值与最小值的差值,极值舍弃了最大值与最小值之间的数据信息,仅仅依靠端点值来确定,因而稳定性差。平均差:样本数据中各数据与均值之间差值的平均数称为平均差。平均差应该为0,用它可以检验平均值的准确性。 平均绝对差:样本数据中各数据与均值之间的差值的绝对值的均值称为平均绝对差。 标准差:方差的平方根称为标准差,标准差是最常用的反映数据离散趋势的统计量。(3)偏度与峰度 偏度:偏度是反映数据分布不对称的一个数字特征,其公式: 式中,为变量的阶中心矩。当数据为正态分布时偏度为0。 峰度:峰度是以正态分布为标准描述该分布密度的形状为陡峭还是平坦的一个数字特征,计算公式为: 当数据呈现正态分布时,峰度为0。二、SPSS实现 用鼠标指向Analyze菜单条中的Descriptive Statistics选项,打开响应的子菜单,该子菜单中提供了多个过程来实现样本数据的描述。下面分别进行介绍。(1)频数分析过程该过程就是通过数据频数分析来达到整理数据的目的,利用该过程,得到一系列描述数据分布状况的统计量。 对话框介绍在Descriptive Statistics子菜单中单击Frequencies选项,打开Frequencies对话框,如下图所示; 变量名列表框:对话框左侧的变量名列出了当前数据文件中所有的变量的变量名。 Variable(s):在变量名列表框中单击文件名之后,单击对话框中间的箭头按钮,将变量名移到该列表框中。选定变量名后,将对选定变量的数据进行频数分析。 Display frequency tables:选定此项,将在查看器中显示频数分析表,否则只显示直方图,不显示频数表。 Statistics按钮:单击该按钮,打开Frequencies:Statistics对话框,如下图所示,该对话框中各个选项的意义如下:1.Percentile Values方框:选择方框内的选项,计算并显示分位数。 Quartiles核选框 计算并显示四方位数。 Cut Points核选框 在后面的窗口中输入数值,假设为(为2到100之间的整数字),则计算并显示分位数。 Percentile(s)核选框 在后面的窗口中输入数值,可以有选择的显示百分位数。在窗口中可以输入0到100之间的数字,输入后,单击Add按钮,将对应的百分位数添加到方框内的列表框中,利用Change按钮和Remove按钮,可以对列表框中的选项进行修改和删除。 2.Central Tendency方框:选择该方框内的选项,计算并显示描述中心趋势的统计量。 Mean核选框 计算并显示样本数据的均值; Median核选框 计算并显示样本数据的中值; Mode核选框 计算并显示样本数据的众数; Sum核选框 计算并显示样本数据的累加和。 3.Values are group midpoints核选框:假设数据已经分组,而且数据取值为初始分组的中点,选择此项,计算百分位数统计量和数据的中位数。4.Dispersion方框:选择方框内的选项,计算并显示描述数据离散趋势的统计量。 Std.deviation核选框 计算并显示标准差 Variance核选框 计算并显示方差 Range核选框 计算并显示极差 Minimum核选框 计算并显示样本数据的最小值 Maximum核选框 计算并显示样本数据的最大值 S.E.mean核选框 计算并显示均值的标准误差5.Distribution方框:设置描述数据分布的统计量 Skewness核选框 显示样本数据的偏度和偏度的标准误差 Kurtosis核选框 显示样本数据的峰度和峰度的标准误差 Charts按钮:单击该按钮,打开Frequencies:Charts对话框,如下图所表示 1.Chart Type方框:在该方框内进行选择,确定图形输出类型。 None 为默认选项,选择此项,不生成和显示图形; Bar char(s) 单选项,生成和显示条形图; Pie char(s)单选项,生成和显示饼图; Histogram(s)单选项,生成和显示直方图; With normal curve核选项,选择Histogram(s)单选项后,本核选框变的可以用,选择此项,在生成和输出直方图时添加正态曲线。 2.ChartValues方框:在Bar char(s) 和Pie char(s)选择之后,该项目变得可以用。选择此项目,确保生成图形时候的条形或扇区面积的度量。 Frequencies单选项:为默认选项,用分类变量不同取值对应的个数作为度量; Percentage单选项:用分类变量不同取值对应的个数占总个数的百分比作为度量。 Format按钮:单击该按钮,打开Frequencies:Format对话框,如下图所示。利用该对话框,设置频数分析表的输出格式。 1.Order by方框:该方框中的选项设置表中的数据的排列顺序。 Ascending values单选框 为默认选项,按照变量的大小进行顺序排列; Descending values单选框 按照变量的大小进行降序排序; Ascending counts单选框 按照变量值出现的频数作升序排列; Descending counts单选框 按照变量值出现的频数作降序排列。 2.Multiple Variables方框:如果Frequencies方框中Variable(s)列表框中有多个变量名,选择该项,可以确定表格的显示方式。 Compare variables单选框,为默认选项。将对应于各个变量的统计量显示在一张单独的表中; Organize output by variable单选框,将对应于各变量的统计量分别列示显示。 3.Suppress tables with more than n categories核选框:选择此项,在后面的窗口中输入数值,确定频数输出的范围,即输出数据的组数不得大于窗口中输入的数值。默认时该数值为10。(2)数据描述过程对话框说明 在Descriptive Statistics子菜单中单击Descriptive选项,打开Descriptives对话框,如下所表示。该对话框中各个选项的意义如下: 在左边的变量名列表中选中变量名后,用箭头按钮移到variable(s)列表框中,将对variable(s)列表框中的数据的分布特征进行描述。 Save standardized values as variables核选框:选择该框,对Variable(s)中的数据进行标准化,然后将标准化后的数据保存到一个变量中,变量名字为原变量名字前面添加字母z.新生成的变量和数据保存到当前数据文件中并显示在数据编辑器的最后一列。 Options按钮:单击该按钮,打开Descriptive:Options对话框,如下所示。 1.Mean核选框,Sum核选框,Dispersion方框内的选项和Distribution内的选项的意义参见前面的Statistics对话框的内容。2.Display Order方框: 该方框内的选项设置描述表格中数据的显示顺序。 Variable List单选框 为默认选项,按照数据文件的先后顺序排列; Alphabetic单选框 按照变量的字母排序排列; Ascending means单选框 按照变量均值的升序排列; Descending means单选框 按照变量均值的降序排列。(3)数据探察过程对话框说明在Descriptive Statistics子菜单中单击Explore选项,打开Explore对话框,如下图形所示:变量名列表框:该列表框中列出了当前数据文件中的所有变量名字;Dependent列表框:在该列表框中输入变量名,对应变量为因变量;Factor List列表框:在该列表框中输入变量名,对应变量为分组变量;Label Cases列表框:在该列表框中输入变量名,对应变量为标识变量;Display方框:选择该方框中的选项,确定显示内容。Both单选项:为默认按钮,选择此项,输出统计表格和图形; Statistics单选项:选择此项,输出统计表格; Plots单选项:选择此项,输出图形; Statistics按钮:单击此项,打开Explore:Statistics对话框,如下图形所示。1.Descriptive核选框 选择此项,将生成Descriptive表,表中显示样本数据的描述统计量,包括平均值,中位数,5%调整平均数,标准误差,方差,标准差,最大值,最小值,极差,四分位数,峰度,偏度以及误差等等。默认时选择此项。在后面的Confidence Interval for窗口中输入数值,确定平均值的置信区间,默认为95%。2.M-estimators核选框 选择此项,将计算并生成稳健估计量。关于文件估计量的内容将在后面参数估计一章中介绍。3.Outliers核选框 选择此项,输出5个最大值和5个最小值,作为异常嫌疑值。在后面的相应部分详细介绍。4.Percentiles核选框 选择此项,计算并显示指定的百分位数以及四分位数,指定的百分位数包括5%,10%,15%,25%,50%,75%,90%和95%等。Plots按钮:单击该按钮,打开Explore:plots对话框,如下所示。、 1Boxplots方框 在Explore对话框中的Dependent列表框中输入多个变量名(因变量),在该方框中选择此项,确定箱形图的生成方式。 Factor levels together 核选框,为默认选项,将为每个因变量创建一个箱形图,在每个箱形图内根据分组变量的不同水平创建箱形单元。 Dependents together核选框,将为每个分组变量创建一个箱形图,在每个箱形图内为不同因变量用不同颜色创建箱形单元。 None不创建箱形图。 2.Descriptive方框 选择该方框,生成茎叶图和直方图。 Stem-and-leaf核选框,生成茎叶图,默认此项; Histogram核选框,生成直方图。 3.Normality plots with tests核选框:生成正态Q-Q概率图和无趋势正态Q-Q概率图。 4.Spread vs Level with Levene Test方框,应用此项,必须先在Explore对话框中输入分组变量。 Options按钮:单击该按钮,打开Explore:Options对话框。该对话框设置了缺失数据的处理方法,在Missing Values方框中进行选择。 1.Exclude cases listwise单选框,为默认选项,对所有数据中剔除带有缺失数据的样本; 2.Exclude cases pairwise单选框,在当前样本中对所有数据中剔除带有缺失数据的样本,在其它分析过程中可能包括缺失值。 3.Report values单选框,将分组变量中的缺失值单独分为一组,并用频数表输出。第二节 数据列表与报表输出 采集到的原始数据往往都是随机的,杂乱无章的。无法一下子从中看出什么规律来,对原始数据进行列表整理,可以使数据更容易阅读和检查。此外,SPSS还提供了多种报表输出功能。一、分层报表过程 分层报表过程对分类变量的不同取值对应的统计量分别建立报表。对话框说明 在Reports子菜单中单击OLAP Cubes选项,打开OLAP Cubes对话框,如图所示。该对话框中各个选项的意义如下: Summary Variable(s)列表框:在该列表框中输入变量名,对应变量作为综述变量; Grouping Variable(s)列表框:在该框中输入变量名,对应变量作为分组变量; Statistics按钮:单击该按钮,打开OLAP Cubes:Statistics对话框,在该框中设置选项,确定需要计算和显示的统计量,各个统计量选项的意义如下: Sum 数据累加值 Number of Cases 个案数 Mean 算术平均数; Standard Deviation 标准离差 Median 中值Grouped Medium 组中值Std.Error of Mean 均值的标准误差Minimum 最小值Maximum 最大值Range 极值 percent of Total Sum 某类数据的总和占全部数据总合的个数 percent of Total N 某类数据对应的个案数占总个案的百分数 Percent of Sum in 各综述变量对应的某分类变量的数据之和占数据总和的百分数 Percent of N in 各综述变量对应的某分类变量的数据对应的个案数占总个案的百分数 Title按钮:单击该按钮,打开OLAP Cubes:Title对话框,在该对话框中的Title窗口和Caption窗口中分别输入分层报表的标题和注释内容。二、个案列表过程 利用该过程,可以对原始数据中各个案的数据进行收集整理。对话框说明 在Analyze菜单中的Reports子菜单中单击Case Summarize选项,打开Summarize Cases对话框,该对话框中各选项的意义如下: Variable(s)列表框:用箭头按钮从变量名列表框转移一个或多个变量名到该列表框中,确定对哪些变量的个案数据列表。 Grouping列表框:该窗口输入变量名,对应变量作为分组变量; Display Cases:选择此项,将在列表窗口中显示全部的单个个案对应的统计量,否则只显示各分组对应的统计量。 Limit cases to核选框:选择此项,在后面的窗口中输入数值,确定最多在列表中显示多少个个案。默认时为100。 Show only valid cases核选框:选择此项,只显示有效数据对应的个案。 Show case numbers:核选框,选择此项,显示个案号; Statistics:单击该按钮,打开Summary Report:Statistics对话框,如下图所示。 Options按钮:单击该按钮,打开对话框,如图所示三、行综述报表过程对话框说明 在Reports子菜单中单击Report Summarize in Rows选项,打开Report:Summarize in Rows对话框,如下图所示。该对话框意义如下: Data Columns方框:在该方框内的列表框中输入变量名,然后单击Format按钮,打开Report:Data Column Format for salary对话框,如下所示。 Column Title列表框:在该列表框中输入变量的列表题。不输入,则输出变量标签或者变量名。 Column title下拉式列表框:在该控件中进行选择,确定标题的对齐方式。 Value Position within Column方框:在框内进行选择,确定变量值在列表中的位置。四、列综述报表过程第三节 发现异常嫌疑值 异常值是指观测数据中存在的过大过小的值,可能只是数据中内在的随机变异性的一种极端的表现,也可能是因为试验过程中出现操作错误或者条件改变所导致。对于前一种异常值,必须予以保留并与其它数据一起参与统计过程;对于后一种数据,必须予以舍弃或修正。因此,一个过大或过小的值是否是真正意义上的异常值,需要先进行判别。判别的方法是,如果数据服从正态分布(需要检验是否符合正态分布),检验的方法有奈尔检验,格拉布斯检验和荻克逊检验等。异常值的检验请参见后面的假设检验。本节介绍如何发现可能的异常值。 根据异常值的定义,原始数据中可能异常的是对数据进行排列以后位于数列两端的值,SPSS提供了多种方法来实现异常值的探察。一、利用统计过程发现异常嫌疑值 在Explore:Statistics对话框中,选择Outliers核选框时候,将在生成的结果中显示当前变量不同水平对应的5个最大值和5个最小值,分别对它们进行检测,可以确定它们是否为异常值。二、利用箱形图发现异常嫌疑值 在Explore:Plots对话框中的Boxplots方框

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论