实验四描述性统计分析._第1页
实验四描述性统计分析._第2页
实验四描述性统计分析._第3页
实验四描述性统计分析._第4页
实验四描述性统计分析._第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验四描述性统计分析数据的特征和测度11r1*集中趋势离散程度1分布的形状1众比率A 数中砂一差和标准差一、集中趋势的测度定类数据:众数定序数据:中位数和分位数定距和定比数据:均值众数、中位数和均值的比较i. 一组数据向其中心值靠拢的倾向和程度2测度集中趋势就是寻找数据一般水平的代表值或中心值3. 不同类型的数据用不同的集中趋势测度值4. 低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据5. 选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定I. 众数(Mode1、集中趋势的测度值之一2、出现次数最多的变量值3、不

2、受极端值的影响4、可能没有众数或有几个众数5、主要用于定类数据,也可用于定序数据和数值型数据II. 中位数(Median6集中趋势的测度值之一7、排序后处于中间位置上的值8、不受极端值的影响9、主要用于定序数据,也可用数值型数据,但不能用于定类数据10、各变量值 与中位数的离差绝对值之和最小,即III. 四分位数(Quartiles1. 集中趋势的测度值之一2. 排序后处于25%和75%位置上的值3. 不受极端值的影响4. 主要用于定序数据,也可用于数值型数据,但不能用于定类数据IV. 均值(Mea n1. 集中趋势的测度值之一2. 最常用的测度值3. 一组数据的均衡点所在4. 易受极端值的影

3、响5. 用于数值型数据,不能用于定类数据和定序数据众数、中位数和均值的关系二、离散程度的测度定类数据:异众比率M e50%50%Q L Q M Q U25%25%25%对称分布均值=中位数=众数右偏分布众数中位数均值左偏分布定序数据:四分位差定距和定比数据:方差及标准差I. 异众比率1. 离散程度的测度值之一2. 非众数组的频数占总频数的比率3. 仅用于定类数据4. 用于衡量众数的代表性II. 四分位差1. 离散程度的测度值之一2. 也称为内距或四分间距3. 上四分位数与下四分位数之差QD = QU - QL4. 反映了中间50%数据的离散程度5. 不受极端值的影响6. 用于衡量中位数的代表性

4、III. 方差和标准差(Varianee and Stc。deviation1. 离散程度的测度值之一2. 最常用的测度值3. 反映了数据的分布4. 反映了各变量值与均值的平均差异5. 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本 方差或标准差IV. 偏态(kurtosis1. 数据分布偏斜程度的测度2. 偏态系数=0为对称分布3. 偏态系数 0为右偏分布4. 偏态系数 0为左偏分布V. 峰度(skew ness1. 数据分布扁平程度的测度2. 峰度系数=3扁平程度适中3. 偏态系数3为扁平分布4. 偏态系数3为尖峰分布三、描述统计量的软件实现1、Excel选择工具=

5、 数据分析= 描述统计即可输出大部分描述统计量但EXCEL只能按行或列进行分组统计,因此在编辑数据时要注意平均122.98标准谋差L 14中值(中位数)123模式f众数)122标准偏差8. 03样本方差64. 43峰值-0. 41偏斜度0. 00区域(极差)32最小值107最大值139求和6149计数50最大(1)139最小(1)107置信度(95.0%)2. 282、SPSSSPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Analyze Descriptive Statistics菜单中,最常用的是列在最前面的四个过程: Freque ncie过程的特色是产生频数

6、表 Descriptive过程则进行一般性的统计描述; Explore过程用于对数据概况不清时的探索性分析; Crosstab过程则完成计数资料和等级资料的统计描述和一般的统计检验我们常用的X2检验也在其中完成2.1 Freque ncies过程此过程可以方便地对数据按组进行归类整理,形成各变量的不同水平的频数分 布表和图形,以便对各变量的数据特征和观测量分布状况有一个概括的认识。频数 分布表是描述性统计中最常用的方法之一。它还可对数据的分布趋势进行初步分 析。Statistics 按钮】 Perce ntile Value复选框组定义需要输出的百分位数,可计算四分位数(Quartiles、每

7、隔指定百分位输出当前百分位数(Cut pointsfor equal groups或直接指定某个百分位数(Percentiles如直接指定输出P2.5和 P97.5; Cen tral ten de nc复选框组用于定义描述集中趋势的一组指标:均数(Mean、中位数(Median、众数(Mode、总和(Sum ; Dispersion复选框组用于定义描述离散趋势的一组指标:标准差(Std.deviation、方差(Varianee、全距(Range 最小值(Minimum、最大值 (Maximum、均值标准误差(S.E.mean ; Distribution复选框组用于定义描述分布特征的两个指

8、标:偏度系数(Skewness和峰度系数(Kurtosis ; Values are group midpo int复选框当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知SPSS免得它犯错误。【Chart按钮】 Chart type选钮组 定义统计图类型,有四种选择:无、条图(Bar chart、饼图 (Pie chart、直方图Histogram,其中直方图还可以选择是否加上正态曲线 (Withno rmal curve ; Chart Vlues单选钮组 定义是按照频数还是按百分比做图(即影响纵坐标刻 度。例4.1利用房价原始数据图.Sav绘制频数表、直方图,计算均

9、数、标准差、中 位数 M、p2.5 和 p97.5。1. Analyze=Descriptive Statistics=Frequencies2. Variables 框:选入 Price3. 单击 Statistics 钮:4. 选中 Mean、Std.deviation、Median 复选框5. 单击Percentiles输入2.5:单击Add :输入97.5:单击Add :6. 单击 Continue 钮7. 单击Charts钮:8. 选中 Bar charts 9.单击 Continue 钮 10.单击 OK。SI otistksNvid105Mi sang0220 72MedionJ

10、1300Stl. Dewaticri47.106Rwoertlles25134.1097.532S35最上方为表格名称,左上方为分析变量名,可见样本量N为105例,缺失值0例,均数Mean=220.72,中位数Median=213.00标准差STD=47.108,P2.5=134.10,P97.5=326.35案例1:利用居民储蓄调查表数据进行频数分析,实现:目标一:分析储户的户口和职业的基本情况;提示:为使频数分布表一目了然,可调整频数分布表中数据的输出顺序,如按频数 的降序输出户口按饼图输出,职业按条形图输出;目标二:分析储户一次存(取款金额的分布,并对城镇储户和农村储户进行比较。提示:由

11、于存(取款金额数据为定距型变量,直接采用频数分析不利于对其分布形 态的把握,因此考虑先用数据分组功能(Transform Record寸数据分组后再编制频数 分布表;进行数据拆分,并分别计算城镇储户和农村储户的一次存(取款金额的四分位数 并通过四分位数比较两者分布上的差异。2.2 Descriptives 过程可对变量进行描述统计量分析,计算并列出一系列相应的统计指标,包括平均 值、算术和、标准差、最大值、最小值等,且可将原始数据转换成标准Z分值(标准 正态评分值并存入数据库。选择菜单Analyze=descriptive= Descriptives对话框的界面如下所示:Save standa

12、rdized values as variable复选框】确定是否将原始数据的标准正态评分存为新变量案例2:利用居民储蓄调查表数据计算基本描述统计量,实现:目标一:计算存(取款金额的基本描述统计量,并分别对城镇储户和农村储户进行 比较;提示:首先按照户口对数据进行拆分目标二:分析储户一次存(取款的数量是否存在不均衡现象提示:可以从分析金额是否有大量异常值入手;计算存(取款金额的标准化值,并选中Save Standardized As Variable选项,将自 动计算存(取款金额的标准化值,并存为Za5;对Za5进行排序,并分为三组(Za5=-3低金额组,-3 Za5=3高 金额组后进行频数分

13、析;观察低金额组(即低异常值组和高金额组(即高异常值组的比例,如异常组的总比 例大于理论值0.3%,即认为存(取款金额存在一定的不均衡现象。2.3 Explore 过程功能:1.检查数据是否有错误2. 数值的分布特征3. 对数据的规律的初步观察选择菜单Analyze=descriptive= Explore对话框的界面如下所示Display单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。【Depe ndent List框】用于选入需要分析的变量。【Factor List框】如果想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。【Label cases by框】选择

14、一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。【Statistics 钮】弹出Statistics对话框,用于选择所需要的描述统计量。有如下选项: Descriptive复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。 Mestimators复选框:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。 Outliers复选框:输出五个最大值与五个最小值。 Percentile复选框:输出第 5%、10%、25%、50%、75

15、%、90%、95%位数。【Plot钮】弹出Plot对话框,用于选择所需要的统计图。有如下选项 Boxplots单选框组:确定箱式图的绘制方式,可以是按组别分组绘制(Factor levels together也可以不分组一起绘制(Depentendstogether或者不绘制(None。 Descriptive选框组:可以选择绘制茎叶图(Stem-and-leaf和直方图(Histogram。 Normality plots with test复选框:绘制正态分布图并进行变量是否符合正态分布的检验。 Spread vs. Level with Levene Te单选框组:当选择了分组变量时,绘

16、制spread-versus-leve图,设置绘图时变量的转换方式,并进行组间方差齐性 检验。【Optio ns钮】用于选择对缺失值的处理方式,可以是不分析有任一缺失值的记录、不分析计 算某统计量时有缺失值的记录,或报告缺失值。price Mean220. 721. 59795% Confidence Lower BoundIirt erval for211. 61MeanUpper Bound229. 845% Trimmed Mean219. 55Median213. 00Variance2219. 125Std* Deviation47. 108Minimum125Maximum345R

17、ange220Iirterquartill Range65Skewness 473.236Kurtosis274,167以下是房价茎叶图priceprice Stem-a nd-Leaf PlotFreque ncy Stem & Leaf3.00 1 . 2233.00 1 . 45516.00 1.666777777777777720.00 1 . 8888888888899999999914.002.0000000000111114.002.2222222223333313.002.44444444555558.00 2.666667777.00 2.88999994.00 3.0111

18、2.00 3.221.00 3.4Stem width: 100Each leaf: 1 case(s以上是茎叶图,整数位为茎,小数位为叶。这样可以非常直观的看出数据的分布 范围及形态,在国外非常流行150以上是箱线图,中间的黑粗线为均数,红框为四分位间距的范围,上下两个细线为最大、最小值。案例3:利用居民储蓄调查表数据分析储户存(取款金额的分布情况。2.4 Crosstabs过程(列联表分析Crosstabs过程用于分析多个变量不同取值下的分布,掌握多变量的联合分布特 征,进而分析变量之间的相互影响和关系。称列联表分析或交叉分组下的频数分 析。两大基本任务:1根据收集到的样本数据编制二维或多

19、维交叉列联表;2在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。Crosstabs过程不能产生一维频数表(单变量频数表,该功能由Freque ncies过 程实现。交叉列联表的卡方检验:检验行变量和列变量是否独立?建立零假设(H0;列联表分析中卡方检验的零假设为行变量与列变量独立;选择和建立检验统计量;列联表分析中卡方检验的检验统计量是Pearson卡方统计量。确定显著性水平和临界值;结论和决策。方法一:如果卡方的观测值大于卡方临界值,可拒绝零假设;方法二:如果卡方观测值的概率p值小于等于a拒绝零假设。在SPSS中,上述列联表卡方检验的过程,除用户要自行确定显著性水平和进行 决

20、策外,其余各步都是SPSS自动完成的;SPSS#自动计算卡方统计量的观测值以及大于等于该值的概率P值;因此,在应用中,用户只要明确零假设,便可方便地按照第二种决策方式进行决J策o事实上,所有的假设检验均是这样进行的。例4.2利用下表格数据,进行列联表分析处理愈金未愈合合计咲喃硝胺54862甲繭咪弧112064合计9828126解:由于此处给出的直接是频数表,因此在建立数据集时可以直接输入三个变量行变量、列变量和指示每个格子中频数的变量,然后用Weight Cases对话框指定频数变量,最后调用Crosstabs过程进行X2检验。假设三个变量分别名为 R、C 和W,则数据集结构和命令如下:处理愈

21、介未愈咲喃硝胺518甲亂咪肌4120合计98281. Data=Weight Cases2. Weight Cases by单选框:选中3. Freqency Variable选入 W4. 单击OK钮5. Analyze=Descriptive Statistics=Crosstabs6. Rows框:选入R7. Colum ns 框:C8. Statistics钮:Chi-square复选框:选中:单击 Continue 钮9. 单击OK钮Chi-Square TestsValuedfAsymp. Sig. p-sided)Exact Sig, (2-sided)Exact Sig.Pear

22、son Chi-Square9.131013Contmuily CorTection35 11E1.024Likelihood Ratio3.3041.012Fished01S011Linie; ar-bLin: ar Assoc-ijtion0.0841014N of Vlid126从左到右为:检验统计量值(Value、自由度(df、双侧近似概率(Asymp.Sig.2-sidec、双侧精确概率(Exact Sig.2-sided 单侧精确概率(Exact Sig.l-sided;从上到下为:Pearsor卡方(Pearson Chi-Squar卩常用的卡方检验、连续性校正 的卡方值(Con

23、tinuity Correction、对数似然比方法计算的卡方(Likelihood Ratio、 Fisher 确切概率法(Fisher s Exact Te线性相关的卡方值(Lin ear by Lin ear Association、有效记录数(N of Valid Cases。另外,Continuity Correction和Pearson卡方值处分别标注有 a和b,表格下方为相 应的注解:a只为2*2表计算。b.O%个格子的期望频数小于5,最小的期望频数为 13.78。因此,这里无须校正,直接采用第一行的检验结果,即X2=6.133,P=0.013如给定显著性a为0.05,由于卡方的

24、频率p值小于a因此拒 绝零假设,即认为两组方法治疗效果有差异。如果交叉列联表中有20%以上单元格中的期望频数小于 5,则一般不宜使用卡 方检验。在这种情况下,可以采用似然率卡方检验等方法进行修正。例4.3以数据加工(职工数据.sav为例,检验职称和文化程度是否有关联?1. Analyze=Descriptive Statistics=Crosstabs;2. 如果进行二维列联表分析,将行变量职称(zc选择到Row(s框,将列变量文化程度(xl选择到Column框中;3. 选择Display clustered bar charts选项,指定绘制各变量交叉分组下频数分布柱形图,suppresst

25、ables表示不输出列联表,仅分析行列变量间关系4. 单击Cell按钮指定列联表单元格中的输出内容;5. 单击Format按钮指定列联表各单元的输出排列顺序,SPSS默认以行变量取值的升序排列;6. 单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系,一般选择Chi-Square卡方检验。案例4:利用居民储蓄调查表数据进行计算,实现以下两个目标:目标一:分析城镇储户和农村储户对朱来两年内收入状况的变化趋势”是否持相同的态度;提示:列联表的行变量为户口 (a13列变量为未来收入情况(a3,在列联表中输出各 种百分比,期望频数、剩余、标准化剩余,同时显示各交叉分组下频数分布柱形图,并 利用卡方检验方法,对城镇和农村储户对该问题的态度是否一致进行分析 ;目标二:分析城镇和农村储户对储蓄是否合算的认同是否一致。提示:该分析中列联表的行变量为户口 (a13列变量为什么合算(a1,在列联表的基 础上进行卡方检验。补充:多选项分析多选项分析是针对问卷调查中的多选项问题的。对于多选项问题由于答案个数不止一个,如果仍按单选问题的方式设置SPSS变 量,那么该变量虽然能够存储多个答案,但却无法直接支持对问题的分析。即对一个 多选项问题仅设置一个SPSS变量在数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论