版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、单变量统计描述第1页,共29页,2022年,5月20日,2点15分,星期二单变量的统计描述一、频度分布:某变量取值的各种情况或各种取值出现的次数或频数。二、集中趋势的量度集中趋势的量度反映变量所有观测值的某种共同性质。这些性质是由绝大多数观测值决定的。平均值:Mean中位数:Median表示位于数据数列中心位置的那一项的大小。 奇个数:第(n+1)/2个数的值偶个数:第n/2与第(n/2)+1两个数的均值众数:Mode数据中重复出现次数最多的数值。系统只计算最小的数值。第2页,共29页,2022年,5月20日,2点15分,星期二平均值、中位数和众数的应用特征:考试后,对两个班级的考试成绩的对照
2、分析用什么描述统计数据?对全体学生做教学满意度(n等级)调查,最中性的评价态度的描述用什么描述统计数据?其中学生最集中的评价用什么描述统计数据?第3页,共29页,2022年,5月20日,2点15分,星期二三、离心趋势的度量描述数据个性方面的特征,即数据的分散程度或差异程度。跨度(全距)(range):观测值中最大值与最小值之差。跨度表现了总体观测值分布的最大范围,跨度大,表现分布范围大。方差(Variance): 每个数据与该组数据平均数之差乘方后的均值标准差(Standard deviation): 方差的平方根。方差、标准差值越大,说明分布偏离中心的程度越大;其值小说明数据相对比较集中。第
3、4页,共29页,2022年,5月20日,2点15分,星期二偏(斜)度(Skewness):描述分布偏离正态分布的程度,即偏离对称的程度。 Skewness Skewness0: 正偏离 Skewness0 分布集中趋势强 Kurtosis=(75%百分位数-25%百分位数)*1.5+75%百分位数下奇异值=(75%百分位数-25%百分位数)*3+75%百分位数下极端值=98)Stem width: 10.00Each leaf: 1 case(s)第一列 频数Frequency:表示个案的频数。第二列 茎Stem: 表达整数第三列 叶Leaf: 每片叶表示小数的量级。Stem width表示茎
4、宽,即倍率,例如茎宽=10.00 当茎stem=9时,表示90Each leaf表示每片叶表示个案数,例如当Each leaf=2 case(s)时,每片叶子代表的个案数为2个个案。例如在上述例子中,第六行中的数据表示共有七个个案,其中70的个案有三个,而71的个案有四个。第七行中的数据表示共有七个个案,其中72的个案有三个,而73的个案有四个。最后一行中的数据表示共有一个个案,该个案为极端值,大于等于98。第11页,共29页,2022年,5月20日,2点15分,星期二频度分析一、频度分布的描述方式:描述某变量取值的情况可以用数表和图形。二、操作步骤:AnalyzeDescriptive St
5、atisticsFrequencies选择分析变量:回答变量名(可以多个)选项 “Display frequency table” 决定是否显示频数分布表。“Statistics” 描述统计量的计算:百分位数组(Percentile Value):四等分百分位数Quartilesn等分百分位数Cut points n equal指定的百分位数Percentile第12页,共29页,2022年,5月20日,2点15分,星期二集中趋势组(central Tendence):平均值Mean中位数Median众数Mode求和Sum离心趋势组(dispersion ):标准差Std.deviation方
6、差Variance跨度Range最小值Minimum最大值Maximum平均值的标准误S.E. Mean第13页,共29页,2022年,5月20日,2点15分,星期二分布组 (distribution):偏(斜)度Skewness峰(峭)度Kurtosis“Chart”选择统计图形:条形图Bar charts:按照样本的取值,用条形的长度来表达的图形。圆饼图Pie charts:按照样本各类取值分组的百分比生成的圆形图形。直方图Histograms:按照样本的分组取值,用条形的长度来表达各个组的取值的图形。只适用于数值型变量,若选择了“With normal curve”可附带一条用于对照的正
7、态曲线。对于图形的标度可以用频数,也可以用百分比数。第14页,共29页,2022年,5月20日,2点15分,星期二“Format” 设置频数表格式排序方式Order by:升序Ascending values按照变量值的升序排列。降序Descending values按照变量值的降序排列。频数升序Ascending Counts按照频数升序排列。频数降序Descending Counts按照频数降序排列。多变量图形输出设置多变量图形输出Compare variables在同一张图中可以有多个变量的输出结果。单变量图形输出Organize output by variable在一张图中只能有一个
8、变量的输出结果。第15页,共29页,2022年,5月20日,2点15分,星期二压缩表格格式Supress tables with more than n categories压缩表格表示频数类别将限制在n以内。超过n类的将不显示。压缩表格式将只显示变量值、频度、百分比和累计百分比。第16页,共29页,2022年,5月20日,2点15分,星期二描述统计量的计算一、基本功能专门用来产生单变量描述统计量的,如:平均值、求和、标准差、最大值、最小值、方差、跨度、平均值的标准误。二、操作步骤执行:AnalyzeDescriptive StatisticsDescriptives 选择变量到“Variab
9、les”中。选项 “Save standardized values as variables”表示是否将进行统计描述的变量生成一个Z分数变量。“Options” 选择生成的描述统计量和排序方式 常用的统计描述量: 平均值Mean 求和Sum第17页,共29页,2022年,5月20日,2点15分,星期二离心趋势(dispersion ):标准差Std.deviation方差Variance跨度Range最小值Minimum最大值Maximum平均值的标准误S.E. Mean分布 (distribution):偏(斜)度Skewness峰(峭)度Kurtosis显示排序方式按照变量列表进行排序V
10、ariable list按照变量名字母进行排序Alphabetic按照变量平均值的升序排序Ascending means按照变量平均值的降序排序Descending means第18页,共29页,2022年,5月20日,2点15分,星期二数据考察分析一、考察内容误差使数据偏离正常值。数据考察主要有如下三个方面:考察数据的真实性偏离数据主体分布太远的数据点有可能是有问题的数据点,在统计分析过程是否应保留?考察数据的分布特性数据的正态分布特性将可以为下一步的统计分析提供条件。考察变量之间数据的相互关系变量与变量之间的相关性、方差齐性,都将是一些统计分析过程所必须事先了解的。第19页,共29页,20
11、22年,5月20日,2点15分,星期二二、基本功能计算描述统计量。茎叶图描述频度分布。箱图描述数值分布(表现数据的奇异性和极端性)。正态分布检验的概率图描述数据分布的正态性。方差齐性检验的散点分层图反映变量间的方差齐性。回归参数描述变量之间的相关性。三、操作步骤执行AnalyzeDescriptive StatisticsExplore选择分析变量(因变量) 到“Dependent list”中选择分组变量(因素或自变量)到“Factor list” 中选择标识变量“Label case by”,若不选此项,则在输出过程中用样本序号标识样本。选择输出形式:“Display”,输出描述统计量 输
12、出图形 二者都有输出。第20页,共29页,2022年,5月20日,2点15分,星期二选择描述统计量“Statistics”Descriptive: 输出基本统计量,系统默认的置信区:Confidence interval for 95%M-estimators: 排除奇异值和极端值后计算的均值、中位数。Outlies: 输出5个最大值和5个最小值。Percentile:可以输出5%、10%、25%、50%、75%、90%、95%的百分位数。选择特殊统计图形“Plot”生成箱图BoxplotFactor levels together在同一张图上只显示一个变量,不同水平同时显示。Dependen
13、t together所有变量显示在同一张图上。生成茎叶图Stem-and-leaf茎叶图显示在输出显示窗口Viewer中。生成的直方图Histogram将表现频度分布。第21页,共29页,2022年,5月20日,2点15分,星期二 缺失值处理选项“Options”Exclude cases Listwise:对于选入目标变量列表中的有缺失值的变量,无论其参与不参与当前运算,相应样本将被排除。Exclude cases Pairwise:对于选入目标变量列表中的有缺失值的变量,如果其参与运算,相应样本将被排除。Report Value: 把分组变量中含缺失值的样本单独分为一组。第22页,共29页
14、,2022年,5月20日,2点15分,星期二交叉列联表利用频数或相对频数研究变量与变量之间的关系。一、交叉列联表结构定义:行变量和列变量例如:考试成绩数据:定义年龄为行变量,分3个水平,定义成绩为列变量,分5个水平,从而产生一个3 5的交叉列联表。每个单元格中的数据可以为频度、频率、期望值或残差等。最后一行和最后一列有本行、本列的频度求和以及频率求和。第23页,共29页,2022年,5月20日,2点15分,星期二f31f12f23第24页,共29页,2022年,5月20日,2点15分,星期二二、交叉列联表中变量的定义:fij:第i行第j列的值,频数。f12=3,f23=3,f31=1fi.:第
15、i行累计行边缘频数。fi.=f1.=5,f3.=6f.j:第j列累计列边缘频数。f.j= f.3=4,f.2=8Total:总频数= = =Expected Count期望值= fi. *f.j /total第25页,共29页,2022年,5月20日,2点15分,星期二% within 行变量 行频率= fij / fi.% within 列变量 列频率= fij / f.j % of Total 总频率= fij /totalResidual 残差=fij- Expected CountStd Residual 标准残差= Residual/ (Expected Count)1/2Adjus
16、t Residual调整残差= Residual/Std Err第26页,共29页,2022年,5月20日,2点15分,星期二三、操作步骤执行AnalyzeDescriptive StatisticsCrosstabs 选择行变量到“row”中。选择列变量到“column”中。 分组变量:Layer 1 of n 交叉列联表将依据该变量的取值进行分页显示。选择选项“Display clustered bar chart”将生成变量的频度分类条形图。选择选项“supress table”将不产生交叉列联表。第27页,共29页,2022年,5月20日,2点15分,星期二精确检验“Exact”用于在小样本和不均衡样本的检验。“Asymptotic only”选项是缺省的。不适用于小样本和非渐进分布方式的检验。“Monte Carlo”选项适用于指定样本数量的检验。该选项还允许非渐进分布方式的检验。“Exact”选项为精确计算。当结果小于等于0.05时可以认为行、列变量之间存在一定的相关性。“Statistics” 用于选择描述统计量,共计13个统计量。第28页,共29页,2022年,5月20日,2点15分,星期二“Cell
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中教师资格证试卷及详解
- 火锅底料试卷及详解
- 企业法律顾问执业资格考试试卷及详解
- 高中英语词汇专项题目及分析
- 注册会计师(税法)题库及分析
- 2026年虚拟现实设备开发合同协议
- 中国古代农业经济特点及其影响真题
- 工厂受伤协议书
- 长宁页岩气田返排液集中处理工程二标段燃气锅炉更新项目报告表
- 工长合同解除协议
- 高原野外作业应急预案
- 2026数字人民币运营管理中心有限公司招聘笔试备考题库及答案详解
- 2025年成都铁路笔试题库及答案
- 安徽省合肥市2026届高三下学期第二次教学质量检测化学卷及答案
- 雨课堂学堂在线学堂云《5G与人工智能(湖北师大 )》单元测试考核答案
- DZ∕T 0207-2020 矿产地质勘查规范 硅质原料类(正式版)
- MOOC 唐宋诗词与传统文化-湖南师范大学 中国大学慕课答案
- 青少年分离体验量表-II
- 正版高中化学选修3课后习题标准答案人教版
- 2023年中山市建设系统事业单位招聘考试笔试题库及答案解析
- GB/T 6462-2005金属和氧化物覆盖层厚度测量显微镜法
评论
0/150
提交评论