描述性统计分析SPSS应用.ppt_第1页
描述性统计分析SPSS应用.ppt_第2页
描述性统计分析SPSS应用.ppt_第3页
描述性统计分析SPSS应用.ppt_第4页
描述性统计分析SPSS应用.ppt_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章,描述性统计分析,主要内容,统计分析和研究的特点 单变量的描述性统计 频数分析 描述性分析 探索性分析,一、统计分析和研究的特点,大量观察、建立数据库 描述统计:用统计学来简化数据,描述特征和关系。 推论统计:用统计学可以从局部(样本)来推论总体的情况。,二、单变量的基本描述技术,一般来说,原始的资料往往是杂乱无章的。零散地分布在问卷和文献中,因此必须对资料进行加工 对资料的加工和分析从单变量的分析开始。 单变量的特征包括分布、统计表和统计图,分布特征如何?,频数(Frequency) 百分比(percent) 对比值(ratio) 累计频数(Cumulative Frequency)累计百分比(cumulative percent),基本技术之统计表,表号在文章中便于查阅、引用。 表头,包括标题、时间和地点 纵栏标题 横行标题 总计行,(一)定类层次,1.频数与频数分布 (1).频数(frequency):也称次数,它是归属各类别的个案数。 (2) 频数分布(frequency distribution):把各个类别及其相应的频数全部列出,并用表格形式表示出来,就是频数分布。这个表格就是频数分布表。,频数分布表通过对原始资料的初步简化,可以简洁明了地反映原始数据的情况。但是因为样本规模的不同,通常不能直接用来比较信息,为什么?,2.百分比(percent):频率,社会统计中通常用百分比来表示,绘制的表格一般是百分比表,但表的最下一行一般要注明频数。 上表1中,已婚者与各机关人数的比例分别是: 甲机关: 乙机关: 甲、乙机关已婚者所占的百分比分别是65.0%和57.1%,,如果只看次数,乙机关已婚者远高于甲机关,但从百分比来看,甲机关已婚的比例则较大。 频数分布表是不同类别的绝对数量的分布情况,百分比分布表则是不同类别在总体中的相对数量分布,因此,百分比分布除具备频数分布的特点外,还可以十分方便地进行不同总体或不同类别之间的比较,应用更为广泛。,3. 对比值(ratio):不同类别数值之间的比值,用x:y的形式表示 如出生性别比为105:100,则表示每出生100个女孩则有105个男孩出生 某班男女生比率为3:5,(二)定序层次:累积频数和累积频率,累积频数(cumulative frequencies):将各有序类别或组的频数逐级累加起来。 累积频率(cumulative percentages):就是将各有序类别或组的百分比逐渐累加起来。 作用:使我们容易知道某值以下或以上的次数或百分比之和,(1)向上累积: 从类别顺序的开始的一方向类别顺序的最后一方累加频数(由低级向高级水平的加和),(2)向下累积,从类别顺序的最后一方向类别顺序的开始的一方累加频数。(由高级或大数值一方向低级或较小数值一方的累加),如:某校学生的家庭月收入,(三)定距层次:分组与组距,1、分组是根据统计研究的需要,将数据按照某种标准化分成不同的组别,分组后再计算出各组中出现的频数或频率,形成一张统计分析表。,(1)组限:每组的范围, 包括上限(Upper limit)和下限(lower limits) 如100-200,下限就是100,上限就是200,(2)分组遵循的两大原则,“不重不漏”的原则 “不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现。 “不漏”是指组别能够穷尽,及在所分的全部组别中某项数据都能分在其中的一组,不能遗漏。,“上组界不包括在内”的原则,(3)组距:是一个组的上限与下限的差, 可根据全部数据的最大值和最小值及所分的组数来确定 组距=(最大值-最小值)/组数 组距=真实上限-真实下限(李沛良书p41-42),数据的分组,通过“transform”“recode”命令完成,(4)组中值:处于一组中间位置的值 真实上限与真实下限的平均值 组中值=(上限+下限)/2 如,100-200,200-300,300-400分组数据的组中值:150,250,350 那么100-199,200-299,300-399分组的组中值是多少?,基本技术之统计图,饼图,条形图,直方图,直方图是以长条的面积(长与宽的乘积)来表示频数或相对频数;条形的长度,即纵轴高度表示单位组距所含有的所有频数或相对频数的密度。仅适用于定距及以上层次的变量,折线和曲线图,定距变量资料分布常用曲线,J形曲线,U形曲线,峰状曲线,对称与不对称曲线,注意:适用于较低测量层次的统计法,也适用于较高的层次。 图形也同样:饼图主要是用于定类变量 条形图主要是用于定序变量;直方图、折线图等主要是用于定距变量,练习:城镇自杀率的分组次数分布,三、集中趋势测量,用分布来研究单变量是最全面的分析方法 在很多情况下,我们只要了解其大概或分布的主要特征以便简化资料。于是就产生了用某一个典型的变量值或特征值来代表全体变量的问题,这个典型的变量值或特征值就是集中值或集中趋势。,统计分析首先要解决的问题,就是寻求一个简单数值以代表搜集所得的资料。,下面是一个小故事: 一个人到某公司求职,经过调查,得出关于该公司工资的一些数据,如果是你,应该如何选择?,挠头的数值,公司员工的月薪如下:,我们有三种方法选择集中趋势: (1)根据频数:哪个变量值出现次数越 多,就选择哪个变量值,比如民主决策的表决 机制。 (2)根据居中:比如一个城镇居民的生活 水平,居中的是小康家庭,那么就用小康家庭 来代表该城镇的生活水平。 (3)根据平均:用平均数来代表变量的 平均水平。,关于集中趋势的一个故事,吉斯莫先生有一个小工厂,生产超级小玩意儿。 管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。 现在吉斯莫先生正在接见萨姆,谈工作问题。,吉斯莫:我们这里报酬不错。平均薪金是每周300美元。你在学徒期间每周得75美元,不过很快就可以加工资。 萨姆工作了几天之后,要求见厂长。 萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢? 吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。,吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧? 萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。 吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。,萨姆:每周100元又是怎么回事呢? 吉斯莫:那称为众数,是大多数人挣的工资。 吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。 萨姆:好,现在我可懂了。我我辞职!,描述集中趋势的统计量,Mean(均值) Median(中位值) Mode(众值),(一)均值(定距变量),1. 对于未分组资料 例 求74、85、69、9l、87、74、69这些数字的算术平均数。 解 78.4,2. 对于分组资料 很显然,算术平均数不仅受各变量值(X)大小的影 响,而且受各组单位数(频数)的影响。由于对于总体的影 响要由频数( f )大小所决定,所以 f 也被称为权数。值得 注意的是,在统计计算中,权数不仅用来衡量总体中各标 志值在总体中作用,同时反映了指标的结构,所以它有两 种表现形式:绝对数(频数)和相对数(频率)。,例 求下表(单项数列)所示数据的算术平均数 。,对于组距数列,要用每一组的组中值权充该 组统一的变量值。 例 求下表所示数据的算术平均数,3. 算术平均数的性质,各变量值与算术平均数的离差之和等于0。,各变量值对算术平均数的平方和,小于它们对任 何他数偏差的平方和,算术平均数受抽样变动影响较小。,分组资料如遇有开放组距时,不经特殊处理 不能进行算术平均数的计算。,受极端值影响较大。,(二)中位值(定序变量、定距变量),定义:第50百分位数上的值,即有50%的观察点落在这个值之下。 根据原始资料求中位值:将各个案由低至高排列起来,居于序列中央位置的个案的值即为中位值。 观察总数为奇数:Md= (N+1)/2 当观察总数为偶数:将位于最中央位置的两个数值的平均值作为中位值 。,1. 对未分组资料,(1)、先把所有数据按大小顺序排列,如果总体单位数为奇数,则取第(N+1)/2 位上的变量值为中位数; (2)、如果总体单位数为偶数。因为居中的数值不存在,按惯例,取第 N/2位和第(N+1)/2 位上的两个变量值的平均作为中位数。,例 求54,65,78,66,43这些数字的中位数。 例、求54,65,78,66,43,38 这些数字的中位数。,你会吗?,2. 对于分组资料:(1)单项数列,根据N/2在累计频数分布中找到中位数所在组, 该组变量值就是Md 。,中 位 数,(2)组距数列 (2)组距数列 按中位数所在组的下限: 按中位数所在组的上限:,当根据组距数列求中位数时,要采用所谓的比例插值法:先根据N2在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种方法求出中位数(注意:此处用的是向上累计)。,例某年级学生身高如下,求中位数,解 第一种方法 168 6 17112(厘米),请你用第二种方法来做一下,3. 中位数的性质,(1)各变量值对中位数之差的绝对值总和, 小于它们对任何其他数的绝对值总和。 (2)中位数不受极端值的影响。 (3)分组资料有不确定组距时,仍可求得 中位数。 (4)中位数受抽样变动的影响较算术平均 数略大。,4. 四分位数,中位数所有单位被等分为两部分,因而被称为二分 位数。类似于求中位数,我们还可求出四分位数、十分 位数、百分位数。 将总体中的各单位分割成相等的四部分,则这三个 分割的变量值就是四分位数。若以Q1、Q2、Q3分别代表 第一、第二、第三四分位数。Q2 即中位数,Q1、Q3的算 法分别是,请从下表中指出第一四分位数和第三四分位数,求出下表中的第一四分位数和第三四分数,(三) 众数(Mode),众数是在一组资料中,出现次数(或频 数)呈现出“峰”值的那些变量值,用Mo表示。 众数只与次数有关,可以用于定类、定序、定距、定比资料。,1. 对于未分组资料 直接观察 首先,将所有数据顺序排列;然后,只要 观察到某些变量值(与相邻变量值相比较)出现 的次数(或频数)呈现“峰”值,这些变量值就是 众数。,2. 对于分组资料 单项式:观察频数分布 (或频率分布 ) 组距式:,Lo为众数组下限; 为众数组频数与前一组频数之差; 为众数组频数与后一组频数之差; ho为众数组组距。,求下表中的众数,众数,求下表中的众数,(1) 众数仅受上下相邻两组频数大小的影响,不受极 端值影响,对开口组仍可计算众数; (2) 受抽样变动影响大; (3) 众数不唯一确定。 (4) 众数标示为其峰值所对应的变量值,能很容易区 分出单峰、多峰。因而具有明显偏态集中趋势的频数分 布,用众数最合适。,3. 众数的性质,四、离散趋势测量,所谓离散趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。,例如有A、B、C三组学生各5人的成绩如下: A组:60 ,60,60,60,60 B组:58,59,60,61,62 C组:40,50,60,70,80 数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。,描述离散趋势的统计量,异众比 极差 四分位差 方差 标准差,1、Variation ratio(异众比),界定:异众比也称离异比率,一般用异众比来反映不同于众值的数在全体数值中所占的比例,用于测量定类变量的离散趋势。 计算公式: 异众比 =(N众值的频次)/N,2、Range(极差),Range 也称全距或范围,即最大值与最小值之间的距离,显示的是数据分布的范围,但对于中间部分数据怎么变化,则不能推知,此外,它受极端值的影响大。,3、四分位差:适用于定序变量,界定:也叫四分位数偏差或四分互差。 通常数据按从小到大的顺序排列后,用三个四分位数点Q1、Q2、Q3将其分成四部分。Q1是第25百分位数点或叫低四分位数点;Q2是第50百分为位数点即中位数;Q3是第75百分位数点或叫高四分位数点。四分位差规定为Q1和Q3之间的距离。 计算公式:Q= Q3 Q1 Q越大,表示有50%的个案的分布越是远离中位值,中位值的代表性就越小,以中位值作为估计或预测的效果就越差。Q越小,说明数据比较集中在中位值附近,4、Variance(方差):适用于定距变量,方差(观察值均值)的平方和/n 一般方差越大,说明观察值离平均值的距离越远,数据的离散程度也越大。,5、Std.deviation(标准差),Std.deviation为Standard Deviation的简写,表示以均值做估计或预测变量时所犯错误的大小。 总体的标准偏差=根号(观察值均值)的平方和/n,SPSS应用,频数分析 描述性分析 探索性分析,频数分析,1频数分析目的和主要功能 频数就是一个变量在各个变量值上取值的个案数,基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。 例如,调查消费者拥有数码产品的数量,首先分析受访者的总人数、家庭收入情况、受教育程度、性别等,获取样本是否具有总体代表性、抽样是否存在系统偏差等信息。这些可以通过频数分析来实现。,经过频数分析可以得到如下结果: (1)频数分布表:该表中包含频数、各频数占总样本数的百分比、有效百分比、累计百分比。 (2)统计图:用统计图形展示变量的取值状况,频数分析中提供的统计图形可以是条形图、饼图或者直方图。,2频数分析过程的操作界面,(1)候选变量框 列出数据文件中所有的变量 (2)Variables框 从候选变量框中选择要分析的变量 移入此框中,可同时选择多个变量, 此时,SPSS就将分别产生多张 频数表或统计图形。 (3)Display frequency tables复选框 此复选框设置是否显示频数表, 系统默认选中,表示要显示频数表。,图2-1,2频数分析过程的操作界面,(4)Statistics按钮 单击该按钮会弹出新的对话框, 该对话框主要用于确定将要在 输出结果中出现的统计量, 选中统计量前的复选框表示 输出该统计量。 (5)Charts按钮 用于确定将输出的图形类型 和图形取值。 (6)Format按钮 定义输出频数表的格式,图2-1,3实例分析,【例1】以下是调查问卷中针对被调查人设置的两个问题: 1、您的家庭月收入大约是:(请包括所有工资、奖金、津贴等在内,以人民币为单位)单选 500-10001 1000-19992 2000-29993 3000-39994 4000-49995 5000-59996 6000-69997 7000-79998 8000-89999 9000-999910 10000及以上11 2、 您的教育程度:(指您受过的最高或正在接受的教育程度)单选 没有受过正式教育/小学.1 初中2 高中/中专/技校3 大专/大学非本科/高职高专4 大学本科5 研究生及以上6 从问卷中收集到的数据如表2.1所示,3实例分析,试对收集到的数据进行频数分析,表2.1,3实例分析,第1步 数据组织; 根据表2.1生成SPSS数据文件,建2个变量:“收入”、“教育”。 第2步 打开主对话框; 选择Analyze Descriptive Statistics Frequencies,打开同图2-1一样的频数分析主对话框。 第3步 确定要输出的统计量; 单击Statistics按钮,在Statistics子对话框中选择Mode(众数)统计量。 第4步 确定要输出的统计图形; 单击Charts按钮,在Charts子对话框中选择Histograms (直方图) 运行结果及分析。,3实例分析,图2-2 变量“教育”的直方图,表2.2 变量“教育”的频数分布表,描述性分析,1描述性分析目的和主要功能 描述性分析主要用于输出变量的各类描述性统计量的值,通过上一节的学习可知,频数分析同样可以做到,都是以计算数值型单变量的统计量为主。描述性统计分析没有图形功能,也不能生成频数表,但描述性分析可以将原始数据转换成标准正态评分值,并以变量形式存入数据文件中,以便后续分析时应用。,2描述性分析的操作界面,列出数据文件中的变量,从中选择要作描述性分析的变量,将需作描述性分析的变量选入此框中,可同时选择多个变量,此时,SPSS就将分别产生多个变量的描述性分析结果,点击Option按钮设置需计算的描述性统计量。,图2-3,3实例分析,【例2】 选择“身高”变量作描述性分析,选定要计算的统计量后,运算得到表2.3所示的结果 表2.3,探索性分析,1探索性分析目的和主要功能 与前面介绍的两种分析方法相比,探索性分析更加强大,它是对数据的探索和考察,可以对变量进行更为深入详尽的统计分析。在进行统计分析前,通常需要寻求和确定适合所研究的问题的统计方法, SPSS提供的探索性分析是解决此类问题的有效办法。 探索性分析提供了很多关于数据的概括分析和图表直观描述的方法,不仅对个案数据有效,而且还可以针对分组个案。在输出常用描述性统计量的基础之上,探索性分析增加了有关数据详细分布特征的文字与图形表述,如茎叶图、箱图等,显得更加详细、完整,还可以以方差齐性为目的的变量交换提供线索,有助于用户制定更进一步分析的方案。,2探索性分析的操作界面,(1)Depend List框 选择待分析的变量,可以同时选择多个变量。注意:选择的变量必须是数值型变量,(2)Factor List框 选择分组变量,根据该变量的取值不同,分组分析Dependlist框中的变量。可以不选,也可以多选。,(3)statistics按钮:设置输出的统计量; Plots按钮:设置输出的图形; Option按钮:设置缺失值的处理。,图2-4,3实例分析,【例3】表2-4是2007年各地区人口出生率和死亡率的统计数据,试对其作探索性分析并做是否服从正态分布的检验。 表2-4各地区人口自然变动情况,3实例分析,第1步 数据组织; 根据表4.4生成SPSS数据文件,建2个变量:“出生率”、“死亡率” 第2步 打开主对话框; 选择Analyze Descriptive Statistics Explore,选择变量“出生率”、“死亡率”移入“Dependent List”文本框中。,3实例分析,第3步 确定探索性分析的描述统计量; 单击Statistics按钮,在Statistics子对话框(图4-5)中选择Descriptives 复选框、M-estimators复选框,单击Continue返回主对话框。,图2-5,3实例分析,第4步 确定探索性分析输出的统计图形; 单击Plots按钮,在如图2-6的Plots子对话框中选择“Dependents togethe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论