第9章 资料的统计分析_第1页
第9章 资料的统计分析_第2页
第9章 资料的统计分析_第3页
第9章 资料的统计分析_第4页
第9章 资料的统计分析_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章资料的统计分析一、教学目标(一)知识目标1.了解资料统计分析的常用类型;2.掌握单变量描述统计及推论统计分析原理、意义;3.掌握双变量分析原理、意义。一、教学目标(二)能力目标1.

能对单变量进行简要数据处理和分析;2.能识别因果关系;3.能有效阅读一般统计报告、论文,获得关键信息。一、教学目标(三)素质目标1.掌握科学思维方法,客观分析和认识社会现象;2.培养客观、严谨、公正的科学态度;3.实事求是。二、教学内容单变量分析(重点)描述统计:集中趋势分析和离散趋势分析推论统计:区间估计和假设检验双变量分析相关关系因果关系(难点)二、教学内容任务一:单变量的集中趋势分析任务二:单变量的离散趋势分析任务三:单变量的推论统计任务四:双变量相关分析任务一:单变量的集中趋势分析

导入:统计学的经典案例——幸存者偏差1941年,第二次世界大战中,美国哥伦比亚大学统计学沃德教授(AbrahamWald)应军方要求,利用其在统计方面的专业知识来提供关于“飞机应该如何加强防护,才能降低被炮火击落的几率”的相关建议。图片引自:/dy/article/FB9J4VFP0517DRHH.html沃德教授针对联军的轰炸机遭受攻击后返回营地的轰炸机数据,进行研究后发现:机翼是最容易被击中的位置,机尾则是最少被击中的位置。沃德教授的结论是“我们应该强化机尾的防护”,而军方指挥官认为“应该加强机翼的防护,因为这是最容易被击中的位置”(因为机翼部位的弹痕最多)。沃德与军方的观点分歧图中为沃德教授谈谈你的看法,并说明原因。讨论与结论沃德教授坚持认为,统计的样本是平安返回的轰炸机;被多次击中机翼的轰炸机,似乎还是能够安全返航;并非是机尾不易被击中,而是因为飞机一旦被击中机尾就是致命的,无法返航。军方采用了教授的建议,并且后来证实该决策是正确的。这一案例被称幸存者偏差。而案例真正需要我们关注的首先是分布问题。含义:一组数据中去不同值的个案的次数分布情况,它一般以频数分布表的形式表达。一、频数分布例1某班级有20名学生,我们通过对他们的籍贯地进行调查,得到下列结果:上海、湖南、上海、江西、湖北、江西、上海、广西、广西、山东、江西、河南、河南、上海、上海、新疆、河北、广东、江西、上海。那么我们就可以用表1-1来描述该班学生的籍贯分布情况。一、频数分布一、频数分布频数分布表的作用可表现为两个方面:一是简化资料,以表格形式呈现原始复杂的数据;二是从频数分布表中,我们可以更清楚地了解调查数据的众多信息。含义:它是一组数据中不同取值的频数相对总数的比率分布情况,这种比率在社会调查中经常是以百分比的形式来表达。二、频率分布二、频率分布例1中的信息,我们用频率分布加以表达为表1-2。1、频率分布表与频数分布表的区别是什么?2、频数分布和频率分布的适用范围是什么?学习思考回顾案例,可以谈谈幸存者偏差案例军方的错误原因是什么?学习思考为了对复杂单变量进行研究(分布情况),我们通常关注集中趋势和离散趋势。集中趋势分析指的是用一个典型值或代表值来反应一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。三、什么是集中趋势分析

四、集中趋势分析常用量数(二)众值(mode)众数是一组数据中出现次数最多(即频数最高)的那个数值。众数与平均数一样,也可用来概括反映总体的一般水平或典型情况。在单值分组资料的情况下,现在频数一栏中找出最大的频数,然后找到最大频数所对应的标志值,即为众数。四、集中趋势分析常用量数(二)众值(mode)由组距分组资料求众数的方法有两种,一种是组中值法,另一种是摘补法。一般我们只需要了解组中值法即可。用组中值求众数分为三步:首先也是通过直接观察找出最高的频数,然后根据最高的频数找到它所对应的组,最后求出该组的组中值即为众数。四、集中趋势分析常用量数(三)中位数(median)把一组数据按照值的大小顺序排列起来,处于中央位置的那个数值就叫中位数。中位数所描述的是定序变量以上层次的变量。其含义是:整个数据中,有一般的值在它之上(比它大),另一半的数据的值在它之下(比它小)。四、集中趋势分析常用量数(三)中位数(median)当数据为偶数个数时,中位数的位置处于中间两个数值之间,而没有直接对应的数值。此时一般以中间这两个数值的平均数作为中位数。四、集中趋势分析常用量数1、平均数比中位数利用了更多的有关数据的信息,它对数据总体的描述和反映,在一般情况下比中位数更加全面和准确。2、平均数很容易受到极端值的变化的影响,而中位数则不会受到这种影响,除非中位数值本身变化。因此,方样本中位数据值的分数是高度偏斜的,即在一个方向上有较多的极端个案,中位数一般比平均数更为合适一些。五、平均数与中位数的比较3、对于抽样调查而言,平均数是一种比中位数更为稳定的度量,它随样本的变化比较小。4、平均数比较容易进行算数运算。当然,计算平均数要以定距变量为前提,而中位数则既可用于定距变量,又可以用于定序变量。五、平均数与中位数的比较集中趋势分析可谓是认识单变量分布情况的一个维度。为了全面考察单变量分布情况,我们会考察离散趋势。任务二:单变量的离散趋势分析案例导入:高考赋分制度改革。与集中趋势分析相反,离散趋势分析指的是用一个特别的数值来反映一组数据相互之间的离散程度。它与集中趋势分析一起,分别从两个不同的侧面描述和解释一组数据的分布情况,共同反映出资料分析的全面特征。同时,它还对相应的集中数量(如平均数、众数、中位数)的代表性做出补充。一、什么是离散趋势分析二、离散趋势分析示例

三、对示例的解读

四、常见的离散量数统计量离散量数统计量集中量数统计量标准差异众比率四分位差全距平均数众数中位数(一)全距(range)1.全距定义:全距又叫极差,它是一组数据中最大值和最小值之差。2.示例

2.示例那么,3个代表队成绩的全距分别为中文系:82-78=4(分);数学系:95-65=30(分);英文系:100-35=65(分)。3.说明全距的意义在于:一组数据的全距越大,在一定程度上说明这组数据的离散量数越大,而集中量数统计量的代表性越低;反之,一组数据的全距越小,则说明这组数据的离散量数越小,集中量数统计量的代表性越高。3.说明当然,全距紧紧依靠两个极端值,因而带有很大的偶然性,它对大量的处于两个极端值之间的数值分布情况,以及在中心点周围的集中情况,都无法提供任何信息。因此,人们更多地使用标准差等其他离散量数。标准差是指一组数据对其平均数的偏差平方的算术平均数的平均根。它是用得最多、也是最重要的离散量数统计量(二)标准差

1.标准差的计算公式2.示例

2.示例那么,3个代表队成绩的标准差分别为S(中文系)=1.414(分),S(数学系)=10.8(分),S(英语系)=23.8(分)。3.说明因此,我们可以得出,中文系代表队的标准差最小,数学系对其次,而英语系代表队的标准差最大。这一结果很好反映出各队队员成绩中间的离散程度,同时也反映出80分的平均成绩对中文系代表队的代表性最大,而对英语系队的代表性最小。

(三)异众比率(variationratio)

1.示例

2.异众比率的计算

3.说明异众比率的意义是众数所不能代表的其他数值(即非众数的数值)在总体中的比重。因此,我们不难明白,当异众比率越大,即众数所不能代表的其他数值在总体中的比重越大时,众数在中体中所占的比例自然就越小,这样众数的代表性也就越小。反之,当异众比率越小时,众数说不能代表的其他数值在总体中的比重就越小,众数的代表性自然也就越大了。(四)、四分位差(interquartilerange)

四分位差是先将一组数据按大小排列顺序,然后将其四等分,去掉序列中最高的1/4和最低的1/4后,中间的一般数值之间的全距。四分位差的符号一般用Q表示。而Q1和Q3来表示第一四分位点和第三个四分位点所对应的数值。2.示例调查11位同学的年龄如下:17岁、18岁、19岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、22岁,求其四分位差。2.示例

2.示例3.说明结果说明,这11位同学中,中间一半人的年龄在18~21岁之间,或者说,这一半人之间的最大差异为3岁。(五)、离散系数

(coefficientofvariation)离散系数也称为变差系数,它是一种相对的离散量数统计量,它使我们能够对同一总体中不同的离散量数统计量进行比较,或者对不同总体中的同一离散量数统计量进行比较。1.离散系数的定义

2.示例对广州和武汉两地居民生活质量调查发现,广州居民平均收入为6800元,标准差为1200元;武汉居民平均收入为3600元,标准差为800元。广州居民相互之间在收入的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些?2.示例

离散趋势和集中趋势,可以看做“一分一合”,可谓“对立统一”。小结任务三:单变量的推论统计案例:淘宝“大战”国家工商总局一份检测结果引起的争议:

2015年1月23日,工商总局网络监管司发布2014年下半年网络交易商品定向监测结果,此次监测共完成92个批次的样品采样,其中有54个批次的样品为正品,正品率为58.7%。据介绍,此次监测抽查了淘宝网、京东商城、天猫等平台,以电子产品、服装、化妆品等为重点监测种类。从各购物网站的监测结果来看,淘宝网样本数量最多,为51个,但正品率最低,仅为37.25%。图片引自/economic/cy/detail_2015_01/28/3490058_0.shtml淘宝“店小二”的回击这一“举动”招致淘宝小二的回击,在2015年1月27日的公开信当中,主要罗列了四点质疑,分别是抽检程序违规失当、抽检样本数量较少、“非正品”定义不准确以及前后两次抽检结果相差巨大。工商总局的回应2015年1月27日晚,工商总局正式就淘宝“叫板”一事做出回应,称网络交易商品定向监测是评估市场风险、警示违法经营的重要工作方式,今后仍将一如既往依法加强网络市场监管,严厉打击违法违规经营。本次抽查的数据并不是为了反映整个市场、网购领域的质量有多差,而仅仅是一个抽检结果,不能过度解读。思考结合已学社会调查知识,从资料的统计分析角度,如何看待这种争论。这场争论的内核,从社会调查角度而言,在于“区间估计”的“科学性”。一、区间估计的含义区间估计的实质就是在一定的可信度(置信水平下),用样本统计值的某个范围(置信区间)来“框”住总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题。示例区间估计的结果通常可以采用下述方式表述:“我们有95%的把握认为,上海市职工的月工资收入在3500至4600元之间。”或者“全国人口重,女性占50至52的可能性为99%”。区间估计的可靠性或把握性

二、总体均值的区间估计

二、总体均值的区间估计例

调查某厂职工的工资状况,随机抽取900名工人作样本,调查得到他们的月平均工资为1860元,标准差为420元。求95%的置信水平下,全厂职工的月平均工资的置信区间是多少?思考与练习当我们将置信水平提高到99%时候,上例中的置信空间又是多大呢?从中我们可以发现什么?三、总体百分比的区间估计

三、总体百分比的区间估计例

从某工厂随机抽取400名工人进行调查,结果表明女工的比率为20%。现在要求在90%的置信水平下,估计全厂工人中女工比例的置信区间。三、总体百分比的区间估计

案例二:车险费率与违章纪录有什么关系车险费率计算“新规则”图片来源:/ask/article/1156093733943492661.html国家对现行车险产品进行了费率改革,优化和简化了车险费率浮动因素,车辆违章情况与车险保险直接挂钩。车险费率与车辆违章有关系吗?不少人都在问车险费率是否与车辆违章有关系车险专家的解读如果本年度没有任何的违规驾驶记录,第二年就会享受到车险费率下降的优惠政策,一般可以享受到9折左右的优惠。而安全行车年限越长,享受到的优惠幅度也就越大。假如一辆车连续三年及以上没有发生过违规赔款的情况,车险保费最低可以下调到52.5%。车险专家的解读与之相对的,是多次违规记录对于车险费率上调的影响。多次的违规违章记录,将会导致车辆保费大幅上调,如果上一年发生了违章赔款记录在10次以上,车险保费最高可以上浮300%。甚至会发生多次违规车辆,商业保险公司不肯承保的尴尬情况。思考与讨论1、商业保险与小概率事件的关系;2、商业保险公司为何将车险费率与违章纪录进行关联?事实上,这个案例涉及到了假设检验问题。四、假设检验假设检验问题是推论统计中的另一种类型。需要说明的是,这里的假设不是抽象层次的理论假设,而是值和抽样手段联系在一起、并且依靠抽样调查的数据进行验证的经验层次的假设,即统计假设。1.假设检验的实质假设检验实际上是先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定该假设是否为总体所接受。假设检验所依据的是概率论中的小概率原理,即“小概率事件在一次观察中是不可能出现”的原理。1.假设检验的实质但是,如果现实的事情恰恰是在一次观察中小概率事件出现了,该如何判断呢?一种是认为该事件的概率仍然很小,只不过不巧碰上了;另一种则是怀疑和否定该事件的概率未必很小,即认为该事件本身就不是一种小概率事件,而是一种大概率事件。我们认为,后一种判断更为合理,这恰恰是假设检验的基本思想。2.假设检验的步骤

2.假设检验的步骤

3.总体均值的假设检验(1)示例例

某大学学生勤工助学上月平均收入为210元,本月调查了100名学生,平均月收入为220元,标准差为15元。问该大学学生勤工助学本月平均收入与上月相比是否有变化?(2)示例解答

(3)示例解答

四、总体百分比的假设检验(1)示例例

一所大学全体学生中抽烟者的比例为35%,经过学习和戒烟宣传后,随机抽取100名大学生进行调查,结果发现抽烟者为25名。问戒烟宣传是否收到成效?(2)示例解答

(3)示例解答

(4)说明总体百分比建设检验思路与方法同总体均值的假设检验相同,只是统计量的计算公式不一样。小结区间估计与假设检验,是社会调查中常用的两种单变量推论统计。推论统计恰恰体现了社会调查研究的优势,尤其是它能够把复杂的社会现象抽象为简单,大大提升了人类的认知能力和水平。任务四:双变量相关分析案例导入:

对“读书无用论”的批驳:

收入与受教育程度的关系研究案例9月1日是很多大学的开学日,在新生们忙着迎接大学生活时,家住槐树店路的玲玲,却在为上大学的事和父亲进行着一轮又一轮的谈判。虽然拿到了成都某高校的本科录取通知书,但玲玲的父亲固执地认为“读书无用”,他宁愿出钱资助玲玲做点小生意,也不愿“扔几万学费进去打水漂”。(据2013年9月1日《成都商报》)案例分析“读书无用论”者习惯从经济维度,计算教育投入和产出问题。而事实上,很多社会学研究者通过大量经验研究发现,家庭收入与受教育程度存在相关性。受教育程度越高,其家庭收入越高;换而言之,受教育程度越低,家庭收入也偏低。案例启示通过社会调查研究,对于人们一些“习以为常”、“似是而非”的观点,加以科学研究,从而得出科学结论。案例正是讨论了社会生活中,不同变量之间的关系。可以说,人类对于不同变量之间存在什么样的关系,是非常“着迷”的。一、相关关系1.导言在现实社会中,存在着许许多多相互之间有关系现象,这些错综复杂的现象之间往往都是相互联系、相互影响、相互依存的。而探索和发现这种关系,正式社会研究人员的一项重要任务。或者说,人类社会一直对现象之间的关系着迷。1.导言图片来源:/attachments/201501/8948779037_TIME_1422409354151.jpg对两个变量间关系的分析探讨,是社会研究中最基本、最重要的内容之一。两变量间的关系可分为相关关系与因果关系两种2.相关关系的概念两变量之间的相关(correlation)关系指的是当其中一个变量发生变化时(或取值不同时),另一个变量也随之发生变化(取值也不同)。反过来也一样。3.相关关系的方向对于定序以上层次的变量来说,变量与变量之间的关系可以分为正关系与负关系两个方向。(一)正关系。所谓两个变量之间具有正的相关关系,指的是当一个变量的取值增加时,另一个变量的取值也随之增加,反之亦然。4.相关关系的方向对于定序以上层次的变量来说,变量与变量之间的关系可以分为正关系与负关系两个方向。(一)负关系。所谓两个变量之间具有负的相关关系,则指的是当一个变量的取值增加时,另一个变量的取值反而减少。或者说,两个变量的取值变化具有反方向性。。5.相关关系的强度变量与变量之间相关关系的强度指的是它们之间相关关系程度的强弱或大小。变量间相关程度的统计表示是相关系数。根据变量层次的不同,有各种不同的相关关系数。但是,这些相关系数的取值范围一般都在-1到+1之间,或者在0与1之间。这里的正负号表示的是相关关系的方向,而实际的数值则表明相关关系的强弱。相关关系数的值越接近0,意味着两变量相关的程度越弱;而相关系数的值越接近1(或-1),则意味着量变量相关的程度越强。5.相关关系的强度关于相关关系的强度两点说明:一是对于研究社会现象和人们社会行为的社会调查来说,各种相关系数的值不可能达到1(或-1)。二是相关系数职能用来表示变量间相关程度的量的指标,它不是相关量的第单位度量。6.相关关系的类型从变量变化的表现形式上分,可以将相关关系分为直线相关与曲线相关。人们会停止在“相关关系”吗?

案例二:因果关系终结了吗?一本畅销书带来的冲击该书是国外大数据研究的先河之作,作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”。舍恩伯格的惊人之论图片来源:终结者:创世纪(剧照)大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。大数据时代的挑战颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。社会科学需要作出的回应重新审视和反思传统社会调查方法的有效性、科学性乃至方法论。(一)因果关系的定义两变量之间的因果关系,指的是当其中一个变量变化时(取不同的值时)会引起或导致另一个变量也随之发生变化(取值也不同);但反过来,当后一变量变化时,却不会引起前一变量的变化。在这种情况下,我们称变化发生在前边,并且能引起另一个变量发生变化的那个变量为自变量(常用X表示);而称变化发生在后边并且这种变化是前边变量的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论