基础统计学及单双变量描述统计分析资料课件_第1页
基础统计学及单双变量描述统计分析资料课件_第2页
基础统计学及单双变量描述统计分析资料课件_第3页
基础统计学及单双变量描述统计分析资料课件_第4页
基础统计学及单双变量描述统计分析资料课件_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基础统计学简介来自华科社会学系郑丹丹老师授课资料来自华科社会学系郑丹丹老师授课资料20112第一节概述一、统计学统计学是应用数学的一个分支描述、组织和解释数据或信息的一套工具和技术利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考20112第一节概述一、统计学20113二、两个概念描述性统计(DescriptiveStatistics)

推论性统计(InferentialStatistics)20113二、两个概念201141、描述性统计组织、描述和总结所收集到的一组数据的特征它所描述的是这组数据本身的分布特征

201141、描述性统计201152、推论性统计从一个较小的群体中了解的信息并得出相关结论,推广到更大的一个群体我们把较小的这个群体,也就是我们收集了数据的群体称之为样本(sample),把更大的那个群体,也就是我们所感兴趣的、要研究的对象群体称之为总体(population)。统计值→参数值201152、推论性统计20116三、变量的层次适用于较低测量层次的统计法,可以适用于较高层次,反之则不成立20116三、变量的层次20117定类变量:按事物性质划分,是一种分类体系。比如:性别,婚姻状况等。定序变量:数据具有某种逻辑顺序,有高低、大小、强弱差异。比如等级评定、学历、喜爱程度等。定距变量:反映事物在数量方面的差异,具有相等的单位。比如智商、温度等。定比变量:不仅具有相等单位,还具有实际意义的绝对零点。比如年龄、收入等。20117定类变量:按事物性质划分,是一种分类体系。比如:性20118适用的运算形式=、≠>、<+、-×、÷定类变量√定序变量√√定距变量√√√定比变量√√√√20118适用的运算形式=、≠>、<+、-×、÷定类变量√定20119第二节单变量描述统计一、基本技术(一)定类层次1、次数分布2、比例3、比率4、对比值5、图示法20119第二节单变量描述统计一、基本技术2011101、次数分布(frequencydistribution)原理与做法:思考:从右边两个表格可以说明什么?不可以说明什么?职业次数干部110工人152农民288总数550职业次数干部50工人135农民295总数4802011101、次数分布(frequencydistrib2011112、比例(proportions)每类的次数除以总数原理:使不同样本的总数变成同一个基数,即都以1为基数,就可以比较了2011112、比例(proportions)201112职业次数比例(p)干部1100.200工人1520.276农民2880.524总数5501.000职业次数比例(p)干部500.104工人1350.281农民2950.615总数4801.000201112职业次数比例(p)干部1100.200工人1522011133、比率(rates)原理:把计算比例时所用的基数扩大百分率(f/n)*100千分率f/n*1000万分率f/n*100002011133、比率(rates)201114职业次数比例(p)百分比干部1100.20020.0工人1520.27627.6农民2880.52452.4总数5501.000100.0职业次数比例(p)百分比干部500.10410.4工人1350.28128.1农民2950.61561.5总数4801.000100.0201114职业次数比例(p)百分比干部1100.200202011154、对比值(ratios)A数值与B数值的对比值,就是A除以B全校学生43285人,教师6118人生师比为:43285/6118=7.1:12011154、对比值(ratios)2011165、图示法长条图:barchart2011165、图示法201117圆瓣图:piechart201117圆瓣图:piechart201118(二)定序层次1、累加次数2、累加百分比201118(二)定序层次201119201119201120(三)定距层次1、分组组限:上限、下限组距:示例201120(三)定距层次2011212、图示(1)矩形图(直方图)histogram2011212、图示201122(2)线形图(LineChart)201122(2)线形图(LineChart)201123二、集中趋势测量法集中趋势的量度(measuresofcentraltendency):共性找出一个数值来代表变项的资料分布,以反映资料的集结情况可以根据这个代表值来估计或预测每个研究对象的数值201123二、集中趋势测量法201124(一)定类变项:众数(mode)次数最多之值201124(一)定类变项:众数(mode)201125(二)定序变项:中位数(median)一个序列的中央位置之值,即高于此值也有50%的个案,低于此值也有50%按照某种顺序排列,之后寻找位于频次中间的值201125(二)定序变项:中位数(median)201126求中位值Md位置=(n+1)/2有男女两组成绩的定序数据男:优,优,良,良,中,中,中,中,差女:优,优,优,良,良,中,中,中,中,差201126求中位值201127(三)定距变项:平均值(mean)201127(三)定距变项:平均值(mean)201128吉斯莫先生的企业招新员工,他承诺所有员工的平均薪金是每周300元。萨姆十分乐意地接受了这份工作,但没过多久就发现没有一个普通员工的工资超过每周100元。怎么回事?平均数怎么回事?201128吉斯莫先生的企业招新员工,他承诺所有员工的平均薪201129答案原来吉斯莫的企业中有少数高薪管理者是他的亲戚,由于存在极端值的影响,平均工资虽然很高,但考虑一下众数,你就会发现大多数人的工资都很低。201129答案原来吉斯莫的企业中有少数高薪管理者是他的亲戚201130骗人的平均数不宜使用均值的情况:极端值非常特殊,代表性有问题201130骗人的平均数不宜使用均值的情况:201131三、离散趋势测量法(measuresofvariability):异质性求出一个值表示个案与个案之间的差异情况201131三、离散趋势测量法201132(一)定类变项n为全部个案数目,fmo是众值的次数

离异/异众比率,简写v201132(一)定类变项n为全部个案数目,fmo是众值的次201133某院系对大四学生的就业意愿进行了调查,请根据右表进行有关阐述。想就业的类型男生女生自主创业123外企员工3120中学教师2652公务员510总数7485201133某院系对大四学生的就业意愿进行了调查,请根据右表201134(二)定序变项四分位差:将一组数据按顺序排列,将数据的个数分为四个相等的部分除去两端的两个25%的数据,以中间50%的数据所占的范围作为数据分散程度的指标201134(二)定序变项201135(三)定距变项全距(range)、标准差(standarddeviation)、方差(variance)全距=最大数-最小数简单但粗糙201135(三)定距变项2011362、标准差反映的是每一个个案的分值与平均的分值之间的差距,简单来说,就是平均差异有多大。标准差越大表示差异越大。

2011362、标准差反映的是每一个个案的分值与平均的分值之2011373、方差标准差的平方2011373、方差201138五、单变量描述统计的作用样本情况报告了解数据的基本情况(判断数据质量)…………201138五、单变量描述统计的作用201139众数中位数平均值集中趋势值离散趋势值异众比率四分位差全距标准差201139众数集中趋势值离散趋势值异众比率201140六、单变量描述的操作1、次数、百分数等Frequencies2、中位数等Frequencies+statistics3、均值与标准差Descriptive201140六、单变量描述的操作201141第三节双变量描述性统计事物之间的关系确定性关系(函数关系)非确定性关系(相关关系)线性关系非线性关系必然现象不可能事件201141第三节双变量描述性统计事物之间的关系确定性201142相关:一个变项的值与另一个变项的值有连带性相关的三种情况:正相关、负相关、零相关相关程度(0~1)相关的方向(+-)201142相关:一个变项的值与另一个变项的值有连带性201143交互分类与百分表交互分类:同时依据两个变项的值,将所研究的个案分类列联表(交互分类表)表的大小=行*列自变量、因变量201143交互分类与百分表交互分类:同时依据两个变项的值,201144志愿性别男女总数快乐家庭103040理想工作401050增广见闻10010总数6040100201144志愿性别男女总数快乐家庭103040理想工作40201145制作条件百分表的准则——信息清楚、表格简洁社会学研究的常规做法:以自变项为计算百分率的方向——根据自己的研究需要三线表的制作(表格简明型1,去掉末行)201145制作条件百分表的准则——信息清楚、表格简洁201146第四节相关测量法相关测量法以一个统计值表示变项之间的相关程度这个值,通常称为相关系数201146第四节相关测量法相关测量法201147定类和定类变量定类和定序变量Lambda相关测量法tau-y相关测量法基本逻辑:以一个定类变项的值来预测另一个定类变项的值时,可以减少多少误差其值介于0~1之间201147定类和定类变量Lambda相关测量法基本逻辑:以201148例题:考察性别(v2)与政治面貌(d11a)之间的关系201148例题:201149定序和定序变量Gamma系数Gamma系数按照同序对和异序对个数来计算两定序变量的相关程度和方向;同序对和异序对相差越大,说明相关越强201149定序和定序变量Gamma系数Gamma系数按照同201150例题:考察受教育程度b4_a与对自己社会地位满意程度i5_a之间的关系201150例题:201151定类和定距变量定序和定距变量相关比率(eta平方系数)原理:根据自变量取值来预测或估计因变量的均值201151定类和定距变量相关比率(eta平方系数)201152例题:考察性别(v2)与家务劳动时间之间的关系201152例题:201153定距和定距变量相关系数r即皮尔逊相关系数原理:两个变量以平均数为基准的平均共变程度r本身不具有消减误差比率的性质,但r2具有这一性质201153定距和定距变量相关系数r原理:两个变量以平均数为201154例题:考察读书年数(b2)与收入之间(c18_a)的关系201154例题:201155消减误差比例(PRE/proportionatereductioninerror)PRE数值的意义为,用一个变项来解释另一个变项时能够减少的错误比率X与Y的关系越强,所能减少的预测误差就会越多201155消减误差比例(PRE/proportiona201156第五节假设检验假设检验是根据样本调查结果证实或推翻总体有关假设的一种推论统计方法。201156第五节假设检验假设检验是根据样本调查结果201157最终目的总体参数值样本统计值估算验证一、统计推论逻辑思路201157最终目的总体参数值样本统计值估算验证一、统计推论201158思路常用分布(统计理论确定)根据样本计算特定统计量,判断此统计量在理论分布中出现的概率情况此过程称为“统计推论”201158思路常用分布根据样本计算特定统计量,判断此统计量201159统计推论:用于抽样调查资料的处理——根据局部资料(样本资料)对总体的特征进行推断,属于归纳推理的范畴,不可能保证100%正确。1、由于局部资料源于总体,因此局部资料的特性在某种程度上能反映总体的特性。2、由于社会资料的随机性,即抽样结果不是唯一的,又使得一次抽样结果不能恰好就等于总体的结果。201159统计推论:用于抽样调查资料的处理201160二、假设检验的基本原理小概率原理大数定理告诉我们,就大量观察而言,事件的发生具有规律性——在大量观察中频频出现的事件具有较大的概率,出现次数较少的事件具有较小的概率。201160二、假设检验的基本原理小概率原理201161小概率原理分为两个方面:1、小概率事件在一次观察中是不可能出现的2、如果出现了小概率事件,那么,合理的想法是,否定原有事件具有小概率的说法(或称假设)201161小概率原理分为两个方面:201162假设检验的统计学描述:经过抽样获得一组数据,即一个来自总体的(随机)样本,如果根据样本计算的某个统计量(或几个统计量)表明在原假设H0成立的条件下几乎是不可能发生的,就拒绝或否定这个原假设,并继而接受它的对立面——被择假设。反之,如果在原假设H0成立的情况下,根据样本所计算的某个统计量,发生的可能性不是很小的话,那么就接受原假设。201162假设检验的统计学描述:经过抽样获得一组数据,即一201163三、基本概念1、统计检验中的假定假定是被确认和接受的事实,是进行检验的前提或要求。对于统计推论,有一个基本的而且不言而喻的假定,那就是抽样必须是随机的。201163三、基本概念1、统计检验中的假定2011642、统计检验中的统计量假设检验是通过样本计算某个统计量来进行的。所谓小概率事件,就是指所用统计量,在原假设情况下,是否是小概率事件,因此确定统计量是很重要的2011642、统计检验中的统计量201165对于样本的观察值,统计量的值应该是确定的。当统计量确定后,根据原假设H0成立的条件,可以画出统计量的分布——也称抽样分布、样本分布,所选用的统计量,它的分布,应该是已知的,其值是有表可查的——统计学家所做常用分布201165对于样本的观察值,统计量的值应该是确定的。2011663、正态分布在自然、经济、社会等领域内,大量随机变量都服从正态分布。任何变量,不管其原有分布如何,如果把它们n个加在一起,当n大于一定数之后,例如大于30,那么,其和的分布必然接近正态分布——这就是有名的中心极限定理2011663、正态分布201167正态分布,其特征是“钟”形曲线。具有以下特征(1)对称,单峰(一个最大值为均值),在均值加标准差处有拐点(2)从中央最高点向两端降低,速度慢快慢,接近x轴,但不会为0(3)方差一定的情况下,均值大小决定图形的左右位置,但形状不变;均值一定的情况下,方差决定图形的陡峭程度(4)图形面积为1,某一部分的面积为随机变量在该区域的发生概率

201167正态分布,其特征是“钟”形曲线。具有以下特征2011682011682011694、显著性水平(临界水平),记作α在原假设成立的条件下,统计检验中所规定的小概率的标准,即规定小概率的数量界线。通常规定概率小于0.05或0.01的事件叫小概率事件2011694、显著性水平(临界水平),记作α2011705、临界值、接受域和否定域在概率分布图中,由显著性水平所确定的末端区域称为否定域否定域与显著性水平是同一问题的两种不同表述方法,否定域是否定或推翻虚无假设的区域,显著性水平是推翻虚无假设的标准,否定域的概率就是显著性水平P=2011705、临界值、接受域和否定域201171201171201172四、假设检验的步骤和两类错误(一)假设检验的步骤:1、根据实际情况作出假设(原假设必须写出)2、根据样本构成合适的、能反映H0的统计量,并在H0成立的条件下确立统计量的分布3、根据问题的需要给出小概率的大小4、根据具体检验标准,用样本统计量的观测值进行判断201172四、假设检验的步骤和两类错误(一)假设检验的步骤201173(二)两类错误(关于虚无假设)1、甲种误差(弃真——小概率事件发生)犯第一类错误的大小就是显著性水平α2、乙种误差(纳伪)在样本容量n固定的情况下,如果同时减小两类错误,是不可能的,因此一般采取增加样本容量的办法来解决。201173(二)两类错误(关于虚无假设)201174(一)卡方检验五、常用的几种检验方法适用于定类、定序变量原理:以理论次数为基准考察实际次数与理论次数之间的偏离程度通常结果要汇报卡方值ⅹ2、自由度df、显著度p。201174(一)卡方检验五、常用的几种检验方法适用于定类、201

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论