广州大学公管管理学院 社会统计学PPT课件_第1页
广州大学公管管理学院 社会统计学PPT课件_第2页
广州大学公管管理学院 社会统计学PPT课件_第3页
广州大学公管管理学院 社会统计学PPT课件_第4页
广州大学公管管理学院 社会统计学PPT课件_第5页
已阅读5页,还剩345页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、. 1、社会统计学、2、引子:在学习统计学之前,我们需要知道的是,为什么要学统计学? 什么是统计学?怎么学统计学?3、为什么学统计学? 因为是必修课,大部分社会科学、行动科学、生物学等学科的学生和研究生都需要选择这个课。 事实上,社会调查和统计推论是很多“社会科学”被称为“科学”的基础! 这是非常有用的课程! 有助于找到满意的工作.4,“某科学只在很好地运用数学时,才达到了真正的完整水平”卡尔马克思,获得4种知识的不同方法:权威法根据权威提供知识和信息,经验法是人的感觉思考方法基于直觉、洞察和逻辑推论获得知识,科学方法也依赖经验观察和逻辑推论,但科学研究程序是其核心。 5、案例:大学生恋爱行为

2、有性别差异吗? 谁需要爱? 是男的还是女的? 统计学是什么?统计学简史,起源国势学统计学(统计学)这个词来源于法语的status (状态),逐渐变化为state (国家)。 统计学的本来意义是调查研究国家的状态。 代表人物:德国大学派统计学、政治算术在英国兴起,代表人物J.Graunt 关于伦敦死亡表的观察、经济学家W.Petty 政治算数,用计量和比较的方法,比较英国和法、意、荷等国家的国力。 数学统计学世纪的发展现代统计学之父:阿道夫凯特勒(A.Quetelet ),代表作社会物理学。 主张用研究自然科学的方法研究社会现象,正式将古典概论导入统计学,将统计学推进到新的阶段。 1867年,数

3、学统计学诞生了。 7、统计学的简单历史(续),大部分基本统计过程最初应用于农业、天文学、政治学领域,在人的行动领域的应用比较慢。 现代统计学在数学理论和应用范围中都取得了迅速的发展,计算机及其相应的统计软件成为了统计工作者不可或缺的工具。 现代统计学是一门独立的学科,同时也是在不同领域使用基本相同的技术来回答不同问题的方法论。 弗朗西斯戈尔顿,1822.2.161911.1.17 .8,统计学是什么?概念和内涵,统计学是一系列用于记述、整理、解释资料和数据的统计工具和技术,统计学的基本分类:记述统计和推算统计:记述统计:用于整理、记述收集的数据特征估计统计:利用小组的数据(样本)估计可能的大组

4、(整体),利用估计统计,从而能解释数据。 9、如何学习统计学呢? 确立自信培养爱好从浅到深,仔细阅读你的教材按时完成练习,注意报纸、杂志,甚至学术期刊的统计实例,用统计软件练习数据分析,Spss统计软件下载链接教材使用的数据变量有哪些级别? 不同类型变量统计表的制作方法,11、概念(Concept ) :人们对事物本质的认识,是研究的基本单位,具有抽象性。 定义(Definition ) :表达、记述概念,明确认识对象。 操作定义(Operationaldefinition ) :通过一组可观察、可测量的指标来模拟或表达定义,以使非定量概念被计算和操作。 变量表示统计学上研究对象的特征,变量下

5、的各种表现形式和不同的取法是变量值。 变量、变量取值时要注意的问题:完整性排他性,也称为14、单变量解析变量的分布,分布某变量的变量值出现的次数和频率、频度分布。例如,家庭结构(变量x )的可能值为: X1由父母和未婚孩子构成的核心家庭X2由父母和单一已婚孩子构成的三代人家庭,即主干家庭x 由父母和多个已婚孩子构成的三代人家庭,即联合家庭。 10000000000空中空中空中空中空空中空空中空空中空空中空空653 ni将与其取的值对应的次数称为分布,实际上是这些对数据的集合,当n表示不同的意思时,表示不同的分布。 例如,如果n表示概率,概率分布表示频率,如果n表示频率,那么频率分布表示百分比,

6、那么称为频率或相对频率分布,16,家庭结构的频率分布(XX地,XX年XX月),17,家庭结构的百分比分布(XX地XX年XX月,N=2130 ),18, 0.000.010.040.120.210.250.210.120.040.010.00.投了10次硬币的正面出现次数的概率分布,19,两变量关系命题的研究,两变量之间有关系吗? 关系的密切度(强度)如何?(independentvariable ) :也称为独立变量,由研究者主动操作,或定义为研究者独立变化的变量,而不受其他变量的影响。 依存变量(dependentvariable ) :也称为依存变量,是指受其他变量影响而根据其他变量变化的

7、变量。20、自变量和因素变量就因果关系,判断自变量和因素变量的标准: (1)时间前后。 后发者不能影响先发者,所以先发者是自变量(2)变量的不变性和偏差。 社会研究经常以具有固定性、持续性的变量为自变量。 变量之间的因果关系也被称为非对称关系,这种非对称关系与自然科学所说的因果关系有一定的差异,后者的定义更为严格。 对于多元的研究,情况更复杂,它们不仅可能有两者之间的关系,而且可能有网状、链状、一因多果或一果多因等多种关系,这些都是更高水平的统计技术。21,1,类层次变量(NominalVariable ) :变量取的值只是类属性的一部分,根据变量的值,只能知道研究对象是相同还是不同。 从数学

8、运算特性来看,是相等还是不相等(=的性质。 比如性别。 变量阶层,2,顺序阶层变量(OrdinalVariable ) :变量的可能值除了类属性以外,还有类、顺序的不同,数学特性除=以外,还有大或小()的点。 例如文化程度、社会经济地位等。 中国大学排名,22,2011 .23,3,固定距离等级变量(IntervalVariable ) :变量的取值除了类别、位次属性之外,取值间的距离也可以用标准化的距离来测量。 其数学特性除了(=以外)以外,还可以为正或负(,- )。 比如智商。 4、比例层次变量:除了上述三个属性外,变量的取值还可以构成有意义的比例,其数学特性除了=外; 除了,- )以外,

9、还可以除法。 比如年龄。 定标变量和定标变量的不同在于,前者真的有意义的零点。24、1、高级变量包含低级变量的数学特征。 在变量阶层的比较、2、社会学研究中,一般不区分定距离和定比变量,作为一种被称为定距离变量。 4、变量水平与社会实际测量之间可能存在差距和不匹配。 5、根据研究内容不同,变量的层次也可能不同,3、1个变量的层次不是唯一的。 高级变量可以用作低级变量,但数据中的信息可能不完整。如何使用.25,创建不同类型的单变量统计表? 1、类别单变量统计表,表1 :微博用户性别统计表(N=4306 )、(资料源: SSI在线样品库,调查地为北京、上海、广州、深圳、成都、沈阳、西安、杭州八市)

10、、标头、符号、标志行、主体行、表尾、2 表2 :微博用户教育程度统计(N=4306 ) (资料源: SSI在线样品库,调查地有北京、上海、广州、深圳、成都、沈阳、西安、杭州八市)、27、3、定距离和定比单变量统计表、定距离和定比变量两种类型:离散型变量3 例如,孩子数连续型变量取有限或无限区间内任意实数,即变量的取值连续,身高等变量为离散型变量,且取值比较少的情况下,可以用常数或恒定顺序统计表方式对频率进行统计的变量为连续型变量的情况下,将变量值设为几个区间数据分组时应考虑的几个问题: a组数b组距离c组限制,28,如何编制组统计表,1,确定组数:一般调查总数n和组数有以下经验关系,2,确定组

11、距离:等间距一般设为等间距组,等间距组距离计算式:组距离(h)=(最大值-最小值) /组数罢工(Sturges )经验式决定组数: K=1 3.322lgN,29, 3、确定群限制:把群的最小值称为下限,把最大值称为上限,群的中心值bi的计算公式,4,群的原则:不重复,不泄漏,没有群的上限,5,中心值的计算,上限开口群中的值bi=下限相邻群间距离/2, 下限开口组中的值bi=上限相邻组间距离/2.30,*地区残疾人月收入统计表(N=1000 ),500,4500,31, 集团统计表的例子:某车间50名工人的日加工零件数11712124129139071172525252525252525252

12、52525252525252 525252525252525252525252525252525252525252525252525252 计算组距离: h=(l-s )/k=(139-107 )/7=4.653,确定组限制、度数分布表,表1 :劳动日加工部件度数分布表, 33第ii部分:统计,集中倾向量变异量统计图的相关系数可靠度和有效度,第34章,第2章需要完成的科目的计算和理解平均,集中倾向量平均的中值如何选择适当的集中倾向量数,第35项,3个集中值2、中间:按变量排序后,选择中间变量的值。 3 .从平均值:把变量的平均值作为集中值计算。 此外,在描述数据集合时,集中趋势定义以某一典型的

13、变量值或特征值来表示总变量,该典型的变量值或特征值被称为集中值或集中趋势量。 问题:我们在上节课通过统计表,学到了一些数字,如度数和百分比来简化变量的资料分布。 可以进一步简化数据吗?36,x是数据中的各具体数值n是样本数,平均(mean ),1,根据原始资料求平均,表2.1不同店铺的消费者数,37,平均也称为典型平均或中心值,整体平均我们经常用希腊字母表示,样本的平均我们经常用罗马字表示另外,样本平均值是非常准确地反映整体平均值的集中倾向的数目,并且只能用于距离变量。 平均是数据的中心点,平均值的一方数据与另一方数据一样,公式中的小写n表示对其计算平均值的样本的规模,而大写n通常用于表示总体

14、规模。 根据情况,有时也不区分两者。 对于平均值,应该理解,平均值对极值(最大值或最小值)非常敏感。极值使平均值倾斜于一方或另一方,减弱平均值数据组的代表性,并且减弱作为集中倾向量的有效性。 从、38、2、频度分布求出平均,n1X1是变量值X1和与其对应的频度n1的积n2X2,变量值X2和与其对应的频度n2的积nkXk表示变量值Xk和与其对应的频度nk的积,表2.2飞行员飞行熟练度测试结果统计表、39、3、g 计算的bi是第I组的中央值ni是第I组的频度,40,表1 :根据劳动日加工零件频度分布表、41,中心值计算的平均值(123.2 )与根据原始数据计算的平均值(122.2 )相比有误差,但

15、是社会学研究已经接受了其精度,42,定义:数据按从小到大的顺序排列,中间位置的数值为中值。 中值,1,根据原始资料求出中值,数值个数为偶数时,中值为中间两个数值的平均值,数值个数为奇数时,中值为中间位置的数值,43,例如5户收入$ 135456 $ 255000 $ 32456 $ 545365 $ 3766 $32456; $37668; $34500; $54365; 根据$135456、44、2、频率分布求中央值,n是样本数,n是奇数时,表2.3某级的英语成绩统计表,n是偶数时,45、3、根据分组数据求中央值,、下限值l的上限值u、下界累积百分比L%、上界累积百分比U% 找到包含统计表累

16、计百分比50%的区间,(2)求出包含50%的区间的上限值u、下限值l、上限值累计百分比U%、下限值累计百分比L%和组距离h,(3)使用线性插值法求出累计百分比为50%的变数值,(表2.3某学校的学生视力统计表(表2.3 ) 使用该公式,将10%、25%、75%等任何部分的变量值都可以计算的公式中的50%换算为适当的分位数即可,47、中央值和平均值的比较、平均值用于距离变量,中央值用于顺序变量。 平均值是一系列数值的中间点,中值是一系列个体的中间点。 平均值和中值哪个能更好地表示数据? 如果存在极值(极值也称为奇异值,其是与数据的其他值大不相同的值,通常为极大值或极小值),则极值明显地扭曲数据组或数据分布的中心点。 此时,比起平均值,中央值可以表示数据集。48,例如,5家人的收入按从低到高的顺序: $25500; $32456; $37668; $54365; $135456,中位数37688VS平均值: 57089哪一个更好地代表这五个家庭的收入水平? 在差距很大的地区,与收入相关的社会

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论