




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、应用统计文法学院社会保障所刘钊办公地址:综合楼1112房间电话:83672544email:439356392014年5月,1,2,课程性质:鼓励选修课教学目标:1.使学生掌握调查研究和应用统计的基本概念;2.熟悉常用的初级统计方法;3.了解SPSS软件的功能和应用;4.提高应用统计软件分析实际问题的能力。,教学参考书目,道格拉斯A林德:商务与经济统计技术(第11版),中国人民大学出版社,2005.9贾俊平:统计学基础,中国人民大学出版社,2010.4朱红兵、卢文岱:应用统计与SPSS应用,电子工业出版社,2011.1专用信箱:appstat密码:23869386,3,学时安排,B160100
2、340(事业1301、1302、行政1301):56学时,理论学时48,实验学时8,4,成绩构成:考试成绩70分,期中报告20分,出勤10分,期中报告要求,教师提供国内国外大型调查机构公开的调查数据;根据数据,每个同学自主选择研究的问题,报教师审批;根据问题研究的需要,学习研究设计和相关的分析技术;撰写期中报告,并提交纸质报告文本。字数不少于3000字。期中报告的格式另行提供。,5,课程主要内容:,第1章应用统计概述第2章统计调查第3章数据文件的建立与整理第4章描述统计:数据的图表展示第5章描述统计:数据的概括性度量第6章概率与概率分布第7章抽样与抽样分布第8章假设检验第9章方差分析第10章相
3、关分析第11章回归分析,第一章应用统计概述,7,8,2012年国民经济和社会发展统计公报,9,10,11,年末全国参加城镇职工基本养老保险人数30379万人,比上年末增加1988万人。其中,参保职工22978万人,参保离退休人员7401万人。全国参加城乡居民社会养老保险人数48370万人,增加15187万人。其中享受待遇人数13075万人。参加城镇基本医疗保险的人数53589万人,增加6246万人。其中,参加城镇职工基本医疗保险28人数26467万人,参加城镇居民基本医疗保险人数27122万人。年末,2566个县(市、区)开展了新型农村合作医疗工作,新型农村合作医疗参合率98.1%;1-9月新
4、型农村合作医疗基金支出总额29为1717亿元,受益11.5亿人次。2012年,按照农村扶贫标准年人均纯收入2300元(2010年不变价),年末农村贫困人口为9899万人,比上年末减少2339万人。,12,13,14,15,你想过下面的问题吗?,当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?在同一年级中,同样统计学的课程可能由一些不同教师讲授。教师讲课方式当然不一样,考试题目也不一定相同。那么如何比较不同班级的统计学成绩呢?大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己
5、是客观、公正和有道理的。到底如何理解这些不同的结果呢?,任何公司都有一个信用问题。当然,在这些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢?我国东部和西部的概念是一个比较笼统的概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢?疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模型呢?,如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢?一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢?如何才能够客观地
6、得到某个电视节目的收视率,以确定广告的价格是否合理呢?,你相信这样的一些统计结论吗?,吸烟对健康是有害的,吸香烟的男性减少寿命2250天不结婚的男性会减少寿命3500天,不结婚的女性会减少寿命1600天身体超重30%会使寿命减少1300天每天摄取500毫升维生素C,生命可延长6年身材高的父亲,其子女的身高也较高二个出生的子女没有第一个聪明,第三个出生的子女没有第二个聪明,依此类推学生们在听了莫扎特钢琴曲10分钟后的推理测试会比他们听10分钟娱乐磁带或其他曲目做得更好上课坐在前面的学生平均考试分数比坐在后面的学生高漂亮的女性有损男性的智力。男性在看到漂亮女性时智力会下降,这就是为什么大学里的女孩
7、子比男孩子学习好的原因,20,第一节什么是统计学,Statistics:thescienceofcollecting,analyzing,presenting,andinterpretingdata.Copyright1994-2000EncyclopaediaBritannica,Inc.(不列颠百科全书),1.统计学的概念,21,统计一词主要具有三重不同的含义:第一是指统计资料,既反映大数量现象的特征和规律的数字资料;第二是指统计活动,即人们对客观现象的数量方面进行的认识活动,是搜集、整理和分析统计资料并进行推理的活动;第三是指统计学,即探索统计数据内在的数量规律及其在各社会领域的应用的科
8、学。英文“Statistics”一词是由“State”一词演化而来的,由此可见统计学是与国家管理密切相关的,是随着国家和社会管理的发展而发展起来的。,22,2.基于统计学的数据转换应用,23,3.应用统计的领域,actuarialwork(精算)agriculture(农业)animalscience(动物学)anthropology(人类学)archaeology(考古学)auditing(审计学)crystallography(晶体学)demography(人口统计学)dentistry(牙医学)ecology(生态学)econometrics(经济计量学)education(教育学)en
9、gineering(工程)epidemiology(流行病学)finance(金融)gambling(赌博)genetics(遗传学)geography(地理学)geology(地质学)electionforecastingandprojection(选举预测和策划)fisheriesresearch(水产渔业研究)historicalresearch(历史研究)humangenetics(人类遗传学),24,应用统计的领域(续),hydrology(水文学)Industry(工业)linguistics(语言学)literature(文学)manpowerplanning(劳动力计划)man
10、agementscience(管理科学)marketing(市场营销学)medicaldiagnosis(医学诊断)meteorology(气象学)militaryscience(军事科学)nuclearmaterialsafeguards(核材料安全管理)ophthalmology(眼科学)pharmaceutics(制药学)physics(物理学)politicalscience(政治学)psychology(心理学)psychophysics(心理物理学)qualitycontrol(质量控制)religiousstudies(宗教研究)sociology(社会学)surveysampl
11、ing(调查抽样)taxonomy(分类学)weathermodification(气象改善),25,4.统计研究对象的特点,1.数量性统计学研究的对象是客观现象的数量特征和规律性。“数字是统计的语言”2.总体性统计学研究的是客观现象总体的数量特征与规律性,而不是个体的量。3.具体性统计的对象是一定时间、地点、条件下事物的量,而不是抽象对象的量,这是统计学和数学的一个重要区别。4.差异性组成统计研究对象总体的个体是有差异的,否则就不需要进行统计分析。统计研究中需要对总体中大量的个体进行观察并进行综合分析,由此才能获得总体的数量分布特征。,26,5.统计研究的方法,27,6.统计学的分类,统计学
12、大致有以下两种主要的分类方法。1.描述统计学和推断统计学这一分类方法既反映了统计学发展的两个主要阶段,同时也反映了各自不同的侧重。描述统计学是研究如何对客观现象进行数量的计量、加工、概括和表示的方法。在二十世纪之前统计学基本上处于描述阶段。描述统计学是统计学的基础。推断统计学是研究如何根据样本数据去推断总体的情况,概率论是其理论基础。推断统计学是近代统计学的核心,也是统计学中的主要内容。,2010年,描述统计(descriptivestatistics),研究数据收集、整理和描述的统计学方法内容搜集数据整理数据展示数据描述性分析目的描述数据特征找出数据的基本规律,请描述你们班所有同学的性别、年
13、龄、生源地、身高、体重、每月支出情况请描述1978年以来中国GDP的增长情况请描述1949年以来中国人口的变动情况,2010年,推断统计(inferentialstatistics),研究如何利用样本数据来推断总体特征的统计学方法内容参数估计假设检验目的对总体特征作出推断,飞利浦的灯泡是否符合质量要求?我们是否要对每一个灯泡进行使用寿命测试?,给各专业亮红黄牌是怎么得出来的?,2012年就业蓝皮书基于麦可思公司对2011届大学毕业生半年后的抽样调查以及对2007届大学毕业生三年后的抽样跟踪调查研究撰写。2011届大学毕业生半年后调查抽样达到46万余人,回收问卷约22.7万份;大学生毕业三年后职
14、业发展调查对象为曾经在其毕业半年后参与过调查的2007届毕业生群体(回收问卷约20.3万份),本次调查为该答题群体三年后的连续跟踪调查,回收问卷约10.95万份。,究竟有多少人观看了CCTV的春节联欢晚会?,据央视索福瑞CSM45快速监测数据显示,2013年央视一套春晚的收视率为11.362。CSM41城市央视一套春晚2011年收视率18.344,csm44城市央视一套2012年收视率17.37。江苏卫视春晚的收视率为3.982,成为卫视春晚收视的冠军。辽宁卫视的春晚收视率为2.848,排在第二;湖南卫视的小年夜晚会则以2.801的收视率排在第三,有鸟叔,林志玲助阵的东方卫视春晚,收视也非常不
15、俗,以1.96的收视率排在第四。,36,统计学的分科,统计学的分科,37,描述统计与推断统计的关系,反映客观现象的数据,描述统计(统计数据的搜集、整理、显示和分析等),统计学探索现象数量规律性的过程,38,理论统计学和应用统计学,理论统计学是研究统计学的数学原理,它基于概率论的原理,还包括不属于传统概率论的一些内容,如随机化原则的理论、各种估计的原理、假设检验的原理以及一般决策的原理。在统计实践中经常会遇到一些原有的统计方法不能适应的新问题,需要创造新的统计模型和统计分析方法,这就需要统计理论的研究与指导。应用统计学将统计学的基本原理应用于各个领域就形成各种应用统计学的分支。它包括适用于各个领
16、域的一般性的统计方法,如参数估计、假设检验、方差分析、回归分析等,还包括在某一领域中特定的分析方法,如经济统计中的时间数列分析和指数分析等。应用统计学侧重于阐明统计学的基本原理,并将理论统计学的成果作为工具应用于各个领域。,我国原始时期,人类最初利用手指、石子、小木棍、绳索等工具进行计数。古书记载:“事大,大结其绳;事小,小结其绳,之多少,随物众寡”。奴隶社会:进行较系统的人口、土地等统计活动。如我国公元前21世纪的夏禹时期,全国有人口约1335万人,土地2438万顷。最早的统计数据资料。封建社会:建立人口、土地登记调查制度。现代社会:统计活动已渗透到人类社会生活、生产经营活动、科学研究等各个
17、方面。统计已成为社会分工中一个独立的部门和专业。,结绳记事,7.统计方法的发展,根据统计学的发展历程,统计学可分为三个时期:1.古典统计学时期(17世纪中叶到18世纪末萌芽期)两大学派:国势学派、政治算术学派国势学派创始人:德国的海尔门.康令(H.Conring,1606-1681)研究方法:对国家重要事项的记述,几乎完全偏重于品质方面而忽视了量的分析。,有名无实的统计学,政治算术学派创始人:英国威廉.配第(WilliamPetty,1623-1676)研究方法:从数量方面研究社会经济现象。2.近代统计学时期(18世纪末到19世纪末成长期)两大学派:数理统计学派、社会统计学派数理统计学派创始人
18、:比利时的阿道夫.凯特勒(AdolpheQuetelet,1796-1874)研究方法:用大数定律从社会经济现象复杂不定的偶然性中寻找其规律性。社会统计学派创始人:德国的克尼斯(K.G.A.Knies)研究方法:在对统计资料进行搜集、整理、分析的基础上,明确社会经济现象内部的联系和规律性。,有实无名的统计学,3.现代统计学时期(20世纪初到现在迅速发展期)新的统计理论与方法大量涌现。英国统计学家卡尔.皮尔逊(K.Pearson,1857-1936)的卡方分布理论。戈塞特(W.S.Gosset,1876-1937)的小样本t分布理论费歇尔(R.A.Fisher,1890-1962)的F分布理论及
19、实验设计方法。波兰统计学家内曼(J.Neyman,1894-1981)和英国统计学家皮尔逊(E.S.Pearson,1895-1980)的置信区间估计理论和假设检验理论。非参数统计方法、时间序列分析、探索性数据分析、统计抽样技术、多元统计分析等。,现代统计学简明大事记1866G孟德尔从事植物杂交实验1895K皮尔逊发现偏斜分布1900W贝特森重新发现格雷戈尔门德尔的成果1902生物统计(Biometrika)第1期出版1908WS戈塞特发表平均数的可能误差,t检验1915RA费歇尔发现相关系数(correlationcoefficient)的分布1919RA费歇尔到罗森斯特实验站工作1921-
20、24RA费歇尔发表作物收成变动研究-卷RA费歇尔1925RA费歇尔出版研究工作者的统计方法1925RA费歇尔统计估计理论(极大似然估计(MLEstimation)1926关于农业实验设计的第一篇论文RA费歇尔1928奈曼皮尔逊(NeymanPearson)关于假设检验的第一篇论文1930H卡弗数理统计年报第一期出版1933AN柯尔莫哥洛夫提出概率的公理化1933概率单位分析(probitanalysis)成果完成C布利斯(C.Bliss)1934J奈曼提出置信区间(confidenceintervals)1934中心极限定理(centrallimittheorem)的证明P利维、J林德伯格,1
21、935P利维鞅首次提出鞅理论(martingaletheory)1935RA费歇尔出版实验设计1937利用随机抽样对美国失业普查进行数字检查1947曼惠特尼对非参数检验的表述1959EL莱曼关于假设检验的最终表述1967J哈耶克秩检验的表述1969YMM毕晓普等全国性三氟溴氯乙烷研究(包括对数线性模型的成果)1970南希曼关于可靠性理论(reliabilitytheory)和威布尔分布的第一个出版物1972普林斯顿稳健估计研究1976“科学与统计学”,显著性检验应用的一个观点GEP博克斯1977DR考克斯对显著性检验的表述、J图基出版探索性数据分析1982R亚伯拉罕、C肖对混沌理论的现代表述1
22、987T山川将核回归(Kernelbasedregression)应用到调焦照相机(“模糊系统”)1990G沃赫拜发表观测数据的样条模型1992鞅方法用于医学研究得到了充分发展1997C詹尼森、BW特恩布尔将科克伦方法扩展到序贯分析1999RA比滕斯凯、JC林赛、LM瑞安使EM演算法适用于有关奥伦安德森吉尔鞅模型的问题,统计方法的应用与误用,在20年代,美国两位著名的统计学家休哈特(WalterA.Shewhart)和戴明(WEdwardsDeming)对推动统计学在商务中的应用有卓越的贡献。休哈特是纽约贝尔实验室的一位统计专家,他曾运用抽样调查方法发现军人的军衣、军鞋尺寸的分布近似于正态分布
23、,根据该分布规律设计出的军衣和军鞋符合大多数军人的需要,从而解决了急用军需品的规格和尺寸的设计问题。戴明则是美国普查局的一位统计专家,为改进最终产品的一致性和品质,两位专家运用统计质量管理技术(SQC)于企业实务中,监控生产过程,这些技术在二次世界大战期间对美国经济的发展发挥了很大的作用。,统计方法的正确应用,有助于我们认清事物的真相、发现事物变化的数量界限。揭示事物发展的内在规律。相反,统计方法的错误使用,将造成事实的扭曲、读者的误解,甚至决策的失败。统计“谎言”的一种常见现象较多出现在小样本的观察结果上。如仅调查了10位牙医对某牌牙膏的看法就作出如下定论:每10位牙医中就有7位特别推荐该牌
24、牙膏;将某药品给10位病人服下有9位见效则宣称该药品有效率达90等等。再如某汽车公司的广告“近十年来本公司在贵国卖出的车子,有90还在路上跑”,消费者看到这一广告自会产生这样的印象:该公司的汽车性能一定不错才能开这么久。而实际上上述车子的90是近三年内卖出的,显然这是汽车制造商巧妙的广告说辞,且误导了消费者。有时数字本身似乎是令人迷惘的,如平均月工资为882.43元,给人的感觉似乎很精确可信,但若平均月工资为888元,则似没有上一数字精确而难以令人信服,事实上统计数字是否精确与其所含小数位多寡无关。,统计的误用与滥用,大约在一个世纪以前,政治家BenjaminDisraeli曾有一个著名的论断
25、:“有三类谎言:谎言、糟透的谎言和统计”。他还说:“图并没有说谎,是说谎者在画图”历史学家AndrewLang说,一些人使用统计“就像喝醉酒的人使用街灯柱支撑的功能多于照明”统计滥用不好的样本过小的样本误导性图表局部描述故意曲解,你相信统计结果吗?,数据可以有误或作假统计方法(有意或无意)使用不当可以误导。有低级误导和高级误导。常识判断和直觉是重要的,关于美国选举的两个例子(1),谁会在1936选举中获胜?AlfLondon还是F.D.R.(罗斯福)?LiteraryDigest(文摘)送出一千万份问卷(返回二百四十万份)后,预测London会赢.而Gallop(盖洛普)只问了5000人说Ro
26、osevelt(罗斯福)会赢.最后罗斯福和盖洛普都赢了.文摘倒闭了.,谁会在1948选举中获胜?ThomasDewey还是HarryTruman(杜鲁门)?Crossley,Gallop(盖洛普),Roper所有都预测Dewey会赢(每个机构用了5000个问卷).最后(包括盖洛普)他们都输了,而杜鲁门赢了.,关于美国选举的两个例子(2),统计思维,类似于物理学,统计在否定中发展,统计的一个重要但又往往不易为人所理解的特点是统计从来不绝对地说“是”或者“不是”。统计只能够说可能,而且往往提供某事可能发生的概率。,是非是人类社会的产物,大灰狼吃羊犯错误了吗?人类社会之外的自然界有是非吗?人类社会的
27、“是非”是一成不变的吗?,统计只说可能性是实际世界的真实体现。真实世界充满了不确定性。从某种意义来说,生活中唯一确定的事情就是其不确定性。,正是不确定性使得生活充满了魅力和迷人的色彩。有多少人会享受其未来每一时刻全部已经确定了的世界呢?,统计需要的是科学式的怀疑和发展的思维方式而不是顺从、盲从和服从也不能用固定的眼光来看自己和世界,推荐阅读书目:女士品茶,59,第二节统计的基本概念,60,一、随机性和规律性,61,现实中的随机性和规律性,中学时,就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如
28、,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。,62,现实中的随机性和规律性,从总体来说,我国公民的预期寿命却是非常稳定的。而且女性的预期寿命也稳定地比男性高几年。这就是规律性。一个人可能活过这个寿命,也可能活不到这个年龄,这是随机的。但是总体来说,预期寿命的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。,63,二、概率和机会,你可能经常听到概率(probability)这个名词。最常见的是在
29、天气预报中提到的降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大。,64,有些概率是无法精确推断的,比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。,65,有些概率是可
30、以估计的,如掷骰子。只要没有人在骰子上做手脚,你得到任何点的概率都应该是六分之一。这反映了掷骰子的规律性。但掷出骰子之后所得到的结果还只可能是六个数目之一。这体现了随机性。如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也说明随机结果也具有规律;而且有可能通过试验等方法来推测其规律。,66,三、总体和样本,总体(population)所研究的全部个体(数据)的集合,其中的每一个个体也称为元素分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量或
31、样本量(samplesize),要想了解沈阳市民对建设沈阳交通设施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点,需要调查;调查对象是所有沈阳市民,调查目的是希望知道市民中对这个问题的不同看法各自占有的比例。显然,不可能去问所有的沈阳市民,而只能够问一部分;并根据这部分观点来理解整个沈阳市民的总体观点。,68,总体和样本,在这个例子中,单个沈阳市民的观点称为个体(element,unit或individual),而称所有沈阳市民对这个问题的观点为一个总体(population),总体是包含所有要研究的个体的集合。而调查时问到的那部分市民的观点(也就是部分个体)称为该总体的一个样本
32、(sample),是总体中选出的一部分。当然,也有可能试图调查所有的人(比如人口普查),那叫做普查(census)。普查就一定比抽样准吗?,69,随机样本,在从有限总体抽取样本时,如果总体中的每一个体都有同等机会被选到样本中,这种抽样称为简单随机抽样(simplerandomsampling),而这样得到的样本则称为随机样本(randomsample)。,70,随机样本,就沈阳交通问题的调查为例,在随机抽样的情况下,如果样本量(samplesize,也就是样本中个体的数目)在总体中的比例为1/5000,那么,无论在和平区或者在康平县,无论在白领阶层还是蓝领阶层被问到的人的比例都应该大体是1/5
33、000。也就是说,这种比例在总体的任何部分是大体不变的。,71,随机样本,抽样就像从一锅八宝粥中舀出一勺如果粥和匀了,那么一勺中的各种成分比例应该和锅中的比例类似。就如一个抽样调查随机样本所包含的各种人群比例应该和总体类似。一个非随机的抽样就像从没有和匀的八宝粥中舀出的一勺一样。,72,方便样本,实践中,得到随机样本不容易。很多搞调查的人就采取简单的办法。假定按照随机选出的电话号码进行调查,肯定节省时间和资源,但就不是一个随机样本了。如果按照随机选择的数字(无论号码本上有没有)打电话,那很多电话是空号或单位电话;显然这种样本也不是随机样本,这些称为方便样本(conveniencesample)
34、。在调查中,即使选择对象的确是随机的,最理想的情况所得到的样本也只代表那些愿意回答问题人的观点所组成的总体;没有回答问题的人的观点永远不会被这种调查的样本所代表。,73,这种不回答的问题是抽样调查特有的问题在其他问题中,也有使用方便样本的情况。比如在肺癌研究中,人们往往看到吸烟和肺癌的关系的数据;这些数据并不是整个人群中采集的随机样本;它们可能只是医院中的病人记录中得到的。在杂志和报纸上也有问卷,但得到的只是拥有这份报刊,而且愿意回答的人的观点。,74,误差,假定在某一职业人群中女性占的比例为60%。如果在这个人群中抽取一些随机样本,这些随机样本中女性的比例并不一定是刚好60,可能稍微多些或稍
35、微少些。这是很正常的,因为样本的特征不一定和总体完全一样。这种差异不是错误,而是必然会出现的抽样误差(samplingerror)。刚才提到在抽样调查中,一些人因为种种原因没有对调查作出反映(或回答),这种误差称为未响应误差(nonresponseerror)。而另有一些人因为各种原因回答时并没有真实反映他们的观点,这称为响应误差(responseerror)。和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解;应该在设计调查方案时尽量避免。,75,四、参数和统计量,参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值
36、()、标准差()、总体比例()等总体参数通常用希腊字母表示统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示,2010年,统计中的几个基本概念,五、变量与数据,做任何事情都有对象。比如一个班上注册的学生有200人,这是一个固定的数目,称为常数(constant)或者常量。但是,如果猜测今天这个班有多少人会来上课,那就没准了。这有随机性。可能有请病假或事假的,也可能有逃课的。这样,将要来上课的人数是个变量(variable)。另外对某项
37、政策同意与否的回答,也有“同意”、“不同意”或者“不知道”三种可能值;这也是变量,只不过不是数量而已。,78,变量(variable),说明现象某种特征的概念如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据变量可以分为分类变量(categoricalvariable):说明事物类别的名称顺序变量(rankvariable):说明事物有序类别的名称数值型变量(metricvariable):说明事物数字特征的名称离散变量:取有限个值连续变量:可以取无穷多个值,数据,有了变量的概念,什么是数据呢?拿掷骰子来说,掷骰子会得到什么值,是个随机变量;而每次取得1至6点中任意点数
38、的概率它在理论上都是六分之一(如果骰子公平)。这依赖于在掷骰子背后的理论或假定;而在实际掷骰子过程中,如果掷100次,会得到100个由1至6点组成的数字串;再掷100次,又得到一个数字串,和前一次的结果多半不一样。这些试验结果就是数据。所以说,数据是关于变量的观测值.,80,数据,通过数据可以验证有关的理论或假定,比如通过多次掷骰子验证得到每个点的概率是不是1/6。顾客是否喜欢某种饮品?事先不易猜测顾客喜欢与否的概率。在问了1000人之后,可能有364人说喜欢,而480人说不喜欢,其余的人可能不回答,或说不知道,或从来没有喝过这种饮料。当然,它仅仅反映了1000个被问到的人的观点;但这对于估计
39、整个消费群体的观点还是有用的。从该数据可以估计喜欢该饮料的人占大约0.364左右。,81,六、统计和计算机,人们越来越依赖计算机了。最早使用计算机的统计当然更离不开计算机了。事实上,最初的计算机仅仅是为科学计算而建造的。大型计算机的最早一批用户就包含统计。而现在统计仍然是进行数字计算最多的用户。计算机现在早已脱离了仅有计算功能的单一模式,而成为百姓生活的一部分。计算机的使用,也从过去必须学会计算机语言到只需要“傻瓜式”地点击鼠标。结果也从单纯的数字输出到包括漂亮的表格和图形的各种形式。,82,统计软件,统计软件的发展,也使得统计从统计学家的工具变成了大众的游戏。只要你输入数据,点几下鼠标,做些
40、选项,马上得到漂亮结果。是否傻瓜式的统计软件的使用可以代替统计课程了?数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。,83,统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的几种。,84,SPSS:很受欢迎;容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。它对于非专业统计工作者是很好的选择。Excel:严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有Micros
41、oftOffice的计算机,基本上都装有Excel。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。,85,SAS:这是功能非常齐全(不如R齐全)的软件;尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“傻瓜化”(远不如SPSS“傻”),但仍然需要一定的训练才可以进入。也可以对它编程;但对于基本统计课程则不那么方便。,86,S-plus:这是R出现之前统计学家最喜爱的软件。不仅由于其功能齐全,而且由于其
42、强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,很方便。还有不断加入的各个方向统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。包括网上程序资源是方法最齐全的软件。是用户量增加最快的统计软件。由于易学,它没有“傻瓜化”。,87,Minitab:这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。Statist
43、ica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。Eviews:一个主要处理回归和时间序列的软件。FORTRAN:这是应用于各个领域的历史很长的非常优秀的数学编程软件,功能强大,也有一定的统计软件包。计算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易。MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于S和R。但是统计方法不多。,88,第三节定量研究,1.基本概念2.研究过程3.定量研究原理,1.基本概念,1.1研究活动1.2逻辑和推理1.3定量研究的特点1.4定量研究的维度,1.1研究活动,研究活动:系统地应用科
44、学方法,全面地搜集资料,回答或解决实践或理论问题的活动。定量研究:系统地应用科学方法,全面地搜集资料,用定量方法回答或解决实践或理论问题的活动。获得知识的方式传统:因长久接受或多次重复而认为特定观念是正确的。直觉:凭非逻辑、非感知的直觉而认为特定观念是正确的。权威:因相信某些受尊敬的人而认为特定观念是正确的。理性:依据现有的观念和逻辑原理得出正确的观念。经验:通过观察获得知识。研究:将理性和经验结合而获得知识,用理性思维发展理论,用经验检验理论。,例1.1拉皮尔关于言行不一的研究,未经检验的假设:一个人的态度与行为之间一般具有一致性。拉皮尔的理论假设:人们的“社会行为”与他们口头表达的社会态度
45、之间很少具有一致性。方法:分真实行为和假设行为两个阶段进行。真实行为阶段:1930-33年拉皮尔和一对年轻中国夫妇两次开车沿太平洋海岸线在美国旅行1.6万公里,共住过67家旅馆,在184家餐馆用餐。在未告知这对中国夫妇的情况下,详细记录旅、餐馆工作人员对这对中国夫妇的态度和行为。假设行为阶段:6个月后,向上述去过的单位和同地区的32家旅馆和96家餐馆发出问卷,回收率51%。问卷的主要问题:“你愿意在自己的旅馆或餐厅接待中国客人吗?”,练习1.1:谈谈你对拉皮尔研究的看法。,1.2逻辑和推理,逻辑:以推理形式为主要研究对象的科学。推理:以一个或几个命题为根据或理由以得出一个命题的思维过程。推理可
46、分为演绎推理和归纳推理,1.3定量研究的特点,客观观察关注变量信度区分理论与数据可概化大样本统计分析,定量研究示例刘武与朱晓楠(2006),选择题目市民对政府行政服务中心的满意程度如何?它受哪些因素影响?聚焦问题市民的预期、感知质量等对满意有多大影响?研究设计问卷调查搜集数据对离开行政服务中心的345办事者进行问卷调查分析数据统计分析解释数据市民的预期、感知质量等对满意度有直接正向影响告知他人在中国行政管理发表,1.4定量研究的维度,1.4.1研究的应用基础研究应用研究评价研究行动研究社会影响评估应用研究工具需求评估成本效益分析,1.4.2研究目标,探索性研究熟悉基本事实建立一般图景提出供研究
47、的问题为研究产生新思想未来研究的可行性测量工具开发,1.4.2研究目标,描述性研究详细、高度精确的画面查找新资料建立类型明确阶段或过程记录因果过程报告背景或情境,1.4.2研究目标,解释性研究检验假设详细阐述理论支持或驳斥理论将具体情况与理论相联系,1.4.3研究的时间维度,横断(截面)研究,1.4.3研究的时间维度纵贯研究,时间序列研究,1.4.3研究的时间维度纵贯研究,专题小组研究,1.4.3研究的时间维度纵贯研究,同期群分析,1.4.4数据搜集技术,实验问卷调查非反应研究内容分析现有资料再统计,2研究过程,2.1研究过程的步骤2.2研究问题2.3研究设计,2.1研究过程的步骤,选择题目,
48、搜集数据,分析数据,解释数据,研究设计,聚焦问题,告知他人,理论,2.2研究问题,研究问题:研究者感兴趣的现有知识与未知现象间的不一致。问题定义过程研究问题的类型相依性:相关、因果结构性:相似、构成,进行试点研究,将主题浓缩为研究问题的方法,1.文献检索(1)完整地复制先前的研究方案,或是只做略微的改变。(2)探讨前人研究中发现的未预期结果。(3)遵循作者在其论文结束时所提出的对后续研究的建议。(4)延伸既有的解释或理论到新的主题或背景。(5)挑战某些研究发现,或试图驳斥某项关系。(6)清楚说明干预的过程,思考关系形成的环节。2.与人讨论你的想法(1)向对某个主题知之甚详的人请教其曾经思索过的
49、问题。(2)找出那些在某个主题上与你意见不同的人,并和他们探讨可能的研究问题。3.应用到某个特定的情境(1)把主题集中到某段特定的历史时期或时间段落。(2)把主题压缩到某个特定的社会或地理单位。(3)思考哪些次级群体或群众类属单位涉及其中,以及它们之间是否有所差异。4.界定研究的目的与期望的结果(1)研究问题的目的是做一项探索性的、解释性的还是描述性的研究?(2)研究问题涉及应用性的还是基础性的研究?,好的和不好的研究问题,不好的研究问题无法经验检验、非科学的问题死刑是正确的吗?一般性的主题,不是研究问题一酗酒与吸毒的处理性与老化一组变量,而不是问题死刑与种族歧视城市化与耕地减少太过模糊、模棱
50、两可的问题一警力影响不良行为吗?一我们可以做些什么来防止家庭暴力?需要进一步明确的问题一家庭暴力事件有增多的情形吗?一贫困如何对儿童产生影响?一什么是生长在贫困环境中的孩子经历到,而其他孩子没有经历到的问题?,好的问题探索性的问题山西煤矿使用童工事件曝光5年来,中国各地情况是否有所改变?描述性的问题虐待儿童,在父母离异的家庭,是否比在一般完好如初、未受离婚波及的家庭,更加是司空见惯的事?在贫困家庭中长大的小孩,比非贫困家庭的小孩,更可能有医疗、学习、社会情绪适应上的困难吗?解释性的问题离婚经验导致的情绪不稳定会增加离婚父母毒打虐待孩子的机会吗?缺乏足够的金钱接受预防治疗是贫困家庭小孩遭遇到比较
51、严重医疗问题的主要原因吗,定量与定性研究,定量研究检验研究者作为工作开始的假设概念以不同的变量形式出现在资料搜集之前制定标准化的测量体系资料以精确的数字形式出现理论在很大程度上是因果性的和演绎性的程序是标准化、可重复的通过用统计数值和图表,以及探讨它们与假设的关系来进行分析,定性研究当研究者开始沉浸于资料中时,掌握和发现意义概念以主题、宗旨、概括和类型的形式出现测量以特殊化方式进行,而且通常根据个体的环境和研究者个人而具体化资料以文献、观察和抄本的词语和画面的形式出现理论不一定是因果性的,但通常是归纳的研究的程序是特殊的,很少能重复分析的过程是通过从例证中抽取出主题或概要和组织资料来展现一个紧
52、凑的、一致的图画,2.3研究设计变量与假设的语言,变量属性变量的类型自变量(IV)因变量(DV)干涉变量,因果假设,变量的类型变量:可取不同值的特征、数量标志和指标自变量:研究中假定的引起因变量变化的变量因变量:研究中假定的其变化是由自变量引起的变量,一般是可观察的。控制变量:或称干涉变量,不同于起主要作用的自变量,它的效果可由研究者控制。条件变量:或称中间变量,可推断其存在的变量,但它不能够被控制或测量。如果它有影响的话,其影响只能从研究的自变量、控制变量与因变量的关系之中推断出来。例:居住地地理分布影响居民对政府态度的研究自变量:居住地地理分布,3类:城市、郊区、农村因变量:对政府态度的各
53、项指标分数控制变量:政府改革措施条件变量:居住收入水平,假设的确立假设:研究者关于所研究变量间关系的猜测。因果假设:事件或活动A是由变量C引起的。相关假设:事件或活动A和B是关联的。实质性假设:研究假设统计假设:关于定量研究中一个以上参数的描述。研究目标的确定研究目标:研究者通过研究所要达到的。进行试点研究确定研究焦点,假设的陈述形式,1)函数式陈述:2)条件式陈述,即:“如果,则”如果家庭收入增加,则家庭用于食物支出的比率将降低“3)差异陈述,“a组与b组在变量x上无(有)差异”。例如:”大学教师和省级公务员的收入水平没有差异“4)有关调节变量的假设陈述形式:Z将调节X与(或对)Y之间的关系
54、(或作用)Z将加强(或减弱)X与(或对)Y的关系(或作用)X与(或对)Y的关系(或作用)将随Z的变化而增强(或减弱),X,Y,Z,X,Y,常见型,纯调节型,X,Y,Z,半调节型,因果假设的特征,1.至少两个变量2.表达因果关系3.可表述为预测4.假设与理论的逻辑联系5.可证伪,检验与修正假设,变量与假设语言,逻辑假设检验的逻辑虚无假设(无罪推定)备择假设,双重负载的假设,分析层次:理论解释所论及的社会事实的层次分析单位:研究者测量变量时使用的单位类型分析层次:微观、中观、宏观分析单位:个人、团体、组织、社会类属、社会制度、社会,解释的维度,因果解释的潜在错误,练习题,1.描述自变量、因变量和中
55、介变量的差异。2.为什么在社会研究中我们不说证明某项结果?3.分析单位和分析层次之间彼此有何关联?4.如果研究者使用证伪假设的逻辑,他会使用哪两种假设?为什么否定性证据比较有力?5.使用带有自变量与因变量的假设,重新叙述下面这个句子:“个人一年中开车的里程数会影响他进入加油站的次数,而且这两变量间存在一种正面单向的关系。”,练习1.2请说明以下研究的研究假设、问题类型、变量类型。,加拿大学者J.F.Myles(1978)想用经验方法来检验Goffman的总体机构理论。他将养老院视为按医学模型建立的总体机构。他提出:与不住养老院的老人不同,养老院里的老人,不论其客观健康状况如何,都会逐渐认为自己
56、有病。为了检验这个命题,他随机调查了马尼托巴省的3851位65岁以上的老人。他让所有被调查对象按1-10量表评价自己的健康状况(主观健康),并用各种体检结果作为客观健康的指标。经过因子分析将这些指标合成为一个因子。性别、婚姻状况、收入和文化程度都不重要,于是未纳入分析。,答案:1.研究假设是:控制客观健康状况,机构化老人和非机构化老人对自己健康状况的主观感知会有明显差异(机构化老人的病患角色认同程度更高)。2.研究问题是相依性的3.因变量是主观健康(Y),自变量是居住状况(X1:是否机构化),控制变量是客观健康(X2)。,3定量研究原理,3.1测量的概念3.2测量过程3.3测量的层次3.4测量
57、的质量3.5测量的工具,3.1测量的概念,3.1.1什么是测量?3.1.2测量的要素,3.1.1什么是测量?,流行的观点:测量是依据某种法则给物体或事件指派数字的过程。狭义的定义:测量是发现和估计对象某种属性量的大小与同种属性的量的单位之间的比率的过程。,3.1.2测量的要素,1.测量对象:客观世界中所存在的事物或现象。2.测量内容:测量对象的某种属性或特征(变量)。3.测量手段:用来定义测量内容并确定测量对象在测量变量上位置的工具(包括:参照点、测量单位)。4.测量规则:使用测量手段进行测量的操作程序。5.测量结果:以特定测量单位表示的数字或数值。,3.2测量过程,概念化概念定义操作化操作定
58、义,3.2.1测量,对应原则概念假设经验假设,职业化工作环境可以提高师德水平,3.3测量的层次,1.定类测量(nominalmeasurement)实质:代码化分类2.定序测量(ordinalmeasurement)实质:数字化比较3.定距测量(intervalmeasurement)实质:相对性数量化比较4.定比测量(ratiomeasurement)实质:绝对性数量化比较,数据的计量尺度与类型:例子,定类尺度,定序尺度,定距尺度,定比尺度,精确程度,良好,1980,134公斤,中国,国籍:,健康状况:,出生年份:,体重:,(1)、定类尺度(NominalScale),也称列名尺度、名义尺度
59、、分类尺度例如:性别、民族、职业数据表现为“类别”各类之间无等级次序各类别可以用数字代码表示根据定类尺度得到的数据为分类数据。,(2)、定序尺度(OrdinalScale),也称顺序尺度例如健康状况、质量等级数据表现为“类别”可对等级、大小等排序未测量出类别之间的准确差值根据定序尺度得到的数据为顺序数据。,(3)、定距尺度IntervalScale,也称间隔尺度例如年份、摄氏温度数据表现为“数值”可以进行加减运算“0”是只是尺度上的一个点,不代表“不存在”根据定距尺度得到的数据为间距数据。,(4)、定比尺度RatioScale,也称比率尺度例如体重、身高数据表现为“数值”可以进行加减、乘除运算“0”表示“没有”或“不存在”根据定比尺度得到的数据为比率数据。,定距尺度与定比尺度的区别,定距尺度中“0”表示一个具体数值,不表示“没有”或“不存在”,定比尺度中“0”表示“没有”或“不存在”。定距尺
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 6502-1:2025 EN Rubber - Measurement of vulcanization characteristics using curemeters - Part 1: Introduction
- 【正版授权】 ISO 22932-9:2025 EN Mining - Vocabulary - Part 9: Drainage
- 【台州】2025年浙江台州市温岭市事业单位公开选聘工作人员8人笔试历年典型考题及考点剖析附带答案详解
- 【成都】2025年上半年四川成都市国资委所属事业单位招聘工作人员2人笔试历年典型考题及考点剖析附带答案详解
- 天府教学课件下载
- 第五节三废的处理和利用DisposalandUtiliza
- 希沃教学目标课件
- 2025年苏州经贸职业技术学院单招职业技能考试题库带答案
- 小学生笔顺书写课件
- 2025年辽宁省西市区事业单位公开招聘医务工作者考前冲刺模拟带答案
- 永安污水处理厂工程可行性研究报告
- 机动车检测站设备维护管理制度
- 企业内部举报制度实施细则
- DB4420-T 51-2024 脆肉鲩鱼肉脆度的测定 质构仪法
- 江苏省南通市中考物理部分试题总结课件
- 2025届新高考政治复习备考策略及教学建议 课件
- 呼吸与危重症医学专科医师规范化培训基地认定细则
- JGJ/T235-2011建筑外墙防水工程技术规程
- CHT 8024-2011 机载激光雷达数据获取技术规范(正式版)
- 乒乓球竞赛规则、规程与裁判法
- 北川县楠木园水泥用石灰石矿矿山地质环境保护与土地复垦方案
评论
0/150
提交评论