社会统计的应用例题举要.doc_第1页
社会统计的应用例题举要.doc_第2页
社会统计的应用例题举要.doc_第3页
社会统计的应用例题举要.doc_第4页
社会统计的应用例题举要.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

社会研究的统计应用 李沛良第二篇 统计叙述:单变项与双变项23 简化一个、两个变项之分布表1 简化一个变项之分布定类层次定序层次定距层次基本技术次数分布(f)比例(P=f/N)比率(百/千/万分比率)对比值图示法(长条图、圆饼图)累加次数向上累加分布cf 向下累加分布cf累加百分率 向上累加百分率分布c% 向下累加百分率分布c%分组 组限:每组的范围,包括上限和下限。真实下限=标示下限0.5 真实上限=标示上限+0.5组距:真实上下限之差。组中点:真实上下限的平均值。图示法(矩形图、多角线图)集中趋势众值中位值均值离散趋势离异比率、质异指数四分位差标准差注:1.关于数值中小数的取舍问题。“四舍五入”之“四舍”没有问题,同时结合“前单五入”,即“五”前面是单数就进位,若是双数则舍掉(0算双数)。2.所谓集中趋势测量法,就是找出一个数值来代表变项的分布,以反映资料的集结情况。此法的意义在于,可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。这样的估计或预测,当然会有错误,但由于所根据的数值最有代表性,故所发生之错误的总和理应是最小的。 众值 (Mo):次数最多的值。中位值(Md):在一个序列的中央位置之值。均值 ():变项的各个数值之和,求取一个平均数。3.离散趋势测量法,是要求出一个值来表示个案与个案之间的差异情况。该法与集中趋势测量法具有互相补充的作用。集中趋势测量法所求出的是一个最能代表变项所有资料的值,但其代表性的高度却要视乎各个个案之间的差异情况。如果个案之间的差异很大,则众值、中位值、均值的代表性就会甚低;此时以这三个值作估计或预测,所犯的错误就会很大。离异比率(V):非众值的次数与全部个案数目的比率。 质异指数(IQV):其作用是求出各个类别之间在理论上最多的可能差异中实际上出现了多少差异。(k=变项的类别数目,f=每个类别的实际次数) 四分位差(Q):将个案由低至高排列后分为四个等分,第一个四分位置的值Q1与第三个四分位置的值Q3的差异。 标准差(S):将各数值(x)与其均值()之差的平方和除以全部个案数目,然后取其平方根。公式中x与相差,就是表示以均值作为代表值时会引起的偏差或错误。总之,集中趋势测量法与离散趋势测量法并用,可以一方面知道资料的代表值,有助于估计或预测的工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。正态分布与标准值?简化两个变项之分布 统计相关 交互分类与百分表 简化相关与消减误差相关测量与假设检定相关测量法,目的是要理解两个变项在“样本”(随机与非随机样本均可)中的相关“强弱”程度及方向。检定假设方法,则是根据“随机”样本的资料来推论两个变项在“总体”中“是否”相关。 体中是否相关。第四章 相关测量法与测量层次第一节 两个定类变项:Lambda ,tau-y一、Lambda相关测量法 (以众值作为预测的准则) 例4-1 研究100名青年人的最大志愿是否男女有别,获得表4-1的次数资料。 由于我们认为性别(X)是自变项,志愿(Y)是依变项,且两个都是定类变项,故此要应用系数来简化相关的情况。 根据系数的公式和表4-1的次数资料,可知My=50,=40+30=70,n=100,所以: 这个统计值表示以X预测Y,可以消减40%的误差。例4-2 研究青年人的志愿与他们的知心朋友的志愿是否相关,表4-2是得到的次数资料。 由于青年人的志愿(Y)与知心朋友的志愿(X)可能是互相影响的,难以区分何者是自变项或是依变项,故要应用Lambda相关测量法的对称形式,即系数。根据系数的公式和表4-2中的次数资料,可知My=50,Mx=54,=28+41+7=76,=28+42+4=73,n=100,所以: 这个统计值表示,如果以两个变项互相预测,可以消减47%的误差。二、tau-y相关测量法例4-3 以表4-1的青年人研究资料为例。全部个案数目n=100。性别(X),边缘次数Fx分别是60,40。志愿(Y),边缘次数Fy分别是40、50、10。表内有6个条件次数,每者都代表同属于某项Y值与某项X值的个案数目(f)。将这些数值带入tau-y公式,结果如下:这个数值不但表示性别与志愿的相关程度,且可以解释为:以性别来预测或估计志愿的话,能够消减22.4%的误差。注:由于Lambda测量法是以众值作为预测的准则,不理会众值以外的次数分布;而tau-y测量法是考虑全部的次数,故其敏感度高于Lambda测量法。比较:例 抽样调查某市镇的劳动人口的职业背景与其工作价值观之间的关系,有表4-3所得的资料。(全部Mo集中在条件次数表的同一行或同一列中,Lambda系数为0)这个统计值表示职业与工作价值取向是毫无关系的。但tau-y=0.007,表示职业背景对工作价值观是有若干影响的。也可以通过将次数表变为百分率表,发现有72.4%的制造业工人注重物质报酬,64.3%的服务业从业员注重物质报酬。虽然分别不大,但相对上从事制造业的人比从事服务业的人较多注重物质报酬;换言之,职业背景(X)对工作价值取向(Y)是略有影响的。第二节 两个定序变项:Gamma,dy可用Gamma系数和dy系数来简化两个定序变项的关系。其中,Gamma适用于分析对称的关系,dy适用于不对称的关系,两者的系数值都是由-1至+1,既表示相关的程度,也表示相关的方向,且都具有消减误差比例的意义。Gamma,dy可统称为级序相关法,以每对个案之间的相对等级作为预测的准则。一、 Gamma相关测量法 二、dy相关测量法 例4-4 假定有四名学生(ABCD),他们的数学成绩与英文成绩的等级分别如表4-4所示。由Ns=2,Nd=4得: 这个统计值表示四名学生的数学等级与英文等级成反比,相关程度是0.33。G的绝对值是0.33,可以解释为:以一个变项的相对等级来预测另一变项的相对等级,可以减少33%的误差。例4-5 有表4-5的五所工厂的资料。Ns=4,Nd=3,Ty=2。可见工人积极性与产量成正比。然而,二者的相关程度颇弱,以其中的一个变项来预测另一个变项,只可以消减14%的误差。 我们假定:工人积极性(X),工厂产量(Y),用dy来简化相关的情况:这个系数值除了显示正相关外,也表示以工人积极性的高低来预测或估计工厂产量的高低,可以减除11%的误差。例4-6 我们在某城市调查200户人家,目的时要知道住户的人口密度与婆媳冲突是否有关系。交互分类之后的次数分别如表4-7所示。 由于两个变项都属于定序层次,要用Gamma或dy来简化其相关情况。若假定:住户人口密度(X),婆媳冲突(Y),选用dy相关测量法。根据表4-7的次数资料,可求出:第三节 两个定距变项:简单线性回归与积矩相关两个定距变项,可用简单线性回归分析法来以自变项的数值预测或估计依变项的数值,用积矩相关系数来测量两个变项相关程度和方向。一、简单线性回归分析 回归分析法的目的,是要找出一个错误最小的方法来预测依变项的数值。 简单线性回归分析法,是根据一个直线方程式,以一个自变项(X)的数值来预测一个依变项(Y)的数值。这个方程式是: 其中,b称为回归系数,表示回归线的斜率。b值是表示自变项对依变项的影响的大小和方向;a是截距,即回归线与Y轴的交点;是根据回归方程式所预测的Y变项值。例4-7 我们希望以女青年的学校教育年期(X)来预测或估计她们每天参与家务劳动几多小时(Y)。调查了9名女青年后,获得表4-9的资料。采用简单线性回归法分析。从表中的计算,可知X=36,Y=18,XY=47, ,而n=9,所以:这里b=-0.83,表示两变项有负向效果,即上学年期愈多,参与家务劳动就愈少。同时,每增加一年的教育,可能减少0.83小时家务劳动。将这两个数值代入简单线性回归方程式,得:这个方程式简化了九名女青年在两个变项上的众多资料,而且可以用来预测或估计女青年们的家务劳动数量。如,有两名女青年,她们曾经分别上学三年、六年。将X=3,X=6分别代入回归方程式中:根据这些数值,我们可作如下预测或估计:上学三年的女青年每天参与家务劳动约2.8小时,上学六年的约0.3小时。同样,此方程式可应用于预测或估计样本以外之个案的数值。二、积矩相关测量法 测量两个定距变项间的相关强弱,可用皮尔逊的积矩相关系数(r)。值,称为决定系数。基本上,r系数所要表示的,就是以线性回归方程式作为预测的工具时所能减少的误差比例。因此,r系数越大,就表示线性回归方程式的预测能力越强。例4-8 以表4-9资料为例。根据上表资料可求得:积矩相关系数(r)显示,家务劳动数量与教育水平之间具有很强的负相关,即教育水平愈低,参与家务劳动愈多。决定系数(),则显示以一个变项来预测另一个变项,能够消减65.6%的误差。第四节 定类变项与定距变项:相关比率与非线性相关相关比率又称为eta平方系数( ),是根据自变项(X)的每一个值来预测或估计依变项(Y)的均值。eta系数值(E)是由0到1,其平方值具有消减误差比例的意义。例4-9 表4-10是研究20名学生的家庭职业背景(分为干部、工人、农民)对其语文能力(0-100分)的影响。 由于家庭职业背景(X)属于定类层次,语文水平(Y)属于定距层次,用E系数来测量两者的相关情况。 从上表的下端,可知属于干部、工人、农民三类家庭的学生数目(),每类学生的语文成绩的平均得分()。根据每名学生的成绩,可以计算出全部学生(n=20)的得分之平方总和是:把全部学生成绩相加,然后除以人数,可得平均成绩=74.1。将上述数值带入相关比率测量法的公式: =0.70从E值,可见家庭职业背景对学生的语文水平有强大的影响。从值可见以家庭背景预测或估计语文成绩,可以消减70%的误差。另外,从表的下端,可见这三类家庭背景的学生的平均语文成绩颇有分别。相对之下,以干部家庭的学生表现最好(平均是84.92分),次为农民家庭(平均79.60分),最不好的是工人家庭的学生(平均61.75分)。表最下层是标准差,可见来自工人家庭的学生在语文水平上的相互差异最大(S=9.64),其次是干部家庭学生的相互差异(S=4.40),以农民家庭学生之间的语文差异最小(S=2.87)。第五节 定类变项与定序变项:Lambda, tau-y例4-10 表3-1是研究100名青年人的教育水平(定序)对其最大志愿(定类)的影响。我们将教育水平看做是定类变项,可用或tau-y系数来分析它(X)与志愿(Y)之间的不对称关系。假定用tau-y,结果如下:可见教育水平对青年人的志愿之影响颇弱,以教育水平来预测志愿,只能减除13.8%的误差。我们曾经从表4-1中计算出这100名青年人的性别对其志愿的影响是tau-y=0.224。相对之下,可见青年人的志愿受性别的影响大于受教育水平的影响。可见相关系数值在相互比较时,更显出其意义。第六节 定序变项与定距变项:相关比率例4-11 下表是研究20名学生的家庭收入(分高、低两级)对其英文成绩(0-100分)的影响。由表中资料,计算得:可见以家庭收入预测或估计学生的英文成绩,只能消减2%的误差。相对之下,家庭收入较高的学生的平均语文成绩(75.8分)只是略高于家庭收入较低者(72.4分)。 另外,(见第八章第三节),本例中第三篇 统计推论:单变项与双变项第五章 抽样与统计推论第六章 参数值的估计第七章 假设检定:均值与百分率第八章 假设的检定:两个变项之相关第七章 假设检定:均值与百分率假设检定的若干基本知识:一、研究假设与虚无假设 假设检定的基本原则是直接检定,因而间接地检定 ,目的时排除抽样误差的可能性。二、否定域与显著度 所谓否定域(简写CR),就是抽样分布内一端或两端的小区域,如果样本的统计值在此区域范围内,则否定虚无假设。 显著度(简写P),表示否定域在整个抽样分布中所占的比例,也即表示样本的统计值落在否定域内的机会。 在进行研究时,通常是先决定显著度的大小,在算出样本的统计值后,才看此统计值是否属于显著度所代表的否定域的范围内。显著度愈小,便愈难否定虚无假设(),也即愈难证明研究假设()是对的。三、一端与二端检定 如果否定域只在一端(右端,或左端),称为一端检定;如果否定域在两端的位置,称为二端检定。四、甲种误差与乙种误差 甲种误差:否定,但实际上是对的错误可能性。这个可能性即所选定的显著度。 乙种误差:不否定,但实际上是不对的错误可能性。两种误差成反比。五、检定力:参数与非参数检定力=1-乙种误差之机会参数检定法的特点,是要求总体具备某些条件。(如Z检定,t检定,F检定)非参数检定法(也称分布自由检定法),其特点是不要求总体数值具备特殊的条件。第二节 单均值与均值差异一、单均值Z检定法和t检定法属于参数检定法,要求:定距变项;随机抽样;总体呈正态分布。1、Z检定法(大样本)例7-1 调查某地区农民的政治水平,所用的测量方法是询问100个政治性的问题,答对每题得1分,否则为0分。研究假设是:全区农民的平均分(M)不等于60。虚无假设是:全区农民的平均分是等于60分。即: 用随机方法从全区工人(总体)中抽取120名工人(即n=120)来研究,发现样本均值=57,标准差S=18.5。由于是一个随机样本,且n100,符合Z检定法的要求,故可用之来检定虚无假设。检定前,我们要求显著度p0.05,而且由于研究假设不能定出方向,故要作二端检定。有附录三可查得否定域是,即Z+1.96和Z-1.96。把样本的数值代入前述的Z检定的公式中,得出:此检定值不在否定域的范围内,所以不能否定虚无假设()。其意义是说,若以0.05为显著度,我们不能接受研究假设(),即不能说全部农民的政治水平平均分数是不等于60的。倘若将上例中的研究假设()改为:M60,由于定出方向,就可用一端检定法,且应用左端。从附录三可查得p0.05的一端(左)检定所要求的否定域是Z-1.65。在样本中算出检定值是Z=-1.78,应在否定域范围内,因此可以否定,即接受。再者,如果将显著度提高为p0.01,并仍用左端检定。否定域是Z-2.33,样本统计值的检定值(Z=-1.78)便不能否定虚无假设。可见,所选定的显著度愈高,愈难否定,也即愈难接受。2、t检定法(小样本)例7-2 调查某校学生的平均数学成绩(M)时,研究假设和虚无假设分别是:从全校抽取一个随机样本,得出如下数值:n=26, =65,S=10。由于是小样本,用t检定法。我们要求p0.05和一端检定,由于t分布的自由度是df=n-1=26-1=25,从附录五可查得否定域是1.708。根据t检定的公式,得到如下结果:这个检定值在否定域内,故此否定,也即证明可能是对的。二、两个均值的差异1、Z检定法(大样本) 2、t检定法 例7-3 调查甲、乙两地的农民家庭请客送礼的平均支出是否有差别,我们的研究假设是两地的户均()不相同,则虚无假设是两地是相同的。即:要求的显著度为p0.05,由于未定方向,因此要用二端检定法。由附录三中可知否定域是。现在,从两地中分别抽取一个随机样本,数值如下:代入Z检定值公式,可得:由于检定值不在否定域范围内,故此不能否定虚无假设,也即表示两地农户的平均支出可能没有分别。例7-4 研究某项戒烟运动对抽烟数的影响,可用随机方法从某地的全部成年男人中抽取两个样本,一个作为实验组(=11),一个作为控制组(=11),然后使前者参加戒烟运动,但后者不参见。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论