




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2021/3/261 第7章 简化变量的分布 简化一个变量的分布 简化两个变量的分布 相关测量 2021/3/262 简化一个变量的分布 o数据的初步整理 o数据的特点 u离散性 u波动性(变异性) u规律性 o数据的分类 u计数数据与测量数据 u离散型数据和连续型数据 u定类、定序、定距和定比数据(略) 2021/3/263 统计表与统计图 o数据的统计分组和分类 o统计表 频数表 百分比表 交互分类表 o统计图 柱形图 圆形图 线形图 散点图 直方图 2021/3/264 基本技术 o1、频数、频数 如,抽取样本学生550人,简化有关他们父亲的职业情况 表2-1 甲校学生的父亲职业 职业f
2、p% 干 部 工 人 农 民 110 152 288 0.200 0.276 0.524 20.0 27.6 52.4 总 数5501.000100.0 2021/3/265 基本技术(续) 表2-2 乙校学生的父亲职业 职业fp% 干 部 工 人 农 民 50 135 295 0.104 0.281 0.615 10.4 28.1 61.5 总 数4801.000100.0 2021/3/266 基本技术(续) o2、比例、比例:将每类的频数(f)除以总数(N) o公式:P=f/N 如,以表2-1和表2-2为例,来自工人家庭的学生与全体 学生的比例分别是: 甲校 P=152/550=0.27
3、6 乙校 P=135/480=0.281 o3、比率、比率:百分比、千分比、万分比 o4、对比值、对比值 o如,以表2-1为例,工人、干部的对比值为152:110 o5、图示法、图示法 2021/3/267 基本技术(续) o定序层次定序层次 o1、累加次数、累加次数 向上累加与向下累加 o2、累加百分率、累加百分率 表2-3甲校学生父亲教育水平 教 育f cfcf % c % c % 一 级685506812.4100.012.4 二 级9048215816.387.628.7 三 级10639226419.371.348.0 四 级19328645735.152.083.1 五 级9393
4、55016.916.9100.0 总 数350100.0 2021/3/268 基本技术 o定距层次 o组限:每组的范围,包括上限和下限 真实下限=标示下限-0.5 真实上限=标示上限+0.5 表2.4的真实组限应分别是:499.5699.5、699.5899.5、899.5 1099.5、1099.51299.5、1299.51499.5、1499.51699.5 o组距:组的真实上限与真实下限之差 o组中点:组的真实上限与真实下限的平均数 o表示:矩形图、曲线图 2021/3/269 基本技术(续) 表2-4 甲校学生的家庭每月总收入 收入(元)f cf cf 15001699405504
5、0 13001499141510181 11001299158369339 9001099136211475 7008996575540 5006991010550 总 数550 2021/3/2610 集中趋势测量法 o众值众值 o所谓众值,就是次数(频数)最多的值,如表2-2中“农民”。 o平均数平均数 o平均数是指总体各单位数值之和除以总体单位数目之商。 x X= n o单值分组单值分组 o xf X= nf 2021/3/2611 单值分组平均值单值分组平均值 上限+下限 o组中值= 2 例 表2-5 某企业100名职工的收入分布 收入(元)职工数(人)组中值xf 1001991015
6、01500 200299102502500 3003994035014000 400499204509000 5005992050011000 合计10038000 2021/3/2612 单值分组平均值(续)单值分组平均值(续) xf 38000 oX= n = 100 =380(元) o组中值为小数时,通常采取四舍五入的办法将化为整数 后计算 2021/3/2613 中位值的计算 o中位值就是在一个序列中的中间之值,即高于此值有50% 的个案,低于此值的也有50%。 n+1 Md位置= 2 o单值分组单值分组 n 2 cf Md=L+ f w o其中:L=中位值组的真实下限; f=中位值组
7、的次数; w=中位值的组距; cf=低于中位值组真实下限累加次数 n=全部个案数目 2021/3/2614 例:中位值的计算 表2-6 各乡育龄妇女节育情况(16-44岁) 节育率(%)f cf 5或以下1616 5153854 15 254094 25 3530124 35 4523147 45 5524171 55 6519190 65或以上22212 总数212 2021/3/2615 例例:中位值的计算(续)中位值的计算(续) o将各组的次数向上累加起来,求出中位值位置: Md=212/2=106 o第106个位置的值应在25%至35%的组内; o因此,L=25.5,f=30,w=35
8、.5- 25.5=10,cf=94,n=212 Md=25.5+(212/2-94)/30 10=29.5 即,212个乡中,有半数的育龄妇女节育率低于29.5%, 也有半数高于29.5%。 2021/3/2616 离散趋势测量法离散趋势测量法 o离散趋势测量法,是要求出一个值来表示个案与个案之间的 差异情况。 o常见的离散量数统计量有全距、离异比率、四分位差、标准 差、离散系数等。 o(1 1)全距全距:最简单的方法,即最大值与最小值之差。差值越 大,离散趋势越大 o(2)离异比率:非众值的次数与全部个案数目的的比率 n-fmo 公式: v= n ( n是全部个案数目,fmo是众值的次数)
9、o以表2-1与表2-2资料为例: 甲校v=(550-288)/550=0.476 乙校v=(480-295)/480=0.385 2021/3/2617 o(3)四分位差四分位差 o计算方法:将个案由低至高排列,然后分为四等分,第一个四 分位置的值(Q1)与第三个四分位置的值(Q3)的差异, 就是四分位差(简写Q) 公式: Q=Q1-Q3 oQ1与Q3的差异愈大,表示有50%的个案的分布愈远离中位 值,因而中位值的代表性就愈小,以之作为估计或预测的标准 所犯的错误就愈大。 公式: Q1位置=(n+1)/4 Q3位置=3(n+1)/4 2021/3/2618 o(4)标准差标准差 o其定义是其定
10、义是:一组数据对其平均数的偏差平方的算术平均数的 平方根。它是用得最鑫也是最重要的离散量统计量。 o例1:某校三个系各选5名同学参加智力竞赛,成绩如下: 中文系:78 79 80 81 82 X=80 数学系:65 72 80 88 95 X=80 英语系:35 78 89 98 100 X=80 2021/3/2619 o标准差公式标准差公式: S=( xi-X)2/n o将前面三系学生成绩资料代入公式后得: 中文系:S=1.414(分) 数学系:S=10.8(分) 英语系:S=23.8(分) o中文系代表的标准差最小,数学系队表其次,英语系代表 队的最大,表明英语系代表队的成绩离散程度最高
11、。 2021/3/2620 o单值分组的标准差计算公式单值分组的标准差计算公式 S=(xi-X)2f/n oF为xi所对应的频数。由组距分组资料计算标准差时,只 需要计算出各组的组中值,然后按照单值分组资料计算 标准左的公式和方法计算。 2021/3/2621 o(5)离散系数离散系数:标准差与平均数的比值 o公式公式: CV=S/X 100% o例2:一项调查得到下列结果,某市人均月收入为92元,标准 差为17元,人均住房面积7.5平方米,标准差为1.8平方米。 试比较该市人均收入和人均住房情况哪一个差异程度比较 大。 o例3:对广州和武汉两地居民生活质量调查发现,广州居民平 均收入为680
12、元,标准差为120元;武汉居民平均收入为360 元,标准差为80元。问广州居民相互之间在收入的差异程度 与武汉居民相互之间在收入的差异程度上,哪一个更大些? 2021/3/2622 正态分布与标准值 o正态曲线 1 F(x)=2 e (x-x)2/2s2 o其中,x=变量的数值 f(x)=该变量值的次数 s=标准差 =3.1416 e=2.7183 x=均值 2021/3/2623 o正态分布具有单峰和对称的特质,因此众值、中位值和 均值是相同的 o正态分布的另一项特质是,x值与均值(x)的差异愈大, 其次数会愈少,但不会等于零。也就是说曲线两端逐渐 减降,但不会接触底线。 o标准值标准值:
13、o如果正态分布以标准差(s)为单位,则每个变量值就变 为: Z=(x-x)/s z即为标准值,表示:每个x值在标准正 态分布上的数值。 2021/3/2624 o标准值的意义标准值的意义:在正态曲线下各部分面积所占的比例 o标准正态分布的均值是0,标准差是1 o正态曲线面积表:表内的相应数值就是所占面积的 比例,也就是该范围内的个案数目所占的比例。 o标准值是绝对值,只要数值相同,则无论是正值或负值,所 表示的面积大小都相同 o标准值是正数时,所表示的面积是在均值右边;标准值为 负数,则在左边 2021/3/2625 o思考:大于某个标准值的面积有多少?也就是 大于某个标准值的个案占多少比例?
14、 2021/3/2626 简化两个变量的分布 o统计相关的性质 o相关相关:是指一个变量的值与另一个变量的值有连带性。 o相关的数学符号相关的数学符号:多数统计法以0代表无相关,以1代表全 相关,介于0与1间的数值如果越大,就表示相关的程度越 强 o相关方向相关方向:正相关和负相关。正相关是指一个变量的值 增加,另一变量的值也增加;负相关是指一个变量的值增 加时,另一变量的值却减少 o相关方向的分析只限于定序或定距变量 2021/3/2627 交互分类与百分表 o交互分类:就是同时依据两个变量的值,将所研究的个案 分类。 例:青年人教育水平对其志愿的影响(条件次数表) 缺点:难于比较不同条件下
15、的次数分布,因为作为基数的边缘次数的值各 不相同 志愿教育水平 高中低 快乐家庭5305 理想工作03020 增广见闻505 总 数106030 2021/3/2628 交互分类与百分表 o基数标准化的方法条件百分表:所有基数变成100, 各个条件次数变为百分率 例:青年人教育水平对其志愿的影响(条件百分表) 志愿教育水平 高(%)中(%)低(%) 快乐家庭505016.7 理想工作05066.7 增广见闻50016.7 总 数(10)(60)(30) 2021/3/2629 制作条件百分表的准则 o1、每个表的顶端要有表号和标题(如表3-2表示第三章的 第二个表)。 o2、绘表时所用的线条,
16、要尽可能简洁。舍去不必要的线条可 以节省绘制的功夫,也会令人对表中的数值一目了然。 o3、在表上层的自变项每个值之下的%号,表示下列的数值都 是百分率。如果表内每个数值都附有%符号,就太繁复了。 o4、表下层括弧内的数值,表示在计算百分率时所提供的个案 总数。在研究报告中,如果有条件百分表,便不需要有条件次 数表。 o5、表内百分率数值的小数位要保留多少,视研究需要而定, 但最好是有一致性 o6、根据自变量的方向来计算百分率,是社会科学研究的常规。 2021/3/2630 简化相关与消减误差 o相关测量法:以一个统计值表示变量与变量之间的关系, 这个值通常称为相关系数。 o大多数相关测量法以0
17、表示两个变量间没有关系,以1表 示全相关,因此介于0与1之间的系数值愈大就表示相关 程度愈高。若是定距或定序变量,通常是以“+”符号表 示正相关,以“-”符号负相关。 o相关测量方法的选择:(1)不同测量层次的变量要用不 同的相关测量法;(2)两个变量之间关系是对称的,还 是不对称的;(3)最好选用统计值有意义的相关测量 法统计值具有消减误差比例的意义(称PRE测量法) 2021/3/2631 消减误差比例 o什么是消减误差比例? o有一种社会现象是Y,我们就要预测或理解其变化的情况。 预测或解释时难免会有误差。假设另一种现象X是与Y 有关系的,如果我们根据X值来预测Y的值,理应可以减少 若干
18、误差。而且,X与Y的关系愈强,所能减少的预测误差 就会愈多。换言之,所消减的误差有多少,可以反映X与Y 的相关强弱程度。 2021/3/2632 o现假设不知道X值,我们在预测Y值时所产生的全部误差 是E1(图3-1)。如果知道X的值,我们可以根据X的每 个值来预测Y值:假设误差的总数是E2(图3-2),则以 X值来预测Y值时所减少的误差就是:E1-E2(图3-2重叠 阴影部分)。这个数值与原来的全部误差(E1)相关比, 就是消减误差比例。 o公式: E1-E2 oPRE= E1 PRE的数值越大,就表示以X值预测Y值时能够减少的误 差所占的比例越大,也就说,X与Y的关系越强。 2021/3/
19、2633 oY Y X 图3-1 图3-2 E1 E2 2021/3/2634 相关测量 o两个定类变量 o两个定序变量 o两个定距变量 o定类与定距、定序变量 2021/3/2635 两个定类变量:Lambda,tau-y oLambda相关测量法:以众值作为预测的准则 o对称形式: mx+ my-(Mx+My) = 2n-(Mx+My) o不对称形式 my-My y= n-My My=Y变量的众值次数; M x=X变量的众值次数; my=X变量的每个值(类别)之下Y变量的众值次数; mx=Y变量的每个值(类别)之下X变量的众值次数; n=全部个案数目 2021/3/2636 o例1:要研究
20、100名青年人的最大志愿是否男女有别,获得表4-1的 次数资料。假定性别(X)是自变量,志愿(Y)是依变量,两个都 是定类变量,故要用y来简化相关情况 表4-1 100名青年人的性别与志愿 志愿性别 男女总数 快乐家庭103040 理想工作401050 增广见闻10010 总数6040100 2021/3/2637 My =50, my= 40+30=70,代入公式得: my-My 70-50 y= n-My = 100-50 =0.40 例2:青年人的志愿与他们的知心朋友的志愿是否相关,表 4-2是得到的次数资料。由于青年人的志愿(Y)与知 心朋友的志愿(X)可能相互影响,难于区分何者是自变
21、 量或依变量,应用Lambda相关测量法的对称形式。 2021/3/2638 表4-2 青年人与知心朋友的志愿 o根据系数公式和表中资料,可知My=50,Mx=54,my=28+41+7=76, mx=28+41+4=73,n=100,所以: =73+76-(54+50) / 2100-(54+50)=0.47 志愿知心朋友志愿 快乐家庭理想工作增广见闻总数 快乐家庭289340 理想工作241750 增广见闻24410 总数325414100 2021/3/2639 o练习与思考:职业背景对工作价值观是否有影响呢? 表4-3职业背景与工作价值观 价值 取向 职业 制造业服务业总数 物质报酬1
22、0545150 人情关系402565 总数14570215 2021/3/2640 o由于表中的众值都出现在同一行(即第一行 中),Lambda相关测量法的敏感性有问题。 my-My (105+45)-150 y= n-My = 215-150 =0 因此,在一些社会科学研究中会用另一种相关测量法,就是 古德曼和古鲁斯卡的tau-y系数。 2021/3/2641 tau-y相关测量法 oTau-y系数是属于不对称相关测量法,要求两个定类变量中 有一个自变量,另一个是依变量。其系数值介于0与1之间,具 有消减误差比例的意义。 o计算的步骤是,首先求出E1(不知X而预测Y时的全部误差) 和E2(知
23、道X预测Y时所犯的错误),然后计算消减误差的比 例。 (n-Fy)Fy (Fx-f)f E1-E2 oE1= n E2= Fx tau-y= E1 o其中,n=全部个案数目; f=某条件次数; Fy=Y变量的某个边缘次数; Fx=X变量的某个边缘次数 2021/3/2642 o以表4-1为例,全部个案数目(n)是100,性别是自变量 (X)边缘次数(Fx)分别是60和40;志愿是依变量,边缘 次数(Fy)分别是40、50和10,表内有6个条件次数,每 者都代表同属于某项Y值与某项X值的个案数目(f);将 这些数值代入tau-y公式,结果如下: E1=10(100-40)+50(100-50)+
24、10(100-10) / 100=58 E2=10(60-10)+40(60-40)+10(60-10) / 60 +30(40-30)+10(40-10)+0(40-0) / 40 =45 tau-y= (58-45)/58=0.224 2021/3/2643 o上述计算数值表明:(1)性别与志愿的相关程度为 0.224;(2)以性别来预测或估计志愿的话,能够消减 22.4%的误差。 o从上面公式可见,tau-y的预测准则包括全部边缘次数和 条件次数。 oTau-y测量法是考虑全部的次数,故其敏感高高于 Lambada测量法。 o如果是不对称关系,最好选用tau-y来简化两个变量的相 关情况
25、。 2021/3/2644 两个定序变量:Gamma,dy oGamma系数适用于分析对称的关系,dy适用于分析不 对称关系,两者的取值均在-1至+1之间;它们既表示相 关的程度,也表示相关的方向,且都有消减误差比例的意 义。 oGamma系数计算公式:对称相关测量法 Ns-Nd G= Ns+Nd o其中,Ns是同序对总数,Nd是异序对总数; o如果某对个案在两个变项上的相对等级是相同的,则称 为同序对,若不相同则称为异序对。 2021/3/2645 o例: 表4-4 四名学生的成绩等级 o四名学生有6对个案,A与C、B与C是同序对,因为A的数学、英语 成绩等级均低于C,B也是如此;A与B是异
26、序对,因为A的数学成绩 等级低于B,但其英语成绩高于B,同理A与D、B与D、C与D是异 序对。故表4-4中有2个同序对,4个异序对。 学生等级 数学英语 A42 B33 C21 D14 2021/3/2646 oGamma系数与dy系数根据Ns、Nd两数值来计算两个 定序变量的相关程度和相关方向。 o如Ns与Nd的相差越大,就表示两个变量的相关越强;如果 Ns大于Nd表示两变量成正比,反之,成反比。 o依表4-4数据,计算G系数 G=(2-4)/(2+4)=-0.33 o该统计值表示四名学生的数学等级与英语等级成反比, 相关程度是0.33 2021/3/2647 o萨默斯dy相关测量法:不对称
27、相关测量法 ody系数公式: Ns-Nd dy= Ns+Nd+Ty o其中,Ns=同序对总数,Nd=异序对总数,Ty=在因变量上 同分的对数 2021/3/2648 o例:表4-5 五个工厂的工人积极性与产量 工厂积极性等级产量等级 A55 B33 C41 D1.53 E1.53 2021/3/2649 oNs=4,Nd=3,Ty=2 ody=(4-3)/(4+3+2)=+0.11 o表明工人积极性与产量呈正相关,用工人积极性的高低 来预测或估计工厂产量的高代,可以消减11%的误差。 2021/3/2650 两个定距变量:简单线性回归与积矩相关 o简单线性回归:根据一个直线方程式,以一个自变量
28、(X) 的数值来预测一个因变量(Y)的数值。 o公式: Y=bX+a Y=bX+a 2021/3/2651 o例: 表 4-6 9名女青年的上学年期与家务劳动 妇女教育年限(X) 劳动小时(Y)XYX2Y2 A2510425 B248416 C3412916 D33999 E414161 F414161 G400160 H600360 I800640 总数36184717468 2021/3/2652 斜率与截距的计算 o斜率: (X-X)(Y-Y) n(XY)- XY b= (X-X)2 = n(X2)- (X)2 ob值表示回归系数,即自变量对依变量的影响大小和方向。 o截距: Y b(X) a= Y bX = n 2021/3/2653 o从表4-6可知, X=36, Y=18, XY=47,X2=174,Y2=68,n=9 9(47)-(36)(18) o b= 9(174)-(36)2 =-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 船舶建造材料创新考核试卷
- 石油产品营销渠道整合优化考核试卷
- 玉石加工过程中的能耗与减排考核试卷
- 纺织原料企业动态考核试卷
- 营养补充剂批发商的绿色营销策略实施考核试卷
- 航天器空间飞行器对接机构考核试卷
- 起重机制造材料性能优化与选材指导考核试卷
- 森林火灾扑救安全防护知识考核试卷
- 淘宝店铺直播平台内容运营合作协议
- 股权激励行权协议(含税务筹划、分红及股权激励期限延长)
- 2025年4月自考00242民法学试题及答案含评分标准
- 2025年氢化丁晴橡胶发展现状及市场前景趋势分析
- 2024译林版七年级英语下册期中复习:Unit1-Unit4词组讲义
- 护士助教面试题及答案
- 《分布式存储技术》课件
- 智能化施工流程改进技术措施
- 食品安全管理制度12项餐饮类
- talentq逻辑测试题及答案
- 员工职业道德与法律意识培训
- 基于S7-200 PLC及MCGS组态的苹果分拣机系统控制设计
- 顶名注册公司协议书
评论
0/150
提交评论