版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、实证研究方法与软件Chapter7 数据分析一:单变量分析一、资料简化的基本技术 二、集中趋势测量 三、离散趋势测量四、单变量推论统计1、频数分布2、频率分布3、累计频数和累计百分率4、对比值一、数据简化的基本技术 所谓频数分布(Frequency Distribution),是指一组数据中取不同值的个案的次数分布情况,通常以频数分布表的形式表达。频数分布表的主要作用是简化资料,可以清楚地了解到调查数据所放映出的信息。 1、频数分布(简写f) 2、频率分布(简写%)所谓频率分布(Percentages Distribution),指的就是一组数据中不同取值的频数相对于总数的比率分布情况。频数分
2、布是不同类别在总体中的绝对数量分布,而频率分布则是不同类别在总体中的相对分布(相对比重)。通过频率分布,可以比较同一类别在不同整体中的分布情况的异同。 累计次数(简写成cf),就是把次数向上或向下逐级累加起来,向上的叫向上累计次数(cf),向下的叫向下累计次数(cf)。累计百分率(简写成c%),就是把各级的百分率数值向上或向下逐级累加起来。 适用于定序、定距层次而不适用于定类层次的统计分析方法。 3、累计频数和累计百分率调查对象文化程度分布fcf cf%c% c% 小学及以下初中高中或中专大专大学及以上50752501507560055047522575501253755256008.312.
3、541.72512.510091.779.237.512.58.320.862.587.5100合计6001004、对比值所谓对比值就是两变量值的比值。例如某大学有男生18000人、女生6000人,则该校男生与女生的对比值就是3:1,即每有1名女生就有3名男生。新生人口的性别比通常用对比值表示。如新生婴儿性别比为108,即表示新生男、女婴儿比为108 :100,亦即每出生100名女婴,就有108名男婴出生。比 例:百分率: 千分率: 万分率: 二、 统计数据的表现形式统计表 (一)统计表的构成 按形式: 标题总标题、横栏标题、 纵列标题、 指标数值 按内容: 主词 主栏 宾词 宾栏 按三次产业
4、分国内生产总值(亿元)百分比()第一产业14 45717.7第二产业40 418 49.3第三产业27 03633.0合计81 911100.0例2.9 中国1999年国内生产总值主词宾词横行标题纵行标题总标题(二)统计表的分类按主词是否分组及分组标志的多少: 1、简单表:未经整理分组的统计表 2、分组表:按一个标志分组的统计表 3、复合表:按两个以上标志分组的统计表按三次产业分国内生产总值(亿元)百分比()第一产业14 45717.7第二产业40 418 49.3第三产业27 03633.0合计81 911100.0例2.10 中国1999年国内生产总值 交叉分组列表是一种可以同时概括两个变
5、量的数据的方法。复合表:交叉分组列表表格的左边和上边分别表示:两个变量的分组情况。 居住状态 口味感觉1 长住者 味道好 2 长住者 味道好 3 长住者 味道不好 4 暂住者 味道不好 5 长住者 味道好6 长住者 味道好7 暂住者 味道好8 暂住者 味道不好 9 暂住者 味道不好 10 长住者 味道好 居住状态 口味感觉11 暂住者 味道好12 暂住者 味道好 13 长住者 味道好 14 长住者 味道好 15 长住者 味道不好 16 暂住者 味道不好 17 暂住者 味道好 18 暂住者 味道好 19 长住者 味道不好 20 长住者 味道不好 某饭店顾客满意情况调查(三)统计表的编制规则1、统
6、计表一般左右两端不封闭;2、统计表的标题要力求简明、确切;3、内容简明,不要罗列太多和过于庞杂;4、统计表栏数较多时,须加编号;5、数字填写规则;6、计量单位填写规则;7、应注明注解或资料来源。不同的刻度图形的改善多余的笔墨50年前现在A国B国A国B国惊人的人口增长二、集中趋势测量 所谓集中趋势测量法,就是找出一个典型值或代表值来代表变量的分布,以反映这组数据向这个典型值集结的情况。 当根据这个典型值来估计或预测每个研究对象(即个案)的数值时,所发生的错误的总和是最小的。 1众数(Mode)2中位数(Median) 3均值(Mean)所谓众数(简写成Mo),简单说就是一组数据中出现次数最多的值
7、。 求众数的步骤是这样: 首先将原始数据制成频数分布表; 然后在频数一栏中找出最大的频数; 最后找到最大的频数所对应的标志值,这一标志值就是众数。 1众数(Mode) Mo瓦房店市由组距分组资料求众数的方法:组中值法 首先也通过观察找出最高的频数; 然后根据最高的频数找到它所对应的组; 最后求出该组的组中值即为众数。众数适合于分析定类变量,当然也可以用来分析定序、定距变量的资料。Mo7500or 公式所谓中位数(简写成Md),就是在一个按值的大小顺序排列的序列中位于中央位置的哪个数值。 其意义是:在整个数据中,有一半数据的值在它之上(比它大),另一半数据的值在它之下(比它小)。 2中位数(Me
8、dian) 求算中位数的步骤是:先将各个数值按由小到大的顺序排列起来,然后找出位于中央位置的那个值,即中位数。 某班5名学生的年龄由小到大排列如下:16,17,18,19,20Md位置= (1)根据原始数据求算中位数 某班有6名学生,其年龄由小到大分别是:16,17,18,19,20,21 则Md位置=(6+1)/2=3.5, 即中央位置位于第三学生和第四学生之间, 所以Md=(18+19)/2=18.5。 在一组数据中,可能有许多相同的数值。如果是这种情况,可以先统计出次数分布,然后求出中位数。其步骤也是先求出数据序列的中间位置,然后再找出其所对应的值即中位数。某班有35名学生,其年龄分布在
9、1720岁之间,各年龄的人数如表4-8所示。求该班学生年龄分布的中位数? 某班学生年龄情况的频数分布表年龄人数(f)向上累加次数(cf)向下累加次数(cf)1718192071411372132353528143合计35第一步是先算出中位数所在的中央位置:Md位置=(35+1)/2=18,即第18个数值所在位置。第二步就是列出累加次数,可以从上到下列出向上累加次数(如表中第三列),也可以从下往上列出向下累加次数(如表中第四列)。第三步我们从上往下找(或从下往上找),看所计算出的中间位置最先落入哪个累加次数内,再由此找出相对应的中位数。 具体方法是先列出累加次数,然后按上述方法确定中位数所在的组
10、,最后利用下述公式计算出中位数的值:中位数Md= L为中位数所在组的下限值,N为全部个案数目, 为中位数所在组的频数, 为中位数所在组前一组的累计次数,w为中位数所在组的组距。 (2)用分组资料求算中位数某系有100名学生,调查资料显示各学生的月均生活费在100800元之间,以100元为间距分组统计结果如下表所示: 某系学生月均生活费情况频数分布表月均生活费(元)人数(f)组中值( )向上累加次数(cf)1002002013003014004015005016006017007018005183025107515025035045055065075052353788895100合计100根据上
11、表来求中位数:第一步,列出向上累加次数(表中第四列数值),然后求出中位数的位置: Md位置=(1001)/2=50.5第二步,根据向上累加次数分布,第50.5个数值在第三组即300400的组内。第三步,利用上述公式计算出中位数的值: 中位数= =391(元) 均值即平均数是使用的最多的统计值。定距变量数据可以做加减运算,因此可以将变量的各个数值加起来,所得之和再除以调查对象数目,求得一个平均的数值,这就是平均数(简写成 )。 3均值(Mean)(1)根据原始数据求算平均数。这种情况下求算平均数的公式是:其中x表示各个个案数值之和,n表示全部个案数目。 某班8名学生的年龄分别是:18、19、20
12、、21、20、18、17根据公式他们的平均年龄是: =(18+19+19+20+21+20+18+17)/8=19从这个结果知这8名学生的平均年龄是19岁。平均数表明了资料的集中趋势,有估计或预测作用。例如从8名学生中任意抽取一名学生,应估计其年龄是19岁。从长远来看,用平均数来估计定距变量的资料,可能犯的错误最小。 当一组数据中出现很多相同的数值时,则可以先统计出次数(f)的分布,再求取次数与相对应标志值之间的乘积(fx),然后用各个乘积的总和除以个案总数(即频数之和)得出平均数,其公式是: 可见该班学生的平均年龄是18.3岁。 某班学生年龄情况的频数分布表年龄人数(f)向上累加次数(cf)
13、向下累加次数(cf)1718192071411372132353528143合计35在调查收入、年龄等方面情况时,常常得到组距形式的资料。这种情况下求算平均数的公式是: (2)根据分组资料求出平均数 其中f表示每组的次数, 表示组中值,n表示个案数。某系学生月均生活费情况频数分布表月均生活费(元)人数(f)组中值( )向上累加次数(cf)1002002013003014004015005016006017007018005183025107515025035045055065075052353788895100合计100小结:总的来说,如果对调查资料进行集中趋势测量,一般情况下: 定类变量的测
14、量可以用众数; 定序变量可以用众数,但以中位数较适宜,; 定距变量可以用众数,也可以用中位数,但以平均数最适宜。 三、离散趋势测量 所谓离散趋势测量,就是求出特别的数值来表示一个变量的个案与个案之间的差异情况,反映这一组数据相互之间的离散程度。 这种测量方法,与集中趋势测量法相互补充,从两个不同的侧面描述和揭示一组数据的分布情况,共同反映出资料分布的特征。 集中趋势测量法所求出的是一个最能代表变量数据资料集中情况的值,但其代表性往往取决于个案之间的差异情况,即离散程度。如果个案相互之间的差异很大,那么众数、中位数或平均数的代表性就会大打折扣。 某学校举行智力竞赛,各系选派5名学生参加。结果其中
15、有三个系的成绩分别如下: 社科系:76 78 81 82 83 数学系:62 74 80 86 98 化学系:32 78 91 99 100虽然这三个系参赛队的平均成绩都是80分,但显然这个80分对社科系参赛队选手的成绩的代表性最高,而对化学系参赛队选手的代表性最低。 离散指标1、定类变量:异众比率(V)2、定序变量:四分位差(Q)3、定距变量:全距(极差)标准差(S)(方差 S2)4、离散系数CV1定类变量:异众比率(V) 所谓异众比率(简写成V),就是一组数据中非众数的次数相对于总体全部个案的比例。其计算公式是: N是全部个案数目, 是众数的次数,二者之差(N- )就是非众数的次数。 例:
16、前述大连市公众科学素养调查调查对象居住地中,Mo瓦房店市,其异众比率为:当异众比率越大,众数的代表性也就越小。当异众比率越小,则众数的代表性就越大。2定序变量:四分位差(Q) 所谓四分位差,就是先将一组数据由小到大排列起来,然后将其四等分(即每个等分包含25%的个案),则第一个四分位置的值(Q1)与第三个四分位置的值(Q3)的差异,就是四分位差(简写成Q)。 Q1Q2(Md)Q325252525QQ3-Q1在上图所表示的四个等分中,Q2就是中位数(Md),其两边各有50%的个案。而且在中位数的两旁的Q1和Q3之间,也共有50%(25%+25%)的个案。 四分位差的意义就在于,Q1与Q3的差异越
17、大,即四分位差越大,就表示有50%的个案分布就越远离中位数,因而中位数的代表性就越小,用它来估计或预测所犯的错误就会越大。 求算四分位差时。首先要求出Q1的位置和Q3的位置,公式分别是: 然后计算出在这两个位置上的值的差异,结果即四分位差。 例: 某甲班11名学生年龄如下:17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、22岁, 求其四分位差。第一步:求出Q1、Q3的位置 第二步:找到数值数列中Q1、Q3所对应的数值Q118 Q321 第三步:计算出四分位差Q=Q3-Q1=21-18=33定距变量:标准差(S)(方差 S2)对于定距变量,测量离散程度最简单的方法
18、是计算全距(又叫极差),即一组数据中最大值与最小值之差。 社科系:83-76=7(分) 数学系:98-62=36(分) 化学系:100-32=68(分)由于全距只考虑两个极端的数值,而没有考虑到其它数值,因此代表性不高。 所谓标准差(简写成S),就是先将一组数据中各数据(x)与其平均数( )之差的平方和除以全部个案数目(N),再取其平方根。其计算公式为:公式中,x与 的差就表示以平均数为代表值时会引起的偏差或错误。 如果公式不开方,即方差S2,含义相同。标准差的意义就在于,如果其值越大,即各个数值与平均数的差的总和越大,就表明变量数值的离散程度越大,而平均数的代表性就越低;相反,标准差的值越小
19、,就表明变量数值的离散程度越小,而平均数的代表性也就越高。 (1)根据原始数据求算标准差:直接运用公式对于有频数分布的资料,求算其标准差的公式稍有不同: 其中f是x所对应的频数。 某班学生年龄情况的频数分布表年龄人数(f)向上累加次数(cf)向下累加次数(cf)1718192071411372132353528143合计35(2)根据组距分组资料求算标准差这种情况下求算标准差的公式如下: 其中 是每一组的组中值,f是该组的次数。某系学生月均生活费情况频数分布表月均生活费(元)人数(f)组中值( )向上累加次数(cf)100200201300301400401500501600601700701
20、8005183025107515025035045055065075052353788895100合计1004、离散系数CV离散系数也称为变差系数,是一种相对的离散量数。它使我们能够对同一总体中两种不同的离散量数进行比较,或者对两个不同总体中的同一离散量数进行比较。定义(计算):标准差与平均数的比值,用百分比表示。例:一项调查结果,某市人均月收入为920元,标准差为170元;人均住房面积为12平方米,标准差为2.5平方米。试比较该市人均月收入和人均住房情况哪一个差异程度比较大。人均月收入的离散系数为:人均住房面积的离散系数为:例:对广州和武汉两地居民生活质量调查发现,广州居民月平均收入为250
21、0元,标准差为450元;武汉居民平均收入为1500元,标准差为350元。试比较,广州市和武汉市居民相互之间收入差异程度哪个更大一些。案例 大学毕业生表现1、问题的提出 振兴大学是一所综合性大学,有三个附属学院,分别是商贸学院、生物学院和医学院。近期该校管理层为了了解社会对本校学生的满意程度,以此促进本校教学改革,进行了一项对本校毕业生的调查。调查者随机抽查了48名毕业生组成样本,要求他们所在的工作单位对其工作表现、专业水平和外语水平三个方面的表现进行评分,评分由0到10,分值越大表明满意程度越高。收集有关样本数据如表3-1和表3-2。续前表学生编号工作表现专业水平外语水平学生编号工作表现专业水
22、平外语水平256663788226784387632777739885287524010752996241107630876429673198443747327454484533979458663496546108635895479873676648857表3-2 分学院评分汇总表 校管理层希望在调查分析报告中阐述以下几个问题:用人单位对该校毕业生哪个方面最为满意?哪个方面最不满意?应在哪些方面做出教学改革?用人单位对该校毕业生哪个方面的满意程度差别最大?什么原因产生的?社会对三个学院的毕业生的满意程度是否一致?能否提出提高社会对该校毕业生的满意程度的建议?2、数据描述和分析 (1)从图一可看
23、出,随机抽取的48名学生是由附属商贸学院、生物学院和医学院毕业生组成,各学院学生毕业生人数分别是17人、17人和14人,分别占样本的35.4%、35.4%和29.2%,可见各学院抽取毕业生人数大致相同,样本具有一定代表性。工 作表 现专 业水 平外 语水 平平均数8.0426.3755.083中位数865众数765标准差1.0311.3621.773方差1.0621.8563.144极差457最小值642最大值1099求和386306244计数484848表3-3 48名毕业生描述统计表(2)从表3-3可以看出:用人单位对振兴大学毕业生的工作表现评估分最高,而外语水平评估分最低。两者的平均评估
24、分相差2.96分,由此可见用人单位最满意该校毕业生的工作表现,最不满意毕业生的外语水平。这反映出毕业生适应能力比较强,也反映出振兴大学在培养学生社会实践能力方面卓有成效。从用人单位对毕业生外语水平评分普遍偏低看,反映出该校的外语教学方面存在严重问题,今后需要在外语方面加大力度进行改革。 用人单位对振兴大学毕业生的外语水平评估分差异最大,样本评估分的标准差为1.77分,毕业生的外语水平评估分最高达9分,最低才2分,相差7分,这说明了振兴大学毕业生外语程度相差悬殊,参差不齐,这可能是该校在招生中忽视对学生外语成绩的考虑所致。工作表现专业水平外 语水 平平均数85.8244.765中位数865众数7
25、66标准差1.1180.9511.602方差1.250.9042.566极差435最小值642最大值1077求和1369981计数171717工 作表 现专 业水 平外语水 平8.1437.2143.85787.548650.9491.3691.5120.9011.8742.286344752109611410154141414工 作表 现专 业水 平外语水 平86.4125.2948757841.0611.4601.6111.1252.1322.596446643108913610990171717商贸学院生物学院医学院表34(3)用人单位对三个学院的毕业生评价是不一致的:工作表现方面:三个
26、学院毕业生在这一方面的表现相差不大,均达到了8分以上,受到用人单位好评。评估分最高的是医学院的毕业生,平均分为8.14分,标准差为0.95分,是三个学院中离散程度最小的,可见该学院毕业生工作表现普遍较好。专业水平方面:用人单位对三个学院毕业生专业方面的评价相差较大。评估分最高的同样是医学院的毕业生,平均分为7.21分,高出样本总平均分0.83分,比生物学院高0.80分,比商贸学院则高出1.39分;商贸学院毕业生的评分最低,平均分仅为5.82分,低于样本平均分0.56分,但该学院评估分标准差为0.95分,是三个学院中最低的,说明该院学生在专业水平上的表现差别不大。外语水平方面:三个学院外语水平都
27、较差,且学生之间差异较大。表现最好的是生物学院的毕业生,平均分也仅为5.29分,该学院毕业生中评估分最高达到了9分,最低是3分,相差6分;而医学院毕业生的评估分最低,平均分仅为3.86分,比样本平均分低1.22分在工作表现及专业水平两个方面,社会对振兴大学的医学院毕业生评估分最高,这说明该学院的工作实践能力较强,专业基础知识扎实,但学生的外语水平最差,反映出该学院在外语教学或招生工作中存在很大的问题,因此,作为校管理层应深入调查,查明原因,尽快对该学院外语教学工作进行改革,或在招生中把好关,择优录取新生,以便提高该学院学生综合素质。其次商贸学院毕业生的专业水平评分最低,说明该学院专业知识的教学
28、工作存在问题,需要尽快更新教材,加强对教师的培训,注重学生经济理论知识的学习和扩大学生的知识面。同时值得注意的是,三个学院的外语水平普遍较低,这一点应当引起校方的足够重视,采取有效措施,改变现状。 综上所述:四、单变量推论统计抽样调查的目的和作用决定了,对样本的统计和描述不是最终目的,而是希望通过样本来了解总体特征和状况。单变量推论统计就是用来解决由样本推论总体的问题,即以样本的统计值来估计总体的参数值。主要两种类型:点值估计和区间估计1、点值估计(point estimation)点值估计,就是以一个适当的样本统计值来代表总体的参数值。例如,大连市首次公众科学素养调查得到样本科学素养水平为2.5,则认为大连市总体公众科学素养水平为2.5。一般说来,样本规模愈大,且抽样方法愈严谨,这种估计方法愈可信。不同的统计值在估计其总体值时所犯的偏差也不同。例如均值和比例的准确程度高于标准差。2、区间估计(interval estimation)区间估计,就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来估计总体的参数值。(“框”住)范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题。一般表述:我们有95的把握认为,全市职工的月均工资收入
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年郑州市中原银行农村普惠金融支付服务点招聘备考题库及1套完整答案详解
- 旅馆治安管理制度
- 2025年兴业银行拉萨分行社会招聘备考题库及答案详解参考
- 2025年为枣庄市检察机关公开招聘聘用制书记员的备考题库及完整答案详解一套
- 黑龙江公安警官职业学院《英语口语》2025 学年第二学期期末试卷
- c语言课程设计纸牌代码
- 2025河南信阳艺术职业学院招才引智招聘专业技术人员32人备考核心题库及答案解析
- c语言课程设计大数阶乘
- 2025湖北武汉人才招聘工作人员-派往武汉商学院工作1人笔试重点题库及答案解析
- 2025年扬州市江都妇幼保健院公开招聘编外合同制专业技术人员备考题库及参考答案详解
- 储备林项目环境影响评估报告
- 2025至2030年中国裂隙灯显微镜行业市场调查研究及未来趋势预测报告
- 2025春季学期国开电大本科《管理英语4》一平台机考真题及答案(第十四套)
- 协会财务支出管理制度
- 第四版(2025)国际压力性损伤溃疡预防和治疗临床指南解读
- 广东省工程勘察设计服务成本取费导则(2024版)
- CNAS GL027-2023 化学分析实验室内部质量控制指南-控制图的应用
- 《汽车文化(第二版)》中职全套教学课件
- 生命伦理学:生命医学科技与伦理 知到智慧树网课答案
- 23秋国家开放大学《汉语基础》期末大作业(课程论文)参考答案
- 关于建立英国常任文官制度的报告
评论
0/150
提交评论