心理统计学.docx_第1页
心理统计学.docx_第2页
心理统计学.docx_第3页
心理统计学.docx_第4页
心理统计学.docx_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程内容一、绪论 二、数据的搜集、整理与显示 三、数据分布特征的度量(测度) 集中趋势的度量 离中趋势(离散程度)的度量 偏态与峰度的度量 四、相关分析 五、概率与概率分布 六、抽样与总体参数的估计 七、假设检验 八、方差分析 九、列联分析 十、回归分析 十一、非参数检验方法 一、绪 论1.1 统计与统计学含义 1.2 统计学分类 1.3 统计学与其他学科的关系 1.4 统计学的产生与发展 1.5 几个基本概念1.1 统计与统计学含义统计: 已被赋予多种含义,不同场合有不同的含义 (1)统计工作:统计数据的搜集活动; (2)统计数据:统计活动的结果; (3)统计学:分析统计数据的方法和技术 统计学: 是一门搜集、整理和分析统计数据的方法的科学,目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。 统计数据的搜集 是取得统计数据的过程,是进行统计推断的基础。如何取得准确、可靠的统计数据是统计学研究的内容之一。 统计数据的整理 是对统计数据的加工处理过程,目的是使统计数据系统化、条理化,符合统计分析的需要。它是数据搜集与数据分析之间的一个必要环节。 统计数据的分析 是统计学的核心内容,是通过统计描述和统计推断的方法探索数据内在规律的过程。 Statistics: 以单数名词出现时表示“统计学”; 以复数名词出现时表示“统计数据”或“统计资料”。 单个数据没有多大意义,但通过多次观察或实验得到大量的统计数据,利用统计方法可以探索出其内在数量规律性。 例如: 新生婴儿的性别比例统计规律是: 男:女=107:100 掷硬币试验中正反面比例的统计规律是: 正面:反面=1:1 1.2 统计学的分类 根据统计方法的构成分为: 描述统计学 推断统计学 根据统计方法的研究与应用分为: 理论统计学 应用统计学描述统计学 描述统计学主要研究如何整理科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。具体内容包括:数据如何分组、如何使用各种统计表和统计图的方法去描述一组数据的分组及分布情况,如何通过一组数据计算一些特征数,简缩数据,进一步显示与描述一组数据的全貌。 表示数据集中情况的特征有:算术平均数、中数、众数、几何平均数、调和平均数等; 表示数据分散情况的特征有:平均差、标准差、变异系数、标准分数等 表示事物两种以上性质之间关系情况有:相关系数 表示数据分布是否对称、偏斜的程度及扁平程度的特征有:偏度与峰度。 推断统计学 推断统计学是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表达的推断。具体说,如何从局部的数据估计全局的情况;如何对假设进行检验与估计;如何对影响事物变化的因素进行分析;如何对两种事物或多种事物之间的差异进行比较等。涉及到的统计方法有: (1)记数资料假设检验方法。包括:百分位检验方法、卡方检验等; (2)假设检验的各种方法。包括:大样本的检验方法(u检验法),小样本的检验方法(t 检验法),方差分析,回归分析方法等; (3)总体特征值(总体参数)的估计方法; (4)各种非参数的统计方法。理论统计学: 指统计学的数学原理。它主要研究统计学的一般理论和统计方法的数学理论。它是统计学的理论基础。 应用统计学: 研究如何应用统计方法去解决实际问题。 统计学是分析数据的科学,在自然科学及社会科学研究领域,都需要通过数据分析解决实际问题,统计学的应用几乎扩展到了所有的科学研究领域。如:生物统计学、医疗卫生统计学、农业统计学、工业统计学、经济管理统计学、社会统计学、人口统计学、教育与心理统计学等。1.3 统计学与其他学科的关系1.3.1 统计学与数学的关系 1.3.2 统计学与其他学科的关系1.3.1 统计学与数学的关系统计学与数学有密切联系,又有本质的区别: 现代统计学应用到许多数学知识,似乎是数学的一个分支,实际上,数学只是为统计理论和统计方法的发展提供了数学基础,而统计学的重要特征上研究数据。二者都不能独立地直接研究和探索客观现象的规律,而是给各个学科提供一种研究和探索客观规律的数量方法。 区别:(1)数学研究的是抽象的数量规律,而统计学是研究具体的、实际现象的数量规律;数学研究的是没有量纲或单位的抽象的数,而统计学研究的是有具体实物或计量单位的数据。(2)二者使用的逻辑方法不同。数学是纯粹的演绎,而统计学是演绎与归纳相结合。1.3.2 统计学与其他学科的关系 统计方法可以帮助其他学科探索学科内在的数量规律性,而对这种数量规律性的解释并进而研究各学科内在的规律,只能由各学科的研究来完成。统计方法仅仅是一种有用的定量分析的工具,它不是万能的,不能解决我们想要解决的所有问题。1.4 统计学的产生和发展 统计学从17世纪中叶,至今有300多年的历史。是沿两条主线展开的。 一、政治算术-社会经济统计 产生于17世纪中叶的英国,主要代表人物是威廉配第(William Patty,1623-1687年)和约瀚格郎特(John Graunt,1620-1674年)。他们通过大量观察的方法,研究并发现了一系列人口统计规律,如男婴出生多于女婴,基本是14:13; 男性的死亡率高于女性; 新生儿在大城市的死亡率较高;一般疾病和事故的死亡率较稳定,而传染病的死亡率波动较大等等。 19世纪以后出现了保险统计、卫生统计、农业统计、工商统计、物价指数计算方法。此后,人口调查、社会调查、道德统计等也逐步发展起来。 政治算术学派为后来的社会经济统计的发展奠定了基础。 二、概率论-数理统计 产生于16世纪中叶,代表人物有意大利数学家卡达罗(Kirolamo Cardano),法国数学家帕斯卡尔(Blaise Pascal)、费马特(Pierre de Fermat)和拉普拉斯(Pierre Simon Laplace),瑞士数学家J贝努里(Jakob Bernoulli)和比利时统计学家凯特勒(Adolphe Quetelet)。 概率论在初期基本上是独立发展的,它与统计学(政治算术)没有太多的联系。到19世纪,用概率论研究社会经济现象的人日益增多。从9世纪中叶到20世纪中叶,概率论的进一步发展为数理统计学的形成和发展奠定了基础。20世纪50年代以后,统计理论、方法和应用进入全面发展的阶段。统计学由于受计算机、信息论等现代科学技术的影响,新的领域层出不穷。如多元统计分析、现代时间序列分析、贝叶斯统计、非参数统计、线性统计模型等。 4、统计量与参数统计量(Statistic):是样本的函数,只跟样本有关,与总体参数无关。如样本平均数(X)、样本标准差(S)、样本相关系数(r)、回归系数(b)等。可以用统计量对总体参数进行估计或进行假设检验。 参数(Parameter):总体参数,指描述一个总体情况的一些统计指标。如总体平均值或期望值,用符号m表示;反映总体分散情况的指标如标准差,用s表示;反映某事物两特性总体之间关系的统计指标为相关系数,用r表示;表示两特性之间数量关系的统计指标是回归系数,用b表示。1.5 几个基本概念一、随机变量 随机现象:在相同条件下进行的实验或观察,其可能结果不止一个,事先无法确定,这类现象称为随机现象。 随机变量:随机现象的各种结果总是可以用一定的数量来表现,而且表现为实验结果数值的不确定性,因而称为变量。这种变量受随机因素的影响,呈随机变化,具有偶然的一面,但也具有规律性的一面。通过大量的实验或观察,这种规律性可以揭示出来。把这种具有变化规律的变量称为随机变量。 二、总体、样本、个体 总体(Population):指具有某种特征的一类事物的全体,又称母体。 个体(Element):构成总体的每个基本单元。 样本(Sample):从总体中抽取的一部分个体,即总体的一个子集。三、次数、比例、百分比、比率n 次数(Frequency):也叫频数,落在各类别中的数据个数。 n 比例(Proportion):一个总体中各个部分的数量占总体数量的比重。Ni / N 百分比(Percentage):比例乘以100就是百分比或百分数。 比率(Ratio):各不同类别的数量的比值。n 第二章、数据的搜集、整理与显示n 2.1 数据的计量与类型n 2.1.1 数据的计量尺度 n (1)定类尺度(Nominal Scale) n (2)定序尺度(Ordinal Scale) n (3)定距尺度(Interval Scale) n (4)定比尺度(Ratio Scale)n 定类尺度n 也叫类别尺度或列名尺度。只能按照事物的某种属性对其进行平行的分类或分组。是最粗略,计量层次最低的计量尺度。如性别(男、女)、学历、企业性质、职业、地区等。 由于定类尺度只能区分事物是同类或不同类,因此它具有“和”的数学特性。 通常计算每一类别中各元素或个体出现的“频数或频率”来进行分析。n 定序尺度n 也叫顺序尺度,是对事物之间等级差别或顺序差别的一种测度。它不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。 如考试成绩:优、良、中、及格、不及格。 n 教育水平:小学及以下、初中、高中、 n 大学及以上。 n 该尺度具有“和”、“和”的数学特性,但不能进行加、减、乘、除运算。n 定距尺度n 也叫等距尺度或间隔尺度,不仅能将事物分为不同类型并进行排序,而且还可以准确地指出类别之间的差距是多少,表现为数值。如考试成绩百分制;温度等。 n 定距尺度具有定类尺度和定序尺度的数学特性外,其结果还可以进行“加、减”运算。n 定比尺度n 也叫比率尺度,表现为数值,它具有上述三种尺度的全部特性外,还可以计算两个测度值之间的比值。有一个绝对“零点”。如长度米、重量千克、收入元等。 n 定距尺度中没有绝对“零点”。“0”表示一个数值,即“0”水平,而不表示“没有”或“不存在”。如“0”度表示一种温度水平,并不是没有温度。 n 定比尺度中“0”表示“没有”或“不存在”。 n 定距尺度只能进行加、减运算,而定比尺度可进2.1.2 数据的类型与分析方法 统计数据是采用某种计量尺度对事物进行计量的结果。采用不同的计量尺度会得到不同类型的统计数据。不同类型的数据定类数据:表现为类别,但不区分顺序,由定类尺度计量形成; 定序数据:表现为类别,但有顺序,由定类尺度计量形成; 定距数据:表现为数值,可进行加、减,由定距尺度计量形成; 定比数据:表现为数值,可进行加、减、乘、除,对应于定比尺度; 定性数据(Qulitative Data):定类数据、定序数据 定量数据(Quantitative Data):定距数据、定比数据不同类型的数据采用不同的统计方法 定类数据:计算各组的频数、频率,众数、异 众比率、列联分析、c2检验等。 定序数据:中数(中位数)、四分位差、等级 相关系数、非参数分析。 定距数据、定比数据:计算各种统计量、参数 估计、检验。 适用于低层次测量数据的统计方法,也适用于较高层次的测量数据。变量(Variable):说明事物某种特征的 概念,它的具体表现为变量值 定类变量(Nominal Variable):由定类数 据记录, 如性别(男、女); 定序变量(Ordinal Variable):由定序数据 记录,如产品等级(一、二、三级); 数值变量(Numerical Variable):由数量 数据记录,如年龄、时间、产量等2.2 统计数据的来源1、直接来源 (1)调查 普查: 为某一特定的目的组织的一次性全面调查。如人口普查、工业普查等; 特点是:涉及面广,但需要耗费大量的人力、物力、财力,时间较长;准确、规范化程度高。 抽样调查: 从调查对象的总体中随机抽取一部分单位作为样本进行调查,由样本的调查结果来推断总体数量特征的一种非全面调查。 特点是:经济、时效性强、适应面广、准确性较高。 调查方法有:访问调查、邮寄调查、电话调查、电脑辅助调查、座谈会、个别深度访问等。(2)观察与实验 观察法: 调查人员边观察边记录以搜集信息的方法; 试验法: 在所设定的特殊实验场所、特殊状态下,对调查对象进行实验以取得所需资料的一种调查方法。 室内实验法:如广告效果测试、广告认知; 室外市场实验法:如消费者需求调查。 2、间接来源(二手数据) 不是自己亲自调查的,是别人的数据、公开出版或报道的数据,如:统计年鉴;报刊、杂志、图书、广播、电视传媒中的各种数据资料。2.3 统计数据的整理与显示通过各种渠道搜集到统计数据之后,首先应对其进行加工整理,使之系统化、条理化,以符合分析的需要。整理可以大大简化数据,更容易理解和分析。 数据整理: 数据的预处理 数据的审核与筛选-检查每个样本点是否完整、准确;将不符合要求的数据删除,符合条件的选出来。 数据的排序-便于发现数据特征或趋势,也有助于检查错误 分类或分组 汇总2.3.1品质数据的整理与显示频数分布:把各个类别及其相应的频数全部列出来就是频数分布或次数分布(Frequency distribution)条形图(Bar chart) 用宽度相同的条形的高度或长短来表示数据变动的图形。圆形图(Pie chart):也叫饼图 用圆形及圆内扇形面积来表示数值的大小。主要用于表示总体中各组成部分所占的比例。2、定序数据的整理与显示 定类数据的整理和显示的内容都适用于定序数据。除此之外定序数据还可以计算累积频数和累积频率,图形显示用到累积频数分布图和环形图。 (1)累积频数(Cumulative frequencies): 将各类别的频数逐级累加起来。有两种方法: 向上累积:从类别顺序开始一方向最后一方累加频数; 向下累积:从类别顺序最后一方向开始一方累加频数 (2)累积频率或百分比(Cumulative percentages)例2.2 在一项有关住房问题的研究中,研究人员在甲、乙两个城市各抽样调查300户家庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”(1)非常不满意; (2)不满意; (3)一般;(4)满意;(5)非常满意。2.3.2 数值型数据的整理与显示一、数据的分组 数值型数据包括定距数据和定比数据,在整理时通常要进行分组。然后再计算出各组中出现的次数或频数。分组方法有单变量值分组和组距分组。 1、单变量值分组 把每一个变量值作为一组,它只适合于离散变量且变量值较少的情况。2、组距分组 在连续变量或变量值较多的情况下,可采用组距分组。它将全部变量值依次分为若干个区间,并将这个区间的变量值作为一组。 下限(Low limit):一个组的最小值 上限(Upper limit):一个组的最大值组距分组的步骤: 第一步:确定组数 组数过多过少都不合适。太少,数据分布过于集中;太多,数据分布过于分散。都不利于观察数据的分布情况。在实际应用中可按Strurges提出的经验公式来确定k, k=1+lgn/lg2, n为数据个数。 如:n=50 , k=1+lg50/lg2=7 第二步:确定组距 组距是一个组的上限与下限之差。 组距=(最大值-最小值)/组数 上例中,组距=(139-107)/7=4.6,为便于计算组距取5。 第三步:根据分组整理成频数分布表数值型数据的图示 (一)分组数据:直方图和折线图 直方图(Histogram): 用矩形的宽度和高度来表示频数分布的图形。 直方图与条形图的区别: 条形图的长度表示各类别的频数,宽度是固定的;直方图用面积表示各组频数的多少,高度表示每一组的频数或百分比,宽度表示各组的组距,高度和宽度都有意义。直方图通常是连续排列,而条形图是分开排列。 折线图: 频数多边形图(Frequency polygon) 把直方图顶部的中点用直线连接起来,在把原来的直方图抹掉,就是折线图。(2)未分组数据:茎叶图和箱线图茎叶图(Stem-and-leaf display) :可以对未分组的原始数据显示其分布特征。它既能给出数据的分布状况,又能给出每一个原始数值。茎叶图由“茎”和“叶”两部分构成,其图形是由数字组成的。从图中可以看出,分布是否对称,数据是否集中,是否有极端值等等。 箱线图(Boxplot)箱线图是有一组数据的5个特征值绘制而成的,由一个箱子和两条线段组成。5个特征值分别是: 最大值(max) 最小值(min) 中位数(Me) 下四分位(QL) 上四分位(QU)多变量数据: 雷达图(radar chart)频数分布的类型q 正态分布 q 正偏态(右偏)分布 q 负偏态(左偏)分布 q 正J形分布 q 负J形分布 q U形分布 第三章 数据分布特征的度量(测度)3.1 集中趋势的测度 众数(Mode) 中数(Median) 平均数(均值)(Mean) 简单平均数(Simple mean) 加权平均数(Weighted mean) 调和平均数(Harmonic mean) 几何平均数(Geometric mean) 3.1.1 众数 众数是一组数据中出现次数最多的变量值。用Mo表示。主要用于测度定类数据的集中趋势,也适用于定序、定距和定比数据的集中趋势的测度值。 (1)定类、定序数据求众数(2)数值型数据(定距、定比)求众数 当数据未分组时,出现次数最多的变量之值为众数; 当数据经过分组整理后,众数的数值与其相邻的频数分布有一定关系。3.1.2 中位数 一组数据中按从小到大排序后,处于中间位置上的变量值。它将全部数据分成两部分,每个部分各包含50%的数据。 中位数是一个位置代表值,它主要用于测度定序数据的集中趋势。也适用于数值型数据。但不适用于定类数据。 将全部数据排序后,如果项数是奇数,则正中央的那一项即为中位数;如果项数是偶数,则正中央的那两项的平均值即为中位数。 例 3.1 (1)32,42, 46,46,54,Me=46 (2)48,75,80,84,88,90,95,100,Me=(84+88/2=86 分位数 (1)百分位数(Percentile):第m百分位是这样一个值,它使得至少有m%的数据小于或等于这个值,且至少有(100-m)%的数据项大于或等于这个值。 (2)四分位数(Quartile):将数据划分为4部分,每部分各占25%的数据项,这种划分的临界点即为四分位数。有三个四分位数分别为:QL,Me,QU (3) 十分位数(Decile):将数据划分为10个部分,每部分占十分之一的数据项。其划分的临界点为十分位数。计算第m百分位步骤: 第一步:从小到大排列原始数据; 第二步:计算指数i i=(m/100)n, n为项数,m为所求的百分位的位置。 第三步:若i不是整数,将i向上取整;若i是整数,则第m百分位数是第i项与第(i+1)项数据的平均值。 例3.2 有12个职员薪金的数据,求第85和第50百分位数。 解:(1)将12个数据从小到达排序如下: 2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 (2) i=(p/100)n=(85/100) 12=10.2 (3) 由于i=10.2不是整数, 向上取整,所以第85百分位数对应的是第11项, 其值为2630。 同理,计算第50百分位(中位数)。i=(50/100) 12=6,是整数,第50百分位数是第6项和第7项的平均值,即(2390+2420)/2=2405。百分位数分数和百分等级分数百分位分数:次数分布中对应于某个特定百分点的原始分数。第m个百分点就是这样一个点,次数分布中有m%的数据小于等于这个数,有(100m)%的数据大于等于这个数。记为Pm 百分等级分数:次数分布中低于某个原始分数的次数百分比,用PR表示。百分位分数是先确定某个百分点m,然后去求相应的百分位分数Pm 。而求百分等级分数正好相反,事先知道次数分布中的一个原始分数,再求该分数在分布中所处的相对位置。3.1.3 均值均值(Mean)也称算术平均数(Arithmetic mean),是全部数据的算术平均.主要适用于定距数据和定比数据,但不适用于定类、定序数据。 1、简单平均(Simple mean):未分组的原始数据 设一组数据为X1,X2,,XN 算术平均值的优点: 反应灵敏; 确定严密; 简明易解; 计算简单; 符合代数方法进一步演算; 较少受抽样变动的影响; 算术平均数的缺点: 易受极端值的影响; 若出现模糊不清的数据是,无法计算算术平均数; 适用算术平均数的条件要求: 数据必须是同质的,即同一种测量工具所测量的某一特质; 数据取值必须明确; 数据离散不能太大。 2、加权均值(Weighted mean):用于组距分组数据 设原始数据被分成K组,各组的组中值分别为X1,X2,XK,各组变量值出现的频数分别为F1,F2,FK,则均值为:3、调和平均数:定比数据 总量一定时,求平均值。如路程一定,速度不同,求平均速度。4、几何平均数(Geometric mean):定比数据 N个变量值相乘积的N次方根。3.1.4 众数、中数和均值的比较 1、众数、中数和均值的关系如果分布是对称的,则众数、中数、平均值相等如果分布是左偏的,则平均数中数众数如果分布是右偏的,则众数中数平均数2、众数、中数、均值的特点与应用场合 众数是一组数据分布的峰值所对应的随机变量的值,它是一种位置代表值,不受极端值的影响。缺点是不具有唯一性。它主要用于定类数据的集中趋势度量; 中位数是一组数据中间位置上的代表值,特点是不受数据极端值的影响。主要适合于定序数据的集中趋势的测度值; 均值是对于数值型数据计算的,而且利用了全部数据信息,它具有良好的数学性质,应用比较广泛。缺点是易受极端数据的影响,对于偏态分布数据,均值代表性较差。当数据为偏态分布,特别是偏度较大时,应选择众数或中位数等位置代表值。表3.2 数据的类型和所使用的集中趋势测度值3.2 离中趋势(离散程度)的度量 数据离中趋势是表示数据分散程度的一组统计量,反映的是各变量值远离其中心值的程度。表示数据离中趋势的测度只有: 异众比率 四分位差 方差 标准差 极差 平均差 变异系数(离散系数):相对离散程度3.2.1 异众比率(Variation ratio) 异众比率是指非众数组的频数占总频数的比率,作用是衡量众数组对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;反之,异众比率越小,众数的代表性越好。 异众比率主要测度定类数据的离散程度,对其他数据类型也适用。3.2.2 四分位差 四分位差(Quartile deviation)是上四分位数与下四分位数之差的一半,用QD表示,QD=(QU-QL)/2 四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;反之,越分散。四分位差的大小在一定程度上说明了中位数对一组数据的代表程度。 四分位差适用于测度定序数据的离散程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论