版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、心理统计学总复习要点第一章、第二章基本概念及次数分布表第一节基本概念一、基本概念1.连续变量与离散变量(不连续变量)变量分为连续变量与离散变量(不连续变量)。连续变量则可以在量表上的任何两点加以细分,可以取得无限多个大小不同的数值。不连续变量乂称离散变量或问断变量,则在量表上的任何两点中只能取得有限个数值。是一种只能取特殊值而不能取任何值的变量,它代表一个点,而不是一段距离。2. 总体、样本、个体总体是指具有某一种特征的一类事物的全体,构成总体的每一个基本元素称为个体,在总体中按一定规则抽取的一部分个体,称为总体的一个样本。二、测量水平心理测量的工具一般可以分为四种水平,它们是由测量工具一一量
2、尺的水平决定的,量尺也称为尺度。()量尺(RatioMeasurement)用这样的量尺测量出的数据,可以进行加、减、乘和除运算。这种测量水平的数据特征是有相等单位和绝对零点。用这种量尺测量得到的数据变量为比率(或等比)变量。(二)等距量尺(IntervalMeasurement)只有相等单位.没有绝对零点.这种测量工具称为等距量尺。等距量尺测出的数据可以进行加和减的运算,而不能进行乘和除的运算。但是,等距数据的差值可以进行乘、除运算,因为等距数据的差值有一个绝对零点,两个数值相等,差值即为零。用这种量尺测量得到的数据变量为等距变量。(三)顺序量尺(OrdinalMeasurement)顺序量
3、尺乂叫等级量尺,它的特点是:既无绝对零点,乂无相等单位。用这种量尺对研究对象进行测量,只能给对象排个顺序。顺序量尺的测量结果原则上不能进行加、减、乘、除四则运算。如有必要的话,只能进行不等式运算。用这种量尺测量得到的数据变量为顺序变量。(四)分类量尺(NominalMeasurement)分类测量不包含任何类问数量关系的假定,仅仅是把测量对象分为相同或相异,但在性质上没有哪一类较大,哪一类较小之分。即无大小之分,也无等级之分。分类标准称为分类量尺。用这种量尺得到的数据变量为分类(或名义)变量。三、常见数据的特点1. (一)数据分类与特点计数数据(1) 概念:是指计算个数的数据。(2) 特点:是
4、非连续的离散数据。它的统计方法具有独特性。2. 测量数据测量数据是指借助于一定测量工具或依据一定测量标准所获得的数据。(1) 等比数据:指具有测量的绝对零点,乂有相等单位的测量数据。(2) 等距数据:指没有测量的绝对零点,只有相等单位的测量数据。(3) 等级数据:是指只依据数据的大小、高低、快慢等届性排出顺序的数据。3. 数据特点(1) 随机性教育与心理研究中的数据具有随机性,即在相同的实验条件下,或同一个人对同一个刺激的反应事先无法确定,具有偶然性,而且观测到的数据不止一个,是随机波动的。(2) 离散性教育与心理研究中的每一个数据都是离散的,并不连续。即在相同的实验条件下,或对同一个刺激,不
5、同人的反应是不同的,数据分散。(3) 变异性数据的变异性是指数据的波动有一定的规律,在一定范围内波动。因此波动是可以预测的。四、统计图(一) 条形图(BarCharts)它主要用于表示离散性变量的统计事项。条形图用宽度相同的长条的长短表示各事物问数量的大小与数量之间的差异。(二) 圆形图(PieCharts)乂称作饼图。适用于问断性的数据资料,它以单位圆内各扇形面积所占整个圆形面积的白分比来表示各统计事项在其总体中所占相应比例的一种图示方法。(三) 线形图(Line)线形图是以起伏的折线来表示某种事物的发展变化及演变趋势的统计图。适用于连续性资料。(四) 直方图(Histogram)直方图是表
6、示连续性资料的频数分配,它是以各组上下限上矩形的面积表示频数分配的一种条形图,是统计学中常用而乂有特殊意义的一种统计图。(五) 散点图(Scatter)乂称点图,散点图是用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。散点图适合于描述二元变量的观测数据。第三节次数分布表与次数分布图所谓次数分布,指的是一批数据中各个不同数值所出现的次数情况,或者是指一批数据在量尺上各等距区组内所出现的次数情况。对数据进行分组归类,考察数据在量尺上各等距区组内的次数分布情况,并把这种情况用规范的表格形式加以体现,则为次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。若用图形来表达,
7、那就叫做次数分布图。1. 一、次数分布表次数分布表的编制步骤求全距(Rang(或两极差)全距指在一批数据中最大数与最小数之间的差距,用符号R表示,计算公式为:2. R=Max-Min定组数定组数就是要确定一下把整批数据划分为多少个等距的区组,用符号K表示,它的大小要看数据的多少而定。如果数据来自正态总体,则可利用下述经验公式来确定组数:K=1.87(N一1)2/5上述公式中的N为数据个数。3. 定组距4. 组距用符号i表示,其一般原则是取奇数或5的倍数:i=R/K列出分组区问(组限)组限是每个组的起始点界限。要求是:(1)高区间内包含最大值,最低区间包含最小值。(2)最高组和最低组的下限最好是
8、组距的整倍数。5. 求组中值6. 组中值是各组上下限的中点的数值,其计算公式为组中值=(组实上限十组实下限)/2登记频数设计一个表的格式来记录上述有关结果并对数据进行归类划记。(二)相对次数(频数)和白分次数分布表相对次数就是各组的次数f与总次数N之间的比值,若以Rf表示相对次数,则Rf=f/N相对(频数)分布表包括:组别,组中值,频数。相对次数是一个小数,如果将每个相对次数乘以白分之白,就可以得到相对应的白分次数。相对次数分布表的用途:相对次数分布表主要能反映各组数据的白分比结构。(三)实际累积次数分布表(Cumulative)累计次数分布表分为实际累积次数分布表和相对累积次数分布表。实际累
9、积次数分布表乂分为上限以下实际累积次数分布表和下限以上实际累积次数分布表。(1)上限以下实际累积次数分布表从简单次数分布表的第一组逐项向上累加,得出每一组的累加值,一直加到最高一组,就构成一个累积次数分布表。(2)下限以上实际累积次数分布表方法同上限以下累积次数分布表,但方向相反。(四)、相对累积次数分布表累积相对次数是对相对次数进行累积的结果。相对累积次数分布表也分为上限以下相对累积次数分布表和下限以上相对累积次数分布表。1. 上限以下相对累积次数分布表上限以下相对累积次数分布表是从最低绢.往最高绢.的方向依次把有关各绢.的相对次数进行累加的结果。2. 下限以上相对累积次数分布表下限以上相对
10、累积次数分布表是从最高绢.往最低绢.的方向依次把有关各绢.的相对次数进行累加的结果。二、次数分布图次数直方图次数多边图累积次数直方图累加次数曲线相对累加次数曲线第三章集中趋势的度虽第一节集中量数一组数据常用两类统计量来表现数据的特征。一类是表现数据的集中性质或集中程度;另一类是表现的数据离散性质或离散程度。(1)集中性质数据的集中趋势的度量是指用一组数据的中心位置来度量一组数据的集中趋势,或是描述它们的中心位丁何处。描述数据集中情况的统计量有多种,包括算术平均数、中数、众数、几何平均数、调和平均数、加权平均数等。(2)离散性质离散性反映一组数据的分散程度,即次数分布的离散程度。对其数量化描述称
11、为次数分布变异特性的度量或差异量数。中心位置相同的次数分布,其离散程度不一定相同。一、算术平均数(Mear)算术平均数简称为平均数,也称其为均数或均值,常用字母u或X表示。算术平均数是用以度量连续变量次数分布的集中趋势的最常用的集中量数。它是“真值”渐近、最佳的估计值。公式:算术平均数的性质:1.在一组数据中每个变量与平均数之差(称为离均差)的总和等丁0。2. Ixi=0o在一组数据中,每一个数都加上一常数C,则所得的平均数为原来的平均数加常数C:3. r(xi+c)=x+CN在一组数据中,每一个数都乘以一个常数C,则所得的平均数为原来的平均数乘以常数C:I(Xi-C)=CZXi=C-XNN(
12、二)加权平均数加权平均数计算公式为:Mw=W1X1+W2X2+WnXn=KWiXiW1+W2+WnMWi式中:Wi为权重,所谓权数是指各变量在构成总体中的相对重要性。(三) 几何平均数(Geometricmean)几何平均数符号记作Mg有时乂称作对数平均数。1. 几何平均数的应用条件当处理的数据有以下几种情形时,一般用几何平均数来表示数据的集中趋势:(1) 一组数据中任何两个相邻数据之比接近丁常数,即数据按一定的比例关系变化。例如,在教育与心理研究中,求平均增长率;当一组数据中存在极端数据,分布呈偏态时,算术平均数不能很好地反映数据的典型情况;对心理学中的等距与等比量表实验的数据处理均可使用几
13、何平平均数或其他集中量数(如中数、众数)来反映数据的典型情况。2. 几何平均数的基本公式Mg=nX1-X2Xn式中:n数据个数;3. X1数据变量的值在计算上常使用对数方法:lgMg=(lgX1+lgX2+lgXn)=ElgXiNN因此,几何平均数乂叫对数平均数。(1) 几何平均数在教育与心理研究中的应用等距与等比量表实验的数据处理教育与心理研究中平均增长率的计算一组数据如果彼此之间变异较大,几乎是按一定比例关系变化,如教育经费的增加,学习、阅读的进步,学校招生人数的增加等,一般要求的不是平均数,而是增长率,这就需要用几何平均数计算平均比率,而不用算术平均数。Mg=nXn/Xi调和平均数(Ha
14、rmonicMean)调和平均数用符号Mh表示。它的计算公式是:Mh1_N11一11、1NXiXi公式中:N为数据的个数;Xi为变量值,随实验研究设计不同其含义不同。因在计算中先将各数据取倒数平均,然后再取倒数,故乂称倒数平均数在研究学习速度的实验设计中,一般常取两种形式:1. 学习任务的工作量相同而所用时间不等学习任务的时间相同而工作量不等、中数(Median)中数乂称中点数,中位数,简写为Md或Mdn首先把数据资料从大到小排成序列,位丁中间位置的那个数据的测量值即为中数。也就是说,如果将数据依大小顺序排列,中数恰丁中问,它将数据的数目分成较大的一半和较小的一半。单歹0数目的情况单列数目的情
15、况是指,在一组数列中,每个数只有一个,即没有重复数。求中数步骤:(1) 如果数据未排序,先进行排序;(2) 按数据总数的奇偶,分别按下列方法求。1. 奇数目求中数的方法当数据总数为奇数时,第(N+l)/2的那个数据的值即为中数。2. 偶数目求中数的方法当数据总数为偶数时,则取序列为第N/2与第N/2+1这两个数据的均数为中数。即将第N/2的数和第N/2+1的数据的值相加,然后将它们的和除以2,所得数值即为中数。(一) 重复数目的情况重复数目是指一组数据中有数值相同的数。计算中数的方法基本同单列数目,但当位丁中间的那几个数是重复数目时,求中数的方法就比较复杂了。具体算法如下:1. 重复数目情况下
16、奇数目求中数的方法(1) 重复数目不在中间位置方法同数据总数为奇数的求法,即第(N+l)/2的那个数据的值即为中数。(2) 几个连续重复数目在中间位置取序列中上下各N/2那一点上的数值为中数。2. 重复数目情况下偶数目求中数的方法如果数据个数是偶数,作法也同奇数基本相同。中数是将整个数据的个数分作大的一半和小的一半,而不是将数据的值分作相等的两部分,即是个数的中数,而不是数值的中数。(二) 次数分布表求中数的方法将原始数据整理成次数分布表后,求中数的方法同重复数目求中数是一样的,也是取序列中将N平分为两半的那一点的值作为中数。其具体步骤如下:第一步:求N/2,并找到N/2所在的分组区问;第二步
17、:求含有中数那一区间以下各区间的次数和(即中数区间下限以下的累加次数)记作Fb;第三步:求N/2与Fb之差;第四步:求序列为第N/2那一点的值。求中数的公式可整理如下:Md=Lb+N/2-Fbfmd同理,用精确上限计算可写出下式:Md=La+N/2-FaFmd式中:La为中数所在分组区间的精确上限;Fa为该组以上各组的累加次数;i为组距。中数的意义与应用1.优点:从中数的计算可以看出优点有以下几点:(1) 计算简单,客观2. 不受极端数据的影响缺点:中数也有些不足:(1) 反应不够灵敏(2) 中数的数值不稳定(3) 中数不能进一步再做代数运算(4) 中数不能普遍应用a. 在一般情况下,中数只是
18、在以下几种特殊情况时,才应用。这些特殊情况是观测结果的两端出现极端数次数分布中的两端数据或个别数据不活楚当作数据集中趋势的快速估计值三、众数(Mode众数乂称为范数,密集数,通常数等。常用符号Mo表示。众数是指在一组数据中出现次数最多的数值,或次数分布中出现次数最多的那个数的数值。(一) 直接观察求众数直接观察求众数的方法很简单,通过观察找出出现次数最多的数据就是众数。(二) 用公式求众数众数可用公式计算,称为数理众数。1. 皮尔逊的经验法当数据分布接近正态的情况下可应用此种方法。众数计算公式:Mo=3Md-2X式中:M中数;X平均数。用皮尔逊的经验法计算的众数,只能作为一个近似值,它不受次数
19、分布的影响。2. 金氏(W.IKing)插补法M。=Lb+faifa+fb式中:Lb为含众数这一区间的精确下限;fa为众数所在组的高一个分组区间的次数;fb为众数所在组的低一个分组区间的次数。i为组距。当fa=fb时,贝UM=Lb+1/2i,即次数最多那一分组区间的组中值。金氏(W.I-King)插补法公式即适合次数分布比较偏斜的情况,也适用比较接近正态分布的情况。上述两个公式所求得的众数略有出入。均为近似值。3. 众数的意义和应用中数反映了一组数据中,哪种数据值最多。在某些情况下有一定意义。(1) 众数可作集中趋势的快速估计值(2) 数据同质性不好时,可求众数(3) 数据中有极大或极小的情况
20、4. 用平均数与众数之差估计次数分布的形态众数的不足之处(1) 不稳定,受分组的影响(2) 反应不够灵敏(3) 数值不精确,不能作进一步的代数运算1. 总数乘以众数与数据总数不相等四、平均数、中数、众数之间的关系和比较平均数、中数、众数之间的关系在一个正态分布中,平均数、中数、众数三者相等,因此在数轴上三点重合,即M=Md=Mo在正偏态分布中:MMdMo在负偏态分布中:MMdMo一般偏态情况下,中数Md离平均数M较近、而距众数Mo较远。皮尔逊研究其经验关系得出以下结论:M与Md的距离占M与Mo距离的1/3,而Md与Mo占2/3,即(M-Md/(M-Mo=1/3。2. 因而推导出:Mo=3Md-
21、2M平均数、中数、众数之间的比较三种集中量数中,平均数是最常用的一种。它的意义最容易理解,也最为人们所熟悉。计算平均数时,每一个测量值都加入了计算,因此比求中数和众数时使用了更多的信息。它还有一些中数和众数不具有的特性。第四章离中趋势的度量一、离散性质对丁数据的变异性,或离中趋势进行度量的一组统计量,就称作差异量数。这些差异量数包括:标准差或方差,全距,平均差,四分差及各种白分差等等。二、离中趋势的度量1.全距(Range最简单的差异量数为全距。全距也称为两极差。它是数据分散趋势的最简单描述指标。可以用最大值减最小值:R=MAX-MIN如果由分组资料计算全距,应该用最高组的上限减最低组的下限。
22、2. 平均差(AverageDeviation)描述数据资料在平均数周围离散程度的指标一一平均差。平均差常用符号AD表示,它的数学公式如下:3. AD=*-X|N方差和标准差(VarianceandStandardDeviation)方差是一组数据的离差平方的平均数,乂称变异数或均方差,一般用符号S2,或v表小。作为总体参数,常用符号。2表小。(1) 方差和标准差的定义方差的计算公式为:S=(Xi-X)2=IxL2NN方差的平方根称为标准差。一般用S,或SD表示。它的公式如下:s=、(Xi-X)2一N(2) 由各小组的标准差求总标准差方差具有可加性,在已知几个小组的方差或标准差的情况下,可以计
23、算它们的总方差或总标准差。进行这种计算用下列公式计算:Sr2=(N1S彳+N2S2+NnSi2i)+(N1d彳+N2d2+Nndn)N1+N2+N3+Nna. 方差和标准差的性质每个观测值Xi加一个常数C后Yi,得出的标准差Sy等丁原数据得出的标准差Sx:b. 若Yi=Xi+C则有Sy=Sx每个观测值Xi乘一个常数C后Yi,得出的标准差Sy等丁原数据得出的标准差Sx乘以这个常数:若Yi=Xi-C则有Sy=C-SxC.每个观测值Xi乘一个常数c(c=0)后,再加一个常数d,所得出的标准差Sy等丁原数据得出的标准差Sx乘以这个常数c:若Yi=Xi-C+q则有Sy=C-Sx证明:根据标准差的性质1和
24、性质2可证明性质3。(3) 方差和标准差的意义方差和标准差是表示一组数据离散程度的最好指标。其值越大,说明次数分布的离散程度越大;其值越小,说明次数分布的数据比较集中,离散程度越小。方差与标准差具有反应灵敏,计算严密,受抽样变动的影响较小等良好差异量数的条件。此外,方差具有可加性,它是对一组数据中造成各种变异的总和的测量。统计实践中常利用方差的可加性分解并确定届丁不同来源的变异性,并进一步说明各种变异对总结果的影响。可以说方差是推论统计最常用的统计量数。4. 标准差的相对差异系数(Coefficientofvariation)当遇到以下两种情况:1. 两个或两个以上样本所测的特质不同;两个或两
25、个以上样本所测的特质相同,但样本间的水平相差较大。应使用相对差异量数,称作差异系数,或变异系数,用符号CV表示。计算公式如下:CV=S/M100%其中:S样本标准差M样本平均数。5. 标准分数(StandardScore,orZScore)(1) 定义标准分数乂称Z分数,或基分数,是以标准差为单位表示一个分数在团体中所处的位置。它是将某个分数的离均差变为以标准差为单位的一种量数一相对位置量数。公式为:rXi-XZ=S式中:X代表原始数据;X为一组数据的平均数;S为标准差。(2) Z分数的意义Z分数的意义,是一个数与平均数之差除以标准差所得的商数,无实际单位。如果一个数小丁平均数,其值为负数;如
26、果一个数的值大丁平均数,其值为正数;如果一个数的值等丁平均数,其值为零。可见Z分数可以表明原数在该组数据分布中的位置。Z分数的性质性质1:在一组数据中所有由原分数转换得出的z分数之和为零,由此得出其z分数的平均数亦为零。根据求平均数及z分数的公式可推导出这个性质。性质2:一组数据中若Z分数的方差为1,它的标准差也是1。(3) Z分数的应用(1) 反映原分数在团体分布中的地位;(2) 能使不同分布的各原始分数进行比较;(3) 可以进行代数方法的处理。用丁比较不同单位的变量利用Z分数求不同质的观测值的总和或平均值表示标准测验分数转换公式为:正态标准分数Z=aZ+b(4) Z分数也存在着缺点:(1)
27、 若一个数低丁平均数,则出现负值;(2) 得出的数据多为小数,很麻烦。一般为解决这个问题,常用X100,或X10的方法,舍去小数。6. 四分差(Quartile)四分差是描述数据离差程度的指标,常用字母Q表示。它的定义为:在一组按大小顺序排列的数据中,位丁中间50%的数据的全距之半。四分差等丁Q3-Q1的一半。用公式表示为:(1) 未分组数据求四分差公式:Q=Q3-Q12(2) 在频数分布表的计算公式为:Q1=Lb+N/4-Fb-ifQ1Q3=Lb+3N/4-Fb-ifQ3式中:Lb该四分点所在组的精确下限;Fb该四分点所在组以下的累加次数;fQ1和fQ3该四分点所在组的次数;i组距;N数据个
28、数。7. 白分位差(PercentileDeviation定义:是将一组按大小顺序排列的数据分为100份。两个白分位数之间的距离,即为两个白分位数之差,用符号R表示。常用的白分位差有两种:一种为P10与P90白分位差,中间包括80%勺频数,另一种为P7与P93白分位差,中间包括86%勺频数。(1) 公式:求白分位差的公式如下:Pd=Ph-PlP86=P93-P7,P80=P90-P10求白分位数的公式如下:P7=Lb+7N/100-cfb-ifP7P93=Lb+93N/100-cfb-ifp93式中:Lb该白分位所在组的精确下限;Cfb该白分位所在组以下的累加次数;fp7和fp93该白分位所在
29、组的次数;i组距;N数据个数。白分位差的值越大,表明数据分布的范围越大,离散程度也大。第五章相关分析(Correlation)第一节相关的基本概念一、相关的定义相关:两事物之间相互关联的程度。它反映了两种现象之间的共连关系二、相关的性质直线相关是指两列变量中的一列变量在增加,而另一列变量随之而增加,或这一列变量在增加,而另下列变量却相应地减少。它们之间存在一种直线关系,或线性相关。直线相关可用直线拟合,散点成椭圆形分布。2.正相关,负相关和零相关相关还有三种情况:正相关,负相关和零相关。(1) 正相关若一歹0变量由大而小、或由小而大变动时,另一歹0变量亦由大而小,或由小而大变动,即二列变量的变
30、动方向相同,这种”同增同减”的关系,称为正相关。(2) 负相关若一歹0变量由大而小变动,另一歹0变量却反由小而大变动,即二歹0变量的变动方向相反,这种”此增彼减”的关系,称为负相关。(3) 零相关若一歹0变量由大而小变动;而另一歹0变量则或大或小变动,看不出一定趋势,即二列变量之间毫无关系,称为无相关或零相关。2. 强相关、弱相关和完全相关存在相关的两个变量,它们的变化关系除了方向性之外,还有密切程度问题。如果两个变量值的变化关系密切,(无论方向是正还是负)称为强(高)相关。变化的关系不密切,称为弱(低)相关。强相关围绕着直线,分布范围较小;最强的相关所有的点都落在直线上,称完全相关;弱相关围
31、绕着直线分布范围较大。四、相关的取值及意义表示两列变量相关方向和程度的数量,称作相关系数,用符号r代表。相关系数的取值总是在+1.00至-1.00之间。r=1.00,完全正相关;r=0,零相关;0|r|1,相关系数的绝对值大小表示相关的程度,其取值不同,表示相关程度不同。第二节常用相关分析方法及其计算一、积差相关系数(PearsonCorrelationCoefficient)积差相关系数的概念及计算条件计算积差相关系数要求变量符合以下条件:(1) 两列变量都是等距的或等比的测量数据;(2) 两列变量所来自的总体必须是正态的,或近似正态的对称单峰分布;即正态双变量;(3) 两列变量必须具备一一
32、对应的关系,即为线性关系,但对样本的分布不做要求。1. 积差相关计算公式(1) 积差相关公式(Xi-X)(Yi-Y)xyr=NSxSyNSxSy其中:Sx,&一分别为样本X和Y变量的标准差;N一城对数据的数目。变式如果不知道标准差,可用标准差公式Sx=Wxr-NX2_仁X)2NY2-TY)2(4) 还可转换成用Z分数求积差相关:、x、ZxZyrNSxSyN二、相关系数的合并1. 合并方法(求平均相关系数)先将各分组的相关系数r转换为Z(查FisherZ-r转换表),将Z转换成r后,求平均,然后再将Z平均值(查FisherZ-r转换表)转换成总相关系数平均值。.计算公式Z(ni-3)Zi式中:Z
33、i各样本ri查Z-r转换表得到;ni各样本的成对数目。/N推导出下列公式:、xyr=、xy2(2) 如果直接用原始数据计算,则用下列公式:2. NXYXY相关系数合并的条件(1) 合并的各样本应具有同质性;(2) 应使用相同的测量工具;(3) 各样本水平接近。1. 三、斯皮尔曼等级相关(SpearmanCorrelation)等级相关适用的数据资料(1)两个变量值以等级次序排列,或以等级次序表示;(2)两个变量的总体分布不一定是正态分布,或者根本不是正态分布;2. (3)成对样本的容量n小丁30时,计算公式(1)等级相关公式6寸D2rR=12N(N2-1)式中:D二变量对等级之差:D=X-N等
34、级对的数目。(2)直接用等级数计算直接用等级数据计算,可使用下列公式:R3N-14、RxRyN(N+1)TN+1)式中:R,Ry-一分别为二变量各等级数,相乘后再求和四、计算有相同等级的等级相关方法求校正数随相同等级数目减少的数量规律可用下式表达,cn(n2-1)C=12式中:C校正数;n相同等级的数目。在一组数据中,有时会有多个相同等级数出现,贝U需将它们累加:1. C八n(2F12求有相同等级的等级相关计算公式对有相同等级数目的变量使用斯皮尔曼等级相关公式应用下带校正的公式:式中:式中:N对偶数据的个数;n相同等级的数目;D对偶等级差数。2、X2=N(N21CX、广、n(n-1)C=、2N
35、(N221)、.八-yCy12六、质与量相关质与量的相关是指一列变量为等比或等距的测量数据,另一列变量是按性质划分的类别,即为一个分类变量。欲求这样两列变量的直线相关,称之为质量相关,它包括:点二歹0相关,二歹0相关及多系歹0相关。1.点二歹0相关(ThePoint-BiserialCorrelationCoefficient)(1)适用资料如果两列变量中有一列为等距或等比的测量数据,并且其总体分布为正态,另一列变量只是名义上的变量,而实际上是按事物的性质划分两类的变量。这类变量被称作“二分”名义变量。有时一个变量是双峰分布,也可划分为名义变量。(2)公式及计算计算点二列相关的公式是Xp*,顷
36、=-.p,qSt式中:X是与一个二分变量p对应的连续变量的平均数;Xq是与另一个二分变量q对应的连续变量的平均数;St是连续变量的标准差;p与q是二分变量各自所占的比率,p+q=1。(1) 点二列相关系数的取值在-1.00至1.00之间。相关越高,绝对值越接近1.00二歹0相关(TheBiserialCorrelationCoefficient)适用资料二列相关适用的资料是两列均届丁态分布。但其中一列变量为等距或等比的测量数据,另一列变量虽然也呈正态分布,但它被人为地划分为两类。(2) 公式及计算计算二列相关有两个公式:bXp-Xq凶StXp-XtrBu式中:X与二分变量中p变量对应的连续变量
37、的平均数;Xq与二分变量中q变量对应的连续变量的平均数;St连续变量的标准差;p某一二分变量在所有二分变量中所占的比率;q另一二分变量在所有二分变量中所占的比率;y正态曲线中,p面积与q面积交界处y轴的高度。在求出p值后,可查正态分布表得到y值。二列相关系数的取值范围在:-1.00-+1.00之间。绝对值越接近1.00,其相关程度越高。(1) 七、多系列相关(Multi-serialCorrelation)适用资料多系列相关适用的资料为两列正态变量,其中一列为等距或等比的测量数据称为连续变量,另一列正态变量被人为地分成多种类别,称为名义变量。(2) 公式及计算多系列相关系数的计算公式:、(yl
38、-)又rs=q一、(yl-yh)STpi式中:Pi每系列的次数比率;Y I每一名义变量下限的正态曲线高度,由Pi查正态表给出;Y h每一名义变量上限的正态曲线高度,由Pi查正态表给出;Xi与每一名义变量对偶的连续变量的平均数;St连续变量的标准差。多系歹0相关系数也介丁-1.00T.00之间,相关系数绝对值越接近1,表小其相关程度越高。八、偏相关(PartialCorrelation)偏相关与简相关相比可能反映的是真正两变量之间的本质联系,故偏相关也称作纯相关。偏相关按因变量歹0数的多少而分级。在三歹0变量中,一歹0除外的偏相关系数称第一级偏相关系数;在四列变量中,二列除外的偏相关系数称第二级
39、偏相关系数。余此类推。计算偏相关的基本公式第一级偏相关的公式_12一1323式中:r12第一,二个变量(X1,X2)的简相关系数;r13第一,三个变量(X1,X3)的简相关系数;r23第二,三个变量(X1,X2)的简相关系数;第二级偏相关的公式_r2.3-r14.3r24.3心一.1-式中:ri2.3第一,二变量(X1,X2)的简相关系数,排除第三个变量;r14.3第一,四变量(Xi,X3)的简相关系数,排除第三个变量;1. r24.3第二,四个变量(Xi,X2)的简相关系数,排除第三个变量;小结:各相关分析的条件一、常用相关分析统计方法皮尔逊积差相关计算积差相关系数要求变量符合以下条件:(1
40、) 两列变量都是等距的或等比的测量数据;(2) 两列变量所来自的总体必须是正态的,或近似正态的对称单峰分布;(3) 两列变量为线性关系,对样本的分布不做要求。(4) 两列变量样本数大于,或等于30。2. 斯皮尔曼等级相关等级相关适用的数据资料:(1) 两个变量值以等级次序排列,或以等级次序表示;(2) 两个变量的总体分布不要求一定是正态分布,或者根本不是正态分布;(3)成对样本的容量n可小于30;(4) 有相同等级数据时,则需在等级相关公式中加修正系数。3. 肯德尔W系数肯德尔W系数的适用数据资料:适用于一般取自采用等级评定的方法得出的数据,对K个评价者的一致性进行统计分析。有相同等级数据时,
41、则需在等级相关公式中加修正系数。4. 肯德尔U系数若采用对偶比较法获得数据,对K个评价者的一致性进行统计分析时,用肯德尔U系数。二、质与量相关1点二列相关两列变量中有一列为等距或等比的测量数据,并且其总体分布为正态,另一列只是名义上的变量,而实际上是按事物的性质划分两类的变量。1. 二歹0相关两列变量均来自正态分布总体,但其中一列变量为等距或等比的测量数据,另一列变量虽然也呈正态分布,但被人为地划分为两类。2. 多系列相关两列来自正态总体的变量,其中一列为等距或等比的测量数据,为连续变量,另一列被人为地分成多种类别为名义变量。三、偏相关排除其他因素的影响,求两列变量之间纯粹的相关关系时,采用偏
42、相关分析。四、相关的合并由同质的分组相关求总相关时,通过r-乙Z-r转换求其相关平均值。第六章概率与概率分布第一节随机事件和随机变量一、随机事件的定义随机事件:在给定的条件下,一个事件可能发生,也可能不发生,这样的事件称作随机事件。随机事件具有或然性。2个特例:绝对不可能发生的事件称为“不可能事件,用大写V表小;必定要发生的事件称为必然事件,用大写U表示。二、随机变量的定义随机变量:在一定范围内,任意取多个值,取每个值的可能性用概率表达,这样的取值称作随机变量。随机变量有两种:1. 离散型随机变量,取值是问断的;连续变量,取值是无限的。第二节概率一、概率的定义概率也称作机率,或然率及可能率。概
43、率公式:P(A)=m/n二、概率的类型概率分为两种:1. 先验概率或古典概率(1) 定义:1. 每次试验中,可能出现的基本事件的个数是有限的。II.每次试验中,每个基本事件出现的可能性是相等的,即每个基本事件发生的概率相等。(2) 古典概率的特点:事先就已知某个事件出现的事实,在实验或研究之前就可算出该事件发生的概率,故乂称作先验概率。2. 后验概率在进行多次观测时,按观测结果计算的概率称作后验概率。观测的次数越多,越接近先验概率。2. 三、概率的基本性质1.必然事件发生的概率为1,P(U)=1(必然要发生的事件)不可能事件的概率为0,P(V)=0(绝对不可能发生的事件)事件A发生的概率:满足
44、:0冲(A)勺即概率的数值在:01之间。3. 逆事件的概率:1. PCA)p(A)=1P(A)=1-P(A)四、概率的基本定理概率的加法定理若A,B是2个相互独立的事件,贝UA和B至少有一个发生的概率为:P(A+B)=P(A)+P(B)(或的关系)推广到有限多个相互独立事件,则A1,A2,An至少有一个发生的概率为:2. P(A1+A2+An)=P(A1)+P(A2)+P(An)概率的乘法定理若A,B是两个相互独立的事件,则A和B同时发生的概率为:P(A-B)=P(A)-P(B)(与的关系)若推广到有限个独立事件情况,则有:若A1,A2,,An是有限个独立事件,WJA1,A2,,An同时发生的
45、概率为:P(A1-A2An)=P(A1)P(A2)P(An)第三节二项分布(BinomialDistribution)一、独立试验序列概型二项式定理二项式展开后可用组合数来表示:nn0n*1nJ1nJ1nJnn%cxxn_x(pq)=CnPCnPqCnpqCnq=LCnPqx=02.二项式的性质(1)(2)(X=0,1,n正整数)展开式共有n+1项;(3)(4)(n-1)+1=n)p按降籍排歹0,指数从n逐项减1直到0;(卜0)q按升籍排列,指数从0逐项增1直到n;(0Tn)各项p,q的次数之和等丁二项式的次数。(pn-1q1T从第一项开始,各项系数依次为:C0C1ncnCn,Cn,*Cn,C
46、n(5)(6)最大。如果一个单次试验的概率保持包定不变,重复进行多次独立试验,事件成功的概率总是等丁二项展开式中的某一项。以上这些性质可利用扬辉三角形来表示二项展开式各项系数的分配规律。由组合的性质1知,由两端起,等距项的系数相等;3. 当项数为奇数时,中间一项的系数最大;当项数为偶数时,中间二项的系数相等且二项式定理一般适用的情况:设单次试验中某事件A发生的概率为P0p1,如果将此试验重复n次,求A发生r次的概率(r=0,1,2,n),就记为:pX=r,Mrrntp(x=r=Cnpq(q=1-p)上式为事件A发生r次的概率。这种概率模型称为独立试验序列概型。二、二项分布二项分布描述的是性质不
47、同的两个群体的概率分布,每个变量都可归丁两个不同性质中的一个,它们之间是对立的,因而二项分布乂可说是两个对立事件的概率分布。1. 定义及公式如果随机变量X的分布为Rx=r=C;prqn“(r=0,1,2,n)(0P1,q=1-p)则称X服从二项分布,记作b(x,n,p)2.特点(1) 有n次试验,且各次试验相互独立;(2) 每次试验只有二种结果,成功与失败。如果记P为单次试验中成功的概率,q则为单次试验中失败的概率,其取值为:0p1,q=1-p,或记作A与A(3) 各次试验是完全重复的,P保持包定不变,即成功的概率在第一次试验中为P(A),在第n次试验中也是P(A)。3. 二项分布的性质二项分
48、布是离散型分布,X取值为不连续变量,作图时可采用条形图描述。二项分布具有如下性质:当p=q时图形为对称图形,即单次试验中,成功与失败的概率相等,此时,二项分布是对称的,p=q=1/2。(1) 当p和时图形呈偏态,pq的偏斜方向相反。P与q的值相差越大,偏斜程度也越大,随着n的逐渐加大,偏斜程度也逐渐降低,分布形式逐渐对称。当n足够大时,二项分布接近丁正态分布。一般规定:当pq,且np芝5(或nq冬)时,可用正态分布概率作为近似值。4. 二项分布的平均数和标准差(1)公式当二项分布满足pq),np_5(nq_5)条件时,二项分布接近正态分布,此时,二项分布中X变量的均值卜(成功数的平均数)和标准
49、差。(成功数的标准差)分别为:=np二一=npq5. 式中:n为独立试验次数p为成功事件的概率,q=1-p二项分布的应用二项分布主要用丁实验结果可能是由丁猜测而造成的含有机遇性质的问题。1. 三、小结二项式定理二项分布的数学基础来自二项式定理,而二项式定理的展开式则为概率和排列组合表达式。nnxxn项2. (pq)=CnpqxX二项分布二项分布是一种离散型随机变量分布,也是一种基本随机变量分布。数据变量是独宜取值,按数据特征划分。二项分布描述的是性质不同的两个群体的概率分布,每个变量都可归丁两个不同性质中的一个,它们之间是对立的,因而二项分布乂可说是两个对立事件的概率分布。利用二项式定理可求某
50、一点的概率(二项式的某一项),也可求某一段区间的概率(二项式定理展开式的某一段)。3. nxxn_xb(x,n,p)八Cnpqx=0二项分布的平均数和标准差当pq,orpq,ng时,=np-_npq第五节正态分布(NormalDistribution)、正态分布X服从正态分布,记为XN(已。2)。当b=1时,Y值最大,Z,P均为0。2、正态分布的特征正态曲线是完全对称的曲线对称轴是X=H,沿X=H将曲线折叠,左右两边完全重合+X和-X有相同的y值。正态分布是一族分布正态分布曲线有不同的形状和位置,是一族分布:I .相同的标准差,不同的均值,使曲线形状相同,所处位置不同。II .相同的均值,不同的标准差,使曲线位置相同,形状不同。与X轴无限趋近,永不相交这条曲线从中央最高点逐渐向两侧降低,但曲线永远不与X轴相交。X轴为正态分布曲线方程的渐近线。(1) 参数H=0,=1的正态分布称为标准正态分布。标准正态分布通常写作:N(0,1),(2) 正态分布曲线下,标准差与概率的关系用Z分数可以估计出一个数距离平均数的位置。Z=1,则表明这个数的位置在全部数据的一半以上,概率为50%+34.13%=84.13%;Z=0,则表明这个数的位置正好在一半,其概率为50%在-1Z+1之间,发生的概率P为:P(-1Z41(t)=0.6826P(-2(TZ+2)=0.9545P(-3(TZ+3(t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年西医医师定期考核考试彩蛋押题及参考答案详解【夺分金卷】
- 2026年一级建造师之一建民航机场工程实务考前冲刺测试卷附答案详解(满分必刷)
- 2026年焊工练习题库及参考答案详解【A卷】
- 2026年口腔修复基础试题库及答案详解【考点梳理】
- 2026年绘工程自测题库及参考答案详解【研优卷】
- 2026年安全生产应急管理高分题库及答案详解(有一套)
- 2026年汽车驾驶与维修员通关练习题(考点梳理)附答案详解
- 2026年焊工地质勘查员不动产绘员考前冲刺练习含答案详解【模拟题】
- 2025年新版淄博法警面试题及答案
- 2025年一级注册建筑师之建筑设计提分题库及完整答案
- 2025江西中寰投资集团及其下属公司招聘人员笔试历年参考题库附带答案详解
- 一年级数学10以内加减法计算专项练习题(每日一练共17份)
- 2026四川宽窄优品商贸有限责任公司招聘(3月)笔试参考题库及答案解析
- 老旧小区改造拆除工程施工方案
- (2026春新版)人教版地理八年级下册全册教案新版
- 大学生国家安全教育第6章 文化安全
- 2026北京昌平区事业单位招聘156人笔试参考题库及答案解析
- 2026四川宜宾应届毕业生国资“国企聚才·宜路同行”招聘142人笔试参考题库及答案解析
- 建筑装饰施工技术培训方案
- 2026年零售定点药店医保培训考试真题试卷(+答案)
- DG-TJ08-2244-2025 既有建筑改造项目节能量核定标准
评论
0/150
提交评论