统计学必知知识点合集

上传人：d*** IP属地：天津上传时间：2022-04-28 格式：DOCX 页数：35 大小：153.44KB 积分：20 举报 版权申诉

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、器舄Wb统计学知识点合集1 .试验和事件：对某事物或现象所进行的观察或实验叫试验，把结果叫事件。2 .基本事件(elementary event):如果一个事件不能分解成两个或更多个事件，就称为基本事件。一次观察只能有一个基本事件。3 .样本空间：一个试验中所有的基本事件的全体称为样本空间。4 .古典概型：如果某一随机试验的结果有限，而且各个结果出现的可能性相等，则某一事件A发生的概率为该事件所包含的基本事件个数m与样本空间中所包含的基本事件个数n的比值。5 .统计概型：在相同条件下随机试验n次，某事件A出现m次(mWn),则m/n称为事件A发生的频率。随着n增大，该频率围绕某一常数 p上

2、下波动，且波动幅度逐渐减小，趋于稳定，这个频率的稳定值就是该事件的概率。6 .概率加法：(1)两个互斥事件：P (A+B) =P (A) +P (B);任意两随机事件：P (A+B)=P (A) +P (B) -P (AB)。7 .事件独立(independent ): 一个事件发生与否不会影响另一个事件发生的概率，公式为：P (AB) =P (A) P (B)。互斥(相依赖)一定不独立，不独立不一定互斥(相依赖) 。8 .全概率公式：根据某一事件发生的各种原因的概率，计算该事件的概率。计算公式为：nP (B)P (A。P (B| A。i 19 .贝叶斯公式：在条件概率的基础上寻找事件发生的

3、原因。计算公式为：P (A | B)nPP(B| A),分母就是全概率公式。也称为逆概率公式。P (A) P (B| A)i 1该公式是在观察到事件 B已发生的条件下，寻找导致A发生的每个原因 Ai的概率。P(A) 称为验前概率，P(A |B)是验后概率。.x 1- x_ .10 . 0-1分布：Px) p q , x 0,1 o 0-1分布也称为两点分布，即非 A即Bo关于是否的概率统统是0-1分布。性别。11 .二项分布：现实生活中，许多事件只是具有两种互斥结果的离散变量。如男性和女性、某种化验结果的阴性阳性，这就是二项分布。RX x)Cnpxqn-x。参数为n, p,记为XB(n, p

4、)o E(X)=np, D(X)=npq。当成功的概率很小，而试验次数很大时，二项分布接近泊松分布，此时 =np。即PW 0.25, n>20, npW5。二项定理近似服从正态分布。二项分布是0-1分布的n重实验，表示含量为 n的样本中，有X个所需结果的概率。12 .二项分布的正态近似：*2t2x x n-x12x1 - npRxx2)Cnp qa-?=e dt (b) - (a),其中 a=：x xia . 2、npqx2 - npVnpq，q=1-p。n n- m13.超几何分布：RX2)CMCN-Mo即二项分布中，无放回的情况。CN14 .泊松分布(poisson distri

5、bution )：用来描述在一指定时间范围内或在指定的面积之内某事件出现的次数的分布。如某企业中每月发生的事故次数、单位时间内到达某一服务柜台需要服务的顾客人数、人寿保险公司每天收到的死亡声明个数、某种仪器每月出现故x -e障的次数等。公式为：RX) , E(X尸,D(X)=。是给定时间间隔内事件的x!平均数。n15 .期望：各可能值 Xi与其对应概率pi的乘积之和为该随机变量X的期望，即 XiPi。i 116.概率密度满足的条件：(1) f(x)>0； (2) f(x)dx 1。连续型随机变量的概率密度 -b是其分布函数的倒数。f(x) Rb)-Ra)。E(x) xf(x)dx ；

6、a-Dx) x - E(x) 2f(x)dx2 o17.正态分布(normaldistribution )：正态分布的概率密度为:f(x)(x-) Ro 记作 X( ,2)。18 .正态分布图形特点：(1) f(x)> 0,即整个概率密度曲线都在x轴上方；(2) f(x)相对于x=对称，并在x= 处取到最大值，最大值为； (3)曲线的陡缓由b决定，b越.2大，越平缓，b越小，曲线越陡峭；(4)当x趋于无穷时，曲线以 x轴为渐近线。19 .正态分布的例子：某地区同年龄组儿童的发育特征、某公司的销售量、同一条件下产品的质量以平均质量为中心上下摆动、特别差和特别好的都是少数，多数在中间状态，

7、如人群中的高个子和矮个子都是少数，中等身材居多等。1-x220 .标准正态分布，即在正态分布中，=0, (T =1,有f(x)e 2 ,即XN (0,1)。用表示分布函数，表示概率密度。(-x)=1- (x)o21 .方差：即每个随机变量取值与期望值的离差平方的期望值。随机变量的方差计算公式为：2 DX)耳X- E(X)2巴-E(X)2Pii 1E(X2) - EX)2O22.标准差：随机变量的方差的平方根为标准差，记VDjX) o标准差与随机变量X有相同的度量单位。23 .期望、标准差、离散系数的使用：如果期望相同，那么比较标准差；如果期望不同，那么比较离散系数。24 . 3(t准则：由标

8、准正态分布得：当 XN (0,1)时，P(|X| <1)=2-1=0.6826; P(|X| <2)=2(2)-1=0.9545; P(|X| < 3)=2(3)-1=0.9973.这说明 X 的取值几乎全部集中在卜3,3之间，超出这个范围的不到0.3%。将结论推广到一般正态，即XN(, b)时，有P(|X-|Wb )=0.6826; P(|X-| <2 d) =0.9545; P(|X-| W 3 ) =0.9973。可以认为 X 的值一定落在(-3 er ,+3 er)内。1 n k25.矩：(1) 0 X为样本k阶矩，其反映出总体 k阶矩的信息，当k=1时，即均

9、n i 11 nk值；(2) Vk(% - X)k为样本k阶中心矩，它反映出总体 k阶中心矩的信息,n i 1.n (XiX)当k=2时，即方差；(3)3它反映总体偏度的信息,一口-为样本偏度,n n X Xi是的充分统计量。 n i 128.精确抽样分布和渐近分布：在总体X的分布类型已知时，若对任一自然数n,都能导出统计量T=(X1,X2，,Xn)的分布数学表达式，这种分布就是精确抽样分布，包括卡方、F, t分布；当n较大时，用极限分布作为抽样分布的一种近似，这种极限分布称为渐近分布，如中心极限定理。29.卡方分布：设随机变量 Xi, X2,，Xn相互独立，且 Xi服从标准正态分布 N(0,

10、1),则它n们的平方和X2服从自由度为n的?分布。e( 2)=n, d( ?)=2n；之具有可加性； i 1(XiX)2i 1偏度反映了随机变量密度函数曲线在众数两边的对称偏斜性;n_n (% - X)当自由度增加到足够大时，2分布的概率密度曲线趋于对称，当n趋于无穷时，2的极限分布是正态分布。i 1(4) 4 F2 3为样本峰度，它反映出总体峰度的信息，峰度反映密度(Xi - X)2)2i 1函数曲线在众数附近的峰的尖峭程度。26 .充分统计量：统计量加工过程中一点信息都不损失的统计量称为充分统计量。27 .因子分解定理：充分统计量判定方法。当 X= (Xi, X2,Xn)是来自正态分布 N

11、 (n22的充分统计量，若b 2已知，则b2)的一个样本时，若已知，则 (Xi -)是(7i 130. t分布：也称为学生氏分布。设随机变量XN (0,1), Y 2(n),且X与Y独立，则Xt ,.其分布称为t分布，记为t(n), n是自由度。t分布的密度函数是偶函数。.Y/ n当n>2时，E(t)=0,;当n>3时，D(t)=n/(n-2)。t(n)的方差比N(0,1)大一些。自由度为 1 的分布称为柯西分布，随着n增加，t分布的密度函数越来越接近标准正态分布的密度函数。实际应用中，当 n>30时，t分布于标准正态分布很接近。另有一个关于 t分布f 的抽样分布：”(X

12、-一) t(n - 1),称为服从自由度为(n-1)的t分布。S231. F分布：设随机变量 Y与Z独立，且Y和Z分别服从自由度为 m和n的分布，随机Y/ m nY变量X如下：XY-JmnY。则成X服从第一自由度为 m,第二自由度为n的FZ/ n mZ2n 2( mn 2)分布，记为 XF(m,n)。E(X)=n/(n-2),n>2; D(X)=n ,n>4oim n - 2)( n - 4)32. t分布与F分布的关系：如果随机变量 X服从t(n)分布，则X2服从F(1,n)的F分布。这在回归系数显著性检验中有用。33. X的抽样分布(sampling distributio

13、n )：当总体分布为正态分布时，X的抽样分布仍然是_2正态分布，此时 E(X)=, D(X)=”/n，则X N(, 一)。其说明当用样本均值去估n计总体均值时，平均来说没有偏差(无偏性)；当n越来越大时，X的散布程度越来越小，即用X估计越来越准确。34 .中心极限定理(central limit theorem )：不管总体的分布是什么，只要总体的方差(T2有限且要求n>30,此时样本均值 X的分布总是近似正态分布，即 XN( , i/n)。35 .样本比例的抽样分布：如果在样本大小为n的样本中具有某一特征的个体数为X,则样，.一 ,A X _(1)本比例为：p N ,)。兀是总体比例

14、，即 pA=X/n=兀。nn36 .两个样本均值之差的分布：若为两个总体，则:E(X1 - X2)E(X1)E(X2)口X1 - X2)口X1)DX2)n12；若是两个样本，则:E(Pi- P2)D(pi- P2)1(11)n1式12)n2°37.样本方差的分布：设 X1, X ，Xn为来自正态分布的样本，则设总体分布为N( ,b2(n - 1) oXn是来自正态分布的样本，y1,平,，yn也则-1)/ O2),则样本方差S2的分布为:(n-1)S2-238.两个样本方差比的分布：设是来自正态分布的样本，且S2 / S2S2 /12/221一 22X1, X2,X与yi独立,F(n1

15、 - 1, n239 .参数估计(parameter estimation ):用样本统计量去估计总体的参数。40 .点估计(point estimate)：用样本统计量的某个取值直接作为总体参数的估计值。41 .区间估计(interval estimate ):是在点估计的基础上，给出总体参数估计的而一个区间范围，该区间通常由样本统计量加减估计误差得到。42 .置信区间(confidence interval )：在区间估计中，由样本统计量所造成的总体参数的估计区间称为置信区间。43 .置信水平(confidence level)：如果将构造置信区间的步骤重复多次，置信区间中包含总体参数

16、真值的次数所占的比例为置信水平，也称为置信度或置信系数。其含义为：如果做了 100次抽样，大概有 95次找到的区间包含真值，而不是95%的可能落在区间，因为统计量不涉及概率问题。44 .无偏性(inbiasedenss):指估计量抽样分布的期望等于被估计的总体参数。设总体参数为。，估计量为。A,如果E(0 A)=0 ,则称。人为。的无偏估计量。45 .有效性(efficiency)：指对同一总体参数的两个无偏估计量，有更小标准差的估计量更有效。46 . 一致性(consistency)：指随着样本量的增大，点估计量的值越来越接近被估总体的参数，换个说法，一个大样本给出的估计量要比一个小

17、样本给出的估计量更接近总体参数。47 .样本量与置信水平、总体方差和估计误差的关系：样本量与置信水平成正比，在其他条件不变的情况下，置信水平越大，所需的样本量也就越大；样本量与总体方差成正比，总体的差异越大，所要求的样本量也越大；样本量与估计误差的平方成反比，即可接受的估计误差的平方越大，所需的样本量就越小。48 .圆整法则：将样本量取成较大的整数，也就是将小数点后面的数值一律进位成整数。49 .两类错误：一类是原假设H。为真却拒绝，这类错误用”表示，称为弃真；另一类是原假设为伪而我们却接受，这种错误用3表示，也称存伪。50 .两类错误的控制原则：如果减小a错误，就会增大犯3错误的机会；

18、若减小3错误，也会增大犯a错误的机会。规则是：首先控制a错误，这是因为原假设是什么常常是明确的，而备择假设是什么则常常是模糊的。51 . P值：P值是当原假设为真时所得到的样本观察Z果或更极端结果出现的概率。P值越小，拒绝原假设的理由就越充分。P值的长处是它反映了观察到的实际数据与原假设之间不一致的概率值。雅舄Wb152 .双侧检验与单侧检验：双侧检验主要是检验是否相等，如 90年的婴儿体重与 89年婴儿体重是否相等；另一种是单侧检验，即关心的假设问题带有方向性，如灯泡的使用寿命，汽车行驶距离等；另一种是数值越小越好，如废品率、生产成本等。53 .统计量的选择：在一个总体参数的检验中，

19、主要统计量有三个，z、t和2。z和t用于均值和比例检验，2用于方差检验。统计量选择步骤如下：(1)是否是大样本，如果是，那么如果总体呈正态分布，样本统计量也呈正态分布；如果总体不呈正态分布，样本统计量渐进服从正态分布；此时可以使用z统计量(2)如果是小样本，那么观察叫如果b已知，样本统计量将服从正态分布，此时可以用 z统计量(3)如果未知%则只能使用样本标准差，样本统计量服从t分布，应采用t统计量。t统计量的精度不如 z统计量，这是总体信息b未知所需要付出的代价。p -054 .总体比例检验公式： z f 。 P为样本比例,兀0是总体比例兀的假设值。0(1 -0 )n55 .总体(popul

20、ation)：包含所研究的全部个体的集合，组成总体的每一个元素称为个体。当总体的范围难以确定时，可根据研究的目的来定义总体。56 .样本(sample):样本是从总体中抽取的一部分元素的集合，构成样本的元素的数目称为样本量。57 .参数(parameter):参数是用来描述总体特征的概括性数字度量。58 .统计量(statistic):统计量是用来描述样本特征的概括性数字度量。抽样的目的就是根据样本统计量估计总体参数。统计量中不能包含未知参数。59 .变量(variable):说明现象某种特征的概念，特点是从一次观察到下一次观察结果会呈现出差别或变化。变量分为分类变量、顺序变量、数值型变

21、量，数值型变量又分为离散型变量和连续型变量。60 .概率抽样(probability sampling )：也称随机抽样，指遵循随机原则进行的抽样，总体中每个单位都有一定的机会被选入样本。概率抽样分为简单随机抽样、分层抽样、整群抽样、系统抽样和多阶段抽样。61 .简单随机抽样(simple random sampling )：从包括总体 N个单位的抽样框中随机的一个一个的抽取n个单位作为样本，每个单位的入样概率是相等的。62 .非概率抽样(non- simple random sampling ):指抽取样本时不依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分

22、单位对其实施调查。包括方便抽样、判断抽样、自愿样本、滚雪球抽样和配额抽样。63 .抽样误差(sampling error):指由于抽样的随机性引起的样本结果与总体真值之间的误差。64 .频数(frequency)：是落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出，并用表格形式表现出来，称为频数分布。65 .列联表(contingency table )和交叉表(cross table):由两个或两个以上变量交叉分类的频数分布表称为列联表。二维的列联表又称为交叉表。66 .帕累托图(pareto chart):按各类别数据出现的频数多少排序后绘制的条形图。通过对

23、条形图排序，容易看出哪类数据出现得多，哪类数据出现的少。67 .饼图(pie chart)：是用圆形及圆内扇形的角度来表示数值大小的图形，它主要用于表示一个样本中各组成部分的数据站全部数据的比例，对于研究结构性问题十分有用。68 .环形图(doughnut chart ):把饼图叠在一起，挖去中间部分就是环形图。环形图可显示多个样本部分所占的相应比例，从而有利于构成的比较研究。69 .累积频数(cumulative frequencies )：将各种有序类别或组的频数逐级累加起来得到的频数，通过累积频数可以很容易看出某一类别以下或某一类别以上的频数之和。70 .组中值(class mi

24、dpoint):是每一组中下限值与上限值中间的值，组中值可以作为该组数据的一个代表值，但是用组中值有一个必要的假定条件，即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布，否则会产生误差。71 .直方图(histogram)：适用于展示分组数据分布的图形，用于大批量数据的分析。72 .茎叶图(stem-and-leafdisplay ):反映原始数据分布的图形，由茎叶两部分组成，其图形是由数字组成的。可以看出数据的分布形状及数据的离散情况且能保留原始信息，适用于小数据。73 .箱线图(box-plot)：由最大值、最小值、中位数、两个四分位数组成，主要用于反应原始数据分布的特征，还可

25、以进行多组数据分布特征的比较。74 .线图(lineplot)：主要用于反应现象随时间变化的特征。75 .散点图(scatter diagram )：用二维坐标展示两个变量之间关系的图形。76 .气泡图(bubble chart):可用于展示三个变量之间的关系。一个变量是横轴、一个变量是纵轴、一个变量用气泡大小表示。77 .雷达图(radar chart)：也称蜘蛛图。设有 n组样本S1, S2 - Sn每个样本测得 P个变量 X1, X2XP要绘制这P个变量的雷达图，具体做法是，先画一个圆，然后将圆P等分，得到P个点，令这P个点分别对应P个变量，再将这P个点与圆心连线，得到 P个辐射状的

26、半径，这P个半径分别作为 P个变量的坐标轴，每个变量值的大小由半径上的点到圆心的距离表示，再将同一样本的值在P个坐标上的点连线。这样，n个样本构成的n个多边形就是雷达图。雷达图在显示或对比各变量的数值总和时十分有用，假定各变量的取值具有相同的正负号，则总的绝对值与图形所围成的区域成正比。此外，利用雷达图可以研究多个样本之间的相似度。78 .众数(mode): 一组数据中出现次数最多的变量值，用M表示。主要用于测度分类数据、顺序数据、数值数据的集中趋势，不受极端值影响，一组数据分布的最高峰点所对应的数值即为众数。只有在数据量较大时，众数才有意义。79 .中位数(median):中位数时一

27、组数据排序后处于中间位置上的变量值，用犍表示。中位数主要用于测度顺序数据和数值型数据的集中趋势，但不适用于分类数据。中位数位置为：(n+1) /2;中位数的值为映，1，、，八人x (n 1) / 2)，2 x (n/2) X(n/2 1) ° 中位数TE一 I80.位置代表值，其特点是不受极端值影响，在研究收入分配时很有用。平均数也称为均值(mean),是集中趋势的最主要测度值，主要适用于数值型数据，不适用于分类数据和顺序数据。平均数分为简单平均数和加权平均数，简单平均数(simplemean)的计算公式为：xX1x2nxnnxii 1nO根据分组数据计算的平均数称为加权平均数(

28、weighted mean)。设原始数据被分为k组，各组的组中值分别用M, Mt,也表示，各组变量值出现的品数分别用f1, f2,f k表示，则样本加权平均nMfi数的计算公式为：XMf_MfMfnU,其中n= fi o平均数nn是一组数据的重心所在，是数据误差相互抵消后作用的结果。81.几何平均数(geometric mean ):是n个变量值乘积的 n次方根，用G表示，计算公式为：GXiX2X3Xn n Xi o几何平均数主要用于计算平均率，当所1 i 1掌握的变量值本身是比率的形式时，采用几何平均法更合理。在实际中，几何平均数主要用于计算现象的平均增长率。82 .异众比率(variat

29、ion ratio)：指非众数组的频数占总频数的比例，用Vr表示，计算公式fi - fmJ为：V 1 。fm是众数组的频数，fi是变量值的总频数。异fifi众比率主要用于衡量众数对一组数据的代表程度。异众比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性越差；异众比率越小，非众数组的频数占总频数的比重越小，众数的代表性越好。异众比率可用于分类数据、顺序数据和数值型数据。83 .四分位差(quartile deviation )：也称为内距或四分间距(inter-quartile range )：是上四分位数与下四分位数之差，用Q表示，计算公式为：QQu - Q。四分位差反映了中

30、间50%数据的离散程度，其数值越小，中间的数越集中；数值越大，中间的数越分散。四分位数不受极值影响。可用于顺序数据和数值数据，但不能用于分类数据。84 .极差(range):也称为全距，用 R表示，指一组数据的最大值和最小值之差。计算公式为：R max (x。- min (x。极差容易受极端值影响。85 .平均差(mean deviation ):也称为平均绝对离差(mean absolute deviation ):是各变量值与其平均数离差绝对值的平均数。用均表示。平均差以平均数为中心，反应了每个数据与平均数的平均差异程度，能全面反应一组数据的平均差异程度，但由于为避免出现 0而取绝对

31、值，所以实际中应用较少。n_Xi - X根据未分组数据计算平均差的公式为：叫 -；nk_M - xfi 根据分组数据计算平均差的公式为：Md-。n86 .方差(variance)与标准差(standard variance):方差是各变量值与其平均数离差平方的平均数。方差的平方根是标准差。设样本方差为S2,根据分组和未分组数据计算样本方器品n(Xi - x)2差的公式为：s2口 , s2n - 1k_(Ml - X)2fi上，其中n-1是自由度。标n - 1准差更具有实际意义。87 .自由度(degree of freedom):自由度指附加各独立的观测值的约束或限制的个数。当样本数据的个数

32、为n时，若样本平均数x确定后，则附加给n个观测值的约束个数是 1个,因此只有n-1个数据可以自由取值。例如，假定样本有3个数，2,4,9,则x=5,那么如果前两个值取5和8,则第三个数必须取2才能使x=5,所以有一个数是不能自由取值的，所以自由度是 n-1。88 .标准分数(standard score):是变量值与其平均数的离差除以标准差后的值，也称为标x； - x准化值或z分数，计算公式为：Zi 。标准分数给出了一组数据中各数值的相s对位置。比如，如果某个数值的标准分数为-1.5,就知道该数值低于平均数1.5倍的标准差。标准分数具有均值为0,标准差为1的特性，实际上z分数只是对数据进行了线

33、性转换。用于数据标准化和检测离散数据。89 .经验法估计数据的相对位置：当一组数据对称分布时，约有68%的数据在平均数土 1个标准差内；约有 95%的数据在平均数土 2个标准差内；约有 99%的数据在平均数土 3个标准差内。三个标准差之外的数据称为离群点。90 .切比雪夫不等式(Chebyshev ' s inequality经验法只适合对称分布数据，而切比雪夫不等式适用于任何分布的数据，但只给了下界，即所占比例至少是多少。切比雪夫不等式r 八，一、DX公式为:P (X- EX)=。根据该公式可知，至少有(1-1/2)个数据落在k个标准差之内，对于k=2,该不等式的含义是，至少有7

34、5%的数据落在土 2个标准差之内。91 .离散系数：也称为变异系数(coefficient of variation ),是一组数据的标准差与其相应的一，s平均数之比，计算公式为：Vs=。离散系数是测度数据离散程度的相对统计量，主x要是用于比较不同样本数据的离散程度。离散系数大，说明数据的离散程度大。离散系数是比较平均水平不同或计量单位不同的不同组别的变量值的离散程度。92 .离散测度总结：分类数据主要用异众比率来测度离散程度；顺序数据主要用四分位数来测度离散程度；数值数据主要用方差和标准差测度离散程度；而对于不同的样本数据，用离散系数比较离散程度。93 .偏态(skewness):偏态

35、是对数据分布对称性的测度。测度偏态的统计量是偏态系数(coefficient of skewness ),记作SK根据未分组和分组的原始数据计算偏态系数的公式为:SKn 3-x)33 ，(n 1)( n 2)s3SKk_(M - x) 3fi-。如果一组数据的分布是对称ns394.95.的，则偏态系数等于 0,表明分布是对称的，若偏态系数大于 1或小于-1,则称为高度偏态分布；若偏态系数在 0.51或-1-0.5 ,则是中等偏态分布。根据分组的 SK公式中,很明显是将离差的三次方的平均数除以s3,是将偏态系数转化为相对数。相对数：是两个有联系的指标的比值，它可以从数量上反映两个相互联系的现象

36、之间的对比关系。峰态（kurtosis）:是对数据分布平峰或尖峰程度的测度。测度峰态的统计量是峰态系数（coefficient of kurtosis ），记作K。峰态通常与标准正态分布比较而言的。如果数据服从标准正态分布，则峰度为0,否则为平峰分布或尖峰分布。根据未分组和分组数据计算峰态系数的公式为：K42 2n(n 1) (Xi - x)4 - 3(Xi - x)22(n - 1)(n - 1)( n - 2)( n - 3)s4k_(M - x)4fiK4ns- 3。当K>0时为尖峰分布，数据的分布更集中；当K<0时为扁平分布，数据的分布越分散。分组公式中也可以不减3,此时

37、比较的标准是 3。96.2分布：主要用于对两个定类变量之间的关系的分析。对定类变量进行分析，一般是97.98.一， 2 2列联表检验：(f。- fe)2,自由度为：（行数-1） x （列数-1）, fe表示期望值频数，f0表示观察值频数。计算出2以后，再根据附录表和显著性水平计算显著性水平（ 2值取整）。如果2 V2 .值取整），那么不能拒绝原假设，调查数据的差异性是由于抽样的随机性造成的。2越小，行列之间关系越密切。把检验问题进行转化，通过考察频数与其期望频数之间的吻合程度，达到检验目的。列联表的分布：有两个方面，一个是观察值的分布，一个是期望值的分布。一 ,2 .99 .列联表检验两种

38、方法：一种是拟合优度检验，一种是独立性检验。两种方法最大的区别在于期望值的求法。拟合优度检验期望值的计算方法是：（行合计项/总数）*列总计项；独立性检验期望值的计算方法是：（行合计项/总数）* （列合计项/总数）*合计。独立性检验要求样本足够大，如果只有两个单元，每个单元的期望频数必须是5以上；倘若有两个以上的单元，如果 20%的单元期望频数小于 5,则不能用 2检验独立性。100 . 相关系数（ correlation coefficient ）:描述2X 2列联表数据相关程度最常用的一种相关系数。公式为:ad - bc(a b)( c d)( a c)( b d)。当ad=bc时（即对角

39、线数值相乘相等时），=0;若对角线数据有一对为0,=±1,表示两个变量完全相关。取值主要在01,且绝对值越大，相关程度越高。器舄Wb101 . C系数（coefficient of contingency）:也称列相关系数或列联系数，主要用于大于2X2c列联表的情况。计算公式为：O当列联表中两个变量相互独立时,c=0,但不可能大于1, 一定低于值。C系数可能的最大值依赖于列联表的行数和列数，且随着行和列的增大而增大。因此，根据不同的行和列计算的列联系数无法比较，除非两个列联表中的行数和列数一致。C系数中，对于2X2歹U表，c=0.7071;3X3歹U表，c=0.8165;4X4列

40、表，c=0.87,这些都是每种列表的最大c值。n mir( R- 1)(C- 1)。V=0;当完全相关时， V在01V102 . V系数：V系数也不限列联表的大小，计算公式为：min是指行和列中较小的一个。当两个变量相互独立时,之间。如果列联表中有一维是 2,那么V=。103 .单样本t检验：目的是利用来自某总体的样本数据，推断该总体的均值是否与制定的检验值之间存在差异，它是对总体均值的假设检验。其零假设为：总体均值与指定检验值t X 之间不存在显著差异。公式为/ Jn。104 .两配对样本t检验：目的是利用来自两个总体的配对样本，推断两个总体的均值是否存在显著差异。它和独立样本t检验的差别就

41、是要求两个样本是配对的。由于配对样本在抽样时不是相互独立的，而是相互关联的，因此在进行统计分析时必须考虑到这种相关性，否则会浪费大量统计信息。要求：两组样本容量相同；两组样本观察值顺序不能调换；保持一一对应的关系。105 .方差分析（analysis of variance , ANOVA）：通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著性影响。数值型数据是因变量，分类型数据是自变量。106 .方差元素（）：在方差分析中，所要检验的对象称为因素或因子。因素的不同表现称为水平或处理。每个因子水平下得到的样本数据称为观测值。比如检验行业中的四个行业的显著性差异，那么

42、这就是个单因素（一个大的行业总体）四水平（四个行业）的试验。107 .组内误差（）：来自水平内部的数据误差称为组内误差，也就是由抽样的随机性所造成的随机误差。组内误差只含有随机误差。108 .组间误差（）：来自不同水平之间的数据误差称为组间误差。这种差异可能是由抽样本身形成的随机误差，也可能是由行业本身的系统性因素造成的系统误差。k RSST（xj散情况。计算公式为：i 1j 1-x）,即每一个水平均值与总均值的差的平109 .单因素方差总平方和（SST：反映全部数据误差大小的平方和，其反映全部观测值的离 2方的和。SST=SSE+SSA自由度为 n-1。110 .单因素方差组内平方和

43、（SSE：反映组内数据误差大小的平方和，也称误差平方和或残k ni一SSE 函-xj2差平方和。计算公式为：i 1 j 1。自由度为k-1。111 .单因素方差组间平方和（SSA：反映组间数据误差大小的平方和，也称因素平方和,k _SSA ni(x - X)2映样本均值之间的差异程度。计算公式为：i 1。自由度为n-ko112 .三种误差之间的关系：SSA是对随机误差和系统误差大小的度量，它反映了自变量对因变量的影响，也称为自变量效应或因子效应；SSE是对随机误差大小的度量，它反映了除自变量对因变量的影响之外，其他因素对因变量的影响，SSE也称为残差效应。113 .方差分析的三个基本假定：

44、每个总体都服从正态分布；各个总体的方差相同；观测值相互独立。114 .均方(mean squarem,MS)：由于各误差平方和的大小与观测值的多少有关，为了消除观测值多少对误差平方和大小的影响，需要将其平均，也就是用各平方和除以他们所对应的自由度，这一结果称为均方，也称为方差。115 . F分布()：组内均方记为 MSE,组间均方称为 MSA。将MSA与MSE对比，即得到方差统计量F,也就是F分布。F MSAF (k - 1, n - k)。MSE116 .单因素方差相关系数()：为组间平方和(SSA占总平方和(SST的比例大小，记为R2, 一 SSA公式为：Ro得到的值即自变量对因变量

45、的影响效应的比值，该比值即为残差SSI效应的比值。把R2开平方即可测量关系的强度，若得0.59,说明两者之间有中等以上的关系。117 .方差的多重比较(multiple comparison procedures )：通过对总体均值之间的配对比较来进一步检验哪些均值之间存在差异。118 .方差的多重比较一一最小显著差异法(LSD)： (1)提出假设Ho：口=5，Hi：科产；11 、(2)计算检验统计量：Xi - Xj ; (3)计算LSD t / 2 MSE( )。t的自ninj由度为n-k, k是因素中水平的个数；(4)若Xi - XjLSD,则才!绝Ho。119 .双因素方差分析(t

46、wo-way analysis of variance)：在对实际问题的研究中，有时需要考虑几个因素对试验结果的影响。如分析影响彩电销售的因素时，需要考虑品牌、销售地区、价格等多个因素的影响。当方差分析中涉及两个分类型自变量时，称为双因素方差分析。120 .双因素方差分析的交互性：若两个因素对观测量的影响是相互独立的，那么称为无交互作用的双因素方差分析，或无重复双因素分析；如果除了两个因素对销售量的单独影响，两个因素的搭配还会对销售量产生一种新的影响，那么称为有交互的双因素方差分析，或可重复双因素分析。121 .双因素方差总平方和：k r _=SST(Xi - X)2i 1 j 1(

47、Xj i 1 j 1-X)2k r _(Xij - Xi - Xj i 1 j 1X)2即总误差平方和=行因素误差平方和+列因素误差平方和+除行列因素之外的剩余因素影雅舄Wb1响产生的误差平方和，SST=SSR+SSC+S SEMSR122 .双因素方差分析的 F分布：Frmse Rk - 1(k - 1)( r - 1),检验行因素对因MSC ,变量的影响是否显著；FC的影响是否显著。123.双因素方差相关系数()MSE Rr - 1(k - 1)( r - 1),检验列因素对因变量:为行变量平方和(SSR与列变量平方和(SSC的和占总平2、一SSR SSC万和(SST的比例大小，记为 R

48、 ,公式为：R 。得到的值即自变量对SST因变量的影响效应的比值，该比值即为残差效应的比值。把R2开平方即可测量关系的强度，若得0.59,说明两者之间有中等以上的关系。124 .方差分析中自变量因变量的确定：若要分析A对B是否有影响，那么 A是自变量，即影响因变量的因素，B是因变量。125 .方差分析各组均值的精细比较：如果有4个总体均值，单因素分析可以对 4个均值单独总体比较，但有时候需要把4个总体均值分两组分别比较，此时就可以引入精细比较法。该方法将问题转化为研究这两组总的均值是否存在显著差异。这种事先制定均值的线性组合，再对该线性组合进行检验的分析方法就是各组均值的精细比较。126 .

49、协方差分析的要求：协变量是连续型数值变量，多个协变量之间相互独立，且与因素变量之间也没有交互影响。127 .协方差分析：将观察变量总的离差平方和分解为由因变量、因变量交互、协变量、随机因素引起的，即在扣除了协变量对观察变量的影响后，分析因变量对观察变量的影响。协方差分析也采用 F检验法，处理计算思路和多因素方差分析相似。128 .判断是否有协变量的方法：绘制图形，观察协变量和因变量之间有无关联性。若从图形可以判断两者有显著关系，则可引入协方差分析。129 .回归与相关：是数值型自变量与数值型因变量之间关系的分析方法。如果研究的是两个变量之间的关系，则是简单相关或回归，如果是两个以上变量之间的关

50、系，就是多元回归或相关。回归和相关还分为线性和非线性。130 .变量之间的关系：变量之间的关系为函数关系或相关关系。函数关系是一一对应的确定关系，而相关关系不存在完全确定的关系。由于影响一个变量的因素有很多，才造成了变量之间关系的不确定性。变量之间存在的不确定的数量关系称为相关关系。131 .相关的种类：线性相关、非线性相关、完全相关和不相关。如果变量之间的关系近似的表现为一条直线，那么是线性相关；如果变量之间的关系近似的表现为一条曲线，那么是非线性相关或曲线相关；如果一个变量完全依赖于另一个变量，各观测点落在一条直线上，称为完全相关；如果两个变量的观测点很分散，无任何规律，那么是不相

51、关。132 .相关系数(correlation coefficient)：是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的，称为总体相关系数，记为p ; 若是根据样本数计算的，则称为样本相关系数，记为r。计算公式为：n xy - x yr,该公式也称为线性相关系数,或皮尔逊nx2 - (x)2n y2 - ( y)2相关系数。皮尔逊相关系数适用于连续变量之间的相关程度。R=0只代表无线性关系，但不能代表没有关系。当r>0.8,说明盖度相关；0.5-0.8说明中度相关，0.3-0.5说明低度相关，r<0.3,说明不相关。133 . r的显

52、著性检验方法：（1）提出假设：H0： p =0; Hi： p w 0; （2）计算检验的统计量：|n- 2,、t r 12 t （n- 2）；（3）决策：根据给定的“和df=n-2,查t分布表，得1- - r出t“/2 （n-2）的临界值。若|t|>t /2,则拒绝零假设，表明总体的两个变量之间存在显著性管系。134 .斯皮尔曼相关系数（Spearman）：该系数用来度量顺序水准变量间的线性相关关系。它是利用两变量的秩次大小作线性分析。适用条件有二：第一，两个变量的变量值是以等级次序表示的资料；（2）一个变量的变量值是等级数据，另一个变量的变量值是等距或比率数据，且两总体不要

53、求是正态分布，样本容量不一定大于 30。缺点是计算精度不高。6D2斯皮尔曼系数用 m表示，公式为： 512,其中D是两个变量每对数据n（n - 1）等级之差；n是两列变量值的对数。135 .肯德尔系数（kendall）:肯德尔等级相关系数用于反映分类变量相关性的指标，适用于两个变量均为有序分类的情况。这种指标采用非参数检验方法测度变量间的相关关系，利用变量的秩计算一致对数目和非一致对数目。如果两变量具有较强的正相关，则一致对数目U较大，否则一致对数目和非一致对数目应该相近。肯德尔系数计算公式如下：(U- V)2n( n - 1)136 .偏相关分析：其是在扣除其他因素的作用大小以后，重新

54、来测度这两个因素间的关联程度。这种方法的目的在于消除其他变量关联性的传递效应。偏相关系数计算公式为：r 12(3)r13r 23137 .距离分析：距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度，根据变量的不同类型，可以有许多距离、相似程度测量指标供用户选择。但由于距离分析只是一个预分析过程，所以距离分析不会给出P值，而只能给出各变量/记录间距离的大小，以供用户自行判断相似性。调用距离分析过程可对变量内部各观察单位间的数值进行距离相关分析，以考察相互间的接近程度，也可用于考察变量的相似程度。在距离分析中，主要利用变量间的相似性测度和不相似性测度度量研究对象之间的关系。138

55、 .回归分析：侧重于测度变量之间的关系强度，并通过一定数学表达式将这种关系描述出来，进而确定一个或几个变量（自变量）的变化对另一个特定变量（因变量）的影响程度。139 .回归分析解决的问题：（1）确定变量之间的表达式；（2）对关系式的可信程度进行检验，并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的，那些是不显著的；（3）预测。140 .自变量和因变量：被预测或被解释的变量称为因变量；用来预测或用来解释因变量的变量称为自变量。如预测一定的贷款余额条件下的不良贷款是多少，被预测的不良贷款，是因变量，用来预测的是贷款余额，是自变量。141 .一元线性回归：当回归中只涉及一个自变量时称为一元回归，若因变量y与自变量x之间的为线性关系时，是一元线性回归。142 .回归模型(regressi

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计学必知知识点合集

文档简介

温馨提示

最新文档

评论

统计学必知知识点合集

文档简介

温馨提示

最新文档

评论

相关文档