版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、14. RX1X2)Gpxqn-xx X1x2 - npi npqq=1-p。统计学知识点合集1.试验和事件:对某事物或现象所进行的观察或实验叫试验,把结果叫事件。2.基本事件(elementary event ):如果一个事件不能分解成两个或更多个事件,就称为 基本事件。一次观察只能有一个基本事件。3.样本空间:一个试验中所有的基本事件的全体称为样本空间。4.古典概型:如果某一随机试验的结果有限,而且各个结果出现的可能性相等,则某一事 件A发生的概率为该事件所包含的基本事件个数 m与样本空间中所包含的基本事件个数 n的比值。5.统计概型:在相同条件下随机试验 n次,某事件A出现口次(m n)
2、,则m/n称为事件 A发生的频率。随着n增大,该频率围绕某一常数p上下波动,且波动幅度逐渐减小, 趋于稳定,这个频率的稳定值就是该事件的概率。6.概率加法:(1)两个互斥事件:P (A+B =P (A) +P( B);任意两随机事件:P (A+B =P (A) +P (B) -P (AB。7.事件独立(independent ): 一个事件发生与否不会影响另一个事件发生的概率,公式为:P (AB) =P (A) P (B)。互斥(相依赖)一定不独立,不独立不一定互斥(相依赖) 。8.全概率公式:根据某一事件发生的各种原因的概率,计算该事件的概率。计算公式为:nP ( B)P (Ai) P (
3、B| A)。i 19.贝叶斯公式:在条件概率的基础上寻找事件发生的原因。计算公式为:10. P (A | B)nP (A)P (B| A),分母就是全概率公式。也称为逆概率公式。该公P (A) P (B| A)i 1式是在观察到事件B已发生的条件下,寻找导致 A发生的每个原因A的概率。P(A)称 为验前概率,P(A |B)是验后概率。11. 0-1分布:Px)pxq1-x, x 0,1。0-1分布也称为两点分布,即非 A即B。关于是否的概率统统是0-1分布。性别。12.二项分布:现实生活中,许多事件只是具有两种互斥结果的离散变量。如男性和女性、某种化验结果的阴性阳性,这就是二项分布。PX x)
4、C:pxqn-x。参数为n,p,记为XB(n, p)。E(X)=np,D(X)=npq。当成功的概率很小,而试验次数很大时,二项分 布接近泊松分布,此时=np。即P20, npw 5。二项定理近似服从正态分布 二项分布是0-1分布的n重实验,表示含量为n的样本中,有X个所需结果的概率。13.二项分布的正态近似:(b) -( a),其中 a= x1_Jn pq概率密度满足的条件:(1) f(x) 0; (2)f(x)dx 1 o连续型随机变量的概率密度b是其分布函数的倒数。f(x) Rb)-Ha) o Ex)axf(x)dxDx)2x - E(x) f(x)dx正态分布(normal distr
5、ibution):正态分布的概率密度为:f(x)于x=标准正态分布,即在正态分布中,为:2DX) EX-E(X)2标准差:随机变量的方差的平方根为标准差, 同的度量单位。记DX) o标准差与随机变量X有相n n- m超几何分布:px 2)CC?。即二项分布中,无放回的情况。CN泊松分布(poisson distribution):用来描述在一指定时间范围内或在指定的面积之内某事件出现的次数的分布。如某企业中每月发生的事故次数、 单位时间内到达某一服 务柜台需要服务的顾客人数、人寿保险公司每天收到的死亡声明个数、某种仪器每月出一xe-现故障的次数等。公式为:RX) - ,E(X)= ,D(X)=
6、。是给定时间间隔内事x !件的平均数。n期望:各可能值Xi与其对应概率Pi的乘积之和为该随机变量X的期望,即XiPi oi 1 F。记作 X( ,2)正态分布图形特点:(1) f(x) 0,即整个概率密度曲线都在x轴上方;(2) f(x)相对用表示分布函数,表示概率密度。(-x)=1-(x)方差:即每个随机变量取值与期望值的离差平方的期望值。随机变量的方差计算公式Xi - E X) 1 2PiE(X2) - E(X)2i 11 一对称,并在x=处取到最大值,最大值为 -;(3)曲线的陡缓由c决定,V2c越大,越平缓,c越小,曲线越陡峭;(4)当x趋于无穷时,曲线以x轴为渐近线。 正态分布的例子
7、:某地区同年龄组儿童的发育特征、某公司的销售量、同一条件下产 品的质量以平均质量为中心上下摆动、特别差和特别好的都是少数,多数在中间状态, 如人群中的高个子和矮个子都是少数,中等身材居多等。15.16.17.18.19.20.21.22.23.24.25.=0,c =1,有 f(x),即 XN( 0,1 )可以认为X的值一定落在(-3 c ,+3 c )内。28.矩:(1)Xk为样本k阶矩,其反映出总体k阶矩的信息,当k=1时,即均1值;(2) Vk(X1-X)k为样本k阶中心矩,它反映出总体k阶中心矩的信息,当k=2时,即方差;(3)nn (Xii 1n(Xii 13X)为样本偏度,它反映总
8、体偏度的信息,偏X)26.期望、标准差、离散系数的使用:如果期望相同,那么比较标准差;如果期望不同, 那么比较离散系数。27. 3c准则:由标准正态分布得:当 XN(0,1 )时,P(|X| 1)=2(1)-1=0.6826 ; P(|X| 2)=2(2)-1=0.9545 ; P(|X| 3)=2(3)-仁0.9973.这说明 X 的取值几乎全部集中在-3,3之间,超出这个范围的不到 0.3%。将结论推广到一般正态,即 XN( , c)时,有 P(|X-| c ) =0.6826 ; P(|X-| 2 c) =0.9545 ; P(|X-| 2 ; D(X)=一厘 n,n4n(n - 2)(
9、 n - 4)X服从t(n)分布,则X2服从F(1,n)的F分布。2),则样本方差S的分布为:2(n - 1)S2yi, y2,,yn 也吠-X;)2 2DX1)DX2)12 ;若是两个样本,贝U:n1n2A AEP1- P2)12 ;AADP1- P2)1(11)2d2)n2。样本方差的分布:设Xi, X2,,X.为来自正态分布的样本,则设总体分布为 N( ,(T两个样本方差比的分布:设 Xi, %, Xn是来自正态分布的样本, 是来自正态分布的样本,且 X与yi独立,则1, .2 - 1)参数估计(parameter estimation ):用样本统计量去估计总体的参数。点估计(poin
10、t estimate ):用样本统计量的某个取值直接作为总体参数的估计值。区间估计(interval estimate):是在点估计的基础上,给出总体参数估计的而一个区间范围,该区间通常由样本统计量加减估计误差得到。置信区间(con fide nee in terval):在区间估计中,由样本统计量所造成的总体参数的估计区间称为置信区间。置信水平(con fide nee level ):如果将构造置信区间的步骤重复多次,置信区间中包 含总体参数真值的次数所占的比例为置信水平,也称为置信度或置信系数。其含义为: 如果做了 100次抽样,大概有95次找到的区间包含真值,而不是 95%勺可能落在区
11、间, 因为统计量不涉及概率问题。无偏性(inbiasedenss ):指估计量抽样分布的期望等于被估计的总体参数。设总体参 数为估计量为B A,如果E( 9 A)=则称B A为B的无偏估计量。有效性(efficiency ):指对同一总体参数的两个无偏估计量,有更小标准差的估计量 更有效。一致性(consistency ):指随着样本量的增大,点估计量的值越来越接近被估总体的 参数,换个说法,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参 数。样本量与置信水平、总体方差和估计误差的关系:样本量与置信水平成正比,在其他 条件不变的情况下,置信水平越大,所需的样本量也就越大;样本量与
12、总体方差成正比, 总体的差异越大,所要求的样本量也越大;样本量与估计误差的平方成反比,即可接受 的估计误差的平方越大,所需的样本量就越小。圆整法则:将样本量取成较大的整数,也就是将小数点后面的数值一律进位成整数。两类错误:一类是原假设 H0为真却拒绝,这类错误用a表示,称为弃真;另一类是原 假设为伪而我们却接受,这种错误用B表示,也称存伪。两类错误的控制原则:如果减小a错误,就会增大犯B错误的机会;若减小B错误, 也会增大犯a错误的机会。规则是:首先控制a错误,这是因为原假设是什么常常是明42.43.44.45.46.47.48.49.50.51.52.53.54.55.56.57.58.59
13、.&/ i2口确的,而备择假设是什么则常常是模糊的。60. P值:P值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。P值越小,拒绝原假设的理由就越充分。P值的长处是它反映了观察到的实际数据与原假设之 间不一致的概率值。61.双侧检验与单侧检验:双侧检验主要是检验是否相等,如90年的婴儿体重与89年婴儿体重是否相等;另一种是单侧检验,即关心的假设问题带有方向性,如灯泡的使用寿命,汽车行驶距离等;另一种是数值越小越好,如废品率、生产成本等。62.统计量的选择:在一个总体参数的检验中,主要统计量有三个,z、t和2 o z和t用于均值和比例检验,2用于方差检验。统计量选择步骤如下:(1)
14、是否是大样本,如果是,那么如果总体呈正态分布,样本统计量也呈正态分布;如果总体不呈正态分布, 样本统计量渐进服从正态分布;此时可以使用z统计量(2)如果是小样本,那么观察c,如果c已知,样本统计量将服从正态分布,此时可以用z统计量(3)如果未知c,则只能使用样本标准差,样本统计量服从 t分布,应采用t统计量。t统计量的精度不 如z统计量,这是总体信息c未知所需要付出的代价。63.总体比例检验公式:z | P _ 0 o P为样本比例,n 0是总体比例n的假设值。(1 - 0)X n64.总体(population ):包含所研究的全部个体的集合,组成总体的每一个元素称为个体。 当总体的范围难以
15、确定时,可根据研究的目的来定义总体。65.样本(sample):样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称 为样本量。66.参数(parameter):参数是用来描述总体特征的概括性数字度量。67.统计量(statistic ):统计量是用来描述样本特征的概括性数字度量。抽样的目的就 是根据样本统计量估计总体参数。统计量中不能包含未知参数。68.变量(variable ):说明现象某种特征的概念,特点是从一次观察到下一次观察结果会 呈现出差别或变化。变量分为分类变量、顺序变量、数值型变量,数值型变量又分为离 散型变量和连续型变量。69. 概率抽样(probability sa
16、mpling):也称随机抽样,指遵循随机原则进行的抽样,总 体中每个单位都有一定的机会被选入样本。概率抽样分为简单随机抽样、分层抽样、整 群抽样、系统抽样和多阶段抽样。70.简单随机抽样(simple random sampling ):从包括总体N个单位的抽样框中随机的一 个一个的抽取n个单位作为样本,每个单位的入样概率是相等的。71. 非概率抽样(non- simple random sampling):指抽取样本时不依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。包括方便抽样、判断抽样、自愿样本、滚雪球抽样和配额抽样。72.抽样误差(sampli
17、ng error ):指由于抽样的随机性引起的样本结果与总体真值之间的 误差。73.频数(frequency ):是落在某一特定类别或组中的数据个数。把各个类别及落在其中 的相应频数全部列出,并用表格形式表现出来,称为频数分布。74.列联表(contingency table )和交叉表(cross table ):由两个或两个以上变量交叉 分类的频数分布表称为列联表。二维的列联表又称为交叉表。75.帕累托图(pareto chart ):按各类别数据出现的频数多少排序后绘制的条形图。通过 对条形图排序,容易看出哪类数据出现得多,哪类数据出现的少。76.饼图(pie chart ):是用圆形及
18、圆内扇形的角度来表示数值大小的图形,它主要用于 表示一个样本中各组成部分的数据站全部数据的比例,对于研究结构性问题十分有用。77.环形图(dough nut chart):把饼图叠在一起,挖去中间部分就是环形图。环形图可显 示多个样本部分所占的相应比例,从而有利于构成的比较研究。78.累积频数(cumulative frequencies):将各种有序类别或组的频数逐级累加起来得到的频数,通过累积频数可以很容易看出某一类别以下或某一类别以上的频数之和。79.组中值(class midpoint ):是每一组中下限值与上限值中间的值,组中值可以作为该组数据的一个代表值,但是用组中值有一个必要的假
19、定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布,否则会产生误差。80.直方图(histogram):适用于展示分组数据分布的图形,用于大批量数据的分析。81.茎叶图(stem-and-leaf display):反映原始数据分布的图形,由茎叶两部分组成,其图形是由数字组成的。可以看出数据的分布形状及数据的离散情况且能保留原始信 息,适用于小数据。82.箱线图(box-plot ):由最大值、最小值、中位数、两个四分位数组成,主要用于反应 原始数据分布的特征,还可以进行多组数据分布特征的比较。83.线图(line plot ):主要用于反应现象随时间变化的特征。84.散点图(sca
20、tter diagram ):用二维坐标展示两个变量之间关系的图形。85.气泡图(bubble chart ):可用于展示三个变量之间的关系。一个变量是横轴、一个变 量是纵轴、一个变量用气泡大小表示。86.雷达图(radar chart ):也称蜘蛛图。设有n组样本S1,S2 - Sn,每个样本测得P个变量X1, X2XP,要绘制这P个变量的雷达图,具体做法是,先画一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,再将这P个点与圆心连线,得到P 个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上 的点到圆心的距离表示,再将同一样本的值在P个坐标上的点连线
21、。这样,n个样本构成的n个多边形就是雷达图。雷达图在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号,贝U总的绝对值与图形所围成的区域成正比。此外,禾U用雷达图可以研究多个样本之间的相似度。87.众数(mod : 组数据中出现次数最多的变量值,用Mo表示。主要用于测度分类数据、顺序数据、数值数据的集中趋势,不受极端值影响,一组数据分布的最高峰点所对应的 数值即为众数。只有在数据量较大时,众数才有意义。88.中位数(median):中位数时一组数据排序后处于中间位置上的变量值,用Me表示。中位数主要用于测度顺序数据和数值型数据的集中趋势,但不适用于分类数据。中位数位1置为:
22、(n + 1) /2 ;中位数的值为M Xg 1)/2),2仪5/2)X(n/2 1)。中位数是一个位置代表值,其特点是不受极端值影响,在研究收入分配时很有用。89.平均数也称为均值(meat),是集中趋势的最主要测度值,主要适用于数值型数据,不适用于分类数据和顺序数据。平均数分为简单平均数和加权平均数,简单平均数(simplemean的计算公式为:xxiX2Xnxi。根据分组数据计算的平均数称为n加权平均数(weighted mearh设原始数据被分为k组,各组的组中值分别用M,%, Mk表示,各组变量值出现的品数分别用f2 , fk表示,则样本加权平均数的计算公式为:n_M|fixM独沁
23、j ,其中n= fj。平均数是一组数据的重心所在,nn是数据误差相互抵消后作用的结果。90.几何平均数(geometric mean ):是n个变量值乘积的n次方根,用G表示,计算公式nXi。几何平均数主要用于计算平均率,当所i 1掌握的变量值本身是比率的形式时,采用几何平均法更合理。在实际中,几何平均数主 要用于计算现象的平均增长率。91.异众比率(variation ratio ):指非众数组的频数占总频数的比例,用Vr表示,计算公式为:V 一、 1如 fm是众数组的频数,fi是变量值的总频数。异fifi众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的
24、比重越大,众数的代表性越差;异众比率越小,非众数组的频数占总频数的 比重越小,众数的代表性越好。异众比率可用于分类数据、顺序数据和数值型数据。92.四分位差(quartile deviation ):也称为内距或四分间距(inter-quartile range):是上四分位数与下四分位数之差,用Q表示,计算公式为:QdQ - Q。四分位差反映了中间50%据的离散程度,其数值越小,中间的数越集中;数值越大,中间的数越 分散。四分位数不受极值影响。可用于顺序数据和数值数据,但不能用于分类数据。93.极差(range):也称为全距,用 R表示,指一组数据的最大值和最小值之差。计算公 式为:R ma
25、x (xj - min (xj。极差容易受极端值影响。94.平均差(mean deviation ):也称为平均绝对离差(mean absolute deviation ):是各变量值与其平均数离差绝对值的平均数。用Md表示。平均差以平均数为中心,反应了每个数据与平均数的平均差异程度,能全面反应一组数据的平均差异程度,但由于为避 免出现0而取绝对值,所以实际中应用较少。n_Xi - X95.根据未分组数据计算平均差的公式为:Md样本方差的公式为:s2s2当样本数据的个数为夫不等式公式为:P (X- EXDX根据该公式可知,至少有(1-1/2)个数据kM - Xfj96.根据分组数据计算平均差的
26、公式为:Md -on97.方差(varianee )与标准差(standard varianee ):方差是各变量值与其平均数离差平方的平均数。方差的平方根是标准差。设样本方差为S2,根据分组和未分组数据计算k_(M - X)%i 1,其中n-1是自由度。标准差更具有实际意义98.自由度(degree of freedom ):自由度指附加各独立的观测值的约束或限制的个数。n时,若样本平均数x确定后,则附加给n个观测值的约束个数是1个,因此只有n-1个数据可以自由取值。例如,假定样本有3个数,2,4,9,则x=5.那么如果前两个值取5和8,则第三个数必须取2才能使X=5,所以有一个数是不能自
27、由取值的,所以自由度是n-1。99.标准分数(standard score ):是变量值与其平均数的离差除以标准差后的值,也称为X - X标准化值或z分数,计算公式为:Zi-。标准分数给出了一组数据中各数值的s相对位置。比如,如果某个数值的标准分数为-1.5,就知道该数值低于平均数1.5倍的 标准差。标准分数具有均值为0,标准差为1的特性,实际上z分数只是对数据进行了 线性转换。用于数据标准化和检测离散数据。100.经验法估计数据的相对位置:当一组数据对称分布时,约有68%勺数据在平均数土1个标准差内;约有95%勺数据在平均数土 2个标准差内;约有99%勺数据在平均数土 3 个标准差内。三个标
28、准差之外的数据称为离群点。101.切比雪夫不等式(Chebyshev s in equality ):经验法只适合对称分布数据,而切比雪夫不等式适用于任何分布的数据,但只给了下界,即所占比例至少是多少。切比雪落在k个标准差之内,对于k=2,该不等式的含义是,至少有 75%勺数据落在土 2个标 准差之内。102.离散系数:也称为变异系数(coefficient of variation),是一组数据的标准差s与其相应的平均数之比,计算公式为:vs=。离散系数是测度数据离散程度的相对X统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度 大。离散系数是比较平均水平不同或计量
29、单位不同的不同组别的变量值的离散程度。103.离散测度总结:分类数据主要用异众比率来测度离散程度;顺序数据主要用四分位数的公式为:SKn 任-x)33 ,(n 1)( n2)s3SKk_(M - X)3fiJ 3。如果一组数据的分布是对ns(n - 1)( n - 2)( n - 3)s4期望值频数,f0表示观察值频数。计算出2以后,再根据附录表和显着性水平计算显著性水平 (2值取整)。如果2 v(2值取整),那么不能拒绝原假设,调查数据的差异性是由于抽样的随机性造成的。2越小,行列之间关系越密切。数来测度离散程度;数值数据主要用方差和标准差测度离散程度;而对于不同的样本数据,用离散系数比较离
30、散程度。104.偏态(skewness):偏态是对数据分布对称性的测度。测度偏态的统计量是偏态系 数(coefficient of skewness),记作SK)根据未分组和分组的原始数据计算偏态系称的,则偏态系数等于0,表明分布是对称的,若偏态系数大于 1或小于-1,则称为高 度偏态分布;若偏态系数在0.51或-1-0.5,则是中等偏态分布。根据分组的SK公式中,很明显是将离差的三次方的平均数除以s3,是将偏态系数转化为相对数。105.相对数:是两个有联系的指标的比值,它可以从数量上反映两个相互联系的现象之 间的对比关系。106.峰态(kurtosis ):是对数据分布平峰或尖峰程度的测度。
31、测度峰态的统计量是峰态系数(coefficient of kurtosis ),记作K。峰态通常与标准正态分布比较而言的。 如果数据服从标准正态分布,则峰度为 0,否则为平峰分布或尖峰分布。根据未分组和 分组数据计算峰态系数的公式为:K “ (Xi-x)4-3 (22(n-1),k_(M - x)4fi107.K.J 4- 3。当K0时为尖峰分布,数据的分布更集中;当 K0.8,说明盖度相关;0.5-0.8 明低度相关,rv0.3,说明不相关。148. r的显着性检验方法:(1)提出假设:H):p =0; Hi:147. rpH 0; (2)计算检验的统计不高。斯皮尔曼系数用rR表示,公式为:
32、g12(3)成了变量之间关系的不确定性。变量之间存在的不确定的数量关系称为相关关系。145.相关的种类:线性相关、非线性相关、完全相关和不相关。如果变量之间的关系近 似的表现为一条直线,那么是线性相关;如果变量之间的关系近似的表现为一条曲线, 那么是非线性相关或曲线相关;如果一个变量完全依赖于另一个变量,各观测点落在一 条直线上,称为完全相关;如果两个变量的观测点很分散,无任何规律,那么是不相关。146.相关系数(correlation coefficient ):是根据样本数据计算的度量两个变量之间量。若相关系数是根据总体全部数据计算的,称为总体相关系数, 若是根据样本数计算的,则称为样本相
33、关系数,记为r。计算公式为:n xy - x yR=0只代表无线性关系,说明中度相关,0.3-0.5说n - 2-2 t (n - 2) ; (3)决策:根据给定的a和 df= n-2,查t分布表,.1 - r得出t a /2 5-2)的临界值。若|t|t a/2,则拒绝零假设,表明总体的两个变量之间存在 显着性管系。149.斯皮尔曼相关系数(Spearmar):该系数用来度量顺序水准变量间的线性相关关系。它是利用两变量的秩次大小作线性分析。适用条件有二:第一,两个变量的变量值是以 等级次序表示的资料;(2) 个变量的变量值是等级数据,另一个变量的变量值是等距 或比率数据,且两总体不要求是正态
34、分布,样本容量不一定大于30。缺点是计算精度6D21 -2 ,其中D是两个变量每对n( n2 - 1)数据等级之差;n是两列变量值的对数。150.肯德尔系数(kendall ):肯德尔等级相关系数用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。这种指标采用非参数检验方法测度变量间的相关关 系,禾U用变量的秩计算一致对数目和非一致对数目。如果两变量具有较强的正相关,贝U 一致对数目U较大,否则一致对数目和非一致对数目应该相近。肯德尔系数计算公式如下:(U- V) 2 n(n - 1)151.偏相关分析:其是在扣除其他因素的作用大小以后,重新来测度这两个因素间的关联程度。这种方法的
35、目的在于消除其他变量关联性的传递效应。偏相关系数计算公式为:ri2 - r13r232 2。:1 - r13. 1 - r23152.距离分析:距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度,根据变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。但由于距离分 析只是一个预分析过程,所以距离分析不会给出P值,而只能给出各变量/记录间距离的大小,以供用户自行判断相似性。调用距离分析过程可对变量内部各观察单位间的数公式为在回归分析中对截距B 0不赋予值进行距离相关分析,以考察相互间的接近程度,也可用于考察变量的相似程度。在距 离分析中,主要利用变量间的相似性测度和不相似性测度
36、度量研究对象之间的关系。153.回归分析:侧重于测度变量之间的关系强度, 并通过一定数学表达式将这种关系描 述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。154.回归分析解决的问题:(1)确定变量之间的表达式;(2)对关系式的可信程度进行检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显着的,那些是不显着的;(3)预测。155.自变量和因变量:被预测或被解释的变量称为因变量;用来预测或用来解释因变量的变量称为自变量。如预测一定的贷款余额条件下的不良贷款是多少,被预测的不良贷 款,是因变量,用来预测的是贷款余额,是自变量。156.一元线性回归:当回
37、归中只涉及一个自变量时称为一元回归,若因变量y与自变量x之间的为线性关系时,是一元线性回归。157.回归模型(regression model ):描述因变量y如何依赖于自变量x和误差&的方程称为回归模型。只涉及一个自变量的一元线性回归模型可表示为y= B o+B伙+ 。158.误差项是一个服从正态分布的随机变量,且独立,即&N(0,c2)。独立性意味着对于一个特定的x值,它所对应的&与其他x所对应的&不相关。因此,对于一个 特定的x值,它所对应的y值与其他x所对应的y值也不相关。这表明,在x取某个确 定值的情况下,y的观察值非常靠近直线;当c 2较大时,y的观察值将偏离直线。对于 任何一个给
38、定的x值,y都服从期望值为B 0+ B倉,方差为c 2的正态分布,且对于不同 的x都具有相同的方差。159.回归方程(regression equation ):描述因变量y的期望值如何依赖于自变量 x的 方程。一元线性回归方程为:E(y)= B 0+ B伙。AA160.估计的回归方程(estimated regression equation ):用样本统计量 0和j代替AA回归方程中未知参数 0和1,即估计的回归方程。0表示回归直线在纵轴上的截距;1 是回归系数。161.最小二乘估计:用最小化图中垂直方向的离差平方和来估计参数B0和B 1,根据这一方法确定模型参数B 0和B 1的方法称为最
39、小二乘法,也称最小平方法。它是通过/X使用因变量的观察值 yi与估计值yj之间的离差平方和达到最小来估计B 0和B 1的方任何意义。162.拟合优度(goodness of fit ):回归直线与各观测点的接近程度称为回归直线对数 据的拟合优度。为说明直线的拟合优度,需要计算判定系数。163.判定系数:判定系数是对估计的回归方程拟合优度的度量。164.变差:因变量y的取值是不同的,y取值的这种波动称为变差。变差产生的原因有 两个:第一,由自变量x的取值不同造成的;第二,除x以外的其他因素(非线性影响F着;(2)计算检验统计量F:统计量t匕SA1,其中SA12XinSe1(xi )2,Se是&的
40、估计值;(3)决策:确或测量误差等)的影响。对一个具体的观测值来说,变差的大小可以用实际观测值y与其均值y之差(y- y)来表示。而n次观察值的总变差可由这些离差的平方和表示,称为AA2 2 2总平方和,记为SST即SST(yi- y)(yi- y) (y- y)。在该公式中,等号右边后半部分反映y的总变差中由于x和y之间的线性关系引起的y的变化部分, 它是可以由回归直线来解释的 yi变差部分,称为回归平方和,记为 SSR另一部分是 各实际观测点与回归值的残差的平方和,它是除 x对y的线性影响之外的其他因素对y 的变差作用,是不能由回归直线来解释的yi变差部分,称为残差平和和或误差平方和, 记
41、为SSE回归直线拟合的好坏取决于(SSR/SST,各点越靠近直线,比例越大,直线 拟合越好。该比例称为判定系数,记为 R。165.判定系数的判定:若所有观测点都落在直线上,残差平方和SSE=0 R2=1,拟合是2 2完全的;如果y的变化与x无关,x完全无助于解释y的变差,此时,R =0. R越接近 于1,回归平方和占总平方和的比率越大。166.估计标准误差(standard error of estimate ):度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差的平方根,用SE表示,其计算公式为:IA(yi - yi)2/ SSESeV-oJ -F,拒绝H), 表明两个变量之间的
42、线性关系显着;否则,不拒绝Hb,表明没有证据表明两个变量之间线性关系是显着的。170.回归系数检验步骤:(1)提出假设:1=0,即回归系数B 1=0; (2)计算检验定显着性水平a,并根据分子的df=n-2查t分布表,找到响应的临界值t a /2。若|t| t a /2,拒绝H),否则接受H,表明没有证据表明两个变量之间线性关系是显着的。在一元线性回归中,线性的检验和回归的检验是等价的。171. 点估计:对于x的一个特定值xo,求出y的一个估计值就是点估计。点估计可以分为两种:一是平均值的点估计,二是个别值的点估计。前者是对总体参数的估计,后者是对因变量的某个具体取值估计。172.平均值点估计
43、和个别值点估计:平均值点估计是利用估计的回归方程, 对于x的一个特定值X。,求出y的平均值的一个估计值E(y);个别值点估计是利用估计的回归方程,对于x的一个特定值X0,求出y的一个个别值y。在点估计条件下,对于同一个 Xo,平均值的点估计和个别值的点估计的结果是一样的,但在区间估计中不同。173.区间估计:利用估计的回归方程,对于 x的一个特定值Xo,求出y的一个估计值的区间就是区间估计。区间估计有两种:一是置信区间估计,它是对x的一个特定值xo,求出y的平均值的估计区间,这一区间称为置信区间;二是预测区间估计,它是对 x的 一个给定值xo,求出y的一个个别值的估计区间,这一区间称为预测区间
44、。174.置信区间估计(con fide nee in terval estimate)计算步骤:(1)计算点估计值;(2)计算ta/2 (n-2); ( 3)根据残差计算如下公式:即得区间。当X。x时,估计最精确,否则,y的平均值的置信区间就越宽,越不精确。175.预测区间估计(prediction interval estimate):方法与置信区间估计相似,但A2公式变成了 Yo t /2Se 1- W - X),多了一个1,因此预测区间要比置信区n一 2”(Xi - x)间宽。176.四种估计举例:(1)平均值点估计:估计贷款余额为100亿元,所有分行不良贷款 的平均值;(2)个别值点
45、估计:估计贷款余额为72.8亿元的那个分行的不良贷款;(3) 置信区间估计:估计贷款余额为1OO亿元,建立不良贷款的95%勺置信区间;(4)预测 区间估计:估计贷款余额为72.8亿元的那个分行的不良贷款的95%勺置信区间。177.一元线性回归的注意:不能用样本数据之外的x值去预测相应的y值。178.残差分析(residual ):确定有关&的假定是否成立的方法之一是残差分析。179.标准化残差(standardized residual ):对&正态性假定的检验,也可通过对标准化残差的分析来完成。标准化残差是残差除以它的标准差后得到的数值, 也称为皮尔逊 残差或半学生化残差(semi-stud
46、entized residuals ),用Ze表示。第i个观察值的标A准化残差表示为:zei 虫生仏,se是残差的标准差估计。如果误差项&服从正sese态分布这一假设成立,那么标准化残差的分布也应服从正态分布。因此,在标准化残差 图中,大约有95%勺标准化残差落在土 2之间。180.多元回归模型(multiple regression model):设因变量为 y,k个自变量分别为X1,X2Xk和误差&的方程为多元回归模型。公式为 y o 1X1kXk。Ayo_ 2(xo - x)(Xi - x)2i 1181.多元 回 归方 程 (multipleregressi onequati on )
47、: 即E(y) o1X1kXk,它描述了因变量y的期望值与自变量Xi之间的关系。182.多重判定系数(multiple coefficient if determination):是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因 变量y的变差中被估计的回归方程所解释的比例。183.调整的多重判定系数(adjusted multiple coefficie nt of determ in ation):调整的多重判定系数记为R/,计算公式为:尺31(1 R2)(n - 1)。R/与R方n - k - 12 2类似,不同的是Ra同时考虑了样本量n和模型
48、中自变量的个数k的影响,这就使得Ra2的值永远小于R方,而Ra的值却不会由于模型中自变量个数的增加而越来越接近。 此,多元回归用调整的多重判定系数。184.复相关系数:R方的平方根称为复相关系数,或者多重相关系数,它度量了因变量同k个自变量的相关程度3Xi检验统计量:ti187.多元回归系数检验步骤:(1)由度l,分母自由度n-k-1 ,查F分布表,若 提出假设:FFa,则接受原假设。H):B i=0,即回归系数B i=0; (2)计算Se1 2 -(Xi )n,Se是&的估计值;(3)决策:188.多元回归系数的置信区间:189.多重共线性(multicollinearity ):当回归模型
49、中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。多重共线性会带来如下问题:(1)可能会使回归的结果造成混乱,甚至会把分析引入歧途;(2)多重共线性可能对参数估计的正负号 产生影响。190.多重共线性的判别:(1)模型中各对自变量之间显着相关;(2)当模型线性关系检 验(F)显着时,几乎所有回归系数B i的t检验却不显着;(3)回归系数的正负号与预 期相反。191.回归搜寻过程:如果在进行回归时,每次只增加一个变量,并将新变量与已经存在 模型中的变量进行比较, 若新变量引入模型后以前的某个变量的 t 统计量不显着, 这个 变量就会被从模型中剔除,在这种情况下,回归分析就很难存在
50、多重共线性的影响,这 就是回归中的搜寻过程。192.回归分析自变量选择原理及方法: 将一个或多个自变量引入回归模型时, 是否使残 差平方和SSE有显着减少。如果是,则说明应该引入这个变量。标准就是F统计量。变量选择的方法有向前选择( forward selection )、向后剔除( backward elimination )、 逐步回归( stepwise regression )、最优子集( best subset )。193.向前选择:首先对k个自变量分别拟合对因变量y的一元线性回归模型,共有k个, 185.186.A(yi - yi)2多元线性回归的估计标准误差:Se N多元回归线性
51、关系检验步骤:(1)作出假设:H:SSE .- t a /2查t分布表,找到响应的临界值t a /2。若 表明没有证据表明两个变量之间线性关系是显着的。df=n -k-1然后找出F统计量的值最高的模型及其自变量 Xi,并引入模型;然后在已经引入模型的 xi的基础上,再分别拟合引入模型外的 k-1个自变量,挑选出F统计量的值最大的含 有两个自变量的模型,并将 F统计量的值最大的那个自变量 x引入模型。194.向后剔除:对因变量拟合包括所有k个自变量的线性回归模型。然后考察p个去掉 一个自变量的模型,使模型的 SSEfi减少最少的自变量被挑选出来并从模型中剔除。195.逐步回归:是以上两种方法的结
52、合。前两步与前向回归相同,但在增加了一个自变 量后,对模型中所有的变量进行考察,看看有无可能剔除某变量。如果在增加了一个自 变量后,前面增加的某个自变量对模型的贡献变得不显着,这个变量就会被剔除。A196.非线性回归模型: yi y eif(x, ) ei。 f 是期望函数。197.非参数检验: 是不依赖总体分布的统计推断方法。 它是指在总体不服从正态分布且 分布情况不明时, 用来检验数据资料是否来自同一个总体假设的一类检验方法。 适用于 计量信息较弱的资料,几乎什么类型的数据都可以做。2198.非参数检验:用于检验观测数据是否与某种概率分布的理论数值相符合,进而推断观测数据是否是来自于该分布
53、的样本的问题。零假设:样本X来自的总体分布服从2期望分布的某一理论分布。 值越大,观察频数和理论频数距离越远;值越小,观察 频数和理论频数越接近。199.二项分布检验: 就是对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。H0:样本来自的总体与某个指定的二项分布无显着性差异;H:样本来自的总体与某个指定的二项分布有显着差异。二项分布检验要求变量必须是数值型变 量,假如是字符型的,需要对数据进行转化。如果变量不是二元变量,需要设置断点, 将数据分开。200.游程检验:游程可以用来检验任何序列的随机性,而不管这个序列是怎样产生的。 此外, 游程检验还可以用来判断两个总体的分布是
54、否相同, 从而检验出它们的位置中心 有无显着差异。 一个游程就是某序列中同类元素的一个持续的最大主集。 游程数太大或 太小都表示变量值可能不存在随机性现象。201.单样本K-S检验:K-S检验的是利用数据推断总体是否服从某一理论分布,一般来 说它比卡方检验更精确的非参数检验法。 其零假设是: 样本来自的总体与指定的理论分 布无显着差异。202.如何判断两独立样本是否独立?203.看在一个总体中抽取样本对在另一个总体中抽取样本有无影响, 如果没有影响, 则 认为两个总体是独立的。204.数据的秩:简单说就是数据的名次。将数据按升序排序,这时每个具体数据都会有 一个在整个数据中的位置或名次,这就是
55、该数据的秩。205.两独立样本非参数检验方法:曼 -惠特尼 U 检验、 K-S 检验、极端反应检验、游程 检验。206.曼-惠特尼U检验:最常用的两样本秩和检验,零假设是样本所在的两独立总体的 均值无显着差异。 其主要是通过对平均秩判断的。 首先将两组样本数据混合并按升序排 序,求出每个数据各自的秩;然后分别对两组数据的秩求平均,得到平均秩。如果两个 平均秩相差甚远,则可以说明一组样本数据偏小,一组样本数据偏大。207.K-S检验:零假设是两组独立样本所在的两总体分布无显着差异。与单样本K-S检验的区别是:这里是以变量的秩作为分析对象的,而非变量值本身。思路是:首先将两 组样本数据混合并按升序
56、排序, 然后分别计算两组样本秩的累计频率的差, 得到差值序 列,并得到D统计量,计算D的P值,判断零假设是否成立。这种方法检验的是总体分 布情况是否相同,如果只是要检验中心位置是否相同,最好不要选择这种方法。208.极端反应检验: 给出结果是单侧检验。 如果施加的处理使得某些个体出现正向效应, 而另一些个体出现负向效应,应采取该方法。例如,研究居民对电信资费调整下调的反 应,多数人会高兴,而电信行业会感到沮丧。基本思想是:将一组样本作为控制样本, 另一组作为试验样本。 以控制样本作为对照, 检验试验样本相对于控制样本是否出现了 极端反应。如果没有出现,则认为两个总体分布无显着差异。209.游程
57、检验: 检验总体分布情况是否相同, 只要两样本各自所在总体有任何一点分布 上的差别,无论是集中、离散以及其他,它都可以检验出其中的差异。如果只是要检验 中心位置是否相同,最好不要选择这种方法。210.多 独 立 样 本 非 参 数 检 验 方 法 : Kruskal-Wallis H 检 验 、 中 位 数 检 验 、 Joneckheere-Terpstra 检验。211.Kruskal-Wallis H 检验:是曼-惠特尼U检验的推广,重点分析平均秩。212.Joneckheere-Terpstra 检验:该检验对连续性资料或有序分类资料都适用,并当 分组变量为有序分类资料时,此法的检验效
58、能高于 Kruskal-Wallis H 检验,适用分类 资料。213.中位数检验:检验各个样本是否来自具有相同中位数的总体, 三种方法其效能最低。 重点分析中间位置。214.两配对样本非参数检验: 是在对两组配对样本的总体分布不甚了解的情况下, 推断 样本来自的两个总体的分布是否存在显着性差异的方法。 这种检验对两个总体服从的分 布不作要求,但必须是成对出现,且顺序不能随意调换。方法有:符号检验、 Wilcoxon 符号秩检验、McNema检验和Marginal Homogeneity 检验。215.符号检验:样本数据相减所得到的差值应当大致有一半为正,一般为负,数量基本 平衡。检验效能较低
59、,精度较差。该方法更适用于对无法用数字计量的情况进行比较, 比如资料本身就是两分类,对于连续资料最好不要使用。216.Wilcoxon 符号秩检验:是符号检验的改进。它既考虑了样本差数的符号,也考虑 了差数的顺序。首先,按照符号检验的方法,分别将第二组样本的各个观察值减去第一 组样本的各个观察值。如果差值为正,则记为正号,差值为负,则记为负号。然后将差 值数据按升序排序,并求出相应的秩。最后,分别计算正号秩总和,负号秩总和以及正 号平均值和负号平均秩。 如果正号平均秩和负号平均秩大致相等, 则可认为量配对样本 数据正负变化程度基本相当,两配对总体的分布无显着差异。217.McNema检验:是配
60、对卡方检验,只适用于二分类资料,考察重点是两组间分类的 差异。218.Marginal Homogeneity 检验:是 McNemar方法向多分类情况下的扩展,适用于资 料为有序分类的情况。干扰。229.兰氏距离:dj ( L)230.夹角余弦:cos “1 P xia - xja | P a 1 XiaXja |只适合Xij 0的情况pXia Xjaa 1。当cos j =1,说明两个样品完全相同;pp22Xia忌a 1a 1cosij219.多配对样本非参数检验方法:Friedman检验、Kendall协和系数检验、Cochran检 验。220.Friedman检验:利用秩来检验多个总体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年股票投资顾问认证题库与练习
- 2026届黑龙江省哈尔滨市第三中学高一数学第二学期期末综合测试试题含解析
- 2026年汽车维修与保养技术专业能力试题
- 2026年水文监测与环境评估试题含环境指标检测与分析
- 2026年心理咨询师心理评估与干预方法题库
- 2026年环境保护工程师考题大气污染防治与生态保护
- 2026届陕西省洛南县永丰中学高一数学第二学期期末经典试题含解析
- 2026年哲学思想与道德伦理知识试题集
- 2026年语言教师专业发展测试题及答案
- 2026年工程设计知识综合试题
- 情境教学在初中数学教学中的应用研究
- 国家教育事业发展“十五五”规划纲要
- 宁夏的伊斯兰教派与门宦
- 昆虫生态学 第三章种群生态学课件
- 2025年自考00009政治经济学财经类04月真题试卷及答案
- SAP-CO-PC-生产成本核算配置与操作
- 唐河县泌阳凹陷郭桥天然碱矿产资源开采与生态修复方案
- 恐龙无处不有(2024年山东泰安中考语文现代文阅读试题)
- 中考数学专项复习:一次函数、反比例函数、二次函数的图象共存问题(重点突围)(解析版)
- 中学学生社团教师工作手册(完整)
- AQ 1064-2008 煤矿用防爆柴油机无轨胶轮车安全使用规范(正式版)
评论
0/150
提交评论