已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章数据的整理和描述一. 数据的分类:按照描述的事物分类:分类型数据:描述事物的品质特征,本质表现是文字形式(一般不能相加);数量型数据:描述事物的数量特征,用数值形式表示(通常可以相加);日期和时间。按照被描述的对象与时间的关系分类:截面数据:描述事物在某一时刻的变化情况(也叫横向数据);时间序列数据:描述事物在一定的时间范围内的变化情况(也叫纵向数据);平行数据:截面数据与时间序列数据的组合。二.数据的整理和图表显示:数据的整理1.单值分组法: 数据中不同数据的个数不多时用.2.组距分组法:1)定数据范围: 找出最大值max和最小值min;适当取amax; 2)分组定组距: 分成m组,组距c(b-a)/m; 3)定各组界限: 确定每组的上、下限; 4)唱票记频数;5)算出组频率,组中值; 6)制作频数(率)表。数据的图表显示1.饼形图:用来描述和表现各成分或某一成分占全部的百分比。注意,成分份额总和必须是100;比例必须与扇形区域的面积比例一致。2.条形图:用来对各项信息进行比较。(当各项信息的标识(名称)较长时,宜用条形图)。3.柱形图:横轴表示时间,纵轴表示数据大小(常用于时间序列数据)。它可以直观地看出事物随时间变化的情况。4.折线图:明显表示趋势的图示方法。简单、容易理解。5.曲线图:用光滑曲线连接各点,形成一条整体光滑的曲线。6.散点图:用来表现两个变量之间的相互关系,以及数据变化的趋势。7.茎叶图:把数据分成茎与叶两个部分,按一定规律排列。它既保留了所有原始数据,又直观地显示出数据的分布。三.数据集中趋势的度量:平均数:n个数据的算术平均数= 分组数据的加权平均数 其中m为组数,yi为第i组组中值,vi为第i组频数。平均数容易理解,计算;它不偏不倚地对待每一个数据;是数据集的“重心”;缺点是它对极端值十分敏感。中位数:将数据按从小到大顺序排列,处在中间位置上的一个数或最中间两个数的平均数。中位数对极端值不像平均数那么敏感,因此,如果数据含有极端值,用中位数来描述集中趋势比用平均数更为恰当。众数:数据中出现次数最多的数。它反映了数据中最常见的数值,不仅对数量型数据(数值)有意义,对分类型数据也有意义;它能够告诉我们最普遍、最流行的款式、尺寸、色彩等产品特征。缺点是一组数据可能没有众数,也可能众数不唯一。四.数据离散趋势的度量:极差R=max-min。四分位极差=Q3-Q1。第2四分位点Q2=全体数据的中位数;第1四分位点Q1=数据中所有Q2的那些数据的中位数;第3四分位点Q3=数据中所有Q2的那些数据的中位数。四分位极差不像极差R那样容易受极端值的影响,但是仍然存在着没有充分地利用数据所有信息的缺点。方差:反映数据离开平均数远近的偏离程度。n个数据的方差 分组数据的方差 其中m, yi, vi同上, n=n 1vi 是数据的个数, 是分组数据的加权平均数。标准差: (方差的算术平方根,与原来数据的单位相同)变异系数:v(%) (反映数据相对于其平均数的分散程度)两组数据的平均数不同或两组数据的单位不同时用。第二章随机事件及其概率一. 随机试验与随机事件:随机试验:1.可以在相同的条件下重复进行; 2.试验的结果不止一个,但所有可能的结果在试验之前都知道; 3.每次试验之前,不知道这次试验出现哪个结果。样本空间:1.随机试验中每个可能的结果,称为一个基本事件(或样本点); 2.基本事件的全体所组成的集合称为样本空间(是必然事件); 3.若干个样本点组成的集合(即样本空间的子集),称为随机事件(简称事件);事件A发生A中一个样本点出现; 4.只含一个样本点的事件是基本事件,不含任何样本点的事件是不可能事件。样本空间的表示方法:列举法, 描述法。二. 事件的关系和运算事件的关系:1.包含关系:若A发生,则B一定发生(或事件A的样本点都包含在B中),则称事件A含于B(或B包含A),记作A B(或B A)。2.相等关系:若事件A,B所含样本点相同,则称事件A与B相等,记作A=B。事件的运算1.并AB:A发生或B发生(或A,B至少有一个发生)的事件,常记作A+B。2.交AB:A,B同时发生的事件,常记作AB。3.差AB:A发生,但B不发生的事件。互斥事件:事件A,B中若有一个发生,另一个一定不发生(即AB= ),则称事件A,B互斥,否则称A,B相容。对立事件:若事件A,B互斥,且AB是样本空间(即AB=,A+B=),则称事件A,B对立(或互逆)。A的对立事件记作 (即A=, A+ =)。一个常用的等式:A-B=A-AB=A运算律:交换律:A+B=B+A, AB=BA;结合律:(A+B)+C=A+(B+C), (AB)C=A(BC);分配律:(A+B)C=AC+BC, (AB)+C=(A+C)(B+C);对偶律:。三.概率的定义:1.(统计)事件A发生的频率的稳定值称为A的概率,记作 P(A)(0P(A)1)。2.(古典)若随机试验的样本空间只含有限个样本点,且每个样本点发生的可能性相同,则 P(A)= 。3.(几何)设质点落在内任何一点的可能性相同,A,则质点落在A内(记作事件A) 的概率 P(A)= =A的面积。两个基本原理1.加法原理:做一件事,有两类办法,第一类有m种方法,第二类有n种方法,则做完这件事, 共有m+n种方法 (可以推广到有多类办法的情况);2.乘法原理:做一件事,分两步来做,第一步有m种方法,第二步有n种方法,则做完这件事, 共有mn种方法 (可以推广到多个步骤的情况)。排列:从n个不同元素中任取r个,按照一定的顺序排成一列, 称为从n个不同元素中任取r个的一个排列。所有排列的个数, 称为从n个不同元素中任取r个的排列数,记作Pr n。组合:从n个不同元素中任取r个,不管怎样的顺序合成一组, 称为从n个不同元素中任取r个的一个组合。所有组合的个数, 称为从n个不同元素中任取r个的组合数,记作Cr n。显然P1 n=C1 n=n, Cn n=1。四. 概率的性质:0P (A)1, P()=0, P()=1。五. 条件概率:在事件B(假定P(B)0)发生的条件下,事件A发生的概率称为A对B的条件概率,记作 P(A|B)。计算公式 P(A|B)= ;六. 概率公式:1.互逆概率:对任意事件A,P(A)+P()=1;2.加法公式:P(A+B)=P(A)+P(B)-P(AB)可以推广到有限个事件的并的情形,如: P(A+B+C)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)3.减法公式:P(A-B)=P(A)-P(AB)特别地, 当AB时, P(A-B)=P(A)-P(B);4.乘法公式:P(AB)=P(A)P(B|A),P(A)0;5.全概公式:设事件A1, A2, An两两互斥, A1+An,且P(A1)0, , P(An)0, 则对任意事件B,有P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)+P(An)P(B|An);6.贝叶斯公式:条件同上,则对任意事件B (P(B)0),有P(Ai|B)=, i=1,2,n,(分母中的 P(B) 用全概公式求)。第三章随机变量及其分布一. 取值带有随机性,但取值具有概率规律的变量称为随机变量。二.离散型随机变量:取值可以逐个列出。分布律 P(xi)=pi, i=1,2,或 Xx1x2pp1p2数学期望:1.定义:EX=xipi (以概率为权数的加权平均数) ;2.性质:Ec = c (常数期望是本身)E(aX) = aEX (常数因子提出来)E(aX+b) =aEX+b (一项一项分开算)方差:1.定义:DX=E(X-EX)2=(xi-EX)2pi;2.性质: Dc =0 (常数方差等于0)D(aX) =a2DX (常数因子平方提)D(aX+b)=a2DX (一项一项分开算)3.公式:DX=E(X2)-(EX)2 (方差=平方的期望-期望的平方);常用离散型随机变量:1.(0-1)分布:1) 随机变量X只能取0,1这两个值;2) XB(1,p);3) EX=p, DX=p(1-p)2.二项分布:1) 分布律P(X=k)=Ck npk(1-p)n-k, k=0,1,2,n;2) XB(n,p) ;3) EX=np, DX=np(1-p)4)适用:随机试验有两个可能的结果(A或),且P(A)=p,将该试验独立重复n次。3.泊松分布:1) 分布律:P(X=k)=, k=0,1,2,0;2) XP();3) EX=, DX=;4)适用:在指定时间段(或指定范围)内某事件发生的次数。三. 连续型随机变量:取某个范围内的一切实数。X的密度函数f(x):1) 对任意实数x, f(x)0;2) 对任意实数ab, P(a0XE()正态分布XN(,2)2标准正态分 布XN(0,1)01正态分布的密度曲线y=p(x)是一条关于直线x=的对称的钟形曲线,在x=处最高,两侧迅速下降,无限接近x轴;越小(大),曲线越尖(扁)。标准正态分布的密度曲线 y=(x) 是关于y轴对称的钟形曲线。随机变量的标准化(减去期望除标差)。标准化定理:设XN(,2), 则Z=N(0,1)。四. 二维随机变量:用两个随机变量合在一起 (X,Y) 描述一个随机试验,(X,Y)的取值带有随机性,但取值具有概率规律,则称 (X,Y) 为二维随机变量。X,Y的协方差:cov(X,Y)=E(X-EX)(Y-EY)=E(XY)-EXEY协方差cov(X,Y)的正负反映X,Y之间相关关系的方向。cov(X,Y)0 表示X与Y之间存在一定程度的正相关关系;cov(X,Y)0 表示X与Y之间存在一定程度的负相关关系;cov(X,Y)=0 称作X与Y不相关。X,Y的相关系数:rXY= (-1rXY1)相关系数rXY反映X,Y之间的线性相关的程度。rXY越接近1, 表明X,Y之间的正线性相关程度越强;rXY越接近-1,表明X,Y之间的负线性相关程度越强;rXY=0,X与Y不相关。随机变量的线性组合:1. E(aX+bY)=aEX+bEY2. D(aX+bY)=a2DX+2abcov(X,Y)+b2DY五.决策准则与决策树:对不确定的因素进行估计,从几个方案中选择一个,这个过程称为决策;决策三准则:1.极大极小原则:将各种方案的最坏结果(极小收益)进行比较,选择极小收益最大的方案;2.最小期望损失原则:选择期望损失最小的方案;3.最大期望收益原则:选择期望收益最大的方案。决策树:把不确定因素下的决策过程用图解的形式表示出来,简单、直观。第四章抽样方法与抽样分布一、抽样基本概念:1.总体:研究对象的全体;2.个体:组成总体的每一个个体;3.抽样:从总体中抽取一部分个体的过程;4.有放回抽样(各次抽取相互独立),不放回抽样(各次抽取不相互独立)。5.样本:从总体中抽出的一部分个体构成的集合;6.样本值:在一次试验或观察以后得到一组确定的值;7.随机样本:个体被抽到的可能性相同;相互独立;同分布。二、抽样方法:简单随机抽样:总体中有n个个体,从中抽取r个个体作为样本,使得所有可能的样本都有同样的机会被抽中(r称为样本容量)。有放回抽样的样本个数为nr;无放回抽样的样本个数为Cnr。系统抽样(等距抽样):将总体中的个体按照某种顺序排列,按照规则确定一个起点,然后每隔一定的间距抽取个体作为样本。分层抽样:在抽样之前将总体划分为互不交叉重叠的若干层,然后从各个层中独立地抽取一定数量的个体作为样本。整群抽样:在总体中由若干个个体自然或人为地组成的群体称为群,抽样时以群为抽样单位,对抽中的各群的所有个体进行观察。三、抽样中经常遇到的三个问题:1.抽样框选取不当;2.无回答:处理无回答常用的方法: 注意调查问卷的设计和加强调查员的培训;进行多次访问;替换无回答的样本单元;对存在无回答的结果进行调整。3.抽样本身的误差。1)抽样误差(样本指标与被估计的总体相应指标的差)与抽样标准误差(抽样误差的标准差); 2)非抽样误差与偏差。四、抽样分布与中心极限定理:不含任何未知参数的样本的函数称作统计量。常用的统计量1.样本均值: ;2.样本方差: ;(注意是除以n-1,其中n是样本容量)3.样本标差: 。统计量的分布叫做抽样分布。样本均值的期望与方差:设随机变量量X1,Xn独立同分布,且EXi=,DXi=2,i1,2,n,则;即,样本均值的期望=总体均值, 样本均值的方差=总体方差/样本容量。中心极限定理:设随机变量X1,Xn独立同分布,且EX1=EXn=,DX1=DXn=2, 则 。即,大样本(样本容量n30),不论原来总体服从什么分布,样本均值都近似服从正态分布。五、常用的抽样分布1.样本均值的分布: 样本均值的期望与方差总 体抽样方式有限总体有放回抽样不放回抽样无限总体任意当有限总体不放回抽样5% 时,修正系数1,样本均值的方差可以简化为 。2.样本比例的分布: 样本比例的期望与方差总 体抽样方式EPDP有限总体有放回抽样p不放回抽样无限总体任意当有限总体不放回抽样 2(n)=分布XN(0,1),Y2(n), 独立. t=X/tt(n)Ptt(n)=F分布U2(m), V2(n), 独立. F=FF(m,n)PFF(m,n)=七、几种重要统计量的分布:设XN(,2), X1,Xn 是X的样本,样本均值,样本方差:1.t分布:;2.2分布:;3.设X1,Xm; Y1,Yn分别是 N(1,12) ,N(2,22) 的样本,且相互独立,则:, , 第五章参数估计一、参数的点估计设总体分布中含有未知参数,从总体中抽取一个样本X1,Xn,用来估计未知参数的统计量 (X1,Xn) 称为的一个估计量。若x1,xn是样本的一组观察值,则称(x1,xn) 为参数的一个点估计值。估计量的评价标准:1.无偏性:设 是总体未知参数的估计量,若则称是的无偏估计量。 样本均值是总体均值的无偏估计量:E=;样本方差S2是总体方差2的无偏估计量:ES2 =2;样本比例 P是总体比例p 的无偏估计量: EP = p。正态总体的样本均值 是总体均值的有效估计量。3.一致性:若样本容量增大时,估计量的值越来越接近未知参数的真值,则称致估计量。样本均值是总体均值的一致估计量;样本方差是总体方差的一致估计量;样本比例是总体比例的一致估计量。二、参数的区间估计:设是总体分布中的未知参数,X1,Xn是总体的一个样本,若对给定的(01),存在两个估计量1(X1,Xn) 和 2(X1,Xn),使,则称随机区间(1,2)为参数的置信度为1的置信区间,。称为显著水平。意义:随机区间 (1,2) 包含真值的概率是1。三、总体均值的置信区间 总体分布样本量已知未知正态分布大样本S代小样本非正态分布大样本S代总体比例的区间估计(置信度1-)样本量抽样方式置 信 区 间大样本有放回抽样不放回抽样两个总体均值之差的置信区间(置信度1-)总体分布样本量已知未知正态分布大样本S1代1, S2代2小样本非正态分布大样本S1代1, S2代2两个总体比例之差 p1p2 的置信区间(置信度1):样本容量的确定抽 样 方 式置信区间(置信度1)绝 对 误 差样 本 容 量有放回抽样(或抽样比0(右侧检验) 拒绝域: Z z H0:0H1:0Z z0t t(n-1)p0Z zp2Z z12t t(m+n-2)1p2Z zp1p2Z-z第七章 相关与回归分析一、相关分析:线性相关:变量的关系近似线性函数;1 正线性相关:变量同向变化;2 负线性相关:变量反向变化;非线性相关:变量的关系近似非线性函数;完全相关:变量的关系是函数关系;1 完全线性相关:变量的关系是线性函数;2 完全非线性相关:变量的关系是非线性函数;不相关:变量之间没有任何规律。协方差:cov(X,Y)=E(X-EX)(Y-EY)=E(XY)-EXEY总体相关系数:简单相关系数:r=,(x1,y1),(xn,yn)是总体(X,Y)的n对观察值r反映两个变量之间线性相关的密切程度。lxy=xiyi-n, lxy=xi2-n, lyy=yi2-n二、一元线性回归:1.如果可以近似地用函数来描述变量之间的相关关系,则称该函数为回归函数;2.若回归函数是线性(一次)函数,则称为线性回归函数;3.若两个变量之间的回归函数是线性函数,则称为一元线性回归函数(其图形称为回归直线);4. 回归直线,其中b=lxy/lxx 称为斜率(或回归系数), 称为截距。5.平方和分解公式 SST = SSE + SSR ( SST=lyy, SSR=b2lxx )总变差平方和 = 剩余平方和 + 回归平方和总变差平方和:反映 y1,yn 的分散程度;回 归 平 方 和:反映由于x1,xn 的分散性引起的 y1,yn 的分散程度;剩 余 平 方 和:反映其他因素引起的 y1,yn 的分散程度。6判定系数:r2=(回归平方和占总变差平方和的比例) = (相关系数r)27.判定系数的意义0r21SSE意 义r20SSE=SSTx的变化与y无关,x,y没有线性相关关系r21SSE0,观察点接近回归直线,x,y高度线性相关r21SSE0,观察点落在回归直线上,x,y完全线性相关 最小二乘法:使因变量的观察值yi 与估计值之差的平方和SSE(剩余平方和)达到最小来求得a和b的方法,即 SSE=(yi-)2=(yi-a-bxi)2=min。8.估计标准误差: sy=9.y0的点估计与区间估计::给定x=x0y0的点估计:个别值 y0 的预测区间: ;平均值Ey0的置信区间: 。多元线性回归和非线性回归:多元线性回归:= b0+ b1x1+ bkxk bi表示在其它变量不变的条件下,xi增加1个单位时,y平均变动bi个单位.平方和分解公式: SST = SSE + SSR多重判定系数 R2=SSR/SST=(多重相关系数R)2 意义:因变量的总变差中,有 R2 (%)可以由回归方程来解释。估计标准误差: 意义:用 x1,xk 来预测因变量y, 平均预测误差为 sy个单位。可线性化的非线性回归:名 称方 程变量代换线性回归双曲函数y=a+bx=y=a+bx对数函数y=a+blogxx=logxy=a+bx幂函数y=Axby=logy, x=logx, a=logAy=a+bx多项式函数y=b0+b1x1+bkxkx1=x,x2=x2,xk=xky=b0+b1x1+bkxk第八章 时间数列分析一、时间数列的分类绝对数时间数列 时期数列观察值反映现象在一段时期内的总量(可以直接相加)。 时点数列观察值反映现象在某一时刻上的总量(通常不能相加)。相对数时间数列:两个同类的绝对数的比形成的时间数列(无单位,通常用百分数表示)。平均数时间数列:两个不同类绝对数的比形成的时间数列(有单位)。二、时间数列的序时平均数1.现象在各个时间上的观察值称为发展水平(反映现象的规模和发展的程度)。2.各个时期发展水平的平均数称为平均发展水平(序时平均数)。3.序时平均数的计算方法:1) 绝对数时期数列:算术平均法 绝对数时点数列:连续时点:同 上间断时点:加权平均法 (其中T1,T2,Tn-1是时间间隔长度) T1=T2=Tn-1首末折半法 2) 相对数,平均数时间数列:分开平均再相比 三、时间数列的水平(绝对数)分析增 长 量=报告期水平基 期 水 平;逐期增长量=报告期水平前 期 水 平;累计增长量=报告期水平固定基期水平四、时间数列的速度(相对数)分析 发 展 速 度=; 增 长 速 度= 发展速度-1环比发展速度=; 环比增长速度=环比发展速度-1定基发展速度=; 定基增长速度=定基发展速度-1五、平均增长量,平均发展速度,平均增长速度平 均 增 长 量=各个逐期增长量的算术平均数=平均发展速度=各环比发展速度的几何平均数;水平法:累计法: (查表) 水平法平均增长速度=平均发展速度1 累计法六、长期趋势分析及预测:1.时间数列的构成要素:T长期趋势;S季节变动;C循环变动;I不规则变动。2.时间数列的模型:乘法模型Y=TSCI;加法模型Y=TSCI;混合模型等。3.移动平均法:适当扩大时间间隔,逐期移动,算出移动平均趋势,消除短期波动(偶数项要作两次移动平均);4.数学模型法线性模型(直线趋势)以时间t作自变量,发展水平Yt作因变量,用最小二乘法得趋势直线方程。 =a+bt, b=, a= (其中t用时间编码)非线性模型(曲线趋势) 指数曲线 =abt, 二次曲线 =a+bt+ct2, 修正指数曲线 =K+abt, Gompertz曲线 =K, Logistic曲线 =.季节变动分析:季节变动的测定:1.按季(月)平均法;同季(月)平均数(消除随机影响)总季(月)平均数季节指数;四季季节指数之和=400%; 平均数=100%;全年季节指数的和=1200%; 平均数=100%四季(或全年)的移动平均趋势T(%),消除趋势变动;将Y/T按季(月)重新排列,计算同季(月)平均数。季节变动的调整: 算出Y/S (消除季节变动)根据的数据,配合趋势直线=a+bt,a=,b=/lxx (其中t为时间编码)由趋势直线方程,算出调整后的趋势值。八、循环变动的测定:剩余法从时间数列中消除趋势变动、季节变动和不规则变动。消除季节变动,计算根据Y的数据,配合趋势直线 =
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公务员面试进场禁忌词面试题及答案
- 国家管网招聘笔试题及答案
- 广药集团秋招笔试题及答案
- 顾家家居秋招面试题及答案
- 格力电器校招笔试题及答案
- 2026年哈尔滨城市职业学院单招职业技能测试必刷测试卷带答案
- 2025年湖南省事业单位招聘考试模拟试卷 公共某础知识(三)及完整答案详解
- 2026年廊坊燕京职业技术学院单招职业适应性测试题库及答案1套
- 2026年沈阳职业技术学院单招职业适应性测试必刷测试卷完美版
- 2026年大连装备制造职业技术学院单招综合素质考试题库汇编
- 2024非暴力沟通课件完整版
- 医学公共基础知识试题(附答案)
- 2025年70岁老年人换新本驾驶证需考三力测试题及答案
- 心理咨询公司投标方案
- 中风的护理要点
- 粮食仓储设施提升改造项目可行性研究报告
- 公立医院改革政策解读
- 一模初三质量分析
- 工程监理进度控制的实施方案
- 交通事故案件追加被告申请书
- 面包烘焙设备的维护与检修管理
评论
0/150
提交评论