




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数量方法第一章 数据的整理和描述1、数据的图形显示方法:频率直方图、饼形图、条形图、柱形图、散点图、折线图、曲线图、茎叶图。(P8-15)重点频率直方图、散点图和茎叶图。2、平均数。平均数等于全体数据的总和除以数据的个数。(P16)平均数= 若,x1,x2,xn,则这组数据的平均数据,记为,为= (x1+x2+xn)/n=xi3、中位数。将数据集按上升顺序排列,位于数列中间的数值成为该数据集的中位数。4、平均数、中位数和众数的关系。(1)对于单峰对称直方图,平均数、中位数和众数应当完全相同,位于直方图的正中间。(2)对于峰值偏向左边的单峰非对称直方图,一般来说,平均数最大,众数最小,中位数位于平均数和众数之间。(3)对于峰值偏向右边的单峰非对称直方图,一般来说,平均数是最小的,众数是最大的,而中位数位于两者之间。(P20-21)5、极差。最简单、最直观的度量数据离散程度的方法或许应当是数据集中最大数值与最小数值的差,称为极差(或全距),记为R。即:极差R=最大值-最小值。极差越大,说明数据散布的范围越广,即数据越分散;极差越小,说明数据越集中。(P24)6、四分位点和四分位极差。四分位点是把数据集先进单位发为四部分的那些数值。四分位点共有三个,分别称为第一四分位点(记为Q1),第二四分位点(记为Q2),第三四分位点(记为Q3)。在计算四分位点之前,应先将数据集按上升顺序重新排列。(P25)7、方差和标准差。2=(xi-)28、变异系数。V=/100%。例:Q1=(n+1)/4 Q3=3(n+1)/4。10个家庭人均月收入数据如下:原始数据:1500 750 780 660 1080 850 960 2000 1250 1630排序: 660 750 780 850 960 1080 1250 1500 1630 2000位置: 1 2 3 4 5 6 7 8 9 10Q1=10+1/4=2.75=750+0.75(780-750)=772.5Q3=3(10+1)/4=8.25=1500+0.25(1630-1500)=1532.5第二章 随机事件及其概率1、概率的乘法公式。由条件概率我们得到概率的乘法公式:设A、B为两个事件,若P(B)0,则P(AB)=P(B)P(A|B);若P(A)0,则P(AB)=P(A)P(B|A)。(P52)。2、事件的独立性。如果事件A和事件B满足P(AB)=P(A)P(B),则称事件A与事件B独立。(P53)3、全概率公式。P(B)=(Ai)P(B|Ai)。一般来说,设事件A1,A2,,An两两互斥,A1+A2,+A=(满足这两个条件的事件组称为一个完备事件组)且P(Ai)0,i=1,2, ,n,则对于任意事件B有P(B)=(Ai)P(B|Ai),该公式称为全概率公式。(P56)4、贝叶斯公式。P(Ai|B)=P(Ai)P(B|Ai)/ (Aj)P(B|Aj)。设事件A1,A2,,An两两互斥,A1+A2,+A=(满足这两个条件的事件组称为一个完备事件组)且P(Ai)0,i=1,2, ,n。将等式P(Ai|B)=P(AiB)/P(B)=P(Ai) P(B|Ai)/P(B)。i=1,2,3,4。推广并将全概率公式代入,得到下面的结果:对任一事件B,如果P(B)0,则有P(Ai|B)=P(Ai)P(B|Ai)/ (Aj)P(B|Aj)。第三章 随机变量及其分布1、离散型随机变量的数学期望。如果X为一个离散型随机变量,它的分布律为P(X=xi)=pi;设g(X)为X的一个函数,则随机变量g(X)的数学期望为:Eg(X)=(xi)P(X= xi)= ( xi) pi。随机变量X的函数g(X)的数学期望可以看成是g(X)在大量重复试验下所有取值的平均值。当g(X)=a+bx时(其中a和b都是常数),我们有E(a+bX)=a+bE(X),当b=0时,我们有E(a)=a,即一个常数的数学期望就是它自己。(P67-68)2、离散型随机变量的方差。对随机变量的离散程度的一个试题就是方差。高离散型随机变量X具有分布律P(X=xi)=pi,i=1,2,它的数学期望为,则E(X-)2=(xi-)2 pi。计算离散型随机变量X的方差还有一个常用的公式:设X具有分布律P(X=xi)=pi,i=1,2,则X的方差为DX=E(X2)-(EX)2=xi2pi-( xipi)2。(P69)设a、b为常数,X为离散型随机变量,则D(a+bx)=b2DX特别地,当b=0时,D(a)=0,即常数(作为特殊的随机变量)的方差等于0。(P69)3、常用离散型随机变量。(1)两点分布或(0-1)分布。设随机变量X只可能取0与1两个值,它的分布律是P(X=k)=pk(1-p)1-k,k=0,1(0P0)的泊松分布,记为Xp()泊松分布XP()的数学期望和方差分别为:E(X)= ,D(X)= 。(P72)4、连续型随机变量的数学期望和方差。设X是一个连续型随机变量(1)X的均值,记为,就是X的数学期望,即=E(X);(2)X的方差,记为D(X)或2,则(X-)2的数学期望,即D(X)=E(X-)2,方差的另一个等价表达式为:D(X)=E(X2)2。(3)X的标准差,记为,是X的方差2的平方根。(P79)5、关于连续型随机变量的均值和方差也具有与离散型随机变量的均值和方差同样的性质,我们把这些性质总结概括如下:设X为一个连续型随机变量,具有均值x和方差2x,设a和b为两个常数,则:(1)E(a+bx)=a+bE(x)=a+bX。(2)D(a+bx)=bd(X)=b2x;(3)随机变量X-x/x的均值为0,方差为1。(P79)9、常用连续型随机变量。(1)均匀分布。如果随机变量X的概率密度函数为:P(x)=,axb0 其他则称X服从区间a,b上的均匀分布。区间a,b上均匀分布X的数学期望和方差为:E(X)=,D(X)=(b-a)2/12。(2)指数分布。 如果随机变量X的概率密度函数为:P(x)= e-kx x00 , x0则称X服从参数为的指数分布,记为XE()。指数分布XE()的数学期望和方差为:E(X)= ,D(X)= 1/2。10、正态分布。如果随机变量X的概率密度函数为:,x。其中和2为常数,x,0,e=2.71828,=3.14159,则称X服从参数为和2的正态分布,记为XN(,2)。事实上,关于正态分布的参数和2,我们有:(1)EX=,即是正态随机变量X的均值。(2)DX=2,即2是正态随机变量X的方差。(P81)11、具有不同和2的正态分布概率密度函数的图形:(1)图形是关于x=对称的钟形曲线,且峰值在x=处取得。(2)方差2越小,曲线的峰值就越大,曲线就越瘦长;方差2越大,曲线的峰值就越小,曲线就越矮胖(因为曲线下的面积都是1)。(P81)12、一般正态分布N(,2)的概率密度函数和分布函数与标准正态分布N(0,1)的概率密度函数和分布函数之间存在着以下关系:(1)(x)= 0();(2)(x)= 0;(3)特别地,当N(,2)时,N(0,1),即服从一般正态分布的随机变量总是可以通过变换成为标准正态分布。(P83)。13、协方差。二元随机变量函数的数学期望的一个特例就是协方差。协方差的计算公式:Cov(X,Y)=E(XY)-E(X)E(Y)(P87-88)。14、相关系数。二元随机变量(X,Y)的相关系数为rx,y=,相关系数的取值范围是:-1rx,y1。rx,y越接近于1,表明X与Y之间的正线性相关程度越强; rx,y越接近于-1表明X与Y之间的负线性相关越强; rx,y越接近于0,表明X与Y之间的线性相关程度越弱;特别地当rx,y=0时,X与Y不相关。(P89)15、随机变量的线性组合。无论X与Y是离散型随机变量还是连续型随机变量,都有以下结论:设X、Y为随机变量,a和b为常数,则线性组合aX+bY也是随机变量,并且(1)E(aX+bY)=aE(X)+bE(Y);(2)D(aX+bY)=a2D(X)+2abCov(X,Y)+b2D(Y);特别地,当Cov(X,Y)=0,即X与Y不相关时,D(aX+bY)= a2D(X) +b2D(Y)。第四章 抽样方法与抽样分布1、概率抽样方法。(1)简单随机抽样也称纯随机抽样,是其他抽样方法的基础。简单随机抽样有两种抽取单元的方法:重复抽样和不重复抽样。(2)系统抽样也称等距抽样或机械抽样。系统抽样的优点:简便易行,当样本量很大时,简单随机抽样要逐个使用随机数字表选是相当麻烦的,而系统抽样有了总体单元的排序,只要确定抽样的起点和间隔后,样本单元也就随之而定,而且它可以充分利用各种现成的排列顺序,比较方便。系统抽样的样本一般在分布比较均匀,因此估计的误差通常要小于简单随机抽样。缺点:总体单元的标志值具有周期性的波动,而抽样的间隔又恰巧与同期波动的间隔相一致,在这种情况下抽样的效果就会很差。(3)分层抽样。分层抽样也称分类抽样。分层抽样优点:分层抽样除了获得总体的估计值以外,还可以用来对各层的子总体进行估计。分层抽样可以按自然的地区或行政系统分层,使抽样的组织和实施比较方便。分层抽样的样本分布在各个层内使样本的分布在总体内比较均匀。适当的分配各层样本可以较大地提高抽样的精度。缺点:必须胡分层信息和各层单元比例,分层以后如何抽选仍比较复杂。(4)整群抽样。在总体中由若干总体单元自然中人为地组成的群体称作群,抽样时以群作为抽样单位而不是以总体单元作为抽样单位对抽中各群的所有总体单元进行观察,这种抽样称作整群抽样。整群抽样的优点:不需要有总体单元的具体名单而只要有群的名单就可抽样,而群的名单比较容易得到。整群抽样时群内各单元比较集中,对样本进行调查比较方便,节约费用。缺点:由于抽取的样本群中各单元比较集中,各单位的标志值之间的差异比较小,而不同群之间各单元标志值的差异比较大,因此总的样本中各单元的分布不如简单随机抽样均匀,因此抽样误差会在于简单随机抽样。(P106-111)2、无回答问题对估计推断产生的影响。(1)由于无回答而使有效的样本量减少,从而使抽样误差增大,达不到原抽样设计时调查精度的要求。(2)由于无回答而带来俺是的偏误,而且这种偏误并不会由于样本量增大而减少。(P114)3、处理无回答的常用方法。(1)注意调查问卷的设计和加强调查员的培训。(2)进行多次访问。(3)替换无回答的样本单元。(4)对存在无回答的结果进行调整。(P115-116)4、中心极限定理。中心极限定理证明了当样本容量n增大时,不论原来的总体是否服从正态分布,其样本均值将趋向正态分布。研究对象的总体分布不一定是正态分布,但只要样本足够大其样本均值趋向正态分布,从而可用于抽样的各种估计和检验。大量实践和模拟证明:随着n的增大,样本均值趋向于正态的速度是相当快的,当N大于等于30时,均值就可以挖地服从正态分布。(P123)5、几个重要的小样本抽样分布。(1)卡方分布。设XN(,2),则Z=N(0,1)。令Y=Z2,则Y为自由度为1的卡方分布,可简写为Y2(1)。进一步可以导出:当总体XN(,2),从吕抽取容量为n的样本X1,X2,Xn,则=2(n-1)。2分布的特点和性质。2分布的变量值始终为正。2(n)分布的形状取决于其自由度的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋向对称。2分布的特征数:E(2)=n,D(2)=2n(n为自由度)。若U和V为两个独立的2分布随机变量,U2(n1),V-2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布。(2)t分布。在抽样中,设X服从正态分布,即XN(,2),从中抽取容量为n的样本,则样本的均值的抽样分布为:N(,2),通过标准化Z=N(0,1)为标准正态分布。但当总体方差2未知,用样本方差S2=替代2时,t=t(n-1)称t为服从自由度n-1的t分布。T分布的性质。若ZN(0,1),V2(n-1),Z和V相互独立,则t=服从自由度为n-1的t分布。t分布类似正态分布为一对称分布,但一般情况下较标准正态分布平坦和分散,当自由度增大时t分布也趋身正态分布。t分布的一些特征数:E(t)=0,D(t)=(n2)。T分布广泛应用于正态总体方差未知且小样本时对总体均值的估计和检验。(3)F分布。设U是服从自由度为n2 的2分布的随机变量,即U2(n1),V是服从自由度为n2的2 分布的随机变量,即V2 (n2),且U和V相互独立,则称F=为服从自由度为n1 和n2 的F分布,记为FF(n1 ,n2)。F分布广泛用于方差分析、回归分析和协方差分析等。(P129-132)第五章 参数估计1、估计量的评价标准。(1)无偏性。指估计量抽样分布的数学期望要等于总体的参数。统计学证明了样本的均值是总体均值的无偏估计量。(2)有效性。一个无偏估计量并不意味着这一估计量一定非常接近待估计的参数,它还必须是与总体参数的离散程度比较小。离散程度通常是以方差来衡量的,因此也就是要求估计量抽样分布的方差比较小。在无偏估计的情况下方差愈小也就愈有效。(3)一致性。又称相合性,是指随着样本容量的增大,估计值就愈来愈接近于总体参数值。(P137-139)2、总体均值区间估计的置信区间归纳如表:总体分布样本量已知未知正态分布大样本(n30)z/2z/2小样本(n30)z/2t/2(n-1)非正态分布大样本(n30)z/2z/23、总体比例的区间估计。总体样本量置信区间大样本重复抽样Pz/2大样本不重复抽样Pz/2注:当总体很大,抽样比n/N5%时,虽为不重复抽样,其修正系数也可忽略不计。4、两个总体均值之差的置信区间(置信度1-)。(P151-153)总体分布样本量已知未知正态分布大样本小样本非正态分布大样本5、两个比例之差的区间估计。当研究的目的是估计两个总体的比例差p1-p2时,由单个总体比例的差可知,通常需要大样本才能使样本比例服从正态分布,样本比例之差P1-P2是总体比例之差的无偏估计。在两个样本均为大样本,且有p10.5,p15,p20.5,p25时,P1-P2也近似正态分布。P1-P2的置信区间为:(P155)6、样本容量的确定(置信度1-)(P155-161)抽样方式置信区间允许误差样本容量有放回抽样(或抽样比H0:0H1: 0左侧检验:ZZ3、总体均值的假设检验。(P170-175)已知条件H0H1检验统计量及其分布拒绝域XN(,2),已知=0或大样本(用S代替0)=00Z=N(0,1)(H0为真)|Z|00ZZXN(,2),未知,小样本=00T=t(n-1) (H0为真)|t|(n-1)00tt(n-1)4、单一样本的比例检验。(P175-176)已知条件H0H1检验统计量及其分布拒绝域大样本p=p0pp0Z=N(0,1)(H0为真)|Z|pp0pp0ZZ5、两个总体的均值(比例)的假设检验。(P176-182)已知条件H0H1检验统计量及分布拒绝域XN(,12),YN(,22)1、2已知或大样本=012Z=N(0,1)(H0为真)(设1-2=0)|Z|012ZZXN(,12),YN(,22)1、2未知且小样本=012t=t(n1+n2-2)(H0为真)|t|(n1+n2-2)012tt(n1+n2-2)大样本P1=P2P1P2Z=N(0,1)(H0为真)|Z|P1P2P1P2ZZ第七章 相关与回归分析1、散点图。(必须会画图)2、简单线性相关系数的计算。(P206)3、简单性相关系数的意义。(1)相关系数的取值范围在+1和-1之间,即-1r1。若0r1,表明x与y之间存在正相关关系。若-1r0,表明x与y之间为存在负相关关系。若r=1,表明x与y之间为完全正相关关系。若r=-1,表明x与y为完全负相关关系。可见当|r|=1,y的取值完全依赖于x,二者之间即为函数关系;当r=0时,说明y的取值与x无关,即二者之间不存在线性相关关系,但需要注意的是,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系。(P207)4、简单线性回归方程。E(y)=0+1x。简单线性回归方程的图示是一条直线,因此也称为直线回归议程。其中0是回归直线在y轴上的截距,是当x=0时y的期望值; 1是直线的斜率,它表示当x每变动一个单位时,y的平均变动值。(P209)5、简单线性回归中的估计的回归方程。b0是估计的回归直线在y轴上的截距,b1是直线的斜率,它表示对于一个给定的x的值,是y的估计值。b1也表示x每变动一个单位时,y的平均变动值的估计值。(P210)10、最小二乘估计。11、判定系数。记为r2=。判定系数r2测度了回归直线对预测数据的拟合程度。若所有观测值都落在直线上,剩余平方和SSE=0,r2=1,拟合是完全的; r2=0,可见r2的取值范围是0,1。r2越接近于1,表明回归平方和占总变差平方和的比例越大,回归直线与各观测点越接近,用x的变化来解释y值变差部分就越多,回归直线的拟合程度就越好;反之,r2越接近于0,回归直线的拟合程度就越差。可见在一元线性回归中,相关系数r实际上是判定系数的平方根。(P212-214)12、估计标准差。Sy=。各预测点靠近直线,Sy越小,回归直线对各观测点的代表性就越好;若各观测点全部落在直线上,则Sy=0。可见Sy也从另一角度说明了回归直线的拟合程度或两个变量之间的关系密切程度。(P215)13、线性关系的检验。检验的具体步骤:(1)提出假设。H0:线性关系不显著。第二步:计算检验统计量F,F=。可以证明,在原假设成立的情况下,F统计量服从F分布,第一个自由度为1,第二自由度为n-2,即FF(1,n-2)。第三步:确定显著水平(通常=0.05),并根据两个自由度查F分布表,找到相应的临界值F。第四步:作出决策。若FF,拒绝H0,说明两个变量之间的线性关系是显著的;若FF,不能拒绝H0,说明两个变量之间的线性关系不显著。(P216-217)14、回归系数的检验。检验的具体步骤如下:(1)提出假设。假设样本是从一个没有线性关系的总体中选出的,即H0:1=0,H1:10。第二步:计算检验的统计量t值:t=,在原假设成立的情况下,统计量t服从自由度为n-2的t分布,即tt(n-2)。第三步:确定显著水平(通常=0.05),并根据自由度查t分布表,找到相应的临界值t/2。第四步:作出决策。若|t|t/2,拒绝H0,表明自变量x对因变量y的影响是显著的,换言之,两上变量之间确实存在着显著的线性相关关系;若|t|t/2,则接受H0,表明x对y的影响是不显著的,二者之间不存在显著的线性相关关系。(P217-218)15、多元性回归的估计议程:y=b0+b1x1+b2x2+bkxk。(P223)第八章 时间数列分析1、时期数列的序时平均数。其计算公式为:(P233)2、时点数列的序时平均数。其计算公式为:(P234)3、相对数或平均数时间数列的序时平均数。其基本公式可写为:(P235)4、增长量=报告期水平基期水平。逐期增长量=报告期水平前期水平。累积增长量=报告期水平基期水平。平均增长量=5、发展速度=。环比发展速度=。定基发展速度=。环比发展速度与定基发展速度之间的关系是:观察期内各个环比发展速度的连乘积等于最末期的定基发展速度;两个相邻的定基发展速度,用后者除以前者等于相应的环比发展速度。6、增长速度=。环比增长速度=环比发展速度-1。定基增长速度=定基发展速度-1。环比增长速度与定期增长速度之间没有直接的换算关系。7、平均发展速度与平均增长速度。平均发展速度是各个时期环比发展速度的平均数,用于描述现象在整个观察期内平均发展变化的程度。平均增长速度则是用来描述现象在整个观察期内平均增长变化的程度,它通常用平均发展速度减1来求得。(P239)平均发展速度=。平均增长速度=-1。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋买卖合同协议书
- 消控值班员合同范本5篇
- 农业种植风险管理与2025年智能化农事操作报告
- 安全文明驾驶培训总结课件
- 电网工程测量方案范本(3篇)
- 安全文明培训制度课件
- 安全文明出行培训计划表课件
- 浦北县乐民镇全至塑料厂年产5000吨塑料颗粒生产项目环评报告
- 安全教育食品培训总结课件
- 地下金库改造工程方案(3篇)
- 肩袖损伤护理常规
- 宠物嘉年华活动方案
- 2025至2030中国超高温热泵行业发展趋势分析与未来投资战略咨询研究报告
- 电梯设备监测方案(3篇)
- 秋季安全教育
- 药剂专业教学标准(中等职业教育)2025修订
- 2025年秋三年级上册语文同步教案 4 古诗三首
- 2025至2030年中国棉柔巾行业市场现状分析及投资机会研判报告
- 通威太阳能(成都)有限公司通威太阳能(成都)有限公司年产1GW晶体硅太阳能电池项目环评报告
- 药品进销存管理制度
- T/GIEHA 034-2022等离子体空气消毒机
评论
0/150
提交评论