版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 生物统计是关于实验的设计、实施,数据的搜集、整理、分析和结果推论的科学。 从事实验研讨,需求对处置措施、技术的效应给出一个明确的结论显著与否。 推论是先对研讨对象的总体提出一种假设(hypothesis),再对该假设进展检验(test)以计算在假设总体中抽得实践样本(统计数)的概率来判别。1.1 二项总体分布二项总体分布0,1 分布分布 假设一个总体由假设一个总体由0,1两种元素组成,这两种元素组成,这样的总体称样的总体称0,1总体。总体。假设取假设取1的概率为的概率为p,记为记为P(1)=p,那么,那么P(0)=1-p=q,p+q=1.1 几种常见的分布几种常见的分布 概率计算比较复杂,生
2、物统计中所概率计算比较复杂,生物统计中所用的概率计算主要利用变数分布进展。用的概率计算主要利用变数分布进展。2(1)pppqp(1)pppq1.2 二项分布二项分布(binomial distribution) 二项分布是指在二项分布是指在=p的二项总体中,以样的二项总体中,以样本容量本容量n进展抽样,样本总和数进展抽样,样本总和数 k (0kn)的的概率分布。概率分布。2npqnpnpq( )kkn knP kC p q2/pq np/pq n1.3 普松分布普松分布(poisson distribution) 假设假设n很大,很大,p很小,其很小,其np=m,二项概率分,二项概率分布趋于普
3、松分布。布趋于普松分布。( )!kmmP kek2mmm1.4 正态分布正态分布(normal distribution)假设假设p接近接近0.5,n很大,二项概率分布趋于正很大,二项概率分布趋于正态分布。态分布。2221()( )exp()22xf x2221( )exp()22xf x210正态分布是最重要的延续性变数的分布,缘由有3:1、实验研讨中很多变数(性状)服从正态分布;2、一些延续性变数在一定条件下趋于正态分布;3、一些变数本身不服从正态,但其统计数(如平均数)在一定条件下(样本容量增大时)趋于正态分布。 这第3点是一个很重要的性质,由于我们未来对处置效应的推断,往往是以平均数或
4、其它统计数进展的。在对样本容量较大的统计数进展统计推断时,可不用思索原变数服从何种分布,统计假设检验均可在正态分布的根底上进展。 了解一个变数或一个统计数服从某种分布,其目的是为了计算该变数统计数落在某一区间的概率。P(axb)=?()?Pab1.5 学生氏学生氏 t 分布分布( t distribution)()(), xxxuu规范正态离差服从正态分布。(0,1)uN 上述u分布在实践运用中存在问题,最主要的是无法得到,人们自然想到用样本规范差 s 替代 计算u值,进而计算概率假设检验。但经抽样实验发现,这种替代是有问题的,尤其是在小样本情况下,s 的变异度较大而是常量。它直接的效果是由此
5、算出的值比 u 的变异度大。后经WS Gosset (1908)导出了该统计数t的概率密度函数 f(t)。1221()2( )(1)(/ 2)tf t10( )xxe dx00(| |)2( )tP ttf t dt(0,1)uN222212nuuu2/2 122/2()1()exp()2( /2)2f1.6 卡方分布卡方分布(2 distribution)22222()(1)xxns222221snv 2122sFs1.7 F分布分布( F distribution, RA Fisher, 1923)112121212/2/212()/21212()2( )(/2) (/2)()vFf FF
6、v2 统计假设检验统计假设检验2.1 概念和根本步骤概念和根本步骤 我们在实验过程中获得了一个或多我们在实验过程中获得了一个或多个样本个样本(统计数统计数),其目的在于推断由,其目的在于推断由此代表的总体参数。得出处置效此代表的总体参数。得出处置效应存在与否的定性结论。根本过程有应存在与否的定性结论。根本过程有4步:步:1对未知总体对未知总体(参数参数)提出假设提出假设 H0:=0, HA: 0; H0: = 0, HA: 0 ;2设定一个否认设定一个否认H0假设的小概率规假设的小概率规范显著程度范显著程度 =0.05, =0.01 ;3计算在假设条件下比实得样本计算在假设条件下比实得样本(统
7、统计数计数)还偏的概率还偏的概率p。4根据根据p与与值的大小,接受或否认值的大小,接受或否认H0假设。假设。2.2 几种常用的假设检验几种常用的假设检验0u0ts1212: , , , , xxxdppps指的是该统计数的规范误,亦即该统计数分布的规范差。/xn121211xxnn122xxn121211x xssnn/xssn/ddssn1212: : : xxxdppp00 pp qn121211()ppspqnnttest(x, m0)ttest2(x1, x1) 2.3 假设检验的本质1显著性000A| | H | | H ,Htttstt接受否定接受s的大小是决议统计数与假设参数间、
8、统计数间差别显著性的主要要素。实验研讨中应尽量减小统计数的规范误。一是减小实验误差s;二是增大样本容量n。2假设检验的错误 利用概率进展检验,有些情况下会犯错误。当正确的假设被否认时,就犯了弃真错误I型错误, 错误;当错误的假设被接受时,就犯了取伪错误II型错误, 错误。犯两类错误的概率不同。 3 方差分析 方差分析是将多个样本作为一个整体,将总变异分解成相应变异来源的平方和和自在度,得到各变异来源方差的数量估计,用F检验鉴别样本间的差别显著性。分三个内容:1分解平方和自在度,计算各变异来源的方差;其中MSe(或se)比较重要,它是检验组间效应存在与否的规范;2F检验, F=MSt/MSe;3
9、多重比较,当F检验显著,应对处置平均数的差别显著性作进一步阐明。3.1 单向分组资料的方差分析单向分组资料的方差分析处理观察值Tixi1x11x12x1jx1nT1x12x21x22x2jx2nT2x2ixi1xi2xijxinTixikxk1xk2xkjxknTkxkxij为第为第i个处置的第个处置的第j个察看值,个察看值,i=1,2,k, j=1,2,n. Data structureijiijxTteSSSSSSTtedfdfdf1Tdfkn22211()()knTijijxSSxxxkn2221()1()ktiiixSSnxxTnkn222111()2kneijiiijSSxxxT1t
10、dfk(1)edfk n, teteteSSSSM SM SdfdfteM SFM S方差分析结果尽量以方差分析表表示。anova1(x)2|ijM SexxLSDtn3.2 两向分组资料的方差分析两向分组资料的方差分析AB1 2 j n Tixi1x11x12x1jx1nT1x12x21x22x2jx2nT2x2ixi1xi2xijxinTixikxk1xk2xkjxknTkxkT.1T.2T.jT.nTxxij为为A要素第要素第i个程度和个程度和B要素第要素第j个程度个程度组合组合(处置处置)的反响量,的反响量,i=1,2,k; j=1,2,n. Data structureijijijx
11、TtReSSSSSSSSTtRed fd fd fd f1Tdfkn22211()()knTijijxSSxxxkn222.1()1()ktiiixSSnxxTnkneTtRSSSSSSSS1tdfk(1)(1)edfkn, teteteS SS SM SM Sd fd fteM SFM SAnova2(x),或anova2(x,n)。2|ijM SexxLSDtn1Rdfn222.1()1()nRjjjxSSkxxTkkn3.3 系统分组资料的方差分析系统分组资料的方差分析xijk为第为第i组、第组、第j亚组、第亚组、第k个反响量,个反响量,i=1, 2, , l; j=1,2,m;k=1,
12、 2, , n. Data structureijiijijkxxijkTtdeSSSSSSSSTtded fd fd fd f1Tdflmn2221()()lmnTijkijkxSSxxxlmn22211()lijtiijiiTSSmnxxTmnneTtRSSSSSSSS1tdfl (1)edflm n, teteteS SS SM SM Sd fd fteM SFM S2|ijM SexxLSDtn(1)ddfl m222111()lmdijiijijTSSnxxTnlmn 较复杂的系统分组资料还能够在亚组中继续再分成小亚组小小亚组;每一组具有不同的亚组数mi不全一样,每一亚组具有不完全一
13、样的察看值数目nij不全一样。xijk为第为第i 组组,第第j亚组亚组,第第k个个(处置处置)的的反响量,反响量,i=1, 2, , l; j=1,2,mi;k=1, 2, , nij. Ttdedfdfdfdf111imlTijijdfn 1td fl1(1)imleijijdfn 1(1)ldiidfm3.4 单要素完全随机实验资料的分析单要素完全随机实验资料的分析 即单向分组资料的方差分析。即单向分组资料的方差分析。3.5 单要素随机区组实验资料的分析单要素随机区组实验资料的分析 即两向分组资料的方差分析。即两向分组资料的方差分析。3.6 二要素随机区组实验资料的分析二要素随机区组实验资
14、料的分析 A要素有要素有a个程度,个程度,B要素有要素有b个程度,个程度,平衡搭配时有平衡搭配时有ab个处置;个处置;r个反复个反复r个区个区组,组,abr个察看值。方差分析分两步:个察看值。方差分析分两步:TtReSSSSSSSSTtRed fd fd fd f1Tdfabr22211()()abrTijijxSSxxxabr22211()abtiiiTSSrxxTnabreTtRSSSSSSSS1tdfab(1)(1)edfabr1Rdfr22211()rRjjjTSSabxxTababr1构建处置区组两向表,按处置区组两向分组数据模型分解平方和、自在度: ijijijx2构建AB两向表,
15、按AB要素两向分解平方和、自在度。tABABSSSSSSSStABABdfdfdfdf22211()aAAAkTSSbrxxTbrabrABtABSSSSSSSS1Adfa(1)(1)ABdfab1Bdfb22211()bBBBlTSSarxxTarabr()iklklkl 二要素、多要素完全随机实验、随机区组实验资料的方差分析均可用anovan的命令实现。 格式:anovan(x, group, model)*S SM Sd f*eM SFM S2|ijM SexxLSDtneeeSSMSdfAnovan 多要素资料的方差分析多要素资料的方差分析Anovan(x, group, model)
16、三要素三要素 model=1 2 3 4 5 6 7(三要素方差分析编码表三要素方差分析编码表)数值数值含义含义1A(主效主效)2B(主效主效)3AB(互作互作)4C(主效主效)5AC(互作互作)6BC(互作互作)7ABC(互作互作)四要素方差分析编码表四要素方差分析编码表(model)数 值含 义数 值含 义1A(主效主效)9AD2B(主效主效)10BD3AB(互作互作)11ABD4C(主效主效)12CD5AC13ACD6BC14BCD7ABC15ABCD8D(主效主效)3.7 一些处置效应再分解的方差分析 1单一自在度比较; 2其他分解的一些实例。 Lsh.m; cg.m.处理n平均数 A
17、BCD vs EAB vs CDA42727.875T1=44625.75T1=206B424.5C428.530T2=240D431.5E42020T2=8022222121211212()()()iiiTTTTSSn xxnnnn 如例8.1水稻N肥实验,5个处置ABCDE具有SSt=301.2,dft=4,可将其进一步分解:ABCD vs E df1=1, SS1=198.45;AB vs CD df2=1, SS2=72.25 A vs B df3=1, SS3=12.5; C vs D df4=1, SS4=18.0和回归统计数进展统计假设检验;和回归统计数进展统计假设检验;3回归方
18、程的进一步利用。回归方程的进一步利用。模型:iiiYXiiiiiYabXeYe据:2anbXYaXbXXY2211()()minnniiiiiiQRSSYYYabX222/()()()() /XaybxXYXY nXx YySPbXxSSXXn对Q分别对a、b求偏导并使其为0,得正规方程组:解得:2221()niiYiXYYaXbXYSPQYYSSSSSSbSP2QQM Sn/2YXQQsMSn221 12YYYXXTUQSPSPSSUQSSSSSSSSdfdfdfnn /(2)UQMSUFMSQ n0bbbbtss/bY XXssSS0aats22/1aYXYXXXXxsssnSSnSSii
19、iYabXe111YabXe222YabXennnYabXe11122211.1.1iiinnnYXeYXeaYXebXYeiiiYabXe4.2 回归分析的矩阵方法回归分析的矩阵方法12inYYYY Y1211. .1. .1inXXXXX12babb B12ineeee EY = XB+EY+E 回归分析是用最小二乘法(least squares method)估计回归统计数B=(a, b),使离回归平方和Q, RSS最小:() ()minQE EYYYXB = YY-YXB-B XY+B XXB() ()YXBYXB1222121( ,)nniinYYY YYYYYY Y121211(
20、,). .1nnXXaY YYbX YXB()aYXYa YbXYb 12121, 1, , 1( , ),nnYYa bXXXY B X Y( , )Ya baYbXYXY()()()()YaXYbB X YY XBB X Y=X YB X YBB121211, 1, , 11( , ),.1nnXXaa bXXXbX B X XB2( , )nXaa bXXb 2( , )nabXa baXbX222naabXabXbXG2222222GnabXnXaGaGXXbaXbXb =B2GX XBB()0()0Qab E E=E EB()() ()0QE EYYYXB=BBB()22Q Y Y-
21、2B XY+B XXBXYXXB = 0BBXXB = XYAB = K11()B = XXXYA KCKB = X X X YA KX YQRSS Y YB KY YB XYYUSSQ111212122ccccAC =2nXaYXXbXY /1UMSU2QQMSnUQMSFMSbbbbtss/22bY Xsscaats/11aY Xssc222/(2)QUb cFMSQ n222bUc/(2)Y XQsn实例和matlab命令集clear; clcx=1.58, 9.98, 9.42, 1.25, .30, 2.41, 11.01, 1.85, 6.04, 5.92y=180, 28, 25
22、, 117, 165, 175, 40, 160, 120, 80 x=x(:); y=y(:); n=size(y,1); SSy=var(y)*(n-1); SSx=var(x)*(n-1);xbar=mean(x); ybar=mean(y);X=ones(n,1),x; A=X*X; K=X*y; SumX=A(1,2); SumY=K(1); SumX2=A(2,2); SumXY=K(2);SP=SumXY-SumX*SumY/nC=inv(A), B=AK, B=C*K, B=X*XX*y, b=XyQ=y*y-B*K, U=SSy-Q, MSQ=Q/(n-2), syx=sqr
23、t(MSQ)F=U/MSQ; p=1-fcdf(F,1,n-2);disp(F=,num2str(F), p=,num2str(p)sa=syx*sqrt(C(1,1), sb=syx*sqrt(C(2,2)ta=b(1)/sa; pa=2*tcdf(-abs(ta),n-2);disp(ta=,num2str(ta), p=,num2str(pa)tb=b(2)/sb; pb=2*tcdf(-abs(tb),n-2);disp(tb=,num2str(tb), p=,num2str(pb)r=corr(x,y), r2=SP2/SSx/SSysr=sqrt(1-r2)/(n-2), tr=r
24、/sr4.3 多元线性回归分析多元线性回归分析1122iiijijmimiYXXXX11111211221222212121111mmjiiimiinnnmnnmaYeXXXbXXXYebXXXYeXXXYeb 1122iiijijmimiYa bXb Xb Xb Xe 1,2, ; 1,2,injm12inYYYYY111212212212121111mmiiimnnnmXXXXXXXXXXXXX 12121jmmbabbbbbb B12ineeee EY = XB+EY+EQRSS E EY YB XYY YB K()22Q Y Y-2B XY+B XXBXYXXB = 0BBX XB =
25、 X YAB = K11()B = X XX YA KCKB = X X X YA KX YQ Y YB X YY YB KYUSSQ/UMSU m1QQMSnmUQMSFMS-1C = A/YRU SS2/YRU SSjjjjjjbbbbtss/jbY Xjjssc2/(1)jpjjjjQUbcFMSQ nm2jjpjjbUc/(1)Y XQsnm2jjFt2,3,1jm 当其中的自变数不显著时,应将其剔除。剔除的过程应采用逐渐回归的方法,即每次剔除一个偏回归平方和最小且不显著的自变数,直至一切的自变数均显著下同。Up=b.*b./diag(C)实例和matlab命令集clear;clc,a
26、lpha=.05;x1=10, 9, 10, 13, 10, 10, 8, 10, 10, 10, 10, 8, 6, 8, 9;x2=23, 20, 22, 21, 22, 23, 23, 24, 20, 21, 23, 21, 23, 21, 22;x3=3.6,3.6,3.7,3.7,3.6,3.5,3.3,3.4,3.4,3.4,3.9,3.5,3.2,3.7,3.6;x4=113, 106,111,109,110,103,100,114,104,110,104,109,114,113,105;y=15.7,14.5,17.5,22.5,15.5,16.9,8.6,17,13.7,13
27、.4,20.3,10.2,7.4,11.6,12.3;x=x1,x2,x3,x4;load regm %x=rand(100,40);y=rand(100,1);%data=xlsread(regm); y=data(:,end);data(:,end)=;x=data;data=;%data=load(regm.csv); y=data(:,end);data(:,end)=;x=data;data=;n,m=size(x);SSy=var(y)*(n-1);X=ones(n,1),x;A=X*X;K=X*y;C=inv(A)b=AK,%b=C*K,b=X*XX*y,b=XyQ=y*y-b*
28、K,U=SSy-Q,MSQ=Q/(n-m-1),syx=sqrt(MSQ)Fm=U/m/MSQ; p=1-fcdf(Fm,m,n-m-1);disp(Fm=,num2str(Fm), p=,num2str(p)Up=b.*b./diag(C);Up(1)=;F=Up/MSQ, pr=1-fcdf(F,1,n-m-1)for i=1:m if i=alpha qi=find(F=min(F); pr=1-fcdf(min(F),1,n-m-1); if pr=alpha disp(num2str(qi), ,num2str(min(F), del ,tr(qi,:) tr(qi,:)=; X(:
29、,qi+1)=; m=m-1; end A=X*X; K=X*y; b=Xy; Q=y*y-b*K; MSQ=Q/(n-m-1); C=inv(A); Up=b.*b./diag(C);Up(1)=; F=Up/MSQ; pr=1-fcdf(F,1,n-m-1);enddisp(Last Results:)disp( Xi bi Upi Fi pFi)disp(X0 ,num2str(b(1)for i=1:m disp(tr(i,:), ,num2str(b(i+1), ,num2str(Up(i), , num2str(F(i), ,num2str(pr(i)enddisp(Error ,
30、num2str(n-m-1), ,num2str(Q), ,num2str(MSQ)disp(Total ,num2str(n-1), num2str(SSy)r2=(SSy-Q)/SSy多元线性回归分析的有关假定与本卷须知:假定1:误差是正态分布的;假定2:每一自变数对依变数的作用仅为线性。 假定2不满足对回归结果影响较大。留意1:自变数个数(m)必需少于察看值组数(n);留意2:防止自变数共线性情形,共线性指变数间高度相关或一个变数是其他变数的线性组合。 假设构造阵不满秩,信息阵是奇特或病态的,逆阵不存在或有很大偏向,无法求解回归系数或有很大误差,难于对回归模型及回归统计数进展客观真实的假
31、设检验。回归分析无法进展,或所得结果不可信。4.4 一元线性相关分析一元线性相关分析计算计算X、Y相关性质和程度的统计数相关性质和程度的统计数相关相关系数系数r12211()()()()niiinnXYiiiiXx YySPrSS SSXxYy212rrrtsrn22XYSPrSS SS/UbQY XXMSbbtFsMSsSS4.5 多元线性相关分析多元线性相关分析 计算计算m个变数个变数XY的简单相关系的简单相关系数数rij:12211()()()()nliiljjijlijnnXiXjliiljjllXxXxSPrSS SSXxXx12121212111mmijmmrrrrrrrR4.6
32、多元偏相关分析多元偏相关分析 m个变数个变数XY在其它变数皆固定在某在其它变数皆固定在某一程度时,余下两个变数间的相关称为偏一程度时,余下两个变数间的相关称为偏相关。相关。.ijijiijjcrc cijcC1CR.2.1ijijijrijrrtsrnm4.7 通径分析通径分析 计算计算m个自变数个自变数 Xj 与与 Y 关系的相对重要关系的相对重要性,可用直接通径系数性,可用直接通径系数pj表示。表示。jXjjYSSpbSS2(1)1jjjjpjjpptsRcnm-1P = R KCK121112122212111mYmYijmmmmYrrprrrprrrrpr21mj jYjRp r=PK
33、4.8 一元多项式回归分析一元多项式回归分析 计算计算1个自变数个自变数 X与与 Y 的多项式回归也很的多项式回归也很常见。常见。212jkiiijikiiYXXXX1,2, ; 1,2,injk212jkiiijikiiYab Xb Xb Xb Xe2111112122222221111kkkjiiiiiknnknnnXXXaYebXYeXXbYeXXXYebXXX X XB = X YAB = K11()B = X XX YA KCKB = X X X YA KX YQ Y YB X YY YB KYUSSQ1QQMSnkkpkQUFMS-1C = A21,1kkpkkbUckkkkkkbbbbtss/1,1kbY Xkkssc/(1)Y XQsnkjpjQUFMS21,1jjpjjbUc2jjFt1,2,1jkjjjjjjbbbbtss/1,1jbY Xjjssc/(1)Y XQsnmm为模型中Xj幂的项数。Up1, Up2, Up3, Up4 分别为线性(linear), 二次(Quadratic), 三次(cubic), 四次(4th degree)呼应(response).一元多项式回归分析的几点留意:1) 随着k的添加,回归平方和添加,离回归平方和减小,k不应超越n-2。当k=n-1时,离回归平方和等于0即一切的点都在线上。但这并非很好,假设用此方程进展预测中间插值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 线上教育的利弊分析
- 结构毕业设计
- 安徽省滁州市2025-2026学年高一生物下学期期中试题 (一)【含答案】
- 2026偏执型精神分裂症患者护理查房解读
- 2026压力性损伤的预防与护理解读
- 教育机器人应用与发展研究
- 夏天运动健康活动中班实施指南
- 别墅施工图设计技术体系
- 景观桥梁设计分享
- 党建活动经费使用规范与管理要点
- 《国际商法》课件
- 消渴目病相关讲座
- JT-T-939.2-2014公路LED照明灯具第2部分:公路隧道LED照明灯具
- 园林绿化监理规划
- 视频监控维保项目投标方案(技术标)
- CREAFORM三维扫描仪操作creaform三维扫描仪操作
- NX CAD工程师(中级)技术认证考试大纲
- ZJ40CZK使用说明书模版
- 《十步讯问法》读书笔记
- 9、PCR室安全风险评估
- 北京房屋面积测算技术规程
评论
0/150
提交评论