




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据分析总结复习题第一章 数据的描述性分析一 数据的描述性分析1 ( )2x xn ( x )/ns x= =。n1ii12)tt的pn ( x )/nxii1n ( )x x2is2i1n1 ( )2x xsn1 s/x100% s/xx xin()3gg(nn2)s1n(nx xn(n2)(n42 () i(nn2)(ns2)n为奇数x(2M 12nn( )22xM与(x x, npp 2(np)(np M , Q M Q10.2530.75四分位极差:它是第 3 个四分位数 Q 与第 1 个四分位数之差,即3Q1R Q Q M M1310.750.25 111 Q M QM424133
2、data spearman; run;取,由相关系数阵看出: 0.1所有的 R值均 的 p值均小于 0.1,拒绝假设,认为相应随机变量对相关性显著取0.1 , 由相关系数阵看出 :所有的 R值均 的 p值均小于 0.1,拒绝假设,相应随机变量相关性显著第二章 回归分析一线性回归模型及其参数估计 X Y X X 01122p1p1 Y X X X01122p1p1Y (X X) X YY X T1T二统计推断1 .回归方程的显著性检验: SST SSE SSR: 0H,012p1p H 真0 P (F F ) F p n p ( ), p HF0/(n p)2.回归系数的统计推断:H00: 0H
3、0kkH真 P (|t |t |)p t t( n p),Hk0kH0kkk00kks( )k() ( ) n p stkkk2 , x x xTy00101p1 0, 10py 0y tn p MSE( )x (X X) x T0T1002三残差分析四回归方程的选取1. 穷举法Cp2. 逐步回归法(略)Y,X ,XY X X X 与X,12 230112233 )N y x x x ,i ,24i0112i23i3i检验假设H : 00kkH真pt n p ( ),HtkH0kkk00kks(k() ( )n p s tkkk2) ) F FFF 值0p00 0.05Corrected To
4、talX ,X ,X 与Y123显著 P (|t |t |) s(值t )p0k0kkH0kk 1111 0.05显著Y 17.8469x 0.3215x 1.2890 x123 5 Yy X X X X X ,i i 0112i23i34i45i5 (0, )2 Ni程序 ; ; Y 2 : 0H012345MSR真HF0MSEp P (F F ) 0.0001H Y 与 , , , , X X X X X00H012345 R20.9982, ? H : 0, k0kkkH真tkkks( )ckkk对 给 出 显 著 性 水 平 0.05p值 看 出 ,p P t |t H X ( Y k
5、0kH0kkk00kk , , , ,X X X X X12345(x ,x ,x ,x ,x ) 2799,95300,21.82,776.71 y 00102030405Y x x x x x12345(x ,x ,x ,x ,x ) 2799,95300,21.82,776.71X ,X ,X ,X ,X010203040512345y 0 450.90920.353939410.561527990.00739530021.577921.820.4352776.71388.9241y0令x x ,x ,x ,x ,x ) ),由 2449.49807MSETT20 y 0y t x (X
6、 X) x 388.9241T0T100YX1X2X3X4X5第三章 方差分析一 单因素方差分析1.统计模型,A , ,Ay ,y , ,yi A,A A12ai1i2i , j ,n , ,ay iii (0, ), 且各 相互独立N2SS SS SSTSSEASSH真 ( ),n aE ( a E,22A2na22 H : 012aSS /(a H为真F F(ana)AAESS /(na) Ep P (F f) P(F(ana) f) H H00 i y y /ni ,a)iiijij1 置信度1,y ti(nna) / i2Ei11 y y t (na) ( )MSijijn1nE22
7、111个my y t(na) ( )2mijijn1nE2二.两因素等重复试验下的方差分析1.统计模型( , )y y y, ,A和,A , ,A, , ,B B BA Bij2A1,2a12ijij1ijcb ,a, j ,b, k ,y i cijkijijk (0, ),且诸 相互独立ijkN2 ijkSS SS SS SS SSTABABESS2SSE为 2 (ab(c,2E( ab c2SS SS SS、 、 ( , ( , ( a b a b222ABAB2222.显著检验: 0 H : HA02a1iH : 0 H: 不全相等B012b1jH : i , , a j , b H:
8、 0AB0ijAB0ijMS真H真HFb ab(cF AF(a (cB0A0FBAEBMSEMSH真F AB F(a(b ab(cA0ABMSE p pp P (F f ) P(F(a (c) f )AHAAAA0p P (F f ) P(Fb (c) f )BHBBBA0p P (F f ) P(F(ab,(c) f )ABHABABAB 03. 无交互效应的各因素均值的估计与比较bc/y ijk yiiij1 k1(y t (ab(c /)iiE2 ,(y y t (ab(c 2MS /bc)i i 2ii E122 m个(y y t(ab(c 2MS /bc)i i 2mi i E121
9、24. 有交互效应时因素各水平组合上的均值估计与比较(略)6 YA和a和 次bc或 , y ijkijijkiiijijki ,a, j ,b, k ,c (0, N 2ijkijkabab 0,0,0, 0ijijiji1j1i1j1SS SS SS SS SSTABABEH :HH: , , ,A011H : : , , ,B0112 , , ,H : i a j b H: 0 AB0ijAB0ij值值p A1SS AAppB2SSBB2SSABABESS T 0.05H A 和 B A 对 Y HAB著H 和H p 和 p H 和H A0B0ABA0B0B7 页第五章 主成分分析、典型相
10、关分析一主成分分析1.基于协方差矩阵的总体主成分的求法X( , , )X XX pT12p() ) XE()(XE( Tij pp a X a X a X a XY1T1121ppa X a X a X a XYTkkk11k22pa X a X a X a X YTpp11p22pa a 1T;kkY ,Y )a 0 j k;,TjkjkarY ) arY ) arY ) 012p求总体主成分步骤:| I0 0 的 p;12pe ,e , ,e;12m,p e (e ,e ,e ) k,Tkk1k2kpX) kY e Xe X e X e X ;Tkkk11k22kppY( , , )Y Y
11、Y为 pT12pp / P kkkjj1 kp / kjjj1j12.基于样本协方差矩阵的主成分分析X ,i,nx ( , , , )x x xnTi1i2ip 1 1 (x x)(x x)TnnS (s )(x x )(x x )n1n1jk ppijjikkiii1i1p p1x ( , , )x xx,nTx jx12pniji1 0 12pe ,e , ,ee (e ,e ,e ),T12pkk1k2kp kT,y e xe x e x e x, kpkkk11k22pp / /)p kkjkj1 kpk / /pjjjj1j1j1k k nTy e x e x e x e x (i
12、,n)ikkik1 1k2 i2kp ipy ( , , ) ( , )y yyinTi18i2ip) X X X 123X X X 4563456789 1 2 3 456789 ;run; data corr输出变量的简单统计量值 run; data out princomp/*以下程序对各公司按第一主成分进行排名并打印结果 data run; id()print1 score1prin1 y* e* x* 0.5528x* 0.3968x* x* 0.4168x* 0.4440 x* 0.4339x*11123456y*1yex*2y*2 y*2y*1二典型相关分析1.总体典型变量的定义
13、X( , , ) , Y ( , , )X XXY YYq,TT12p12 ( , ) (X ,X , ,X ,Y,Y , ,Y )X Y 112112TT TT12p12q22 () XE()XE() (X ,X )Tijpp (Y) YE(YYE(Y) Y ,Y )Tijq (, Y) XE(YE(Y) (X ,Y )T设 pijpq q. a a a( , , , )U a X a X a X a XaTTk11k221k2kkpkk V b Yb X b X b Yb b ,b , ,b )TkTkk11k22 qkk1 k2(k ,p). a ,bkkkVarU )Vara X)a
14、a VarV )Varb X)b b TkTkTkTkk11 kk22k(2)CovU ,U )CovV ,V )CovU ,V )CovU ,V )k j,kjkjkjkk , 1k pq,U VU VU V1122ppCovU ,V )a bkkTU )VarV )U VVark12kkkkk2.总体典型变量与典型相关系数的求法 A,BA,B111111 12 22 2122 21 11 12 0 p设222为AB 12p,e , ,ef ,f , ,f(2eA、Bp 和12p1 2pX、Yka X e 1,e (e ,e , ,e )Uk2TkTk2T1kkkVb Y f 1Y,f (f
15、 , f , , f )TkT2Tkkkk1k2 , p. ,k U Vk3.样本典型相关分析kk(X ,X , ,X ) ,Y ,Y , ,Y ),XYTT12p12q(x ,x , ,x ) ,(y ,y , ,y ),nxyTTi1i2i1i2x xxx x xx* (x*,x* ,x* )T (,)11i22pi1i2sssy yiqy y y yi ,ny*(,)T11i22qi111111RRR ( , ) R 1112 X YTTTRR21224.典型相关系数的显著性检验(略)X( , , ) ,Y ( , , ) (X ,Y ) X XXY YYq,TTTTT12p12p qA
16、 B 记 , 112112 ,设111111 12 22 2122 21 11 12221 11122A*1)1 111 12 22 21 1 1 1 11122 *11 1)1 1 2222-21)1)2|A I)22(1)22-1) 1)42, *21*221)122 1 12A I )*1) 1 1 11A*和B* *, 112211 1111111122211111111222221111111Ua*e*)( XX)*TT21)21V(b ) Y f ) 1X *21 ) ,*1,*1X,Y )11j22(4)A I A 1)1 1*22* 0 0111 1 2 -12 -1A* 和B
17、* 1111-X)*U*TT21)21V(b ) Y f ) 1X *T21 )2X,Y 0 , , )*2U*2V* U* V 2*221A R R R RB R R R RA ( *)*111122*122121 11122112 0 ,22121,0.3180 x 0.7687x V 1.1019x 0.4564x U,112112U 1.2478x 1.0330 x ,V x 1.0030 x212212 cards; data ;/*调用相关分析过程,打印样本相关系数矩阵 run; 第六章聚类分析一快速聚类(1)欧氏距离快速聚类法Lmk 1d(x ,x ) x x (x x ) (x
18、 x T2ijijijijk L x,x ,x(0)01002 kkG G ,G ,G (0)(0)1(0)2(0)kG L(0)(0)x x /n以G(0)iiliG(0)xilL x ,x ,x G G ,G ,G (0)(0)1(0)2(0) k12 k2系统聚类法(d(x , x )记d,x( ) x(p),x(p)Gpijij12pnp1np和G x ,x ,x n 和 , (p) G (q)1(q)2(q)nxxpqnpqnpipp i1类G G D G 和G G D 、G G pqpqpqrpqrk4D min d iG , jG pqD mid iG , jG min ,D r
19、k(2)谱系聚类法的步骤x p ,nnnGpp0 dd121nd0dD 21D(p,q)d2n 0 pqdd d1n2nnx G x G G ,G D d G与 0pqppqqRpq去G 与G Gpqrn1D D D D, n(2)(nG G G G312408 236 218 G180 196 174 G(d ) D 02i4j236 196 06 G3218 174 60 G4G0G G G2134GGG8 236 218 G5120 218 174 G180 196 174 GD (di ) D 5218 08G 23410j4x ,x 236 196 06 GGG1x ,x G174
20、80 G 6124218 174 60532G G650 174 D G G6(2)G G x ,x ,x ,x 174 0G7561234 5x1x2x34x068174 对 4解 $cards; ;run;以下调用谱系聚类的cluster方法method=sinsingle表示原始数据标准化后再计算欧氏距离,nonorm阻止两类合并时距离水平规范化,outtree=tree1表示生成一个用于画谱系图的输出SAStree1(默认 data outtree=tree1; run;/*参与分析的指标变量为*以下调用画谱系图的treegraphicshorout=c1输出分类结果集c1nclust
21、ers=4指定在输出分类结果数据集中分类个数为4*/ data= out= nclusters=4; run; data=c1;run;( data outtree=tree2; run; data= out= nclusters=4; run; data=c2;run;( data outtree=tree3; run; data= out= nclusters=4; run; data=c3;run;( data outtree=tree4; run; data= out= nclusters=4; run; data=c4;run; 4第五章判别分析一距离判别1. 马氏距离的定义 x,y
22、GG , ,x,ydd22(x,y)(xy) 1(xy) T(x,G)(x) (x)x 与G T1,G , ,G, 121212(G ,G ) ) ) ,d21G G T121212122. 距离判别准则,G , ,x (x ,x , ,x )2GT12121212p(1) , 不全相等12记d2(x)d2G (x, ) (x ) (x ),1j 2Tjjjjjx Gj(x) (x)xGd d2j02j0jj2 x S jjj1nj xx , j j( )( j)njii1j1njS (x x( j) )(x x( j) ) , j 2( j) ( j)Tn 1jiii1j(2) 总体协方差矩阵相等 :12(x)W (x)xGG W,j0j0j0j jk1(x) a xb ,其中W而 a ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 篷布帐篷的快速搭建与拆卸技巧考核试卷
- 空间信息技术与地理信息系统考核试卷
- 空气净化器产品创新趋势与市场需求分析预测考核试卷
- 玩具行业互联网+营销模式考核试卷
- 组织领导力发展与绩效管理体系构建实践考核试卷
- 直播平台与健身教练合作直播协议
- 粤港澳大湾区跨境股权投资人工智能合作协议
- 商业街区店铺经营权审查及管理服务合同
- 跨界娱乐直播合作项目主播签约协议
- 物流运输数据安全备份及恢复服务补充协议
- 分期还款协议书模板示例
- 幼升小公有住宅租赁合同(2篇)
- 彩票大数据预测分析
- (完整)老旧小区改造施工组织设计
- 2024-2030年中国科技服务行业发展前景及投资策略分析研究报告
- 《城市轨道交通》课件
- 建筑工程材料取样送检一览表
- 婚姻家庭继承法期末考试复习题及参考答案
- 2024年四川省成都市中考数学试卷(含解析)
- 项目全周期现金流管理培训课件
- 小学群众满意度调查测评表
评论
0/150
提交评论