统计案例分析.doc_第1页
统计案例分析.doc_第2页
统计案例分析.doc_第3页
统计案例分析.doc_第4页
统计案例分析.doc_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哺乳动物大脑发育水平相关因素回归分析小组成员: 目录一、数据来源及背景11数据来源12数据背景及研究目的13数据说明1二、统计分析11数据描述性分析11.1 数据基本描述11.2 置信区间分析21.3 brain weight与body weight的数据相关性21.4 所有参数的相关性32数据图形化分析33多元回归分析53.1 原始数据直接多元回归分析53.2 对多元回归原始数据处理和调整83.3 数据模型的确定123.4 对Cook距离的分析17三、总结18附录:研究数据19统计案例分析一、 数据来源及背景1 数据来源数据来源于American Naturalist (1974)杂志 p.593-613. 2 数据背景及研究目的达尔文在他的进化论一书中指出“生物之间存在着生存斗争,适应者生存下来,不适者则被淘汰,这就是自然的选择。生物正是通过遗传、变异和自然选择,从低级到高级,从简单到复杂,种类由少到多地进化着、发展着。”从达尔文的观点中我们可以得出动物具备使它们自身更好的生存和繁衍后代的能力,这是一种内在的属性。有一种观点认为,具备更大大脑容量的动物,比如哺乳动物在生存和繁衍方面一般会表现得更好。虽然,哺乳动物的自然选择有一些限制,比如他们通常需要更长的怀孕期并且一次孕育后代的数量更少。这些负面因素在一定程度上削弱了哺乳动物的优势。但是总体来说,哺乳动物的优势要大于它们的劣势。通常情况下,较大的大脑意味着躯体也更加的硕大。我们尝试用统计的方法,研究和分析一下具备更大大脑容量的哺乳动物之间具有什么样相同和不同的特征,在这些特征中是否会存在某些特别突出的因素。众所周知,哺乳动物是动物发展史上最高级的阶段,也是与人类关系最密切的一个类群。我们希望通过此次的论证和研究,能够得到关于一些哺乳动物大脑重量的信息,并找到与之相关联的因素,为促进哺乳动物大脑重量的研究提供可以参考的依据。3 数据说明我们小组分析的案例,是研究哺乳动物大脑重量和其他几种因素的关系。这些因素主要包括哺乳动物的妊娠期天数、身体重量以及平均每窝产仔数量。数据总共采集了96种不同哺乳动物的信息。当模型具有显著的统计意义并且样本足够大(n=96)时,可以获得比较准确的估计值。Excel列示如下:Problem: Correlates of brain sizeNature of data :AName of the species物种名称BGestation period (days)妊娠期天数CBrain weight (gms)大脑重量DBody weight (kg)身体重量ELitter size平均每窝产仔数量二、 统计分析1 数据描述性分析1.1 数据基本描述我们对所采用的数据首先进行了简单的描述性分析,具体信息见下图。描述性统计: gestation period, brain weight, body weight, av. Litter size 均值标 下四分变量 N N* 均值 准误 标准差 最小值 位数 中位数gestation period (days) 96 0 151.3 11.0 108.1 16.0 63.0 133.5brain weight (gms) 96 0 219.0 51.7 507.0 0.5 12.2 74.0body weight (kg) 96 0 108.3 33.6 329.4 0.0 2.0 8.9av. Litter size 96 0 2.310 0.178 1.747 1.000 1.000 1.200 上四分变量 位数 最大值gestation period (days) 228.8 655.0brain weight (gms) 260.0 4480.0body weight (kg) 98.3 2800.0av. Litter size 3.400 8.000从上图的描述性分析初步可知,哺乳动物的平均怀孕期为151天,平均大脑重量为219毫克,平均体重108公斤,平均每次产仔数量为2.3。1.2 置信区间分析单样本 T: gestation period, brain weight (gm, body weight (kg), av. Litter size 均值标变量 N 均值 标准差 准误 95% 置信区间gestation period (days) 96 151.3 108.1 11.0 (129.4, 173.2)brain weight (gms) 96 219.0 507.0 51.7 (116.3, 321.7)body weight (kg) 96 108.3 329.4 33.6 ( 41.6, 175.1)av. Litter size 96 2.310 1.747 0.178 (1.956, 2.664)对数据置信区间的分析使我们得知了:对数据gestation period,样本均值为151.3,标准误11.0,由此构造的区间(129.4, 173.2)有95%包括gestation period总体均值。对数据brain weight,样本均值为219.0,标准误51.7,由此构造的区间(116.3, 321.7)有95%包括brain weight总体均值。对数据body weight,样本均值为108.3,标准误33.6,由此构造的区间(41.6, 175.1)有95%包括body weight总体均值。对数据av. Litter size,样本均值为2.310,标准误0.178,由此构造的区间(1.956, 2.664)有95%包括av. Litter size总体均值。1.3 brain weight与body weight的数据相关性相关: brain weight (gms), body weight (kg) brain weight (gms) 和 body weight (kg) 的 Pearson 相关系数 = 0.864P 值 = 0.000根据结果显示,哺乳动物的大脑重量和躯体重量是有非常强的相关性的。但是对brain weight取对数后,ln brain weight和body weight之间的相关性减弱。而ln brain weight和ln body weight之间的相关性最强。这也为后面进行回归分析提供了一个思路。相关: ln brain weight, body weight (kg) ln brain weight 和 body weight (kg) 的 Pearson 相关系数 = 0.422P 值 = 0.000相关: ln brain weight, ln body weight ln brain weight 和 ln body weight 的 Pearson 相关系数 = 0.964P 值 = 0.0001.4 所有参数的相关性相关: gestation period, brain weight (gm), body weight (kg), av. Litter size gestation period brain weight (gm) body weight (kg)brain weight (gm) 0.728 0.000body weight (kg) 0.625 0.864 0.000 0.000av. Litter size -0.604 -0.255 -0.183 0.000 0.012 0.075单元格内容: Pearson 相关系数 P 值对brain weight和body weight取对数以后的整体相关性分析,可以粗略的看到,数据之间的相关性更加紧密,整体感觉好于之前的分析。相关: gestation period (days), av. Litter size, ln brain weight, ln body weight gestation period av. Litter size ln brain weightav. Litter size -0.604 0.000ln brain weight 0.806 -0.612 0.000 0.000ln body weight 0.772 -0.513 0.964 0.000 0.000 0.000单元格内容: Pearson 相关系数 P 值2 数据图形化分析这里,我们分别观察了brain weight和body weight的散点图,以及ln brain weight和ln body weight的散点图。从第一张图上可以看到,绝大多数哺乳动物集中在图的左下角,也就是体重小于500公斤,大脑重量小于1000毫克的范围里。哺乳动物的体重变化范围还是相对较大的,下图中最大的体重是非洲象,体重2800公斤同时其大脑重量也达到了4480毫克,其次是河马体重1400公斤。相对于体重,脑容量更重的两个物种则是人类和海豚。海豚的脑重量达到了1600毫克。我们还尝试使用箱线图的方式对四种变量进行简单的探索性数据分析,以便更直观的看到几种数据的分布概况。3 多元回归分析3.1 原始数据直接多元回归分析我们以大脑重量为因变量,其他3种数据作为自变量,直接进行回归分析。回归结果如下:回归分析:brain weight 与 gestation period, body weight, av. Litter size 回归方程为brain weight (gms) = - 225 + 1.81 gestation period (days) + 0.986 body weight(kg) + 27.6 av. Litter size自变量 系数 系数标准误 T P常量 -225.29 83.06 -2.71 0.008gestation period (days) 1.8087 0.3544 5.10 0.000body weight(kg) 0.98588 0.09428 10.46 0.000av. Litter size 27.65 17.41 1.59 0.116S = 224.561 R-Sq = 81.0% R-Sq(调整) = 80.4%方差分析来源 自由度 SS MS F P回归 3 19777225 6592408 130.73 0.000残差误差 92 4639349 50428合计 95 24416574来源 自由度 Seq SSgestation period (days) 1 12947201body weight(kg) 1 6702907av. Litter size 1 127117异常观测值 gestation brain period weight 拟合值 标准化观测值 (days) (gms) 拟合值 标准误 残差 残差 24 270 1300.0 354.8 42.1 945.2 4.29R 40 21 2.4 34.2 82.2 -31.8 -0.15 X 52 360 1600.0 611.2 63.1 988.8 4.59R 72 655 4480.0 3747.5 190.5 732.5 6.16RX 75 390 250.0 734.5 69.0 -484.5 -2.27R 77 115 180.0 391.2 92.7 -211.2 -1.03 X 78 240 590.0 1616.7 112.5 -1026.7 -5.28RXR 表示此观测值含有大的标准化残差X 表示受 X 值影响很大的观测值。数据分析:根据假设检验的定义来初步分析一下回归结果,假设检验:从回归方程上分析,常数项,gestation period和body weight的P-值很小,说明可以明显拒绝原假设H0。但是av. litter size的P-值为0.116,不能拒绝原假设。因此,对数据的回归分析还需要进一步的分析和验证。Brain weight残差正态图和残差与拟合值图如下:数据分析:从残差的正态分布图和残差与拟合值图分析,明显可以看到残差和正态分布拟合的不好,具有异方差的特性,是非常数方差。因此,初始的设置对数据进行直接回归分析是不恰当的。考虑采用其他模型来重新进行回归分析。3.2 对多元回归原始数据处理和调整考虑到残差图的形状,为了消除异方差的影响,我们对brain weight取对数,并再一次进行回归分析:回归分析:ln brain wei 与 gestation pe, body weight , av. Litter s 回归方程为ln brain weight = 2.13 + 0.0151 gestation period (days) - 0.000519 body weight (kg) - 0.215 av. Litter size自变量 系数 系数标准误 T P常量 2.1350 0.4630 4.61 0.000gestation period (days) 0.015089 0.001976 7.64 0.000body weight (kg) -0.0005191 0.0005255 -0.99 0.326av. Litter size -0.21492 0.09706 -2.21 0.029S = 1.25167 R-Sq = 67.8% R-Sq(调整) = 66.8%方差分析来源 自由度 SS MS F P回归 3 303.68 101.23 64.61 0.000残差误差 92 144.14 1.57合计 95 447.81来源 自由度 Seq SSgestation period (days) 1 291.10body weight (kg) 1 4.90av. Litter size 1 7.68异常观测值 gestation period ln brain 拟合值 标准化观测值 (days) weight 拟合值 标准误 残差 残差 4 51 0.131 2.582 0.259 -2.451 -2.00R 40 21 0.867 0.732 0.458 0.135 0.12 X 66 108 5.561 3.026 0.158 2.534 2.04R 67 104 5.710 2.950 0.169 2.760 2.23R 72 655 8.407 10.350 1.062 -1.943 -2.93RX 77 115 5.193 2.052 0.517 3.141 2.75RX 78 240 6.380 4.815 0.627 1.565 1.45 XR 表示此观测值含有大的标准化残差X 表示受 X 值影响很大的观测值。ln brain weight 残差正态图 和 残差与拟合值数据分析:从残差图的正态图和残差与拟合值图分析,残差的分布效果更好。但是残差的正态拟合图的拟合效果仍然不是很好。并且,从上面的结果可以明显看到,对brain weight取对数进行回归以后,body weight参数的P-值明显变大。考虑到哺乳动物的brain weight和body weight还是应该有比较直接的联系的。因此我们对数据进行了进一步的调整,对body weight也取其对数值并用取对数以后的值再次进行分析。可以说哺乳动物的重量67.8%可以用妊娠周期的变异和每窝产仔数的变化来说明。在产仔相同的情况下,妊娠时间每多一天,幼仔大脑的重量提高0.015,会增加一微克。在控制其他因素的情况下,每窝幼仔多产一只,平均大脑重量会减少0.215微克。下图是对body weight取对数后再一次回归的结果:回归分析:ln brain weight 与 gestation period, av. Litter size, ln body weight 回归方程为ln brain weight = 2.68 + 0.00171 gestation period (days) - 0.167 av. Litter size + 0.619 ln body weight自变量 系数 系数标准误 T P常量 2.6756 0.1622 16.50 0.000gestation period (days) 0.0017055 0.0007898 2.16 0.033av. Litter size -0.16749 0.03622 -4.62 0.000ln body weight 0.61868 0.02724 22.71 0.000S = 0.489498 R-Sq = 95.1% R-Sq(调整) = 94.9%方差分析来源 自由度 SS MS F P回归 3 425.77 141.92 592.31 0.000残差误差 92 22.04 0.24合计 95 447.81来源 自由度 Seq SSgestation period (days) 1 291.10av. Litter size 1 11.05ln body weight 1 123.62异常观测值 gestation period ln brain 拟合值 标准化观测值 (days) weight 拟合值 标准误 残差 残差 24 270 7.1701 5.5512 0.0756 1.6190 3.35R 40 21 0.8671 0.7040 0.1776 0.1631 0.36 X 52 360 7.3778 6.2620 0.1177 1.1158 2.35R 72 655 8.4074 8.5358 0.2956 -0.1285 -0.33 X 75 390 5.5215 6.5376 0.1337 -1.0162 -2.16R 77 115 5.1930 4.7780 0.2347 0.4150 0.97 X 78 240 6.3801 7.3992 0.1101 -1.0191 -2.14RR 表示此观测值含有大的标准化残差X 表示受 X 值影响很大的观测值。ln brain weight残差正态图 残差与拟合值数据分析:对body weight取对数以后的回归结果,明显好于之前。三个自变量的P-值1的经验准则,并不需要关注有影响观测值的存在问题。所以,目前的数据基本上是合理的,满足分析要求的,不需要对数据进行额外的调整。-21-三、总结通过以上的统计分析,我们发现哺乳动物大脑的重量与其体重、妊娠期天数、平均每窝产仔数量存在着一定的关系。而生物学界通常认为,动物的大脑是否发达和脑重量也存在一定的关系,因此我们可以通过对动物体重、妊娠期天数、平均每窝产仔数量等显性数据的观察,来进一步分析动物的大脑发达程度。在此基础上,我们可以更好的认识动物的认知与活动规律。在经济生活中,此研究也具有重大的意义,例如马戏团可以利用此研究结果来选取大脑发达的动物进行驯化,以获得更好的效果。虽然此研究是建立在生物学研究的基础之上,但其结论对于马戏团、动物园等商业场所如何提高经济效益,也很具有指导性,具有可观的商业价值。此外,随着科学技术的发达,通过改变基因来改变物种特性,创造新的物种,也具有现实可能性。因此,科研人员可以通过对体重、妊娠期天数、平均每窝产仔数量等变量的控制,改良培育出实验所需要的大脑发达水平的物种。附录:研究数据species namegestation period (days)brain weight (gms)body weight(kg)av. Litter sizeQuokka2617.53.51hedgehog343.50.934.6tree shrew463.150.153elephant shrew1511.140.051.5elephant shrew2461.370.061.5lemur135222.11slow loris9012.81.21.2bush baby1359.90.71howler monkey139547.71ring-tail monkey180733.71spider monkey I1401149.11spider monkey II1401097.71gentle lemur1457.80.222rhesus monkeyI17584.661rhesus monkeyII1651078.71.1hamadryas baboon180183211western baboon180179321vervet guenon195674.61leaf monkey16865.55.81white handed gibbon2101025.51orangutan270343371chimpanzee230360451gorilla2654061401man2701300651long nosed armadillo120123.74aardvark319.62.25jack rabbit4113.32.92.5tree squirrel386.230.333flying squirrel401.890.053.1canadian beaver12840202.9beaver12845254deer mouseI230.680.033.7deer mouseII230.630.035deer mouseIII240.520.025deer mouseIV240.690.025hamsterI210.670.044.6hamsterII161.120.136.3pygmy gerbil211.040.064ratI230.720.057.3ratII212.380.348house mouse 190.450.025hopping mouse271.18

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论