统计案例分析_第1页
统计案例分析_第2页
统计案例分析_第3页
统计案例分析_第4页
统计案例分析_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哺乳动物大脑发育水平有关原因回归分析小组组员:目录一、 数据来源及背景 11. 数据来源 12. 数据背景及研究目的 13. 数听阐明 1二、 记录分析 11. 数据描述性分析 11.1数据基本描述 11.2置信区间分析 21.3brainweight与bodyweight的数据有关性 21.4所有参数的有关性 32. 数据图形化分析 33. 多元回归分析 53.1原始数据直接多元回归分析 53.2对多元回归原始数据处理和调整 83.3数据模型确实定 123.4对Cook距离的分析 17三、总结 18附录:研究数据 19记录案例分析数据来源及背景数据来源数据来源于AmericanNaturalist(1974)杂志p.593-613.数据背景及研究目的达尔文在他的《进化论》一书中指出“生物之间存在着生存斗争,适应者生存下来,不适者则被淘汰,这就是自然的选择。生物正是通过遗传、变异和自然选择,从低级到高级,从简朴到复杂,种类由少到多地进化着、发展着。”从达尔文的观点中我们可以得出动物具有使它们自身更好的生存和繁衍后裔的能力,这是一种内在的属性。有一种观点认为,具有更大大脑容量的动物,例如哺乳动物在生存和繁衍方面一般会体现得更好。虽然,哺乳动物的自然选择有某些限制,例如他们一般需要更长的怀孕期并且一次孕育后裔的数量更少。这些负面原因在一定程度上减弱了哺乳动物的优势。不过总体来说,哺乳动物的优势要不小于它们的劣势。一般状况下,较大的大脑意味着躯体也愈加的硕大。我们尝试用记录的措施,研究和分析一下具有更大大脑容量的哺乳动物之间具有什么样相似和不一样的特性,在这些特性中与否会存在某些尤其突出的原因。众所周知,哺乳动物是动物发展史上最高级的阶段,也是与人类关系最亲密的一种类群。我们但愿通过本次的论证和研究,可以得到有关某些哺乳动物大脑重量的信息,并找到与之有关联的原因,为增进哺乳动物大脑重量的研究提供可以参照的根据。数听阐明我们小组分析的案例,是研究哺乳动物大脑重量和其他几种原因的关系。这些原因重要包括哺乳动物的妊娠期天数、身体重量以及平均每窝产仔数量。数据总共采集了96种不一样哺乳动物的信息。当模型具有明显的记录意义并且样本足够大(n=96)时,可以获得比较精确的估计值。Excel列示如下:Problem:CorrelatesofbrainsizeNatureofdata:ANameofthespecies物种名称BGestationperiod(days)妊娠期天数CBrainweight(gms)大脑重量DBodyweight(kg)身体重量ELittersize平均每窝产仔数量记录分析数据描述性分析1.1数据基本描述我们对所采用的数据首先进行了简朴的描述性分析,详细信息见下图。描述性记录:gestationperiod,brainweight,bodyweight,av.Littersize均值标下四分变量NN*均值准误原则差最小值位数中位数gestationperiod(days)960151.311.0108.116.063.0133.5brainweight(gms)960219.051.7507.00.512.274.0bodyweight(kg)960108.333.6329.40.02.08.9av.Littersize9602.3100.1781.7471.0001.0001.200上四分变量位数最大值gestationperiod(days)228.8655.0brainweight(gms)260.04480.0bodyweight(kg)98.32800.0av.Littersize3.4008.000从上图的描述性分析初步可知,哺乳动物的平均怀孕期为151天,平均大脑重量为219毫克,平均体重108公斤,平均每次产仔数量为2.3。1.2置信区间分析单样本T:gestationperiod,brainweight(gm,bodyweight(kg),av.Littersize均值标变量N均值原则差准误95%置信区间gestationperiod(days)96151.3108.111.0(129.4,173.2)brainweight(gms)96219.0507.051.7(116.3,321.7)bodyweight(kg)96108.3329.433.6(41.6,175.1)av.Littersize962.3101.7470.178(1.956,2.664)对数据置信区间的分析使我们得知了:对数据gestationperiod,样本均值为151.3,原则误11.0,由此构造的区间(129.4,173.2)有95%包括gestationperiod总体均值。对数据brainweight,样本均值为219.0,原则误51.7,由此构造的区间(116.3,321.7)有95%包括brainweight总体均值。对数据bodyweight,样本均值为108.3,原则误33.6,由此构造的区间(41.6,175.1)有95%包括bodyweight总体均值。对数据av.Littersize,样本均值为2.310,原则误0.178,由此构造的区间(1.956,2.664)有95%包括av.Littersize总体均值。1.3brainweight与bodyweight的数据有关性有关:brainweight(gms),bodyweight(kg)brainweight(gms)和bodyweight(kg)的Pearson有关系数=0.864P值=0.000根据成果显示,哺乳动物的大脑重量和躯体重量是有非常强的有关性的。不过对brainweight取对数后,lnbrainweight和bodyweight之间的有关性减弱。而lnbrainweight和lnbodyweight之间的有关性最强。这也为背面进行回归分析提供了一种思绪。有关:lnbrainweight,bodyweight(kg)lnbrainweight和bodyweight(kg)的Pearson有关系数=0.422P值=0.000有关:lnbrainweight,lnbodyweightlnbrainweight和lnbodyweight的Pearson有关系数=0.964P值=0.0001.4所有参数的有关性有关:gestationperiod,brainweight(gm),bodyweight(kg),av.Littersizegestationperiodbrainweight(gm)bodyweight(kg)brainweight(gm)0.7280.000bodyweight(kg)0.6250.8640.0000.000av.Littersize-0.604-0.255-0.1830.0000.0120.075单元格内容:Pearson有关系数P值对brainweight和bodyweight取对数后来的整体有关性分析,可以粗略的看到,数据之间的有关性愈加紧密,整体感觉好于之前的分析。有关:gestationperiod(days),av.Littersize,lnbrainweight,lnbodyweightgestationperiodav.Littersizelnbrainweightav.Littersize-0.6040.000lnbrainweight0.806-0.6120.0000.000lnbodyweight0.772-0.5130.9640.0000.0000.000单元格内容:Pearson有关系数P值数据图形化分析这里,我们分别观测了brainweight和bodyweight的散点图,以及lnbrainweight和lnbodyweight的散点图。从第一张图上可以看到,绝大多数哺乳动物集中在图的左下角,也就是体重不不小于500公斤,大脑重量不不小于1000毫克的范围里。哺乳动物的体重变化范围还是相对较大的,下图中最大的体重是非洲象,体重2800公斤同步其大脑重量也到达了4480毫克,另一方面是河马体重1400公斤。我们还尝试使用箱线图的方式对四种变量进行简朴的探索性数据分析,以便更直观的看到几种数据的分布概况。多元回归分析3.1原始数据直接多元回归分析我们以大脑重量为因变量,其他3种数据作为自变量,直接进行回归分析。回归成果如下:回归分析:brainweight与gestationperiod,bodyweight,av.Littersize回归方程为brainweight(gms)=-225+1.81gestationperiod(days)+0.986bodyweight(kg)+27.6av.Littersize自变量系数系数原则误TP常量-225.2983.06-2.710.008gestationperiod(days)1.80870.35445.100.000bodyweight(kg)0.985880.0942810.460.000av.Littersize27.6517.411.590.116S=224.561R-Sq=81.0%R-Sq(调整)=80.4%方差分析来源自由度SSMSFP回归3197772256592408130.730.000残差误差92463934950428合计9524416574来源自由度SeqSSgestationperiod(days)112947201bodyweight(kg)16702907av.Littersize1127117异常观测值gestationbrainperiodweight拟合值原则化观测值(days)(gms)拟合值原则误残差残差242701300.0354.842.1945.24.29R40212.434.282.2-31.8-0.15X523601600.0611.263.1988.84.59R726554480.03747.5190.5732.56.16RX75390250.0734.569.0-484.5-2.27R77115180.0391.292.7-211.2-1.03X78240590.01616.7112.5-1026.7-5.28RXR表达此观测值具有大的原则化残差X表达受X值影响很大的观测值。数据分析:根据假设检查的定义来初步分析一下回归成果,假设检查:从回归方程上分析,常数项,gestationperiod和bodyweight的P-值很小,阐明可以明显拒绝原假设H0。不过av.littersize的P-值为0.116,不能拒绝原假设。因此,对数据的回归分析还需要深入的分析和验证。Brainweight残差正态图和残差与拟合值图如下:数据分析:从残差的正态分布图和残差与拟合值图分析,明显可以看到残差和正态分布拟合的不好,具有异方差的特性,是非常数方差。因此,初始的设置对数据进行直接回归分析是不恰当的。考虑采用其他模型来重新进行回归分析。3.2对多元回归原始数据处理和调整考虑到残差图的形状,为了消除异方差的影响,我们对brainweight取对数,并再一次进行回归分析:回归分析:lnbrainwei与gestationpe,bodyweight,av.Litters回归方程为lnbrainweight=2.13+0.0151gestationperiod(days)-0.000519bodyweight(kg)-0.215av.Littersize自变量系数系数原则误TP常量2.13500.46304.610.000gestationperiod(days)0.0150890.0019767.640.000bodyweight(kg)-0.00051910.0005255-0.990.326av.Littersize-0.214920.09706-2.210.029S=1.25167R-Sq=67.8%R-Sq(调整)=66.8%方差分析来源自由度SSMSFP回归3303.68101.2364.610.000残差误差92144.141.57合计95447.81来源自由度SeqSSgestationperiod(days)1291.10bodyweight(kg)14.90av.Littersize17.68异常观测值gestationperiodlnbrain拟合值原则化观测值(days)weight拟合值原则误残差残差4510.1312.5820.259-2.451-2.00R40210.8670.7320.4580.1350.12X661085.5613.0260.1582.5342.04R671045.7102.9500.1692.7602.23R726558.40710.3501.062-1.943-2.93RX771155.1932.0520.5173.1412.75RX782406.3804.8150.6271.5651.45XR表达此观测值具有大的原则化残差X表达受X值影响很大的观测值。lnbrainweight残差正态图和残差与拟合值数据分析:从残差图的正态图和残差与拟合值图分析,残差的分布效果更好。不过残差的正态拟合图的拟合效果仍然不是很好。并且,从上面的成果可以明显看到,对brainweight取对数进行回归后来,bodyweight参数的P-值明显变大。考虑到哺乳动物的brainweight和bodyweight还是应当有比较直接的联络的。因此我们对数据进行了深入的调整,对bodyweight也取其对数值并用取对数后来的值再次进行分析。可以说哺乳动物的重量67.8%可以用妊娠周期的变异和每窝产仔数的变化来阐明。在产仔相似的状况下,妊娠时间每多一天,幼仔大脑的重量提高0.015,会增长一微克。在控制其他原因的状况下,每窝幼仔多产一只,平均大脑重量会减少0.215微克。下图是对bodyweight取对数后再一次回归的成果:回归分析:lnbrainweight与gestationperiod,av.Littersize,lnbodyweight回归方程为lnbrainweight=2.68+0.00171gestationperiod(days)-0.167av.Littersize+0.619lnbodyweight自变量系数系数原则误TP常量2.67560.162216.500.000gestationperiod(days)0.00170550.00078982.160.033av.Littersize-0.167490.03622-4.620.000lnbodyweight0.618680.0272422.710.000S=0.489498R-Sq=95.1%R-Sq(调整)=94.9%方差分析来源自由度SSMSFP回归3425.77141.92592.310.000残差误差9222.040.24合计95447.81来源自由度SeqSSgestationperiod(days)1291.10av.Littersize111.05lnbodyweight1123.62异常观测值gestationperiodlnbrain拟合值原则化观测值(days)weight拟合值原则误残差残差242707.17015.55120.07561.61903.35R40210.86710.70400.17760.16310.36X523607.37786.26200.11771.11582.35R726558.40748.53580.2956-0.1285-0.33X753905.52156.53760.1337-1.0162-2.16R771155.19304.77800.23470.41500.97X782406.38017.39920.1101-1.0191-2.14RR表达此观测值具有大的原则化残差X表达受X值影响很大的观测值。lnbrainweight残差正态图残差与拟合值数据分析:对bodyweight取对数后来的回归成果,明显好于之前。三个自变量的P-值<0.05,阐明可以拒绝自变量的系数为0的假设。因此,可以认为哺乳动物大脑容量和其他几种原因是具有一定联络的。根据回归的成果,异常数据有3个数据点残差大,这表明这些数据点与方程拟合程度一般。其中残存最大的两种哺乳动物是人类和海豚,如上图上方2个数据点所示。人类作为一种高智商的哺乳动物,在记录数据分析过程中,体现出一种比较大的残差值还是可以理解的。同样,我们从记录分析中也可以得知海豚也是一种高智商的哺乳动物。这些结论都和我们平常生活常识是吻合的。3.3数据模型确实定Minitab提供了自动选择最优的回归模型的功能,为了确定最终的数据记录分析模型,我们尝试让Minitab自动得出一种结论。回归的汇总汇报如图所示:从上面的分析中,看到lnbrainweight和lnbodyweight之间用线性模型进行拟合的效果要稍逊于使用二次模型。二次模型具有明显的二次项以及较高的调整的R平方。因此改用二次模型再次进行拟合。尝试添加lnbodyweight的二次项,重新对数据集进行回归分析。回归分析:lnbrainwei与gestationpe,av.Litters,lnbodyweig,lnbwsq回归方程为lnbrainweight=2.52+0.00338gestationperiod(days)-0.112av.Littersize+0.659lnbodyweight-0.0239lnbwsq自变量系数系数原则误TP常量2.51620.155116.230.000gestationperiod(days)0.00338100.00083904.030.000av.Littersize-0.111540.03623-3.080.003lnbodyweight0.658750.0270624.350.000lnbwsq-0.0238830.005878-4.060.000S=0.452819R-Sq=95.8%R-Sq(调整)=95.7%方差分析来源自由度SSMSFP回归4429.15107.29523.240.000残差误差9118.660.21合计95447.81来源自由度SeqSSgestationperiod(days)1291.10av.Littersize111.05lnbodyweight1123.62lnbwsq13.38异常观测值gestationperiodlnbrain拟合值原则化观测值(days)weight拟合值原则误残差残差242707.17015.65120.07411.51893.40R46671.45402.43260.0669-0.9786-2.19R523607.37786.34990.11101.02792.34R726558.40748.34320.27750.06420.18X753905.52156.59930.1246-1.0778-2.48R771155.19304.81160.21730.38140.96X782406.38016.73480.1926-0.3547-0.87XR表达此观测值具有大的原则化残差X表达受X值影响很大的观测值。lnbrainweight残差正态图和残差与拟合值图数据分析:受Minitab拟合提议的启发,尝试添加了一种二次项后,我们可以看到新增长的二次项的P-值为0.000。这阐明,二次项在回归模型里还是有一定意义的。从上图中可以看到调整的R平方深入提高到95.7%。也就是说模型对变异的解释能力深入提高。在进行回归分析的最终,我们在Minitab中加入了计算数据Cook距离的环节。但愿通过考察目前模型的观测值的Cook距离,判断与否存在对模型有强烈影响不过不太合理的点。目前,具有大的原则化残差的观测值数量是4个,影响点的数量是3个。3.4对Cook距离的分析目前观测值的Cook距离的记录如下,可以看到最大Cook距离为0.1。此Cook距离为数据第75个观测值导致的,对应的哺乳动物是貘。另一方面是人类和海豚,Cook距离在0.06到0.07之间。不过根据Cook距离>1的经验准则,并不需要关注有影响观测值的存在问题。因此,目前的数据基本上是合理的,满足分析规定的,不需要对数据进行额外的调整。三、总结通过以上的记录分析,我们发现哺乳动物大脑的重量与其体重、妊娠期天数、平均每窝产仔数量存在着一定的关系。而生物学界一般认为,动物的大脑与否发达和脑重量也存在一定的关系,因此我们可以通过对动物体重、妊娠期天数、平均每窝产仔数量等显性数据的观测,来深入分析动物的大脑发达程度。在此基础上,我们可以更好的认识动物的认知与活动规律。在经济生活中,此研究也具有重大的意义,例如马戏团可以运用此研究成果来选用大脑发达的动物进行驯化,以获得更好的效果。虽然此研究是建立在生物学研究的基础之上,但其结论对于马戏团、动物园等商业场所怎样提高经济效益,也很具有指导性,具有可观的商业价值。此外,伴随科学技术的发达,通过变化基因来变化物种特性,发明新的物种,也具有现实也许性。因此,科研人员可以通过对体重、妊娠期天数、平均每窝产仔数量等变量的控制,改良培育出试验所需要的大脑发达水平的物种。附录:研究数据speciesnamegestationperiod(days)brainweight(gms)bodyweight(kg)av.LittersizeQuokka2617.53.51hedgehog343.50.934.6treeshrew463.150.153elephantshrew1511.140.051.5elephantshrew2461.370.061.5lemur135222.11slowloris9012.81.21.2bushbaby1359.90.71howlermonkey139547.71ring-tailmonkey180733.71spidermonkeyI1401149.11spidermonkeyII1401097.71gentlelemur1457.80.222rhesusmonkeyI17584.661rhesusmonkeyII1651078.71.1hamadryasbaboon180183211westernbaboon180179321vervetguenon195674.61leafmonkey16865.55.81whitehandedgibbon2101025.51oran

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论