实用生物统计(第2版)唐志宇-第13讲相关_第1页
实用生物统计(第2版)唐志宇-第13讲相关_第2页
实用生物统计(第2版)唐志宇-第13讲相关_第3页
实用生物统计(第2版)唐志宇-第13讲相关_第4页
实用生物统计(第2版)唐志宇-第13讲相关_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,Dr.汉斯罗斯林,统计是“从有限的信息分析出复杂的社会中正发生着什么,并以一定的准确度推测将来会发生什么”的数学。,2,KarolinskaInstitute,瑞典著名的医学院,是欧洲一流的医科大学,以国际领先的科研水平和评审颁发诺贝尔生理学或医学奖闻名于世。每一个被该学院接收的博士生,无须通过勤工俭学来维持生存,每人每年可获得来自导师的12万瑞典克郎的学费和生活费。独特的风景每隔几天都会在校园里上演很多教师和学生都自动停下脚步,向冉冉升起的一面或者数面校旗行注目礼。清点校旗的数目,便可得知,当天又有几名博士生获得了博士学位。卡罗林斯卡学院与中山大学开展了肿瘤方面的合作研究,并将与北京大学进行免疫方面的研究合作。,3,地球在变暖么?,IPCC的科学家根据各种各样的信息组合推断:1906年2005年的100年间,地球的平均气温上升了0.74,推断误差在0.18之内。,4,200年间,世界各国的富裕程度是怎样变化的?,纵轴为平均寿命的对数,横轴为人均收入。圆圈大小代表人口的多少,颜色代表国家。汉斯罗斯林用图像为舞台,解说了世界各国的富裕程度是如何变化的。,5,预测达人,美国统计学家内特希尔根据民意调查以及过去的选举结果,进行加权处理,预测2012年美国总统竞选中“奥巴马有利”,并成功预测了各个州分别是哪个候选人获胜。,6,流感的传播,世界各地的人们在利用谷歌搜索时,键入的关键字会被谷歌公司收集起来,进行分析,建立模型揭示“搜索与流感相关话题的用户数”和“实际感染了流感的患者数”之间的关联性,尝试对流感地区进行预测。Detectinginfluenzaepidemicsusingsearchenginequery,Nature457,1012-1014(19February2009)(/flutrends),7,电影能否卖座?,英国电影公司Epagogix精于剧本语义分析,它把电影的剧本、情节、明星、拍摄场地等无数的要素集合起来,然后和该片是否卖座进行关联分析,并开发出从剧本推测影片成功可能性的算法,还能建议如何改编剧本使最终的电影热卖,对旧剧本润色,发布预测的卖座信息它对某电影公司拍摄中的9部电影剧本进行了分析,正确预测了其中6部电影的收益情况。HelpingBusinessLeadersmakeBigDecisionsDecidingwhichprojectstogreenlight,whichtowalkawayfrom,appropriatelevelsofbudgetandremunerationforstarperformersareissuesthroughoutallindustrysectors,andparticularlysointheevent-drivenfilmandtelevisionindustries.,8,第5章相关与回归,预测:找到关系:有关系,9,变量间的关系,维多利亚时代的英格兰统计学家们受到将遗传定量化这一思想的强烈吸引,并为追寻此目的收集了大量数据.英国心理学家、生理计量法的创始人Galton(1822-1911,达尔文的表兄弟)对进化理论以及人类在多大程度上继承父母的生理及心理特点这两个领域非常感兴趣.高尔顿相信家庭成员间因为生物上的“相互联系”而有相似的特点.,10,1078对父亲及成年儿子的身高,11,变量间的关系,确定性关系函数关系圆的面积与半径的关系:S=r2华氏温度与摄氏温度的关系位移与速度的关系:非确定性关系身高和体重居民储蓄存款与GDP大学成绩与高考成绩,12,第一节相关,高尔顿首先想到了“相关性”这一指标的概念,他的学生、现代统计学奠基者CarlPearson创立了以自己名字命名的统计量.1.总体协方差和相关系数2.样本相关系数3.相关系数的检验,13,一、总体协方差和相关系数,1.协方差(covariance,P60),14,相关强度的衡量,例1.a,例1.b,例1.c,例1.d,19,2.协方差的性质,20,3.相关系数(correlationcoefficcient),21,4.(线性)相关系数的性质,|10:正相关0:负相关0:不相关|1:完全相关,22,相关系数不受尺度、量纲的影响,23,5.相关与独立,X与Y独立的,则X与Y不相关,反之,不一定成立.X、Y为两点分布时,独立=不相关X、Y为正态分布时,独立=不相关,24,配对与成组(P68),25,二、样本相关系数,例1从大白鼠出生第6天气,每3天称一次体重,直到第18天.两个不同的连续变量(xi,yi),26,1.散点图(scatterplot),27,2.样本相关系数,28,例1样本相关系数的计算,sumsqdevsqcovarcorrel,29,正相关的散点图,正相关(positivecorrelation):Y有随着X增大而线性上升的趋势.,两个变量之间存在强相关,则已知一个变量对预测、解释另一个变量将很有帮助.,30,负相关的散点图,负相关(negativecorrelation):Y有随着X增大而线性下降的趋势.,31,零相关的散点图,零相关(zerocorrelation):Y或X不随着另一变量的改变而改变.,32,相关的实例,正相关同卵双胞胎兄弟身高间的相关系数为0.95;1988年,美国25-34岁男子的收入与受教育程度间的相关系数是0.34,55-64岁男子的相关系数为0.44;肺功能与身高的相关系数为0.988;负相关婴儿的脉率与婴儿的年龄的相关系数0不相关,即不存在线性关系出生体重与出生时间的相关系数0,33,相关的例子,【心血管病】血清胆固醇在心血管病病因学中是一个重要的危险因子.已经有很多研究去解释环境因素如何造成高胆固醇.为此目的,测量了在遗传学上看来不相关的100对配偶的胆固醇水平,想了解配偶之间的胆固醇的相关程度.【高血压】很多文献都在讨论高血压的家庭聚集性。一般地,双亲有高血压的孩子常有比其他孩子更高的血压.需要了解双亲血压和孩子血压的关联程度.,34,相关的例子肥胖伴终生?,一个体重超重的儿童必然会成为一个体重超重的成年人?父母们担心肥胖的小宝贝会变成肥胖的少年。丰满的少女担心自己一生都将是这样的情形。研究者使用一种叫做BMI(BodyMassIndex)指标度量肥胖程度.一组受试者被跟踪调查40年。他们的体重在儿童、青少年、18岁、30岁和40岁几个时期被采集.这些不同时间收集到的数据彼此相互关联.行为统计学基础,RichardP.Runyon等,P165,35,相关的例子肥胖伴终生?,青少年时期的肥胖与儿童时期的肥胖有比较强的正相关,r0.81.18岁时的肥胖与儿童时期的肥胖有较弱的正相关,r0.5340岁时的肥胖与儿童时期的肥胖几乎没有关系,r0.03与其用一个女孩儿童时期的体重预测她成年后的体重,不如用随机数生成器来预测,两个的精确度相差不多O(_)O越老体重越重.but年轻时的肥胖并不意味着要比苗条的兄弟姐妹多担心一些.大家都是处于同样的危险之中.两次体重的时间间隔越长,相关性越弱.,36,3.相关系数的假设检验,0:不相关,37,网上的flash,38,3.相关系数的假设检验,39,相关系数的分布,40,相关系数的分布,41,例1相关系数的假设检验,0.01水平上拒绝原假设H0:0,大白鼠出生后体重与时间为正相关.,随机变量X、Y服从正态分布,相关系数检验表C.10:0.01水平上拒绝原假设H0:0,大白鼠出生后体重与时间为正相关.,42,例1相关系数的假设检验,随机变量X、Y服从正态分布,43,例2天长地久,为什么一部分人能够保持对爱情的忠诚热情不减,而另一部分人却较为不忠诚呢?为什么一部分人看起来能够维持一段长时间的关系,而另一部分人却总是变换对象呢?斯奈德和辛普森(Snyder&Simpson,1984)猜想,人们的爱情生活的不同可以由性格来解释。自我监控是用来描述某种环境或条件下人们对自我行为的控制程度。拥有较强控制力的人很大程度能够根据环境的变化改变自己的行为。自我控制能力较差的人很可能在不同的条件下都表现一致。,44,例2,45,例2提出猜想,获得数据,斯奈德和辛普森假设,在自我监控测试中得分较低的人比得分较高的人更有可能维持一段长时间的恋爱关系。对大学生进行了一项问卷调查,让他们对自己的自我监控能力打分并且描述他们的恋爱及约会经历。,46,例2散点图有关联么?,H0:00.01水平上拒绝原假设,认为维持约会时间与自我监控能力成负相关.,47,例2相关系数及其检验,48,问题一:两个变量间有关系吗?问题二:线性关系的强弱程度?问题三:变量在总体中的关系如何?问题四:变量间是因果关系吗,散点图,相关系数,相关系数的检验,相关小结,49,相关与因果,孩子的身高与树高时间儿童的阅读成绩与家中的藏书量有很强的正相关家庭环境在城市和乡村中教堂的数量与酒馆的数量存在很强的正相关人口数量,50,相关与因果,婴儿死亡率与人均电话拥有量之间的相关系数为0.9耳垂的皱褶多少与心脏病发病有关肥胖相关有可能仅是伴随关系,有潜在的变量同时影响着观测的两个变量。,51,相关与因果,不能将统计推断得到的事物之间的相关关系解释为因果关系。统计仅是对两个变量的数字特征进行了分析,并没有对两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论