版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1Dr.汉斯汉斯罗斯林罗斯林统计是统计是“从有限的信息分析出复杂的社会中正从有限的信息分析出复杂的社会中正发生着什么,并以一定的准确度推测将来会发发生着什么,并以一定的准确度推测将来会发生什么生什么”的数学。的数学。 2Karolinska Institute瑞典著名的医学院,是欧洲一流的医科大学,以国瑞典著名的医学院,是欧洲一流的医科大学,以国际领先的科研水平和评审颁发诺贝尔生理学或医学际领先的科研水平和评审颁发诺贝尔生理学或医学奖闻名于世。奖闻名于世。每一个被该学院接收的博士生,无须通过勤工俭学每一个被该学院接收的博士生,无须通过勤工俭学来维持生存,每人每年可获得来自导师的来维持生存,每人
2、每年可获得来自导师的12万瑞典万瑞典克郎的学费和生活费。克郎的学费和生活费。独特的风景每隔几天都会在校园里上演独特的风景每隔几天都会在校园里上演 很多教师很多教师和学生都自动停下脚步,向冉冉升起的一面或者数和学生都自动停下脚步,向冉冉升起的一面或者数面校旗行注目礼。清点校旗的数目,便可得知,当面校旗行注目礼。清点校旗的数目,便可得知,当天又有几名博士生获得了博士学位。天又有几名博士生获得了博士学位。卡罗林斯卡学院与中山大学开展了肿瘤方面的合作卡罗林斯卡学院与中山大学开展了肿瘤方面的合作研究,并将与北京大学进行免疫方面的研究合作。研究,并将与北京大学进行免疫方面的研究合作。 3地球在变暖么?地球
3、在变暖么?IPCC的科学家根据各种各样的信息组合推断:的科学家根据各种各样的信息组合推断:1906年年2005年的年的100年间,地球的平均气温上升了年间,地球的平均气温上升了0.74,推断误差在,推断误差在0.18之内。之内。4200年间,世界各国的富裕程度是怎样变化的?年间,世界各国的富裕程度是怎样变化的?纵轴为平均寿命的对数,横轴为人均收入。圆圈大纵轴为平均寿命的对数,横轴为人均收入。圆圈大小代表人口的多少,颜色代表国家。小代表人口的多少,颜色代表国家。汉斯汉斯罗斯林用图像为舞台,解说了世界各国的富罗斯林用图像为舞台,解说了世界各国的富裕程度是如何变化的。裕程度是如何变化的。5预测达人预
4、测达人美国统计学家内特美国统计学家内特希尔根据民意调查以及过去的希尔根据民意调查以及过去的选举结果,进行加权处理,预测选举结果,进行加权处理,预测2012年美国总统竞年美国总统竞选中选中“奥巴马有利奥巴马有利”,并成功预测了各个州分别是,并成功预测了各个州分别是哪个候选人获胜。哪个候选人获胜。6流感的传播流感的传播世界各地的人们在利用谷歌搜索时,键入的关键字世界各地的人们在利用谷歌搜索时,键入的关键字会被谷歌公司收集起来,进行分析,建立模型揭示会被谷歌公司收集起来,进行分析,建立模型揭示“搜索与流感相关话题的用户数搜索与流感相关话题的用户数”和和“实际感染了实际感染了流感的患者数流感的患者数”
5、之间的关联性,尝试对流感地区进之间的关联性,尝试对流感地区进行预测行预测。Detecting influenza epidemics using search engine query,Nature 457, 1012-1014 (19 February 2009) (/flutrends)7电影能否卖座?电影能否卖座?英国电影公司英国电影公司Epagogix精于剧本语义分析,它把电精于剧本语义分析,它把电影的剧本、情节、明星、拍摄场地等无数的要素集影的剧本、情节、明星、拍摄场地等无数的要素集合起来,然后和该片是否卖座进行关联分析,并开合起来,然后和该片
6、是否卖座进行关联分析,并开发出从剧本推测影片成功可能性的算法,还能建议发出从剧本推测影片成功可能性的算法,还能建议如何改编剧本使最终的电影热卖,对旧剧本润色,如何改编剧本使最终的电影热卖,对旧剧本润色,发布预测的卖座信息发布预测的卖座信息它对某电影公司拍摄中的它对某电影公司拍摄中的9部电影剧本进行了分析,部电影剧本进行了分析,正确预测了其中正确预测了其中6部电影的收益情况。部电影的收益情况。Helping Business Leaders make Big DecisionsDeciding which projects to greenlight, which to walk away fr
7、om, appropriate levels of budget and remuneration for star performers are issues throughout all industry sectors, and particularly so in the event-driven film and television industries.8第第5章章 相关与回归相关与回归( )yf x xy预测:预测:找到关系:找到关系:有关系有关系9变量间的关系变量间的关系维多利亚时代的英格兰统计学家们受到将遗传定量维多利亚时代的英格兰统计学家们受到将遗传定量化这一思想的强烈吸
8、引,并为追寻此目的收集了大化这一思想的强烈吸引,并为追寻此目的收集了大量数据量数据. .英国心理学家、生理计量法的创始人英国心理学家、生理计量法的创始人Galton(1822-Galton(1822-19111911,达尔文的表兄弟,达尔文的表兄弟) )对进化理论以及人类在多对进化理论以及人类在多大程度上继承父母的生理及心理特点这两个领域非大程度上继承父母的生理及心理特点这两个领域非常感兴趣常感兴趣. . 高尔顿相信家庭成员间因为生物上的高尔顿相信家庭成员间因为生物上的“相互联系相互联系”而有相似的特点而有相似的特点. .101078对父亲及成年儿子的身高对父亲及成年儿子的身高11变量间的关系
9、变量间的关系确定性关系确定性关系 函数关系函数关系 圆的面积与半径的关系:圆的面积与半径的关系: S=r2 华氏温度与摄氏温度的关系华氏温度与摄氏温度的关系 位移与速度的关系:位移与速度的关系: 非确定性关系非确定性关系 身高和体重身高和体重 居民储蓄存款与居民储蓄存款与GDP 大学成绩与高考成绩大学成绩与高考成绩0( )( )d ts tv tt 12第一节第一节 相关相关高尔顿首先想到了高尔顿首先想到了“相关性相关性”这一指标的概这一指标的概念,他的学生、现代统计学奠基者念,他的学生、现代统计学奠基者Carl Carl PearsonPearson创立了以自己名字命名的统计量创立了以自己名
10、字命名的统计量. .1.1.总体协方差和相关系数总体协方差和相关系数2.2.样本相关系数样本相关系数3.3.相关系数的检验相关系数的检验13一、总体协方差和相关系数一、总体协方差和相关系数()( )xyE XE Ymmmm=1.1.协方差(协方差(covcovariance,P60ariance,P60)(,)()()xyCOV X YEXYmmmm=-=-14相关强度的衡量相关强度的衡量x y ()() 0 xyXY ()() 0 xyXY ()() 0 xyXY ()() 0 xyXY (,)xy 例例1.a(a)XY01pi.02/184/181/317/185/182/3p.j1/21
11、/2()()xyEXYmmmm- 24(0)(0)(0)1181875121213232212132)(0)11181818321()()()=-+-=-+-+-+-+-+-= -= -212()( )3xyE XE Y,mmmm= = =例例1.b 42(0)(0)(0)118185712121323221)(0)111812132381218=-+-=-+-+-+-+-+-= =()()()()()xyEXYmmmm-212()( )3xyE XE Y,mmmm= = =例例1.c(c)XY01pi.03/183/181/316/186/182/3p.j1/21/2= = =33(0)(0
12、)(0)11818661)(0)11182121323221213231802=-+-=-+-+-+-+-+-= =()()()()()xyEXYmmmm-212()( )3xyE XE Y,mmmm= = =例例1.d(a)X1Y101pi.02/184/181/317/185/182/3p.j1/21/2(,)()()xyCOV X YEXYmmmm=-=-(d)X2Y202pi.02/184/181/3107/185/182/3p.j1/21/2111(,)18COV X Y= -= -22(,)8201COV X Y= -= -192.协方差的性质协方差的性质(,)( ,)COV X
13、YCOV Y X= =(,)(,)COV aXb cYdacCOV X Y+=+=22:() ()XcmYcm父父身身高高:儿儿子子身身高高221111(,)(100,100)10000(,)COV X YCOVXYCOV X Y=11:() ()XmYm父父身身高高:儿儿子子身身高高(,)()()xyCOV X YEXYmmmm=-=-203.相关系数相关系数(correlation coefficcient)(,)xyCOV X Ys ss s()()xyxyEXYmmmms ss s-= =r r= =(,)yxxyCOV XEYXYm mm mssss轾轾犏犏= =犏犏犏犏臌臌- -
14、-yxxyXXXYm mm mssss- - -=()()0()()1E XE YD XD Y=214.(线性)相关系数的性质(线性)相关系数的性质1()1 (0)P YaXbar r=+=+=1()1 (0)P YaXbar r= -=+= -=+=|1 0:正相关正相关 0:负相关负相关 0:不相关不相关 |1:完全相关完全相关22相关系数不受尺度、量纲的影响相关系数不受尺度、量纲的影响, (0) (0)aXb YX YaXb YX Yaa 22:() ()XcmYcm父父身身高高:儿儿子子身身高高221111(,)(100,100)(,)X YXYX Yrrrrrr=11:() ()Xm
15、Ym父父身身高高:儿儿子子身身高高235.相关与独立相关与独立X与与Y独立的,则独立的,则X与与Y不相关,反之,不不相关,反之,不一定成立一定成立. .X、Y为两点分布时,独立为两点分布时,独立= =不相关不相关X、Y为正态分布时,独立为正态分布时,独立= =不相关不相关YX=024配对与成组(配对与成组(P68),()()( )2()( )X YD XYD XD YD XD Y ,0()()( )X YD XYD XD Y ,,0()()( )X YD XYD XD Y ()XYD XY 25二、样本相关系数二、样本相关系数例例1 1 从大白鼠出生第从大白鼠出生第6 6天气,每天气,每3 3
16、天称一次天称一次体重,直到第体重,直到第1818天天. .两个不同的连续变量(两个不同的连续变量(xi,yi)261.散点图(散点图(scatter plot)272.样本相关系数样本相关系数22()()()()xyiixxyyiiSxxyyrSSxxyy ( , )xyCOV x ys s (,)()xyxyxyEXYCOV X Ymmmmr rs ss ss ss s-=22()()1()()11iiiixxyynxxyynn 28例例1 样本相关系数的计算样本相关系数的计算sumsqsumsqdevsq devsq covarcovarcorrelcorrel222222()() ()(
17、)iiiiiiiixxyyx ynx yrxxyyxnxyny2260 104.51390.55550.9924260104.581052394.25555r 29正相关的散点图正相关的散点图正相关(正相关(positive correlation):):Y有随着有随着X增大而线性上升的趋势增大而线性上升的趋势.两个变量之间存在强相关,则已知一个变两个变量之间存在强相关,则已知一个变量对预测、解释另一个变量将很有帮助量对预测、解释另一个变量将很有帮助. .30负相关的散点图负相关的散点图负相关(负相关(negative correlation):):Y有随着有随着X增大而线性下降的趋势增大而线
18、性下降的趋势.31零相关的散点图零相关的散点图零相关(零相关(zero correlation):):Y或或X不随着另一变量的改不随着另一变量的改变而改变变而改变.32相关的实例相关的实例正相关正相关同卵双胞胎兄弟身高间的相关系数为同卵双胞胎兄弟身高间的相关系数为0.95;0.95;19881988年,美国年,美国25-3425-34岁男子的收入与受教育程度间的岁男子的收入与受教育程度间的相关系数是相关系数是0.340.34,55-6455-64岁男子的相关系数为岁男子的相关系数为0.440.44;肺功能与身高的相关系数为肺功能与身高的相关系数为0.9880.988;负相关负相关婴儿的脉率与婴
19、儿的年龄的相关系数婴儿的脉率与婴儿的年龄的相关系数0 0不相关不相关,即不存在线性关系,即不存在线性关系出生体重与出生时间的相关系数出生体重与出生时间的相关系数0 033相关的例子相关的例子 【心血管病心血管病】血清胆固醇在心血管病病因学中血清胆固醇在心血管病病因学中是一个重要的危险因子是一个重要的危险因子. . 已经有很多研究去解已经有很多研究去解释环境因素如何造成高胆固醇释环境因素如何造成高胆固醇. . 为此目的,测为此目的,测量了在遗传学上看来不相关的量了在遗传学上看来不相关的100100对配偶的胆对配偶的胆固醇水平,想了解配偶之间的胆固醇的相关程固醇水平,想了解配偶之间的胆固醇的相关程
20、度度. .【高血压高血压】很多文献都在讨论高血压的家庭聚很多文献都在讨论高血压的家庭聚集性。一般地,双亲有高血压的孩子常有比其集性。一般地,双亲有高血压的孩子常有比其他孩子更高的血压他孩子更高的血压. . 需要了解双亲血压和孩子需要了解双亲血压和孩子血压的关联程度血压的关联程度. .34相关的例子相关的例子 肥胖伴终生?肥胖伴终生?一个体重超重的儿童必然会一个体重超重的儿童必然会成为一个体重超重的成年人?成为一个体重超重的成年人?父母们担心肥胖的小宝贝会变成肥胖的少年。父母们担心肥胖的小宝贝会变成肥胖的少年。丰满的少女担心自己一生都将是这样的情形。丰满的少女担心自己一生都将是这样的情形。研究者
21、使用一种叫做研究者使用一种叫做BMIBMI(Body MassIndexBody MassIndex)指标度量肥胖程度指标度量肥胖程度. . 一组受试者被跟踪调查一组受试者被跟踪调查4040年。他们的体重在儿童、青少年、年。他们的体重在儿童、青少年、1818岁、岁、3030岁岁和和4040岁几个时期被采集岁几个时期被采集. .这些不同时间收集到这些不同时间收集到的数据彼此相互关联的数据彼此相互关联. .行为统计学基础行为统计学基础,RichardP.RunyonRichardP.Runyon等,等,P165P16535相关的例子相关的例子 肥胖伴终生?肥胖伴终生?青少年时期的肥胖与儿童时期的肥
22、胖有比较强的正相关,青少年时期的肥胖与儿童时期的肥胖有比较强的正相关,r0.81.18岁时的肥胖与儿童时期的肥胖有较弱的正相关,岁时的肥胖与儿童时期的肥胖有较弱的正相关,r0.5340岁时的肥胖与儿童时期的肥胖几乎没有关系,岁时的肥胖与儿童时期的肥胖几乎没有关系,r0.03与其用一个女孩儿童时期的体重预测她成年后的体重,不如与其用一个女孩儿童时期的体重预测她成年后的体重,不如用随机数生成器来预测,两个的精确度相差不多用随机数生成器来预测,两个的精确度相差不多O(_)O越老体重越重越老体重越重. but年轻时的肥胖并不意味着要比苗条的兄弟年轻时的肥胖并不意味着要比苗条的兄弟姐妹多担心一些姐妹多担
23、心一些.大家都是处于同样的危险之中大家都是处于同样的危险之中.两次体重的时间间隔越长,相关性越弱两次体重的时间间隔越长,相关性越弱.363.相关系数的假设检验相关系数的假设检验?00r 2( ,)XNn 0:不相关不相关222(1)(1)nSn ( , )rfn 37网上的网上的flashhttp:/ 0.14r 0.1r 39相关系数的分布相关系数的分布40相关系数的分布相关系数的分布41例例1 相关系数的假设检验相关系数的假设检验012:0 ():0 ()2 (2)1HHrnTt nr 线线 性性 不不 相相 关关线线 性性 相相 关关0.01水平上拒绝原假设水平上拒绝原假设H0:0,大白
24、鼠出生,大白鼠出生后体重与时间为正相关后体重与时间为正相关.随机变量随机变量X、Y服从正态分布服从正态分布0.9952220.992425213.99(3)5.841110.99242r nttr相关系数检验表相关系数检验表C.10: 0.01水平上拒绝原假设水平上拒绝原假设H0:0,大白鼠出生,大白鼠出生后体重与时间为正相关后体重与时间为正相关.42例例1 相关系数的假设检验相关系数的假设检验012:0 ():0 ()2 (2)1HHrnTt nr 线线 性性 不不 相相 关关线线 性性 相相 关关随机变量随机变量X、Y服从正态分布服从正态分布0.050.01(1,3)0.878(1,3)0
25、.959rr0.010.050.99242(1,3)(1,3)rrr43例例2 天长地久天长地久为什么一部分人能够保持对爱情的忠诚热情不减,为什么一部分人能够保持对爱情的忠诚热情不减,而另一部分人却较为不忠诚呢?为什么一部分人看而另一部分人却较为不忠诚呢?为什么一部分人看起来能够维持一段长时间的关系,而另一部分人却起来能够维持一段长时间的关系,而另一部分人却总是变换对象呢?总是变换对象呢?斯奈德和辛普森(斯奈德和辛普森(Snyder & SimpsonSnyder & Simpson,19841984)猜想,)猜想,人们的爱情生活的不同可以由性格来解释。人们的爱情生活的不同可以由性格来解释。自
26、我监控自我监控是用来描述某种环境或条件下人们对自我是用来描述某种环境或条件下人们对自我行为的控制程度。行为的控制程度。拥有较强控制力的人很大程度能够根据环境的变化拥有较强控制力的人很大程度能够根据环境的变化改变自己的行为。改变自己的行为。自我控制能力较差的人很可能在自我控制能力较差的人很可能在不同的条件下都表现一致。不同的条件下都表现一致。44例例245例例2 提出猜想,获得数据提出猜想,获得数据斯奈德和辛普森假设,在自我斯奈德和辛普森假设,在自我监控测试中得分较低的人比得监控测试中得分较低的人比得分较高的人更有可能维持一段分较高的人更有可能维持一段长时间的恋爱关系。长时间的恋爱关系。对大学生进行了一项问卷调查,对大学生进行了一项问卷调查,让他们对自己的自我监控能力让他们对自己的自我监控能力打分并且描述他们的恋爱及约打分并且描述他们的恋爱及约会经历。会经历。46例例2 散点图散点图 有关联么?有关联么? H0:00.01水平上拒绝原假设,认为维持约会时间与自水平上拒绝原假设,认为维持约会时间与自我监控能力成负相关我监控能力成负相关.47例例2 相关系数及其检验相关系数及其检验0.617r 0.050.01(1,18)0.444(1,18)0.561rr0.010.050.617(1,18)(1,18)rrr48问题一:两个变量间有关系吗?问题一:两个变量间有关系吗?问题
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026河北新质科技有限公司校园招聘4人备考题库附参考答案详解【a卷】
- 2026东方电气集团数字科技有限公司面向全社会招聘6人备考题库及参考答案详解【研优卷】
- 2026江苏扬州高邮高新招商发展有限公司招聘招商专员5人备考题库【历年真题】附答案详解
- 2026浙江省荣军医院特殊专业技术岗位招聘3人备考题库及完整答案详解【历年真题】
- 2026广西玉林市福绵区就业中心招聘见习生1人备考题库【含答案详解】
- 2026江苏南京大学南京赫尔辛基大气与地球系统科学学院准聘长聘教师岗位(事业编制)招聘备考题库附参考答案详解(黄金题型)
- 2026安徽池州市直学校招聘教师14人备考题库含答案详解(基础题)
- 2026中国平安保险(集团)股份有限公司四川分公司招聘备考题库及参考答案详解(研优卷)
- 2026河南郑外集团郑开学校附中教师招聘1人备考题库附完整答案详解(各地真题)
- 2026贵州省旅游产业发展集团有限公司招聘3人备考题库及参考答案详解【预热题】
- 学生心理问题转介处置制度
- 科室医院感染管理架构图
- 贵州源鑫矿业有限公司煤矸石洗选综合利用项目环评报告
- 八年级下册音乐复习题及答案(湘艺版)
- 高中地理(湘教版2019版)必修二 全册知识点
- 2023年北京市各区(海淀朝阳丰台东西城等)高三下语文高考一模汇编7 基础运用含详解
- 2022年中国石油大学《化工原理二》完整答案详解
- RC512-FE(A)-用户使用手册202307
- GB/T 5153-2003变形镁及镁合金牌号和化学成分
- GB/T 4357-2022冷拉碳素弹簧钢丝
- GB/T 19326-2012锻制承插焊、螺纹和对焊支管座
评论
0/150
提交评论