统计学原理( 相关分析)_第1页
统计学原理( 相关分析)_第2页
统计学原理( 相关分析)_第3页
统计学原理( 相关分析)_第4页
统计学原理( 相关分析)_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学原理 刘鑫春1统统 计计 学学 原原 理理第七章第七章相关分析相关分析统计学原理 刘鑫春2法兰西斯法兰西斯高尔顿(高尔顿(Francis Galton,1822.2.161911.1.17.) 法兰西斯法兰西斯高尔顿是查尔斯高尔顿是查尔斯达尔文的的表兄,达尔文的的表兄, 是一名英格兰维多利亚时代的文艺复兴人、是一名英格兰维多利亚时代的文艺复兴人、 人类学家、优生学家、热带探险家、地理学人类学家、优生学家、热带探险家、地理学 家、发明家、气象学家、统计学家、心理学家、发明家、气象学家、统计学家、心理学 家和遗传学家。家和遗传学家。 高尔顿一生中发表了超过高尔顿一生中发表了超过340篇的报告

2、和书篇的报告和书 籍,他在籍,他在1909年被授与爵士。他在年被授与爵士。他在1883年率年率先使用先使用“优生学优生学”(eugenics)一词。在他于)一词。在他于1869年的著作年的著作遗传的天才遗传的天才(Hereditary Genius)中,高尔顿主张人类的)中,高尔顿主张人类的才能是能够透过遗传延续的。才能是能够透过遗传延续的。 他在统计学方面也有贡献,高尔顿在他在统计学方面也有贡献,高尔顿在1877年发表关于种子年发表关于种子的研究结果,指出回归到平均值(的研究结果,指出回归到平均值(regression toward the mean)现象的存在,这个概念与现代统计学中的)现

3、象的存在,这个概念与现代统计学中的“回归回归”并不并不相同,但是却是回归一词的起源。在此后的研究中,高尔顿第一相同,但是却是回归一词的起源。在此后的研究中,高尔顿第一次使用了次使用了相关系数(相关系数(correlation coefficient)的概念。他使用的概念。他使用字母字母“r”来表示相关系数,这个传统一直延续至今。同时他也发来表示相关系数,这个传统一直延续至今。同时他也发表了关于指纹的论文和书籍,被认为对于现代利用指纹进行犯罪表了关于指纹的论文和书籍,被认为对于现代利用指纹进行犯罪搜查方面有很大的贡献。搜查方面有很大的贡献。 统计学原理 刘鑫春3卡尔卡尔.皮尔逊(皮尔逊( Kar

4、l ,Pearson,1857-1936) 英国统计学家。他的座右铭英国统计学家。他的座右铭“我们无知,因此让我们努力我们无知,因此让我们努力” 。他入剑桥大学。他入剑桥大学学习数学、物理、哲学、宗教和法律,并取得律师资格,但以数学的优异成学习数学、物理、哲学、宗教和法律,并取得律师资格,但以数学的优异成绩在该校毕业。任伦敦大学应用数学教授时出版了论弹性以及有关科学哲学绩在该校毕业。任伦敦大学应用数学教授时出版了论弹性以及有关科学哲学的专著因阅读英国科学家的专著因阅读英国科学家f.高尔顿高尔顿自然遗传自然遗传(1889)一书,使其深受)一书,使其深受影响,从而成为高匀顿的忠实学生,开始结合高尔

5、顿关于人的变异、遗传和影响,从而成为高匀顿的忠实学生,开始结合高尔顿关于人的变异、遗传和优生学等问题来发展统计学的理论和方法。优生学等问题来发展统计学的理论和方法。1894年起研究生物分布的常态性。年起研究生物分布的常态性。1901年与高尔顿、年与高尔顿、w.f.r.韦尔登联合创办韦尔登联合创办生物统计学生物统计学杂志,发表有关生杂志,发表有关生物学及心理学的定量研究成果。物学及心理学的定量研究成果。1904年被任命为伦敦大学高尔顿实验室的首年被任命为伦敦大学高尔顿实验室的首任主任,且第一个开设优生学讲座。任主任,且第一个开设优生学讲座。1914-1930年撰写写出四卷本的高尔顿年撰写写出四卷

6、本的高尔顿传记传记弗朗西斯弗朗西斯高尔顿的生平、学问和劳作高尔顿的生平、学问和劳作。 皮尔逊的统计学的分析技术和方法,体现在其皮尔逊的统计学的分析技术和方法,体现在其统计学者和生物统计学者用统计学者和生物统计学者用表表(1914)中,如频率分布、偏差度和峭度测量、轴线拟合、标准差检验、)中,如频率分布、偏差度和峭度测量、轴线拟合、标准差检验、相依系数、乘积动差相关系数相依系数、乘积动差相关系数r、类型的数学公式、双行、多重、多变元非线、类型的数学公式、双行、多重、多变元非线性相关和概差偏差数,以及各种统计学的抽样分布等。他还发明了主要成分性相关和概差偏差数,以及各种统计学的抽样分布等。他还发明

7、了主要成分分析,后由分析,后由c.e.斯皮尔曼发展成心理统计学的因素分析。皮尔逊被称为统计科斯皮尔曼发展成心理统计学的因素分析。皮尔逊被称为统计科学的奠基者。他把数学和统计学方法运用于生物问题,创建了生物统计学,学的奠基者。他把数学和统计学方法运用于生物问题,创建了生物统计学,且与高尔顿共同确定了心理问题的统计法为心理学的基本方法之一。他对生且与高尔顿共同确定了心理问题的统计法为心理学的基本方法之一。他对生物、行为和社会科学的研究作出了较重的贡献。物、行为和社会科学的研究作出了较重的贡献。 统计学原理 刘鑫春4第七章第一节第七章第一节第一节第一节 相关分析的意义和种类相关分析的意义和种类一、相

8、关关系的性质一、相关关系的性质 相关关系的概念和特点相关关系的概念和特点概念:相关关系是现象间客观存在的,但其概念:相关关系是现象间客观存在的,但其数值是不严格、不完全确定的相互依存关系。数值是不严格、不完全确定的相互依存关系。注意:现象间可测定关系一般分为两种:一种注意:现象间可测定关系一般分为两种:一种为函数关系,另一种为相关关系。相关关系为函数关系,另一种为相关关系。相关关系指现象之间客观存在但又不具有确定性的依指现象之间客观存在但又不具有确定性的依存关系。存关系。统计学原理 刘鑫春5第七章第一节第七章第一节特点:特点: 现象之间确实存在数量上的相互依存关系。现象之间确实存在数量上的相互

9、依存关系。注意:在表现现象相互依存关系的两个变量之注意:在表现现象相互依存关系的两个变量之中作为根据的变量叫做自变量,随自变量变中作为根据的变量叫做自变量,随自变量变化发生对应变化的变量叫做因变量。化发生对应变化的变量叫做因变量。 现象之间数量上不确定、不严格的依存关系。现象之间数量上不确定、不严格的依存关系。注意:相关关系的全称为统计相关关系,相关注意:相关关系的全称为统计相关关系,相关关系中一个变量虽然受另一个(或一组)变关系中一个变量虽然受另一个(或一组)变量的影响,却并不由这一个(或一组)变量量的影响,却并不由这一个(或一组)变量完全确定。完全确定。 统计学原理 刘鑫春6第七章第一节第

10、七章第一节相关关系与函数关系的区别和联系相关关系与函数关系的区别和联系 (教材(教材312)区别区别:函数关系是变量之间的一种:函数关系是变量之间的一种严格、完全确定性严格、完全确定性的关系,即一个变量的数值完全有另一个(或一组)的关系,即一个变量的数值完全有另一个(或一组)变量的数值所决定、控制。通常可以用数学公式确切变量的数值所决定、控制。通常可以用数学公式确切地表示出来。相关关系一般不是完全确定的,它很难地表示出来。相关关系一般不是完全确定的,它很难用数学公式去进行表达。用数学公式去进行表达。联系联系:函数关系在实际工作中往往通过相关关系表现:函数关系在实际工作中往往通过相关关系表现出来

11、。当人们对某些现象内部规律有较深刻认识时,出来。当人们对某些现象内部规律有较深刻认识时,相关关系可能变为函数关系。为此,在研究相关关系相关关系可能变为函数关系。为此,在研究相关关系时,又常常使用函数关系作为工具,用一定的函数关时,又常常使用函数关系作为工具,用一定的函数关系表现相关关系的数量联系。系表现相关关系的数量联系。统计学原理 刘鑫春7第七章第一节第七章第一节二、相关关系的种类二、相关关系的种类 根据自变量的多少划分,可分为根据自变量的多少划分,可分为单相关单相关和和复复相关相关 根据变量间相互关系的表现形式划分,根据变量间相互关系的表现形式划分,直线直线相关(或线性相关)相关(或线性相

12、关)和和曲线(或非线性)相曲线(或非线性)相关关根据相关关系的方向划分,可分为根据相关关系的方向划分,可分为正相关正相关和和负相关负相关 根据相关关系的程度划分,可分为根据相关关系的程度划分,可分为不相关不相关、完全相关完全相关和和不完全相关不完全相关统计学原理 刘鑫春8第七章第一节第七章第一节三、相关分析的主要内容三、相关分析的主要内容 揭示现象之间是否存在相关关系,以及相关揭示现象之间是否存在相关关系,以及相关关系的表现形式。关系的表现形式。确定现象变量间相关关系的密切程度和方向。确定现象变量间相关关系的密切程度和方向。选择合适的数学模型选择合适的数学模型测定变量估计值的可靠程度测定变量估

13、计值的可靠程度对计算出的相关系数,进行显著检验。对计算出的相关系数,进行显著检验。统计学原理 刘鑫春9第七章第二节第七章第二节第二节第二节 简单线性相关分析简单线性相关分析一、定性分析一、定性分析 定性分析是相关分析的定性分析是相关分析的起点起点,即研究者根据,即研究者根据自己的专业知识,理论水平,实践经验和逻自己的专业知识,理论水平,实践经验和逻辑推断来分析和判断事物之间有无相关,是辑推断来分析和判断事物之间有无相关,是何种相关。何种相关。统计学原理 刘鑫春10第七章第二节第七章第二节相关图:相关图: 相关图又叫散布图或散点图,是利用直角坐相关图又叫散布图或散点图,是利用直角坐标第一象限,用

14、横轴表示自变量,纵轴表示标第一象限,用横轴表示自变量,纵轴表示因变量,将两变量对应的值用坐标点描绘出因变量,将两变量对应的值用坐标点描绘出来,据以研究两变量间有无相关关系,及相来,据以研究两变量间有无相关关系,及相关的形态,方向和密切程度。关的形态,方向和密切程度。 利用利用EXCEL展示如何绘制散点图展示如何绘制散点图统计学原理 刘鑫春11第七章第二节第七章第二节 有有8个企业生产某种产品,月产量和生产费用的资料如下:个企业生产某种产品,月产量和生产费用的资料如下:企业编号企业编号12345678月产量(千吨)月产量(千吨)x生产费用(万元)生产费用(万元)y1.2622.0863.1803

15、.81105.01156.11327.21358.0160统计学原理 刘鑫春12第七章第二节第七章第二节相关表相关表是表现现象间相关关系的一种是表现现象间相关关系的一种统计表统计表。它一。它一般以般以x为自变量为自变量,以,以y为因变量,为因变量,将自变量和将自变量和因变量的数值在表格中一一对应地排列,用因变量的数值在表格中一一对应地排列,用以初步反映相关关系的形式,密切程度和相以初步反映相关关系的形式,密切程度和相关方向。关方向。 简单相关表:对于简单相关表:对于未分组未分组资料,直接资料,直接将自变将自变量的数值按大小顺序排列量的数值按大小顺序排列,并配合其相对应,并配合其相对应的因变量的

16、数值所形成的相关表。的因变量的数值所形成的相关表。 统计学原理 刘鑫春13 产品产量和生产费用相关表产品产量和生产费用相关表从上表看出,产品产量和生产费用之间的关系虽然不十分严格,从上表看出,产品产量和生产费用之间的关系虽然不十分严格,但有直线相关的趋势,而且大致可以看出关系比较密切但有直线相关的趋势,而且大致可以看出关系比较密切第七章第二节第七章第二节序号序号产品产量(千吨)产品产量(千吨) x生产费用(万元)生产费用(万元)y123456781.22.03.13.85.06.17.28.0628680110115132135160合计合计36.4880统计学原理 刘鑫春14第七章第二节第七

17、章第二节分组相关表:当原始资料很多,运用简单相分组相关表:当原始资料很多,运用简单相关表存在困难时,一般将资料进行分组,然关表存在困难时,一般将资料进行分组,然后编制分组相关表后编制分组相关表 单变量分组表:对单变量分组表:对自变量进行分组自变量进行分组,计算出,计算出各组次数和因变量组平均数,并在此基础是各组次数和因变量组平均数,并在此基础是编制相关表。编制相关表。双变量分组表:对自变量和因变量都进行分双变量分组表:对自变量和因变量都进行分组,对两变量的分组交叉形成棋盘表式,计组,对两变量的分组交叉形成棋盘表式,计算棋盘表式中每一组的次数,将其填入表格。算棋盘表式中每一组的次数,将其填入表格

18、。 统计学原理 刘鑫春15第七章第二节第七章第二节 400个女大学生身高和体重相关表个女大学生身高和体重相关表按体重分组(千克)按体重分组(千克) 人数(人)人数(人)每组平均身高(厘米)每组平均身高(厘米)62.5以上以上6062.557.5605557.552.5555052.547.5504547.545以下以下2325388712991241170167163162160158155154151合计合计400统计学原理 刘鑫春16第七章第二节第七章第二节400个女大学生身高和体重相关表个女大学生身高和体重相关表按体重分按体重分组(千克)组(千克)按身高分组(厘米)按身高分组(厘米)15

19、0以下以下150154154158158162162166166170170及及以上以上合计合计62.5以上以上6062.557.5605557.552.5555052.547.5504547.545以下以下322338243012420422861628452010714251210238842325388712991241合计合计5974941256825400统计学原理 刘鑫春17第七章第二节第七章第二节二、定量分析二、定量分析测定与运用相关系数测定与运用相关系数r积差法:积差法: 其中:其中:r相关系数相关系数 x和和y的协方差的协方差 xyxysrs sx ys()()1()()xy

20、xxyysxxyynn22()()()()xxyyrxxyy统计学原理 刘鑫春18第七章第二节第七章第二节简捷计算公式:简捷计算公式:已知均值和标准差时:已知均值和标准差时:或:或:2222()()nxyxyrnxxnyy 2222xynx yrxnxyn yxyxyxyxyrs sn其中xy统计学原理 刘鑫春19第七章第二节第七章第二节三、相关系数的密切程度三、相关系数的密切程度相关系数的范围在相关系数的范围在-1到到1之间,即之间,即1r1,当当r=1为完全正相关,为完全正相关,r=-1,为完全负相关,为完全负相关,r=0为不相关。为不相关。r的范围在的范围在0.3-0.5是低度相关;是低

21、度相关;r的范围在的范围在0.5-0.8是显著相关;是显著相关;r的范围在的范围在0.8以上是高度相关。以上是高度相关。统计学原理 刘鑫春20第七章第七章 第三节第三节第三节第三节 直线回归分析直线回归分析一、回归分析的概念一、回归分析的概念概念:就是对具有相关关系的变量之间的数概念:就是对具有相关关系的变量之间的数量关系进行测定,确定一个相应的数学表达量关系进行测定,确定一个相应的数学表达式。式。回归分析的种类回归分析的种类按自变量按自变量X的多少,可以分为一元回归和多元的多少,可以分为一元回归和多元回归回归按按Y与与X曲线的形式,可以分为直线回归和曲曲线的形式,可以分为直线回归和曲线回归线

22、回归统计学原理 刘鑫春21第七章第七章 第三节第三节“回归的渊源回归的渊源” “回归回归”一词是英国生物学家高尔登首先提出一词是英国生物学家高尔登首先提出的。高尔登在研究父母亲身高和子女身高的关的。高尔登在研究父母亲身高和子女身高的关系时发现:身材特别高的父母所生的孩子其身系时发现:身材特别高的父母所生的孩子其身材并非特别高,而身材特别矮的父母所生孩子材并非特别高,而身材特别矮的父母所生孩子的身材也并非特别矮,子辈身高有向父辈平均的身材也并非特别矮,子辈身高有向父辈平均身高逼近的趋向,他把这种现象叫做身高逼近的趋向,他把这种现象叫做“身高数身高数值从一极端至另一极端的回归值从一极端至另一极端的

23、回归”。以后,高尔以后,高尔顿的学生皮尔逊把回归的概念同数学的方法联顿的学生皮尔逊把回归的概念同数学的方法联系起来,把代表现象之间一般数量关系的统计系起来,把代表现象之间一般数量关系的统计模型叫做回归直线或回归曲线,从此诞生了统模型叫做回归直线或回归曲线,从此诞生了统计上著名的回归理论。计上著名的回归理论。统计学原理 刘鑫春22第七章第七章 第三节第三节二、简单直线回归分析二、简单直线回归分析简单直线回归分析的特点简单直线回归分析的特点在两个变量之间,必须确定哪个是自变量在两个变量之间,必须确定哪个是自变量X,哪个是因变量,哪个是因变量Y回归方程的主要作用是用自变量来推算因回归方程的主要作用是

24、用自变量来推算因变量。变量。 在两个现象互为根据的情况下,可以有两在两个现象互为根据的情况下,可以有两个回归方程个回归方程Y倚倚X回归方程和回归方程和X倚倚Y回归回归方程。方程。统计学原理 刘鑫春23第七章第七章 第三节第三节两种情况下的回归方程为:两种情况下的回归方程为:Y倚倚x回归方程:回归方程:X倚倚y回归方程:回归方程:其中:其中:a和和c式两条直线的截距,式两条直线的截距,b和和d式两条直线式两条直线的回归系数。的回归系数。cya bx cxc dy 统计学原理 刘鑫春24第七章第七章 第三节第三节简单直线回归方程的确定简单直线回归方程的确定 设设y为实际值,为实际值,yc为估计值,

25、现在要用一条直线为估计值,现在要用一条直线 拟合实际值,而且要满足拟合实际值,而且要满足 为最小。由最小平方原理,可得:为最小。由最小平方原理,可得:bxayc0cyy2cyy22xxnyxxynbxbynxbnya统计学原理 刘鑫春25第七章第七章 第三节第三节注意:回顾动态数列中长期趋势测定问题中用到的注意:回顾动态数列中长期趋势测定问题中用到的最小平方法最小平方法 在直线方程中,自变量为时间,因变量为各个时在直线方程中,自变量为时间,因变量为各个时间上对应的指标值,得到方程组:间上对应的指标值,得到方程组:通过巧取通过巧取T值,使得值,使得T0,讲方程组简化,得到:,讲方程组简化,得到:

26、tbnay2tyatbtyan2tybt统计学原理 刘鑫春26第七章第七章 第三节第三节 如果已用积差法计算了相关系数,有相应的资料,如果已用积差法计算了相关系数,有相应的资料,也可以用以下公式:也可以用以下公式:如果知道如果知道xy的协方差和自变量的标准差,的协方差和自变量的标准差,b也可以:也可以:2()()()xxyybxxaybx()()xyxx yysn22()xxxsn2xyxsbs统计学原理 刘鑫春27第七章第七章 第三节第三节估计标准误差估计标准误差 概念:估计标准误差就是用来说明回归方概念:估计标准误差就是用来说明回归方程推算结果的准确程度的统计分析指标,或程推算结果的准确程度的统计分析指标,或者说是反映回归直线代表性大小的统计分析者说是反映回归直线代表性大小的统计分析指标。指标。 yxS统计学原理 刘鑫春28第七章第七章 第三节第三节简单直线回归估计标准误差的测定简单直线回归估计标准误差的测定 根据因变量实际值和估计值的离差计算根据因变量实际值和估计值的离差计算根据根据a,b两个参数值计算估计标准误差两个参数值计算估计标准误差 2()2cyxyySn2()()2yxyaYbX YSn统计学原理 刘鑫春29第七章第七章 第三节第三节相关系数和估计标准误差的关系相关系数和估计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论