版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、复习:一元回归和相关 一元回归分析:建立x与y之间的回归方程,利用方程由x来预测y。 如果x与y存在相关,但不需要由x来估计y,只需要对x与y进行相关分析。R为相关系数,取值范围从-1到1。 R2为决定系数,取值范围为01,只能反应相关程度,而不能反应相关性质。多元线性回归和相关 一元线性回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产、食品等科学领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多个自变量间的回归分析,即多元回归分析(multiple regress
2、ion analysis),而其中最为简单、常用并且具有基础性质的是多元线性回归分析(multiple linear regression analysis),许多非线性回归(non-linear regression)和多项式回归(polynomial regression)都可以化为多元线性回归来解决,因而多元线性回归分析有着广泛的应用。研究多元线性回归分析的思想、方法和原理与直线回归分析基本相同,但是其中要涉及到一些新的概念以及进行更细致的分析,特别是在计算上要比直线回归分析复杂得多,当自变量较多时,需要应用计算机进行计算。多元线性回归和相关多元线性回归分析的基本任务包括:根据依变量与多
3、个自变量的实际观测值建立依变量对多个自变量的多元线性回归方程;检验、分析各个自变量对依自变量的综合线性影响的显著性;检验、分析各个自变量对依变量的单纯线性影响的显著性,选择仅对依变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对依变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。多元线性回归方程的建立多元线性回归中,自变量x个数有k个(k2)n组,设x1、 x2、 xk为自变量观测值,y为因变量观测值,则一个k元线性回归的数学模型为: 式中k1,0为截距, 1 k为偏回归系数,为随机误差,服从N(0,)的正态分布 。多元线性回归方程的建立多元线性回归中,自变量x个
4、数有k个(k2)n组,设x1、 x2、 xk为自变量观测值,y为因变量观测值: 假定因变量y与自变量x1、x2、xm间存在线性关系,其数学模型为: 式中,x1、x2、xm为可以观测的一般变量(或为可以观测的随机变量);y为可以观测的随机变量,随x1、x2、xm而变,受试验误差影响;2为相互独立且都服从的随机变量。我们可以根据实际观测值对以及 方差2作出估计。多元线性回归方程的建立多元线性回归方程的建立 设y对x1、x2、 xm的元线性回归方程为: 式中,b0、b1、b2、bm为 的最小二乘估计值。即b0、b1、b2、bm应使实际观测值y与回归估计值 的偏差平方和最小。 多元线性回归方程的建立例
5、 随机抽查某渔场16次放养记录,得到结果(单位:kg),要建立鱼产量(y)和投饵量(x1)、放养量(x2)的线性回归方程,并预测x1 =12.5, x2 =2.5时y平均数的置信区间、y观测值的置信区间。这是一个二元线性回归问题,设y对x1、x2的线性回归方程为:用DPS解题:(1)输入数据与选择数据:注意:和书上顺序不一样,X1、X2、Y分别在第1、2、3列,顺序不可倒!(2)菜单:(3)对话框:(4)点击“返回编辑”,即可出结果: 方差分析表与决定系数: p=0.00080.01,认为鱼产量Y与投饵量X1、放养量X2的回归关系是非常显著的。 决定系数R2=0.668452结果: 回归系数及
6、假设检验: 根据b0、b1、b2我们可以得到回归方程为: 对b1、b2进行t检验,p分别为0.0026、0.0004,说明投饵量X1、放养量X2对鱼产量Y的影响是非常显著的。结果: y平均数的置信区间、y观测值的置信区间 当x1=12.5,x2=2.5,预测y平均数的95%置信区间与y观测值95%的置信区间:自变量的重要性和取舍在多元回归方程中,x1xk个自变量对因变量y的影响程度和对回归方程的贡献大小是不一样的。因此需要进行取舍,去掉那些对因变量影响不显著的自变量,建立“最优”的多元线性回归方程,这样才能对因变量y作出有效的准确的分析、预测。例 分别测定21尾狗鱼性成熟个体的全长x1 (cm
7、)、体长x2 (cm)、体重x3 (g)、年龄x4 (a)、空壳重x5 (g)、卵巢重x6 (g)和绝对怀卵量Y (粒),试建立x1x6与怀卵量Y之间的最优多元线性方程用DPS解题:(1)输入数据与选择数据:用DPS解题:(2)菜单:用DPS解题:(3)结果: 引入1个变量时的最优回归方程: X5空壳重对Y卵巢重的影响最显著(p=0),优先引入方程,得到回归方程决定系数R2=0.9283,回归关系经方差分析,F=245.8777,p=0,非常显著。 引入2个变量时的最优回归方程: X4、X6对Y卵巢重的影响非常显著(p0.01),优先引入方程,得到回归方程决定系数R2=0.9470(高于引入一
8、个自变量X5时的0.9283),回归关系经方差分析,F=160.8874,p=0,非常显著。 引入3个变量时的最优回归方程: X2、X4、X6对Y卵巢重的影响非常显著(p0.01),优先引入方程,得到回归方程(略)决定系数R2=0.9750(高于引入2个自变量时的0.9470),回归关系经方差分析,F=220.7037,p=0,非常显著。 引入4个变量时的最优回归方程: X2、X4、X6对Y卵巢重的影响非常显著(p0.01),X1的影响也显著(p0.05),优先引入方程,得到回归方程(略)决定系数R2=0.9820(高于引入3个自变量时的0.9750),回归关系经方差分析,F=218.2896
9、,p=0,非常显著。 引入5个变量时的最优回归方程: X2、X4、X6对Y卵巢重的影响非常显著(p0.01),X1的影响也显著(p0.05),优先引入方程,而X3对Y的而影响不显著(p=0.7259),得到回归方程(略)决定系数R2=0.9822(略高于引入4个自变量时的0.9820),回归关系经方差分析,F=165.1353,p=0,非常显著。 引入6个变量时的最优回归方程: X4、X6对Y卵巢重的影响非常显著(p0.01),X2的影响也显著(p0.05),得到回归方程(略)决定系数R2=0.9822(略高于引入4个自变量时的0.9820),回归关系经方差分析,F=128.4913,p=0,
10、非常显著。结论: 引入X1(全长)、X2(体长)、X4(年龄)、X6(卵巢重)四个自变量时最好,此时4个自变量都对Y有显著影响(p0.05)。建立四元回归方程: X3(体重)、空壳重(X5)没有引入方程,虽然两者与全长、体长、年两之间有密切关系,但两者容易受到外界环境的影响而变化,不引入回归方程也是合理的。Minitab法做题 例8.1(1)输入数据:(2)菜单:(3)对话框设置:结果:(1)回归方程:(2)偏回归系数及其显著性检验:结果:(3)决定系数R2及方程回归显著性检验:结果:(4)y平均数的置信区间、y观测值的置信区间:Minitab对于y值的置信区间预测也比较方便。例8.4 看Mi
11、nitab如何对自变量进行取舍菜单:统计回归最佳子集对话框设置:选项设置:结果:引入4个变量时决定系数R2(调整)最佳,Mallows Cp接近入选的变量数目时较好。此时引入的变量为:全长、体长、年龄、卵巢重,与DPS是一致的。然后可以进一步做回归分析:菜单:统计回归回归对话框:结果: 回归方程: 偏回归系数及其显著性检验:结果: 回归决定系数R2及方差分析: DPS一次性操作即可给出回归方程、方差分析、决定系数等数据,而Minitab需要两次操作。多元相关与偏相关 多元相关,又称复相关,是y与k个x的总相关。例 分析X1(全长)、X2(体长)、X4(年龄)、X6(卵巢重)四个自变量与怀卵量Y
12、的复相关系数,并进行假设检验在上面的结果中已经解决了这个问题: 决定系数R2=0.9820,p=0.000,相关非常显著。偏相关系数及其假设检验例 分析X1(全长)、X2(体长)、X4(年龄)、X6(卵巢重)四个自变量及怀卵量Y(总共5个变量)之间都存在不同程度线性相关关系。当X1变化,其他变量X2、X4、X6、Y都在变化,要消除其他变量的影响,就要保持其他变量不变。比如,要了解X1与Y的关系,就要保持 X2、X4、X6不变。这就要进行偏相关分析。DPS法(1)输入数据,选择数据:(2)菜单:(3)结果: Pearson相关系数: 从相关系数看,所有变量之间都存在非常显著的正相关(P0.01)
13、 。(3)偏相关系数: 从偏相关系数看,年龄与绝对怀卵量正相关非常显著,r=0.7829,p=0.0003; 其次是卵巢重, r=0.6716,p=0.0044; 然后是体长,r=-0.5962,p=0.0148,体长与怀卵量是负相关。 简单的相关系数与偏相关系数会差别很大,符号也存在正负差异。 简单的相关系数往往不能反应两个变量之间的真实的线性相关关系,而偏相关系数消除了其他变量的取值的影响,反映两个变量的真实关系。逐步回归与通径分析 在实际研究中,影响y的因素有很多,这些因素之间可能存在多重共线性问题,如温度和雨量、雨量与雨日之间的关系。逐步回归分析就是一种自动从大量变量中选择对建立回归方
14、程比较重要的方法,它是建立在多元线性回归的基础上派生出来的一种更算法技巧。 在多元线性回归分析中,较多的自变量拟合回归方程,会使得方程稳定性差,建立的方程作为预测的可靠性就差,精度低,因此希望得到“最优”的回归方程,把对y影响不显著的因素剔除。逐步回归与通径分析 逐步回归分析根据自变量对y的影响显著程度,从大到小逐个引入方程,每次引入自变量都要进行F检验,确保引入的自变量有新的统计意义。对y没有显著影响的变量要从方程中剔除。逐步回归与通径分析 通径分析是通径系数分析的简称。通径系数是自变量偏回归系数标准化后得到的,用来表示相关变量因果关系的统计量。逐步回归与通径分析 例 测定“丰产3号”小麦1
15、5株的单株穗数x1、每穗的结实穗数x2、百粒重x3、株高x4和单株籽粒产量y,结果见下表,试建立y与xi之间的最优回归方程。逐步回归与通径分析在DPS中输入数据,选择数据:逐步回归与通径分析点击菜单多元分析回归分析逐步回归,弹出对话框:已经引入方程的变量为x1、x2、x3,调整的R为0.94804逐步回归与通径分析按yes,则引入变量x4,结果:已经引入方程的变量为x1、x2、x3、x4,调整的R为0.944730.94804,因此不能引入x4,需要剔除。逐步回归与通径分析按No,则剔除变量x4,结果:已经引入方程的变量为x1、x2、x3,调整的R为0.94804。逐步回归与通径分析按OK,得到结果:方程为:y=-46.9664+2.01317*x1+0.67467*x2+7.83027*x3方程分析表结果表明,自变量x1、x2、x3与y之间回归关系极显著。逐步回归与通径分析方程的估计标准误SSE为1.1369,调整的决定系数R2=0.8988,逐步回归与通径分析直接通径系数从三个自变量对单株产量y的直接影响可以看出:x1每株穗数的直接作用最大,为0.7534;其次为x3百粒重,为0.3414;X2小穗数的直接作用最小,为0.1993逐步回归与通径分析间接通径系数从间接通径系数可以看出:每株穗数x1通过百粒重x3对产量y的间接作用最大,为0.1709;每株穗数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026陕西宁强县汉江源景区招聘考试参考试题及答案解析
- 2026西安经开第十四小学舞蹈教师招聘考试备考试题及答案解析
- 2026四川德阳市第六人民医院(东汽医院)面向社会招聘编外人员10人考试参考试题及答案解析
- 2026磨憨开发投资有限责任公司市场化选聘高级管理人员2人(云南)考试备考题库及答案解析
- 2026福建莆田市城厢区考核招聘编内新任教师20人考试参考试题及答案解析
- 2026重庆合川区人民医院招聘8人考试备考试题及答案解析
- 2026年甘肃兰州红古区医保局招聘公益性岗位人员考试备考题库及答案解析
- 2026渭南市富平县和谐幼儿园招聘(4人)考试备考试题及答案解析
- 2026年桂林师范高等专科学校单招综合素质考试备考题库带答案解析
- 2026海南海口市龙华区劳动就业和社会保障管理中心招聘公益性岗位工作人员4人考试参考试题及答案解析
- 2026年1月福建厦门市集美区后溪镇卫生院补充编外人员招聘16人笔试模拟试题及答案解析
- 2026年长治职业技术学院单招职业技能考试题库附答案解析
- 2026年丹东市人力资源和社会保障局公开选聘法律顾问备考题库及完整答案详解一套
- 承包工人饭堂合同范本
- 2026年干部综合能力高频知识点测试题附解析
- GB/T 46544-2025航空航天用螺栓连接横向振动防松试验方法
- 炎德·英才大联考长沙市一中2026届高三月考(五)历史试卷(含答案详解)
- 云南师大附中2026届高三高考适应性月考卷(六)思想政治试卷(含答案及解析)
- 建筑安全风险辨识与防范措施
- CNG天然气加气站反恐应急处置预案
- 培训教师合同范本
评论
0/150
提交评论