




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 6线性回归 中国人民大学附属中学 对于两个变量之间的关系 我们以前学过 函数关系是一种确定性关系 例如正方形的面积s与边长x之间的关系s x2就是一种确定性关系 即对于自变量边长的每一个确定的值 都有唯一确定的面积的值与之对应 两个变量之间的关系还有另外一种情况 我们来看看一块农田的水稻产量与施肥量之间的关系 在这个问题里 水稻产量不仅受到施肥量的影响 还受到其他不少因素 诸如气候情况 浇水 除虫等 的影响 因此 当施肥量一定时 水稻产量在取值上带有一定的随机性 像这种自变量取值一定时 因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系 与函数关系不同 相关关系是一种非确定性关系 对具有相关关系的两个变量进行统计分析的方法叫做回归分析 在现实生活中存在着大量的相关关系 人的身高与年龄 产品的成本与生产数量 商品的销售额与广告费 家庭的支出与收入等都是相关关系 在7块并排 形状大小相同的试验田上进行施化肥量对水稻产量影响的试验 得到如下表所示的一组数据 单位 kg 将表中的各对数据在平面直角坐标系中描点 得到图1 9 1 像图1 9 1 这样表示具有相关关系的两个变量的一组数据的图形 叫做散点图 对于图1 9 1 中的各个点 你发现有什么特点吗 可以发现 图1 9 1 中的各个点 大致分布在一条直线的附近 如图1 9 2 所示 像图1 9 2 中的直线 可以画出不止一条 那么 其中哪一条直线最能代表变量x与y之间的关系呢 一般地 设x与y是具有相关关系的两个变量 且相应于n组观测值的n个点大致分布在一条直线的附近 我们来求在整体上与这n个点最接近的一条直线 设所求的直线的方程为 bx a 在一般统计书中 习惯用b表示一次项系数 用a表示常数项 这正好与我们表示一次函数的习惯相反 其中a b是待确定的参数 于是 当变量x取一组数值xi i 1 2 n 时 相应地 bxi a i 1 2 n 于是得到各个偏差yi i yi bxi a i 1 2 n 容易看到 上面各个偏差的符号可能有正有负 如果将它们相加会造成相互抵消 因此它们的和不能代表n个点与相应直线在整体上的接近程度 为了解决这一问题 我们采用n个偏差的平方和 即 q y1 b1x1 a 2 y2 b2x2 a 2 yn bnxn a 2 来表示n个点与相应直线在整体上的接近程度 于是我们的问题是 如何求得系数a b 使q取得最小值 为了书写方便 我们先引进一个符号 这个符号表示若干个数相加 例如 可将x1 x2 xn记作 即表示从x1加到xn的和 这样 n个数的平均数的公式可以写作 上面的 式可以写作q 这个式子展开后 是一个关于a b的二次多项式 利用配方法 可以导出使q取得最小值的a b的求值公式 详细推导过程请见本小节后的阅读材料 这里 我们将所得到的方程叫做回归直线方程 相应的直线叫做回归直线 而对两个变量所进行的上述统计分析叫做线性回归分析 我们看到 求出了这种具有两个变量的回归直线后 就可以根据其部分观测值 获得对这两个变量之间整体关系的了解 下面根据公式 来求第35页例子中的回归直线方程 借助科学计算器 可以完成下表中的有关计算 于是 因此所求的回归直线方程是 4 75x 257 根据这个回归直线方程 可以求出相应于x的估计值 例如当x 28 kg 时 y的估计值是 4 75 28 257 390 kg 例1 一个工厂在某年里每月产品的总成本y 万元 与该月产量x 万件 之间有如下一组数据 l 画出散点图 2 求月总成本y与月产量x之间的回归直线方程 解 1 画出的散点图如图1 10所示 2 列出下表 并用科学计算器计算 于是可得 因此 所求的回归直线方程是 1 215x 0 972 图1 11是一组观测值的散点图 我们看到 图中的各点并不集中在一条直线的附近 但是按照上面的方法 同样可以就这组数据求得一个回归直线方程 这显然是毫无意义的 于是提出一个问题 所求得的回归直线方程 在什么情况下才能对相应的一组观测值具有代表意义呢 对于变量y与x的一组观测值来说 我们把 r叫做变量y与x之间的样本相关系数 简称相关系数 用它来衡量它们之间的线性相关程度 可以证明 r 1 且 r 越接近于1 相关程度越大 r 越接近于0 相关程度越小 利用第37页表的结果 我们来计算前面水稻产量与施化肥量的相关系数 一般地 当 r 与1接近到什么程度才表明y与x之间具有线性相关关系呢 为明确这一点 通常采用对相关系数r进行显著性检验 简称相关性检验 的方法 其中待检验的统计假设是两个变量不具有线性相关关系 检验的步骤如下 1 在附表3中查出与显著性水平0 05与自由度n 2 n为观测值组数 相应的相关系数临界值r0 05 2 根据公式 计算r的值 3 检验所得结果 如果 r r0 05 那么可以认为y与x之间的线性相关关系不显著 从而接受统计假设 如果 r r0 05 表明一个发生的概率不到5 的事件在一次试验中竟发生了 这个小概率事件的发生使我们有理由认为y与x之间不具有线性相关关系的假设是不成立的 拒绝这一统计假设 也就是表明可以认为y与x之间具有线性相关关系 按照上述步骤 我们来检验一下第35页水稻产量与施化肥量之间是否存在线性相关关系 1 在附表3中查出与显著性水平0 05和自由度7 2相应的相关系数临界值r0 05 0 754 2 前面已求得r 0 9733 3 因为r r0 05 这说明水稻产量与施化肥量之间存在着线性相关关系 这个结论表明 前面求得的关于这两个变量之间的回归直线方程是有意义的 又如 在第38页产品月总成本与月产量关系的例子中 查得相应于显著性水平0 05和自由度12 2的r0 05为0 576 又算得r 0 998 由r r0 05 可知 y与x之间存在显著的线性相关关系 通常 在尚未断定两个变量之间是否具有线性相关关系的情况下 应先进行相关性检验 在确认其具有线性相关关系后 再求其回归直线 我们看到 由部分观测值得到的回归直线 可以对两个变量间的线性相关关系进行估计 这实际上是将非确定性问题转化成确定性问题来进行研究 由于回归直线将部分观测值所反映的规律性进行了延伸 它在情况预报 资料补充等方面有着广泛的应用 例2 我们考虑两个表示变量x与y之间的关系的模型 为误差项 模型如下 模型1 y 6 4x 模型2 y 6 4x 1 如果x 3 1 求两个模型中的y值 2 如果x 3 0 求两个模型中的y值 3 分别说明以上两个模型是确定性模型还是随机性模型 解 1 模型1 y 6 4x 6 4 3 18 模型2 y 6 4x 6 4 3 1 19 2 模型1 y 6 4x 6 4 3 18 模型2 y 6 4x 6 4 3 0 18 3 模型1中相同的x值一定得到相同的y 所以是确定性模型 模型2中相同的x值 因 的不同所得y不一定相同 所以是随机性模型 例3 以下是收集到的新房屋的销售价格y和房屋的大小x的数据 1 画出数据的散点图 2 用最小二乘估计求回归直线方程 并在散点图上加上回归直线 3 此回归直线有意义吗 解 1 数据的散占图见右图 2 109 回归直线方程为 1 8166 0 1962x 3 y与x的相关系数 查表 n 2 3时 临界值r0 05 0 878 由r r0 05知 变量y与x之间具有线性相关关系 回归直线是有意义的 练习题 1 设有一个回归方程为 2 1 5x 则变量x增加一个单位时 a y平均增加1 5单位 b y平均增加2单位 c y平均减少1 5单位 d y平均减少2单位 c 2 回归直线方程 a bx必定过点 a 0 0 b 0 c 0 d d 3 回归直线方程的系数a b的最小二乘估计 a 使函数q a b 最小 q函数指 a b c d 4 1907年一项关于16艘轮船的研究中 船的吨位区间从192吨到3246吨 船员的数目从10人到22人 船员人数关于船的吨位的回归分析得到如下结果 船员人数 9 5 0 0062 吨位 1 假定两艘轮船吨位相差1000吨 船员平均人数相差多少 2 对于最小的船估计的船员数是多少 对于最大的船估计的船员数是多少 1 假定两艘轮船吨位相差1000吨 船员平均人数相差多少 解 1 船员平均人数相差0 0062 1000 6 2人 2 对于最小的船估计的船员数是多少 对于最大的船估计的船员数是多少 2 当取最小吨位192时 预计船员数为9 5 0 0062 192 10 7 人 当取最大吨位3246时 预计船员数为9 5 0 0062 3246 22 6 人 5 下列说法中正确的是 a 任何两个变量都具有相关关系b 人的知识与其年龄具有相关关系c 散点图中的各点是分散的没有规律d 根据散点图求得的回归直线方程都是有意义的 b 6 若用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年金融风控管理师资格考试试题及答案解析
- 2025年会计信息系统应用能力认证考试题目及答案解析
- 2025年广告创意总监执业能力评定考试试卷及答案解析
- 第三单元第1课《诗书画印的完美结合》教学设计 20242025学年人教版初中美术八年级上册
- 集运站考试题库及答案
- 2025年电子商务平台总监绩效评估及发展规划试题及答案解析
- 河间市2024-2025学年七年级下学期语文期中模拟试卷
- 和龙市2025-2026学年七年级上学期语文期中测试试卷
- 杭州市2024-2025学年九年级上学期语文期中模拟试卷
- 海西蒙古族藏族自治州2025-2026学年九年级上学期语文期中模拟试卷
- 锂电池生产企业事故综合应急预案
- 儿童高铁课件教学
- 癌性伤口临床护理
- 船舶货物代理管理制度
- 云南省云南师大附中2026届高考适应性月考卷化学及答案(一)
- 人文护理病区管理制度
- 仓储物资管理制度
- 高中新班主任培训
- 《物流信息技术与应用》教学课件
- 国有大宗商品贸易企业的风险管理与策略研究
- 预备党员考试试题及答案2025
评论
0/150
提交评论