应用统计回归分析.ppt_第1页
应用统计回归分析.ppt_第2页
应用统计回归分析.ppt_第3页
应用统计回归分析.ppt_第4页
应用统计回归分析.ppt_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章回归分析 回归分析的基本概念一元线性回归多元线性回归 1 函数关系y f x 2 相关关系Y f x 其中 为随机变量 常把上述关系表为 Y f x 确定性 非确定性 相关关系式中最简单 最常用的一种是线性回归 即其中f x L x ax b的情形 10 1回归分析基本概念 一 相关关系 二 一元线性回归的数学模型 1 一元线性理论回归模型 10 1 1 其中 为确定性部分 0 1为未知参数 2 一元线性回归模型 对 x y 作n次独立观察 得n组数据 xi yi 代入 10 1 得一元线性回归模型 10 1 2 由 xi yi 的值可作出 0 1的估计 从而可得 上述方程称为一元线性经验回归方程 简称回归方程 参数的最小二乘估计模型线性性的检验预测与控制 10 2一元线性回归 一 参数的最小二乘估计 考虑一元线性理论回归模型 10 2 1 代入 10 2 1 可得一元线性回归模型 若我们对 x y 做n次独立的观察 可获得n组相互独立的观测值 10 2 3 1 0 1的最小二乘估计 先讨论问题 如何由 10 2 2 去估计 10 2 3 中的参数 0 1与 2 若已得到 0 1的估计 则线性方程 称为一元线性经验回归方程 简称回归方程 于是对 10 2 2 的每一组观测值 由 10 2 4 均可求得一个相应的值 常称为回归值或预测值 拟合值等 我们总希望由估计 所定出的 回归方程能使一切 之间的偏差达到 最小 根据最小二乘法的原理 即要求 必须满足以下方程组 由微积分 则 令 用 代替 经整理即得 10 2 6 称为正规方程组 在xi i 1 n不全相等时它有唯一解 10 2 7 容易验证 上式中的确能使Q达到最小 因此他们是 0 1的最小二乘估计 可见 回归方程的图形是通过点 斜率为的直线 称此直线为回归直线 10 2 8 2 最小二乘估计的性质及 2的估计 令 10 2 9 则 10 2 7 和 10 2 8 可表为 和 此时的残差平方和 最小 记为Se 称为剩余 平方和 即 10 2 12 进一步分析 可得 10 2 13 由于 故 很明显 都是统计量 在 的假设下 它们具如下性质 设x0为自变量x的值 例10 2 1在硝酸钠 NaNO3 的溶解度试验中 测得在不同温度x 0C 下 溶解于100份水中的硝酸钠份数y的数据如下表所示 求 0 1的最小二乘估计及 2的无偏估计 并写出回归方程 解编制计算表如下 故 可算得 2的无偏估计为 所求的回归方程为 二 模型线性性的检验 如果y与x之间不存在良好的线性关系 这样得到的回归方程是毫无意义的 因此 我们必须检验假设H0 1 0 H1 1 0 10 2 15 离差分解 10 2 17 其中ST称为总离差平方和 称为剩余平方和 由性质 4 知 它的分布仅依赖于n和 2 与x的分布无关 因此它反映了除去y与x之间的线性相关关系之外其他因素引起的数据yi间的波动 10 2 18 称为回归平方和 它主要反映由变量x的变化引起的yi间的波动 由性质 4 知 且与SR独立 在H0真时 由性质 2 及 10 2 18 知 故 H0为真时统计量 10 2 19 从而 给定水平 假设H0 10 2 15 有拒绝域 易知 在ST一定时 若回归平方和SR越大 则剩余回归平方和Se越小 此时F值就越大 从而反映出y与x之间的线性相关程度就越高 模型 10 2 1 就越好 反之 则相反 以上方法称为模型线性性检验 或回归方程显著性检验 的F检验法 这种检验也需要做方差分析 模型线性性检验方差分析表 回归模型线性性不显著的原因可能有如下几种 1 影响y的除x外 还可能有其他不可忽略的因素 2 y与x的关系不是线性的 而是存在其它的关系 3 y与x无关 为此需要进一步查明原因 视具体情况处理 模型线性性检验的t检验法事实上 当H0真时 于是 给定水平 假设H0 10 2 15 有拒绝域 例10 2 2 续例10 2 1 试判断温度x和硝酸钠溶解份数y之间的线性关系是否显著 选用F检验法 由例10 2 1的计算结果 见P364 并利用 10 2 13 式和 10 2 18 式得 建立方差分析表如下 表10 4方差分析表 给定 0 01 查表得F0 01 1 7 12 2 3235 75 F 故拒绝H0 这表明温度x和硝酸钠溶解份数y之间的线性关系非常显著 也可选用t检验法 此时因为t n 2 t0 01 7 3 00 而统计量t的值 故拒绝H0 三 预测与控制 回归方程的一个重要应用就是预测 对于给定的点x x0 我们常希望知道x0所对应的y0 0 1x0 0的点预测和预测区间 此处y0与各yi i 1 2 n 相互独立 1 一元线性回归预测y0的点预测可由回归方程 10 2 4 直接得到 求y0的预测区间的方法与求参数的置信区间的方法类似 因y0是随机变量而非常数 故不称置信区间而称预测区间 显然 10 2 20 由y0与的独立性及性质 3 可知 标准化后得 又由性质 4 及 10 2 14 式知 独立 故U与 也独立 于是 故y0的置信度为1 的预测区间为 10 2 21 若记 则y0的预测区间可记为 对于给定的样本观测值x 可作两条曲线 这两条曲线可形成一含回归直线 的带域 两头呈 喇叭形 在x 处最窄 如图10 2所示 见P370 当n充分大时 因 而近似地有 可用u 2代替t 2 n 2 从而y0的预测区间可 近似表为 10 2 22 2 一元线性回归控制控制是预测的反问题 即问自变量x应控制在什么范围内 才能以一定的置信度保证因变量y落在某一给定的区间之内 换句话说 对于给定的置信度1 及区间 y1 y2 要寻找x1 和x2 使当x1 x x2 时x所对应的y落在 y1 y2 内的概率 1 仅限于讨论n较大的情形 一种简便的方法是 利用 10 2 22 式 从不等式组 中解出x来即可得到控制x的上 下限 但要注意须有 10 2 23 p元线性回归模型参数估计 最小二乘估计假设检验与回归系数的区间估计预测和变量控制 10 3p 多 元线性回归 一 p元线性回归模型 一般地有 10 3 1 其中x1 xp是可精确测量或可控制的一般变量 y是可观测的r v 1 p是未知参数 若我们对 10 3 1 获得n个相互独立的观测值 则由 10 3 1 知 yi具有数据结构式 这就是p元 多元 线性回归模型 对p元线性回归模型我们将研究下面几个问题 由样本观测值 10 3 2 去估计未知参数 1 p 2 从而建立y与x1 xp间的数量关系式 所谓的回归方程 对由此得到的数量关系式的可信度进行统计检验 检验各变量x1 xp分别对指标y是否有显著影响 回归系数的区间估计 预测和变量控制 二 参数估计 先讨论第一个问题 即如何由 10 3 2 去估计 10 3 1 中的参数 0 p与 2 若已得到 0 p的估计 则线性方程 称为p元线性回归方程 于是对 10 3 2 的每一组观测值 由 10 3 4 均可求得一个相应的值 常称为回归值或预测值 拟合值等 我们总希望由估计 所定出的 回归方程能使一切 之间的偏差达到 最小 根据最小二乘法的原理 即要求 必须满足以下方程组 由微积分 则 令 用 代替 经整理即得 10 3 7 称为正规方程组 其解称为 0 1 p的最小二乘估计 记为 则 10 3 3 可表为Y X N 0 2In 10 3 8 10 3 7 可表为 正规方程组可用向量矩阵形式简洁表出 令 其中X为正规方程组的结构矩阵 A X X为系数矩阵 是一个p 1阶方阵 B X Y为常数项矩阵 在回归分析中通常A 1存在 故 从而由最小二乘估计 可建立回归方程 10 3 4 并利用它对指标y进行预报和控制 例如给出任意一组变量x1 xp的值 x01 x0p 由 10 3 4 可得y0的预测值 定义 为了得到预测的精度及控制生产的需要 通常还要求得 2的估计 实测值yi与回归值 的差 叫残差 称为剩余平方和 或残差平方和 叫残差向量 一般地 有 推论 定理10 1 E Se n p 1 2 从而 是 2的无偏估计 例求p元中心化回归模型 中参数 0 1 p的最小二乘估计与 2 的无偏估计 其中 定理10 2 现在进一步研究最小二乘估计 leastsquareestimation 的性质 是 的无偏估计 其协方差阵为 定理10 3 定理10 4 当Y N X 2In 时 与Se独立 且 其中q为矩阵X的秩 的L S E与残差向量的几何意义 求 的L S E 就是求一个 使得Y与 的距离最短 这等价于在U X 中找一向量 使得 这只能在 才能办到 式 10 3 16 指出了这一点 可见 是Y在U X 上的投影 三 假设检验 变量y与x1 xp之间是否确有线性关系即检验假设H0 1 2 p 0 10 3 17 若y与x1 xp之间确有线性关系 那么因子xj对y作用是否显著呢 这需要检验假设H0 j 0 j 1 p 10 3 18 1 假设 10 3 17 的检验法 总偏差平方和 其中 即剩余平方和 它反映 除去y与x1 xp之间的线性关系以外一切因素引起的数据yi间的波动 而 称为回归平方和 反映由变量x1 xp的变化引起的数据yi间的波动 在p元线性回归模型 10 3 3 中 当假设 10 3 17 真时 故 由定理10 4知 由于SR是正态变量的平方和 其自由度为 n 1 n p 1 p 故由定理6 3 2 柯赫伦 知 在 10 3 17 真时 Se与SR相互独立 且 从而有 2 假设 10 3 18 的检验问题 最后 给定显著性水平后 即可得到假设 10 3 17 的拒绝域 由定理10 4知 其中cjj为 X X 1中第j 1个对角元素 且 独立 故 这就是用来检验第j个因子 j是否显著为零的统计量 于是 给定显著性水平 假设 10 3 18 的拒绝域为 四 回归系数的区间估计 预测和变量控制 1 的线性函数的区间估计 若检验得知回归因子xj对y的影响显著 此时常要考虑 j的区间估计问题 一般地说 在回归分析中常要求考虑 的线性函数的区间估计问题 设 1 2 p 为实常向量 记 我们要求的是 的置信度为1 的置信区间 易证 的最小方差线性无偏估计为 它称为 的高斯 马尔可夫估计 且与 相互独立 可选择 为主元 由P T t 2 n p 1 解不等式 得 的置信度为1 的置信区间如下 特别 当 置信度为1 的置信区间为 2 y的预测区间 设给定x x1 xp 的值x0 x01 x0p 要求x0所对应y0的置信度为1 的预测区间 设给定x0 则 y0的回归值 由于y0与y1 yn独立 故 与y1 yn也独立 且与 从而 独立 故 由P T t 2 n p 1 解不等式 即得y0的预测区间如下 3 x的控制 当n充分大时 y0的预测区间可近似表为 由不等式组 即可解得控制x的上 下限 五 可化为线性回归的例子 1 模型y a bsint N 0 2 10 3 28 其中a b 2为与t无关的未知参数 只要令x sint 即可得一元线性回归模型 2 模型y a bt ct2 N 0 2 10 3 29 其中a b c 2为与t无关的未知参数 只要令x1 t x2 t2 即可得二元线性回归模型 可推广到y gn t N 0 2 的情形 其中gn t an an 1t a0tn 为n次多项式 3 模型 y a bx N 0 2 10 3 30 其中 为已知函数 且具单值反函数 a b 2为与x无关的未知参数 只要令z y 即可 TheEnd 近代统计学的地位 统计学是当今最重要的科学技术之一很多人不了解统计学 1 美国 科学84年 杂志选出 20世纪对人类生活影响最大的20项科技成果 统计学入选其中 其它如 相对论 激光 电视 塑料 DNA等 2 法国科学院近来向政府提交了一个报告 列举了10项应该重点发展的科技领域 其中9项为信息 能源等高科技项目 唯有一项统计学属于基础性学科 报告认为 法国统计学发展的滞后对法国经济 社会的发展产生了很不利的影响 3 日本战后经济发展非常快 有人认为 以 统计质量管理 田口方法 TQC即全面质量管理等 为中心的统计学方法的应用 贡献了5 的份额 4 美国2003年 技术评论 杂志根据最新调查 介绍了全球九大新兴科技展望 其中第4项为贝叶斯统计技术 其它如 个人基因学 合成生物学 纳米导线 微射流光纤 等 调查报告指出 贝叶斯统计技术将是下一波软件开发的基本工具 可能使外语翻译 微型芯片制造 药物发现 基因技术等领域发生巨大进步 英特尔 微软 Google等大公司都已挤入这一新领域的研发 微软已进入市场 其2003年版Outlook就包括了贝叶斯办公室助手软件 5 美国统计学家把新的贝叶斯统计方法应用于MX导弹试验 使导弹第一阶段的试验由36次减少到25次 可靠性由72 提高到93 可节省直接费用2 5亿美元 美国David报告 美国数学的现在与未来 6 在美国 统计是最为热门的职业之一 统计学家的工资水平也是非常高的 美国白宫人事局2003年的一份报告中指出 统计学家的工资名列第6 高于经济学家 计算机科学家 化学家 电气工程师 建筑师等行业 7 在英美等国 二三流大学都有统计系 生物统计系 美国统计学博士生获得资助率 32 肯定就业率 78 到重点大学就业率 43 都是最高的 美国基础数学毕业生找工作的平均等待时间为14个月 而统计学毕业生为2个月 8 统计学对于现代基因学说的产生与发展起了非常重要的作用 孟德尔1865年提出基因学说 在1953年Watson Crick在分子水平上发现DNA的双螺旋分子结构之前 主要靠统计学的支持 9 美国Glimm报告 数学科学 技术 与经济竞争力 指出 统计学已得到广泛应用 在这个意义上它处于数学各分支领先地位 是用于分析数据的第一数学分支 也是新科技中涉及数学的第一分支 是把新科技进行量化的先驱手段 10 1991 2001十年期间 全世界数学论文引用率最高的前25名数学家中有18名是统计学家 占2 3强 数学家成企业新宠数学系毕业生年薪可达6位数 在 Google 或 雅虎 这样的公司 大学数学系毕业生的起始年薪可达6位数 就像不久以前 人们争抢哈佛大学企管硕士一样 如今 企业已开始纷纷争抢数学家 本报华盛顿1月18日电 记者张孟军 人类社会正在向 新数字时代 迈进 数学家和计算机专家强强结合 正酝酿催生出一个全新的业务范畴 从而提高了数学的效能 过去几十年来 高级数学和计算机模拟不断改变着科学和社会的面貌 数学家正在帮助企业收集和挖掘消费者和企业数据库中的数据 并从这些数据中找出有用的 金矿 据新出版的美国 商业周刊 报道 数学家正在帮助企业拟定广告宣传战略 他们也在改变对新闻报道进行研究的切入角度和研究方法 数学家使市场营销人员同客户形成了一对一的关系 越来越多的经济活动进入 数学王国 例如 在纽约华尔街工作的数学企业家尼尔 戈德曼 就创建了 Inform技术公司 该公司每天搜索成千上万篇新闻报道和网上博客的文章进行 阅读 并能将这些文章分门别类地分成不同部分 Inform公司不是逐字逐句进行阅读做出文摘 而是按语言和内容 采用数学计算及统计法来分析每篇文章 然后按客户需要 将对客户有用的文章或段落发给客户 美国国家安全局 NSA 数学研究组的首席数学家沙茨说 数学家从未获得过如此高的地位 冷战时期 美国国家安全局雇用了大量数学家 该局的数学高手曾同前苏联的数学高手展开竞赛 每边的人都在千方百计保护自己的密码不被对方破译 而试图破译对方的密码 如今 美国国家安全局的数学团队已经把工作重点转移到新的领域 反恐 他们不断分析恐怖分子在网上和电话中的各种信息 例如分析恐怖分子的讲话 主题和通话的频率 以分析判断未来可能出现的恐怖袭击 美国国家安全局正在和 Google 或雅虎等公司进行人才争夺战 以招聘到最好的数学家 该局招聘办公室主任米勒 温特说 我们必须寻找新的和创新的方法 以找到最有用的人才 诸如IBM及Inform等许

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论