最新第十二讲统计模型数据拟合方法ppt模版课件_第1页
最新第十二讲统计模型数据拟合方法ppt模版课件_第2页
最新第十二讲统计模型数据拟合方法ppt模版课件_第3页
最新第十二讲统计模型数据拟合方法ppt模版课件_第4页
最新第十二讲统计模型数据拟合方法ppt模版课件_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计模型 统计模型 一 数据拟合方法 二 多元回归方法案例 软件开发人员的薪金问题 投资的收益和风险 市场上有n种资产 如股票 债券等 Si i 1 2 n 供投资者选择 某公司有数额为M的一笔相当大的资金可用作一个时期的投资 公司财务人员对这n种资产进行了评估 估算出了这一时期内购买Si的平均收益率为ri 并预测出购买Si的风险损失率为qi 考虑到投资越分散 总的风险越小 公司确定 当用这笔资金购买若干种资产时 总体风险可用所投资的Si中最大的一个风险来度量 课堂讨论 购买Si要付交易费 费率为pi 并且当购买额不超过给定值ui时 交易费按购买ui计算 不买当然不付费 另外 假设同期银行利率是r0 r0 5 且既无交易费也无风险 相关数据如下表所示 试给该公司设计一种投资组合方案 即用给定的资金 有选择的购买若干资产或银行生息 使净收益尽可能大 而总体风险尽可能小 投资的相关数据表 1问题分析 问题为 以投资组合为决策变量的双目标随机规划问题 西北大学数学系 投资策略 为了使净收益尽可能大 风险尽可能小确定最优投资组合 投资组合 确定给资产Si投资多少的问题 1 确定设计变量和目标变量 2 确定目标函数的表达式 净收益 风险额为目标变量 给每种资产的投资额为设计变量 3 寻找约束条件 寻找设计变量与目标变量之间的关系 设计变量所受的限制 2符号说明 3模型的建立 净收益 投资平均收益 交易费 风险额 各个风险额的最大者 总投资 购买各种资产的费用 交易费用 所建优化模型为 双目标的优化模型 4模型的转化 目标函数的确定 交易费函数的线性化 风险函数的转化 整数线性规划模型 5模型的求解 用软件可以求解 当人们对所研究的对象的内在特征和各因素的关系比较充分时 用机理分析的方法建立数学模型 由于客观事物的复杂性及人们认识程度的限制 无法分析实际对象内在的因果关系 因此无法建立合乎机理规律的数学模型 方法 搜集大量的数据 基于对数据的统计分析去建立数学模型 统计分析方法 数据拟合方法 最小二乘法 数据拟合建模 给定一组有序的数据点 这些点可以是从实验中测量得到的 也可以是设计员给出的 构造一条曲线顺序通过这些数据点 称为对这些点进行插值 所构造的曲线称为插值曲线 构造插值曲线所采用的数学方法称为曲线插值法 希望 测量所得或设计员给出的数据点本身就很粗糙 要求构造一条曲线严格通过给定的一组数据点就没有什么意义 注意到 构造一条曲线使之在某种意义下最接近给定的数据点将更为合理 称之为对这些点进行曲线逼近 构造逼近曲线所采用的数学方法称为曲线逼近法 相应的有曲面插值 逼近 问题 常用的拟合方法有 1 一般插值法2 样条插值法3 最小二乘法 最小二乘法的基本原理 在实验中收集到一组数据 可以由这组数据分析出一个经验公式 其中为一组待定参数 使得 取到最小值 从而确定出参数的值 这样就得到由这组数据确定的拟合函数 假设我们预想到一个确定形式的模型 并且已经收集了数据并进行分析 在这里用最小二乘准则来估计各种类型曲线的参数 拟合直线 用记作的最小二乘估计 这时运用最小二乘准则 则要求极小化 最优的必要条件是 改写为 将和的值全部代入 方程组就变为二元一次代数方程组 斜率 截距 例1在钢线碳含量对电阻的效应研究中 得到以下数据 试求其线性拟合曲线 并估计在碳含量的这一改变过程中对电阻的总效应 对给定的数据点集用最小二乘准则拟合直线 设A与B最小二乘估计为a b 计算得 最小二乘近似模型为 利用Mathematics软件 可得 拟合幂曲线 对给定的数据点集用最小二乘准则拟合形式的曲线 为确定的数 现在来估计的值 即研究模型的最小二乘估计 运用最小二乘准则要求极小化 最优的必要条件是 为确定的数 注意 类似的 可以将最小二乘准则用于其它模型 应用该方法的限制在于计算最优化过程中要求的各种导数 令这些导数为零 解这些方程组 求出模型类型中的参数 例2用下表给出的数据拟合二次曲线 并预测x 2 25时y的值 最小二乘估计a 由确定 计算得 最小二乘近似模型为 由此模型可计算当x 2 25时 预测y的值为16 1337 经变换的最小二乘拟合 例如 用最小二乘准则拟合模型 最优化的必要条件是 在理论上最小二乘准则很易应用 但在实践上可能是有困难的 研究模型的最小二乘估计 许多简单的模型会产生很复杂的求解过程 或者很难解的方程组 基于这一原因 我们要使用变换 得出近似的最小二乘模型 解这个非线性方程组是不容易的 通过对数据分析研究 发现先变换数据再对变换后的数据拟合直线很方便 例如 图形拟合 可以作变换 而对于和x的图却是直线 对变换后的数据拟合直线 可用于最小二乘准则 简化拟合过程的计算 特别地 如果找到一个方便的变换 问题变成在变换后的变量X和Y间采用的形式 方程两边取对数得 假设我们想对这数据点集拟合幂曲线 用记 的估计 记 的估计 在变量对的图中 上方程构成一条直线 是此直线的截距 是此直线的斜率 用变换后变量和个数据点 有 对于数据 从所给的数据得到 所以方程的最小二乘最佳拟合为 产生 由此模型可计算当x 2 25时 预测y的值为16 4348 假设仍想对这数据点集拟合二次曲线 仍用记 的估计 对方程两边取对数得 对于数据 在变量对的图中 上方程是一条斜率为2截距为的直线 利用最小乘法计算得 所以方程的最小二乘最佳拟合为 由此模型可计算当x 2 25时 预测 思考 没有变量代换 经变量代换 这两个模型哪个更好 2001年全国大学生数学建模竞赛赛题A 血管的三维重建 曲线拟合 2005年全国大学生数学建模竞赛赛题A 长江水质的评价和预测 2006年全国大学生数学建模竞赛赛题A 艾滋病疗法的评价及疗效的预测 软件开发人员的薪金 一家高技术公司人事部门为研究软件开发人员的薪金与他们的资历 管理责任 教育程度等因素之间的关系 要建立一个数学模型 以便分析公司人事策略的合理性 并作为新聘用人员工资的参考 他们认为目前公司人员的薪金总体上是合理的 可以作为建模的依据 于是调查了46名开发人员的档案资料 如下表 其中资历一列指从事专业工作的年数 管理一列中1表示管理人员 0表示非管理人员 教育一列中1表示中学程度 2表示大学程度 3表示更高程度 研究生等 西北大学数学系 西北大学数学系 开发人员的薪金与他们的资历 管理责任 教育程度 西北大学数学系 1 分析与假设 建模的目标 西北大学数学系 薪金按照资历 年 的增长而增加管理人员的薪金高于非管理人员教育程度越高薪金越高 寻找软件开发人员的薪金与其资历 管理责任 受教育程度之间的关系 薪金记作 资历 年 记作 为了表示是否为管理人员定义 1 管理人员0 非管理人员 为了表示三种教育程度 定义 1 中学0 其它 1 大学0 其它 这样 中学用 表示 大学用 表示 研究生则用 表示 西北大学数学系 为了简单起见 我们假定资历 年 对薪金的作用是线性的 即资历每加一年 薪金的增长是常数 管理责任 教育程度 资历诸因素之间没有交互作用 基本模型 西北大学数学系 多元线性回归模型为 其中 是待估计的回归系数 是随机误差 利用MATLAB的系统工具箱可以得到回归系数及其置信区间 置信水平 检验统计量 的结果 见表 2 模型的建立 西北大学数学系 3 结果分析 从表中 即因变量 薪金 的95 7 可由模型确定 值超过 检验的临界值 远小于 因而模型从整体来 比如 利用模型可以估计 或估计 一个大学毕业 有2年资历 非管理人员的薪金为 看是可用的 模型中各个回归系数的含义可初步解释如下 的系数为546 说明资历每增加一年 薪金增长546 的系数为6883 说明管理人员的薪金比非管理人员多6883 的系数为 2994 说明中学程度的薪金比大学程度少2994 但是应该注意到 的置信区间包含零点 所以这个系数的解释是不可靠的 注意 上述解释是就平均值来说的 并且 一个因素改变引起的因变量的变化量 都是在其它因素不变的条件下才成立的 的系数148 说明大学程度的薪金比研究生多148 4 进一步讨论 的置信区间包含零点 说明上述基本模型存在缺点 为了 寻找改进的方向 常用残差分析法 残差 指薪金的实际值 与模型估计的薪金 之差 是基本模型中随机误差 的 估计值 这里用同一个符号 管理 教育组合 西北大学数学系 将影响因素分成资历与管理 教育组合两类 管理 教育组合定义如表 下图给出 与资历 的关系 与管理 教育 组合间的关系 与资历 的关系 与 组合的关系 与资历 的关系 从左图看 残差大概分成3个水平 这是由于6种管理 教育组合混在一起 在模型中未被正确反映的结果 从右图看 对于前4个管理 教育组合 残差或者全为正 或者全为负 也表明管理 教育组合在模型中处理不当 在模型中 管理责任和教育程度是分别起作用的 事实上 二者可能起着交互作用 如大学程度的管理人员的薪金会比二者分别的薪金之和高一点 应在基本模型中增加管理 与教育的交互项 增加 与 的交互项后 模型记作 利用MATLAB的统计工具箱得到的结果如表 西北大学数学系 5 更好的模型 由上表可知 这个模型的 做该模型的两个残差分析图 可以看出 已经消除了不正常现象 这也说明了模型的适用性 和 值都比上一个模型有所改进 并且所有回归系数的置信区间都不含零点 表明这个模型完全可用 与 的关系 与 组合的关系 西北大学数学系 从上图 还可以发现一个异常点 具有10年资历 大学程度的管理人员 编号33 的实际薪金明显低于模型的估计值 也明显低于与他有类似经历的其他人的薪金 这可能是由我们未知的原因造成的 为了使个别数据不致影响整个模型 应该将这个异常数据去掉 对模型重新估计回归系数 得到的结果如表 残差分析见图 可以看到 去掉异常数据后结果又有改善 西北大学数学系 西北大学数学系 与 的关系 与 组合的关系 对于第二个模型 用去掉异常数据 33号 后估计出的系数得到的结果是满意的 西北大学数学系 6 模型的应用 模型的应用之一 可以用来 制订 6种管理 教育组合人员的 基础 薪金 即资历为零的薪金 这是平均意义上的 利用第二个模型和去掉异常数据后得到的回归系数 可以得到如下结果 西北大学数学系 可以看出 大学程度的管理人员薪金比研究生程度管理人员薪金高 而大学程度的非管理人员薪金比研究生程度非管理人员薪金略低 当然 这是根据这家公司实际数据建立的模型得到的结果 并不具普遍性 7 评注 从建立回归模型的角度 通过这个问题的求解我们学习了 思考 在这里我们由简到繁 先分别引进管理和教育因素 再引入交互项 试直接对6种管理 教育组合引入5个0 1变量 建立模型 看结果如何 西北大学数学系 1 对于影响因变量的定性因素 管理 教育 可以引入0 1变量来处理 0 1变量的个数比定性因素的水平少1 如教育程度有3个水平 引入2个0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论