




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十二章统计分析 12 1方差分析12 2双因子方差分析12 3主成分分析12 4判别分析12 5聚类分析 回归分析 例1测16名成年女子的身高与腿长所得数据如下 以身高x为横坐标 以腿长y为纵坐标将这些数据点 xI yi 在平面直角坐标系上标出 散点图 一元线性回归方程 一元线性回归的实施步骤 step1 利用最小二乘原理确定回归系数 step2 回归方程的显著性检验 多元线性回归 b regress Y X 1 确定回归系数的点估计值 3 画出残差及其置信区间 rcoplot r rint 2 求回归系数的点估计和区间估计 并检验回归模型 b bint r rint stats regress Y X alpha 3 残差分析 作残差图 rcoplot r rint 从残差图可以看出 除第二个数据外 其余数据的残差离零点均较近 且残差的置信区间均包含零点 这说明回归模型y 16 073 0 7194x能较好的符合原始数据 而第二个数据可视为异常点 4 预测及作图 z b 1 b 2 xplot x Y k x z r 非线性回归 1 确定回归系数的命令 beta r J nlinfit x y model beta0 2 非线性回归命令 nlintool x y model beta0 alpha 1 回归 例2出钢时所用的盛钢水的钢包 由于钢水对耐火材料的侵蚀 容积不断增大 我们希望知道使用次数与增大的容积之间的关系 对一钢包作试验 测得的数据列于下表 解答 求解如下 2 输入数据 x 2 16 y 6 428 209 589 59 7109 939 9910 4910 5910 6010 8010 6010 9010 76 beta0 82 3 求回归系数 beta r J nlinfit x y volum beta0 beta 得结果 beta 11 6036 1 0641 即得回归模型为 逐步回归 逐步回归的命令是 stepwise x y inmodel alpha 运行stepwise命令时产生三个图形窗口 StepwisePlot StepwiseTable StepwiseHistory 在StepwisePlot窗口 显示出各项的回归系数及其置信区间 StepwiseTable窗口中列出了一个统计表 包括回归系数及其置信区间 以及模型的统计量剩余标准差 RMSE 相关系数 R square F值 与F对应的概率P 水泥凝固时放出的热量y与水泥中4种化学成分x1 x2 x3 x4有关 今测得一组数据如下 试用逐步回归法确定一个线性模型 1 数据输入 x1 7111117113122111110 x2 26295631525571315447406668 x3 615886917221842398 x4 6052204733226442226341212 y 78 574 3104 387 695 9109 2102 772 593 1115 983 8113 3109 4 x x1x2x3x4 背景及原理判别分析在生物学 医学 地质学中都有应用 例如地址人员需要根据化学成分来判别采到的矿石属于哪一种矿 气象工作者需要根据采集的数据判别近日内的天气是晴还是阴等 判别分析法就是利用原有的分类信息 得到体现这种分类的函数关系式 称为判别函数 然后利用该函数去判别未知样品属于哪一类 判别分析 例如某精神病院由精神病患者256人 诊断结果将它们分成六类G1 G2 G6 相当于6个总体 假设这六种类型可分为焦虑型 癔病 精神病 强迫观念病 变态人格 正常 做诊断时是根据三个指标来考察的 现有一个新的精神病患者来就医 测得三个指标 x1 2 0 x2 1 0 x3 1 01问该患者病情属于哪一类我们就可以通过判别分析来考察 常用的判别方法有 距离判别法 费歇尔判别法和贝叶斯法等 由处理方式的不同又可以分为典型法和逐步法 1距离判别法 距离判别法有欧氏距离和马氏距离等 Matlab中使用的是马氏距离 应用时 首先要计算各类别的样本指标的协方差矩阵 然后采用下式计算马氏距离 所谓Fisher判别法 就是一种先投影的方法 考虑只有两个 预测 变量的判别分析问题 假定这里只有两类 数据中的每个观测值是二维空间的一个点 见图 下一张幻灯片 这里只有两种已知类型的训练样本 其中一类有38个点 用 o 表示 另一类有44个点 用 表示 按照原来的变量 横坐标和纵坐标 很难将这两种点分开 于是就寻找一个方向 也就是图上的虚线方向 沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚 可以看出 如果向其他方向投影 判别效果不会比这个好 有了投影之后 再用前面讲到的距离远近的方法来得到判别准则 这种首先进行投影的判别方法就是Fisher判别法 2费歇尔判别法 先投影的方法 判别分析的函数 classify函数其调用格式为 class classify sample training group 指定sample数据的每一行到训练集training指定的一个类中 sample和training必须具有相同的列数 group向量包含从1到组数的正整数 它指明训练集中的每一行属于哪一个类 group和training必须具有相同的行数 该函数返回class 它是一个与sample具有相同行数的向量 class的每一个元素指定sample中对应元素的分类 应用实例 我国山区某大型化工厂 在厂区及邻近地区挑选有代表性的15个大气取样点 每日4次同时抽取大气样品 测定其中含有的6种气体的浓度 前后共4天 每个取样点每种气体实测16次 计算每个取样点每种气体的平均浓度 数据如下表 气体数据对应的污染地区分类如表种最后一列所示 现有两个取自该地区的4个气体样本 气体指标如表中后4行所示 试判别这4个样品的污染分类 如果想使用不同的方法做判别分析可以调用函数 class classify sample training group type 其中type可选 具体详见helpclassify training0 xlsread e air xls 读入数据training training0 1 15 2 7 取出数据表中的数据group 111122112222221 对训练集中的数据进行分类sample training0 16 19 2 7 给出判别的数据class classify sample training group 判别分析 由结果可以看出 第一二两个样本都是属于第一类 第三四两个样本都属于第二类 俗语说 物以类聚 人以群分 但什么是分类的根据呢 聚类分析 比如 要想把中国的县分成若干类 就有很多种分类法 可以按照自然条件来分 比如考虑降水 土地 日照 湿度等各方面 也可以考虑收入 教育水准 医疗条件 基础设施等指标 既可以用某一项来分类 也可以同时考虑多项指标来分类 分类问题分为判别分析和聚类分析 判别分析研究事先已经建立类别的情况 即将样品或指标按已知的类别进行归类 聚类分析适用于实现没有分类的情况 即如何将样品或指标进行分类的问题 聚类分析包含的范围很广 可以有系统聚类法 动态聚类法 分裂法 最优分割法 模糊聚类法 图论聚类法 聚类预报等多种方法 聚类分析法的原理试 首先将一定数量的样品各自看成一类 然后根据样品的亲疏程度 将亲疏程度最高的两类进行合并 然后考虑合并后的类与其他类之间的亲疏程度 再进行合并 重复这一过程 直至将所有的样品合并为一类 如果想要对100个学生进行分类 如果仅仅知道他们的数学成绩 则只好按照数学成绩来分类 这些成绩在直线上形成100个点 这样就可以把接近的点放到一类 如果还知道他们的物理成绩 这样数学和物理成绩就形成二维平面上的100个点 也可以按照距离远近来分类 如何度量远近 比如说我们想根据100位学生的成绩对他们进行分类 或者我们已知了16种饮料的热量 咖啡因 钠及价格要对这16种饮料进行分类 怎么进行考察 我们第一个关心的问题是怎样度量这些点的亲疏度呢 例如 16种饮料的热量 咖啡因 钠及价格四种变量 三维或者更高维的情况也是类似 只不过三维以上的图形无法直观地画出来而已 在饮料数据中 每种饮料都有四个变量值 这就是四维空间点的问题了 按照远近程度来聚类需要明确两个概念 一个是点和点之间的距离 一个是类和类之间的距离 点间距离有很多定义方式 最简单的是欧氏距离 还有其他的距离 当然还有一些和距离相反但起同样作用的概念 比如相似性等 两点相似度越大 就相当于距离越短 由一个点组成的类是最基本的类 如果每一类都由一个点组成 那么点间的距离就是类间距离 但是如果某一类包含不止一个点 那么就要确定类间距离 类间距离是基于点间距离定义的 比如两类之间最近点之间的距离可以作为这两类之间的距离 也可以用两类中最远点之间的距离作为这两类之间的距离 当然也可以用各类的中心之间的距离来作为类间距离 在计算时 各种点间距离和类间距离的选择是通过统计软件的选项实现的 不同的选择的结果会不同 但一般不会差太多 点与点之间各种距离简介 向量x x1 xp 与y y1 yp 之间的距离或相似系数 欧氏距离 Euclidean 平方欧氏距离 SquaredEuclidean Block 绝对距离 Si xi yi Chebychev Maxi xi yi Minkowski 夹角余弦 相似系数1 cosine Pearsoncorrelation 相似系数2 类与类之间各种距离简介 类Gp与类Gq之间的距离Dpq d xi xj 表示点xi Gp和xj Gq之间的距离 最短距离法 最长距离法 重心法 类平均法 离差平方和 Wald Matlab中有关聚类分析的函数 1 pdist函数 该函数用来计算X矩阵中配对样本的欧氏距离 其调用的格式为 Y pdist X Y为长度的向量 包含距离信息 这些信息按照 1 2 1 3 1 m 2 3 2 4 2 m m 1 m 顺序排列 Y pdist X metric 其中 metric 可以是 Euclid SEuclid Mahal 2 Linkage函数 该函数用来创建系统聚类树 其调用格式为 Z linkage Y 使用最短距离法创建一个系统聚类树 Z linkage Y method 用 method 指定的方法计算系统聚类树 其中 method 可以是 single 即最短距离法 complete 即最长距离法等 3 dendrogram函数 该函数用于输出冰柱图 其调用格式为 H dendrogram Z p 生成只有顶部p个节点的冰柱图 设置p 0 显示所有节点 H T dendrogram Z p 返回一个大小为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年机动车驾驶证学法减分最近考试题目答案
- 2025-2030年中国新能源产业政策协同与新能源产业政策协同创新研究报告
- 2025年文职人员招聘公共科目高频考点精讲试题试卷
- 2025年新能源汽车智能座舱硬件配置与软件生态发展产业竞争格局演变研究报告
- 2025年大学融合教育专业题库- 城乡教育发展与融合教育
- 2025年大学工会学专业题库- 工会对企业员工关系的调节
- 2025年大学科学教育专业题库- 科学教育素养在学生发展中的影响
- 2025年小学英语毕业考试模拟试卷:英语歌曲欣赏与演唱教学方法试题
- 2025年医保知识库考试题及答案:医保定点医疗机构财务监管试题
- 2025年大学华文教育专业题库- 大学华文阅读策略研究
- 萨福双脉冲气保焊说明书DIGIPLUS课件
- 高中期中考试家长会PPT课件 (共51张PPT)
- JJG 573-2003膜盒压力表
- GB/T 39634-2020宾馆节水管理规范
- GB/T 13234-2018用能单位节能量计算方法
- 营业线施工单位“四员一长”施工安全知识培训考试题库
- 紧急采购申请单
- 全球卫生治理课件
- 工程地质学:第7章 岩体结构及其稳定性
- 实验室生物安全程序文件
- 非洲猪瘟防控讲座课件
评论
0/150
提交评论