版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、会计学1 统计分析统计分析3 回归分析 例1 测16名成年女子的身高与腿长所得数据如下: 身高143145146147149150153154155156157158159160162164 腿长8885889192939395969897969899100102 以身高x为横坐标,以腿长y为纵坐标将这些数据点(xI,yi)在平面直角坐标系上标出. 140145150155160165 84 86 88 90 92 94 96 98 100 102 散点图 xy 10 一元线性回归方程 第1页/共29页 一元线性回归的实施步骤 step1: 利用最小二乘原理确定回归系数 xy 10 step2
2、: 回归方程的显著性检验 2 R T SS R SS 第2页/共29页 多元线性回归 b=regress( Y, X ) npnn p p xxx xxx xxx X .1 . .1 .1 21 22221 11211 n Y Y Y Y . 2 1 p b . 1 0 1、确定回归系数的点估计值: ppx xy. 110 第3页/共29页 3、画出残差及其置信区间: rcoplot(r,rint) 2、求回归系数的点估计和区间估计、并检验回归模型: b, bint,r,rint,stats=regress(Y,X,alpha) 回归系数的区间估计 残差 用于检验回归模型的统计 量, 有三个数
3、值:相关系数r2、 F值、与F对应的概率p及误 差方差 置信区间 显著性水平 (缺省时为0.05) 相关系数 r2越接近 1,说明回归方程越显著; F F1-(k,n-k-1)时拒绝 H0,F 越大,说明回归方程越显著; 与 F 对应的概率 p时拒绝 H0,回归模型成立. 第4页/共29页 3、残差分析,作残差图: rcoplot(r,rint) 从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第二个数据可视为异常点. 4、预测及作图: z=b(1)+b(2)*x plot(x,
4、Y,k+,x,z,r) 246810121416 -5 -4 -3 -2 -1 0 1 2 3 4 Residual Case Order Plot Residuals Case Number 第5页/共29页 非线性回 归 (1)确定回归系数的命令: beta,r,J=nlinfit(x,y,model, beta0) (2)非线性回归命令:nlintool(x,y,model, beta0,alpha) 1、回归: 残差 Jacobian矩阵 回归系数的初值 是事先用m-文件定义的非线性函数 估计出的回归系数 输入数据x、y分别为 矩阵和n维列向量,对一元非线性回归,x为n维列向量。 mn
5、 2、预测和预测误差估计: Y,DELTA=nlpredci(model, x,beta,r,J) 求nlinfit 或nlintool所得的回归函数在x处的预测值Y及预测值的显著性为1-alpha的置信区间Y DELTA. 第6页/共29页 例2 出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀, 容积不断增大.我们希望知道使用次数与增大的容积之间的关 系.对一钢包作试验,测得的数据列于下表: 使用次数增大容积使用次数增大容积 2 3 4 5 6 7 8 9 6.42 8.20 9.58 9.50 9.70 10.00 9.93 9.99 10 11 12 13 14 15 16 10.4
6、9 10.59 10.60 10.80 10.60 10.90 10.76 解答 第7页/共29页 求解如下: 1、对将要拟合的非线性模型 y=a xb e / ,建立 m-文件 volum.m 如下: function yhat=volum(beta,x) yhat=beta(1)*exp(beta(2)./x); 2、输入数据: x=2:16; y=6.42 8.20 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.60 10.80 10.60 10.90 10.76; beta0=8 2; 3、求回归系数: beta,r ,J=nlinfit(x,y,v
7、olum,beta0); beta 得结果:beta = 11.6036 -1.0641 即得回归模型为: x ey 10641. 1 6036.11 第8页/共29页 逐 步 回 归 逐步回归的命令是: stepwise(x,y,inmodel,alpha) 运行stepwise命令时产生三个图形窗口:Stepwise Plot,Stepwise Table,Stepwise History. 在Stepwise Plot窗口,显示出各项的回归系数及其置信区间. Stepwise Table 窗口中列出了一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余标准差(RMSE)、相关系数(
8、R-square)、F值、与F对应的概率P. 矩阵的列数的指标,给出初始模型中包括的子集(缺省时设定为全部自变量) 显著性水平(缺省时为0.5) 自变量数据 , 阶矩阵 mn因变量数据 , 阶矩阵 1n 第9页/共29页 水泥凝固时放出的热量y与水泥中4种化学成分x1、x2、x3、 x4 有关,今测得一组数据如下,试用逐步回归法确定一个 线性模 型. 序号 12345678910111213 x17111117113122111110 x226295631525571315447406668 x3615886917221842398 x46052204733226442226341212 y7
9、8.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.4 1、数据输入: x1=7 1 11 11 7 11 3 1 2 21 1 11 10; x2=26 29 56 31 52 55 71 31 54 47 40 66 68; x3=6 15 8 8 6 9 17 22 18 4 23 9 8; x4=60 52 20 47 33 22 6 44 22 26 34 12 12; y=78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4; x=x1
10、 x2 x3 x4; 第10页/共29页 背景及原理 判别分析在生物学,医学,地质学中都有应用,例如地址人员需要根据化学成分 来判别采到的矿石属于哪一种矿,气象工作者需要根据采集的数据判别近日内的 天气是晴还是阴等。 判别分析法就是利用原有的分类信息,得到体现这种分类的函数关系式(称为判 别函数),然后利用该函数去判别未知样品属于哪一类。 判别分析 例如某精神病院由精神病患者256人,诊断结果将它们分成六类G1,G2, G6(相当于6个总体),假设这六种类型可分为焦虑型、癔病、精神 病、强迫观念病、变态人格、正常,做诊断时是根据三个指标来考察的, 现有一个新的精神病患者来就医,测得三个指标:x
11、1=2.0,x2=1.0,x3=1.01 问该患者病情属于哪一类我们就可以通过判别分析来考察。 常用的判别方法有:距离判别法、费歇尔判别法和贝叶斯法等,由处理 方式的不同又可以分为典型法和逐步法。 第11页/共29页 1 距离判别法 距离判别法有欧氏距离和马氏距离等。Matlab中使用的是马氏距离,应用时,首 先要计算各类别的样本指标的协方差矩阵 ,然后采用下式计算马氏距离: kixxSxxd i i i i , 2 , 1),()( )(1)( i S 第12页/共29页 2 费歇尔判别法:先投影的方法 第13页/共29页 -4-20246 -4-3-2-10123 第14页/共29页 判别
12、分析的函数 1classify函数 其调用格式为:class=classify(sample,training,group)指定sample数据的每一行 到训练集training指定的一个类中。sample和training必须具有相同的列数。 group向量包含从1到组数的正整数,它指明训练集中的每一行属于哪一个类。 group和training必须具有相同的行数。该函数返回class,它是一个与sample具 有相同行数的向量。class的每一个元素指定sample中对应元素的分类。 应用实例 我国山区某大型化工厂,在厂区及邻近地区挑选有代表性的15个大气取样点, 每日4次同时抽取大气样品
13、,测定其中含有的6种气体的浓度,前后共4天,每 个取样点每种气体实测16次。计算每个取样点每种气体的平均浓度,数据如 下表。气体数据对应的污染地区分类如表种最后一列所示。现有两个取自该 地区的4个气体样本,气体指标如表中后4行所示,试判别这4个样品的污染分 类。 如果想使用不同的方法做判别分析可以调用函数: class=classify(sample,training,group,type),其中type可选。具体详见 help classify 第15页/共29页 气体氯硫化氯二氧化硫碳4环氧氯丙烷环已烷污染分类 10.0560.0840.0310.0380.00810.0221 20.04
14、00.0550.1000.1100.02200.00731 30.0500.0740.0410.0480.00710.0201 40.0450.0500.1100.1000.02500.00631 50.0380.1300.0790.1700.05800.0432 60.0300.1100.0700.1600.05000.0462 70.0340.0950.0580.1600.2000.0291 80.0300.0900.0680.1800.2200.0391 90.0840.0660.0290.3200.0120.0412 100.0850.0760.0190.3000.0100.0402
15、110.0640.0720.0200.2500.0280.0382 120.0540.0650.0220.2800.0210.0402 130.0480.0890.0620.2600.0380.0362 140.0450.0920.0720.2000.0350.0322 150.0690.0870.0270.0500.0890.0211 样品10.0520.0840.0210.0370.00710.022 样品20.0410.0550.1100.1100.02100.0073 样品30.0300.1120.0720.1600.0560.021 样品40.0740.0830.1050.1900.
16、0201.000 第16页/共29页 training0=xlsread(e:air.xls) 读入数据 training=training0(1:15,2:7) 取出数据表中的数据 group=1 1 1 1 2 2 1 1 2 2 2 2 2 2 1; 对训练集中的数据进行分类 sample=training0(16:19,2:7) 给出判别的数据 class=classify(sample,training,group) 判别分析 由结果可以看出,第一二两个样本 都是属于第一类,第三四两个样本 都属于第二类。 第17页/共29页 聚类分析 比如,要想把中国的县分成若干类,就有很多种分类法
17、; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设施等指标; 既可以用某一项来分类,也可以同时考虑多项指标来分类。 分类问题分为判别分析和聚类分析。判别分析研究事先已经建立类别的情况, 即将样品或指标按已知的类别进行归类。聚类分析适用于实现没有分类的情况, 即如何将样品或指标进行分类的问题。聚类分析包含的范围很广,可以有系统 聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类 预报等多种方法。 聚类分析法的原理试:首先将一定数量的样品各自看成一类,然后根据样品的 亲疏程度,将亲疏程度最高的两类进行合并。然后考虑合并
18、后的类与其他类之间 的亲疏程度,再进行合并。重复这一过程,直至将所有的样品合并为一类。 第18页/共29页 如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只 好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以 把接近的点放到一类。 如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的 100个点,也可以按照距离远近来分类。 如何度量远近? 比如说我们想根据100位学生的成绩对他们进行分类,或者我们已知了 16种饮料的热量、咖啡因、钠及价格要对这16种饮料进行分类,怎么 进行考察,我们第一个关心的问题是怎样度量这些点的亲疏度呢? 第19页/共29页 三维或
19、者更高维的情况也是类似;只不过三维以上的图形无法直观地画 出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间 点的问题了。 第20页/共29页 按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个 是类和类之间的距离。 点间距离有很多定义方式。最简单的是欧氏距离,还有其他的距离。 当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点相 似度越大,就相当于距离越短。 由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间 的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类 间距离 类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可
20、以作 为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间 的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时 ,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的 选择的结果会不同,但一般不会差太多。 第21页/共29页 点与点之间各种距离简介 欧氏距离: Euclidean 2 () ii i xy 平方欧氏距离: Squared Euclidean 2 () ii i xy Block(绝对距离): Si|xi-yi|Chebychev: Maxi|xi-yi| Minkowski: 1 () q q ii i xy 夹角余弦(相似系数1) : co
21、sine 22 (1)cos ii i xyxy ii ii x y C xy Pearson correlation (相似系数2): 22 ()() (2) ()() ii i xyxy ii ii xxyy Cr xxyy 第22页/共29页 类与类之间各种距离简介 min ( ,) pqij Dd x x最短距离法: 最长距离 法: max ( ,) pqij Dd x x 重心法:min (,) pqpq Dd xx 类平均法 : 12 1 (,) ipjq pqij xGxG Dd xx n n 离差平方和 : (Wald) 12 1 21 212 ()(),()(), ()() ipjq kpq ipipjqjq xGxG kipq xGG DxxxxDxxxx DxxxxDDDD 第23页/共29页 Matlab中有关聚类分析的函数 1)pdist函数 该函数用来计算X矩阵中配对样本的欧氏距离。其调用的格式为 Y=pdist(X).Y为长度 的向量,包含距离信息。这些信息按 照(1,2),(1,3)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年福建农业职业技术学院单招综合素质考试题库附答案详解
- 2026年厦门软件职业技术学院单招综合素质考试题库与答案详解
- 2026年青岛电影学院单招综合素质考试题库有答案详解
- 2026年铁岭卫生职业学院单招职业技能考试题库带答案详解
- 2025贵州六盘水市水成能源(集团)有限责任公司人才引进总及事宜笔试参考题库附带答案详解
- 2025秋季广西路建工程集团有限公司校园招聘笔试参考题库附带答案详解
- 2025湖北武汉长江河湖建设有限公司公开招聘18人笔试参考题库附带答案详解
- 2026年河南物流职业学院单招综合素质考试题库带答案详解
- 2026年广西壮族自治区百色市高职单招职业技能考试题库附答案详解
- 2026年成都职业技术学院单招职业适应性测试题库与答案详解
- 2025年内科主治医师(呼吸内科学)考试题库(含答案)
- 2026江苏南京卧中资环新源城市更新(江苏)有限公司招聘电梯事业部市场开拓岗2人笔试备考试题及答案解析
- 统编版一年级下册道德与法治《第1课 有个新目标(第1课时)》教学课件
- 中级消防设施操作员(监控方向)理论考试题库资料(含答案)
- 2026吉林农业大学三江实验室办公室招聘工作人员笔试参考题库及答案解析
- 九师联盟2025-2026学年高三核心模拟卷英语(中) (二)(含答案)
- 2026年春季教科版(2024)三年级下册科学教学计划附教学进度表
- 包装净菜车间卫生制度
- 广东省事业单位2026年集中公开招聘高校毕业生【11066人】笔试备考试题及答案解析
- 仲裁委员会财务制度
- 物流运输安全协议范本
评论
0/150
提交评论