实验报告-判别分析(多元统计)_第1页
实验报告-判别分析(多元统计)_第2页
实验报告-判别分析(多元统计)_第3页
实验报告-判别分析(多元统计)_第4页
实验报告-判别分析(多元统计)_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE2实验报告5判别分析(设计性实验)(Discriminantanalysis)实验原理:判别分析是判别样品所属类型的一种统计方法。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数目,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。本实验要求学生应用距离判别准则(即,对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类),对两总体和多总体情形下分别进行判别分析。实验中需注意协方差矩阵相等时,选取线性判别函数;协方差矩阵不相等时,应选取二次判别函数。实验题目一:为了检测潜在的血友病A携带者,下表中给出了两组数据:(t11a8)非携带者(∏1)被迫携带者(∏2)Groupx1x2Groupx1x21-0.0056-0.16572-0.34780.11511-0.1698-0.15852-0.3618-0.20081-0.3469-0.18792-0.4986-0.0861-0.08940.00642-0.5015-0.29841-0.16790.07132-0.13260.00971-0.08360.01062-0.6911-0.3391-0.1979-0.00052-0.36080.12371-0.07620.03922-0.4535-0.16821-0.1913-0.21232-0.3479-0.17211-0.1092-0.1192-0.35390.07221-0.5268-0.47732-0.4719-0.10791-0.08420.02482-0.361-0.03991-0.0225-0.0582-0.32260.16710.00840.07822-0.4319-0.06871-0.1827-0.11382-0.2734-0.00210.12370.2142-0.55730.05481-0.4702-0.30992-0.3755-0.18651-0.1519-0.06862-0.495-0.015310.0006-0.11532-0.5107-0.24831-0.2015-0.04982-0.16520.21321-0.1932-0.22932-0.2447-0.040710.15070.09332-0.4232-0.09981-0.1259-0.06692-0.23750.28761-0.1551-0.12322-0.22050.00461-0.1952-0.10072-0.2154-0.021910.02910.04422-0.34470.00971-0.228-0.1712-0.254-0.05731-0.0997-0.07332-0.3778-0.26821-0.1972-0.06072-0.4046-0.11621-0.0867-0.0562-0.06390.15692-0.3351-0.13682-0.01490.15392-0.03120.142-0.174-0.07762-0.14160.16422-0.15080.11372-0.09640.05312-0.26420.08672-0.02340.08042-0.33520.08752-0.18780.2512-0.17440.18922-0.4055-0.24182-0.24440.16142-0.47840.0282其中x1=log10(AHFactivity),x2=log10(AHFantigen)。下表给出了五个新的观测,试对这些观测判别归类;(t11b8)观测x1x21-.112-0.2792-.059-0.0683.0640.0124-.043-0.0525-.050-0.098实验要求:(1)分别检验两组数据是否大致满足二元正态性;(2)分别计算两组数据的协方差矩阵,是否可以认为两者近似相等?(3)对训练样本和新观测合并作散点图,不同的类用不同颜色标识;(4)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(5)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(6)比较方法(4)和方法(5)的误判率。实验题目二:某商学研究生院的招生官员利用指标――大学期间平均成绩GPA和研究生管理能力考试GMAT的成绩,将申请者分为三类:接受,不接受,待定。下表中给出了三类申请者的GPA与GMAT成绩:(t11a6)GPA(x1)GMAT(x2)接受GPA(x1)GMAT(x2)不接受GPA(x1)GMAT(x2)待定2.9659612.5444622.8649433.1447312.4342522.8549633.2248212.247423.1441933.2952712.3653123.2837133.6950512.5754222.8944733.4669312.3540623.1531333.0362612.5141223.540233.1966312.5145822.8948533.6344712.3639922.844433.5958812.3648223.1341633.356312.6642023.0147133.455312.6841422.7949033.557212.4853322.8943133.7859112.4650922.9144633.4469212.6350422.7554633.4852812.4433622.7346733.4755212.1340823.1246333.3552012.4146923.0844033.3954312.5553823.0341933.2852312.315052350933.2153012.4148923.0343833.5856412.1941123.0539933.3356512.3532122.8548333.443112.639423.0145333.3860512.5552823.0341433.2666412.7239923.0444633.660912.8538123.3755912.938423.852113.7664613.244671实验要求:(1)对上表中的数据作散点图,不同的类用不同的颜色标识;(2)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(3)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(4)比较方法(2)和方法(3)的误判率;(5)现有一新申请者的GPA为3.21,GMAT成绩为497。请将该观测在(1)的散点图中标出,并分别用方法(2)和方法(3)将其归类?你认为哪一种方法更合适?(6)观察(1)的散点图中第三类的观测点有无异常值?若有,将该异常值剔除后再对新申请者判别归类,结果有无变化?

实验题目一分析报告:(1)分别检验两组数据是否大致满足二元正态性;>data1=read.csv("D:/data1.csv",head=T)>data2=read.csv("D:/data2.csv",head=T)>data1=data1[,-1]>data11=as.matrix(data1)>shapiro.test(data11) Shapiro-Wilknormalitytestdata:data11W=0.95354,p-value=0.02291非携带者数据满足二元正态分布>data2=data2[,-1]>data22=as.matrix(data2)>shapiro.test(data22) Shapiro-Wilknormalitytestdata:data22W=0.98453,p-value=0.3643被迫携带者数据不满足二元正态分布(2)分别计算两组数据的协方差矩阵,是否可以认为两者近似相等?>cov.data1=cov(data11)>cov.data2=cov(data22)>cov.data1整理得:0.0210.0160.0160.018>cov.data2整理得:0.0240.0150.0150.024以下对矩阵的相似性进行检验:>qr(cov.data1)$rank#计算矩阵的秩[1]2>qr(cov.data2)$rank[1]2>det(cov.data1)#计算矩阵的行列式的值[1]0.0001337663>det(cov.data2)[1]0.0003352181>eigen(cov.data1)#计算矩阵的特征值eigen()decomposition$`values`[1]0.0349948500.003822458$vectors[,1][,2][1,]-0.74010410.6724924[2,]-0.6724924-0.7401041>eigen(cov.data2)eigen()decomposition$`values`[1]0.0392861100.008532738$vectors[,1][,2][1,]0.7042124-0.7099894[2,]0.70998940.7042124由于两个协方差矩阵的秩相同,行列式的值和特征值相差很小,可以认为两者近似相等。(3)对训练样本和新观测合并作散点图,不同的类用不同颜色标识;用lda和qda判别新观测数据的的类:>data3=read.csv("D:/data3.csv",head=T)>predict(data.lda,newdata=data3[,-1])$class[1]11111Levels:12>predict(data.qda,newdata=data3[,-1])$class[1]11111Levels:12两种方法判别结果相同,即所有都是非携带者。>data4=read.csv("D:/data4.csv",head=T)#data4是训练样本和新观测合并的数据>library(car)>scatterplotMatrix(~x1+x2|Group,data=data4,smooth=FALSE,reg.line=FALSE,ellipse=TRUE,levels=0.95,by.groups=TRUE,diagonal="none")

(4)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;>data=read.csv("D:/data.csv",head=T)>data.n=read.csv("D:/data3.csv",head=T)>data.n=data.n[,-1]>library(MASS)>data.lda=lda(data[,-1],factor(data$Group))#lda函数>data.ldaCall:lda(data[,-1],factor(data$Group))Priorprobabilitiesofgroups:120.40.6Groupmeans:x1x21-0.135-0.0782-0.308-0.006Coefficientsoflineardiscriminants:LD1x1-9.033x28.007>z2=predict(data.lda,dim=1)$class>table(z2)z2123342>c(3)/c(75)[1]0.04误判率为0.04

(5)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;>data.qda=qda(data[,-1],factor(data$Group))#qda函数>data.qdaCall:qda(data[,-1],factor(data$Group))Priorprobabilitiesofgroups:120.40.6Groupmeans:x1x21-0.1348700-0.0778566672-0.3079467-0.005991111>q2=predict(data.qda,dim=1)$class>table(q2)q2123144>c(1)/c(75)[1]0.01333333误判率约为0.013(6)比较方法(4)和方法(5)的误判率。此题中qda方法的误判率更低。

实验题目二分析报告:(1)对上表中的数据作散点图,不同的类用不同的颜色标识;>data=read.csv("D:/data.csv",head=T)>head(data)GPAGMATaccept12.96596123.14473133.22482143.29527153.69505163.466931>library(car)>scatterplotMatrix(~GPA+GMAT|accept,data=data,smooth=FALSE,reg.line=FALSE,ellipse=TRUE,levels=0.95,by.groups=TRUE,diagonal="none")

(2)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;先计算原数据的各种类个数:>sum(data$accept==1)[1]31>sum(data$accept==2)[1]28>sum(data$accept==3)[1]26>library(MASS)>data.lda=lda(data[,-3],factor(data$accept))>data.ldaCall:lda(data[,-3],factor(data$accept))Priorprobabilitiesofgroups:1230.36470590.32941180.3058824Groupmeans:GPAGMAT13.404561.22622.483447.07132.993446.231Coefficientsoflineardiscriminants:LD1LD2GPA-5.0091.877GMAT-0.009-0.014Proportionoftrace:LD1LD20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论