




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据分析上机实验模拟题一第一章 数据的描述性分析 1建立数据集设有数据集如下:LIMING 23 56 170 LIUHUA 25 60 174 ZHANGWEI 30 65 165相应变量分别为NAME,AGE,WEIGHT和HEIGHT,输入数据以建立一个名为exe_1的SAS数据集,并打印输出2数据的描述性分析例1.2对血清蛋白含量,利用PROCUNIVARITE过程,求数据的方差、标准差、变异系数、极差、四分位极差、四分位标准差,程序如下:练习:利用MEANS过程求上述基本统计量。二回归分析1线性回归模型及其参数估计(模型及矩阵表示、参数估计及性质);矩阵表示 2统计推断(回归方程的显
2、著性检验、回归系数的显著性检验、预测及其置信区间、与回归系数有关的假设检验的一般方法);(1) 回归方程的显著性检验: , ,检验假设:,统计量,时,拒绝(2)回归系数的统计推断:检验假设,统计量,拒绝的置信区间:(3)预测及统计推断:的置信区间:3残差分析及处理措施(误差的正态性检验、残差图分析、Box-Cox变换);(1)误差的正态性检验1)残差正态性的频率检验2)残差的正态QQ图检验近似一条直线,(2)残差图分析3)Box-Cox变换选择,使最小4回归方程的选取(1)穷举法评价回归方程优良性的准则:修正的复相关系数准则;准则,预测平方和准则(2)逐步回归法例2.3某科学基金会的管理人员欲
3、了解从事研究工作的中、高水平的数学家的年工资额Y与他们的研究成果的质量指标、从事研究工作的时间以及能获得资助的指标为此按一定的设计方案调查了24位此类型的数学家,得数据如书上表2.3所示(1)假设误差服从分布,建立与之间的线性回归方程并研究相应的统计推断问题(2)假设某位数学家的关于的值为,试预测他的年工资额并给出置信度为95%的置信区间三方差分析-单因素1.单因素方差分析(1)统计模型因变量Y因素,水平,上观测值,(2) 显著检验,拒绝(3)置信区间(略)置信度的置信区间, 置信度的置信区间为个的置信度至少的同时置信区间2.双因素等重复试验下的方差分析(1)统计模型Y因素和B,水平,组合水平
4、观测值, 为无偏估计假设成立时,分别服从分布(2)显著检验假设检验问题:统计量 检验值:如,拒绝相应假设(3)无交互效应的各因素均值的估计与比较(4)有交互效应时因素各水平组合上的均值估计与比较例31 为比较同一类型的三种不同食谱的营养效果,将19只幼鼠分为三组,每组分别为8只、4只、7只,各采用这三种食谱喂养假定其他条件均保持相同,12周后测得其体重增加量如表3.3所示,设体重增加服从方差分析模型(3.1)或(3.2),试比较这三种食谱的营养效果是否有显著差异表3.3 三种食谱下幼鼠的体重增加量 食谱 体重增加量 甲 164 190 203 205 206 214 228 257乙 185
5、197 201 231 丙 187 212 215 220 248 265 281 四主成分分析、典型相关分析1主成分分析(1)基于协方差矩阵的总体主成分的求法 (基于相关系数矩阵类似)维随机变量,协方差阵非负定主成分定义:满足:(1)系数向量单位化; (2)各主成分不相关,无重叠信息,;(3)主成分方差由此递减求总体主成分步骤:1)解,求的p个特征值;2)对应的正交单位化的特征向量分别为;其中 ,3)的第个主成分为;为个主成分构成的随机向量4)主成分的贡献率与累计贡献率第k个主成份的贡献率前k个主成份的累积贡献率(2)基于样本协方差矩阵的主成分分析(基于样本相关系数矩阵类似)来自于总体的容量
6、为的样本观测数据,样本协方差矩阵其中 ,为的样本均值步骤:1)求特征值2)相应的正交单位化特征向量,3)第个样本主成分, 4) 第k个样本主成分的贡献率前k个主成分的累积贡献率5)第个样本主成分的个观测值称为第个样本主成分的得分,可以依据得分对各组样本观测数据进行排序()样本主成分的观测数据(得分向量)例4.3对10名男中学生的身高()、胸围()、体重()进行测量,得数据如表4.2,从协方差矩阵出发对其做主成分分析,按照第一主成分排名表4.2 10名男中学生的身高、胸围及体重数据序 号 身高x1(cm) 胸围x3(cm) 体重x3(cm)1 149.5 69.5 38.52 162.5 77.
7、0 55.53 162.7 78.5 50.84 162.2 87.5 65.55 156.5 74.5 49.06 156.1 74.5 45.57 172.0 76.5 51.08 173.2 81.5 59.59 159.5 74.5 43.510 157.7 79.0 53.52典型相关分析(1)总体典型变量的定义设有两组随机变量,的协方差矩阵为其中这里假定满秩矩阵(为正定矩阵),不妨设.1)构造典型变量为第对典型变量. 确定,满足(2)总体典型变量与典型相关系数的求法(1)求,则具有相同的非零特征根设为的特征根,则为的前个(非负)特征根,其它特征根为0.(2)设和分别为的前个特征根对
8、应的正交化单位向量,则的第对典型变量为(3)典型相关系数为.(3)样本典型相关分析两组随机变量,组观测数据 , 标准化样本 样本相关系数矩阵为总体为相关系数矩阵的估计,以替代即可(4)典型相关系数的显著性检验统计量检验值为 若,拒绝依次就进行检验,若对某个,检验值首次满足,则认为只有前对典型变量显著相关,选取前对即可注意:利用样本协方差矩阵,分析方法一样不需要对数据标准化处理例4.6为研究空气温度与土壤温度的关系,考虑六个变量日最高土壤温度; 日最低土壤温度; 日土壤温度积分值; 日最高气温; 日最低气温; 日气温曲线积分值观测了天,数据如书上表4.7,做典型相关分析五聚类分析1快速聚类(1)
9、欧氏距离快速聚类法(采用明氏距离距离快速聚类法类似)指定分类数为,聚类中采用的距离是欧氏距离(默认的)1)按照最小最大原则,选取个初始聚点的集合分类原则最小距离法:每个样品以最靠近的初始聚点归类,得到类的初始分类结果其中 2)从出发,计算新的聚点集合以的重心作为新的聚点,其中是类中的样品数得到新的聚点集合从出发,将样品作新的分类,得依次计算下去3)设在第m步得到聚点集和分类 新聚点集 和新分类集 4)判断记 给定,若 则递推计算过程结束,Proc fastclus过程中,的默认值为0.02为最终分类结果,为最终的分类中心2系统聚类法(1)类间距离及其递推公式记,和为两个类,含样品数和类的重心类
10、与类之间的距离记为和合并得,类间距离、与其他类的类间距离递推公式有4种:1)最短距离、递推公式两类中样品之间距离最短者作为类间距离2)最长距离、递推公式两类中样品之间距离最长者3)类平均距离、递推公式两类中所有两两样品之间的距离的平均4)重心距离、递推公式两类的重心之间的距离作为两类间的距离(2)谱系聚类法的步骤 1)n个样品开始时作为n个类,计算两两之间的距离,构成一个对称距离矩阵 此时2)选择中主对角线以下(或以上)最小元素,设为,这时与,将与合并为新类在中消去与对应的行与列,加入新类与剩下未聚合的类间距离所组成的一行和一列,得新的阶距离矩阵3)重复步骤(2),得, n个样品聚为一个大类4
11、)记下合并样品的编号及两类合并时的距离(称为距离水平),绘制聚类谱系图例 6.1 对13个国家1990年,1995年与200年的可持续发展综合国力做评估,其得分值如表6.1所示(1)试用快速聚类法将上述13个国家聚为4类:距离采用用欧式距离法; (2)按最短距离法方法进行谱系聚类分析,采用标准化数据聚类并给出聚为4类结果六判别分析(1)马氏距离的定义总体,均值向量, 协方差矩阵,来自的马氏平方距离与的马氏平方距离总体,均值向量, 协方差矩阵总体的马氏距离(2)距离判别准则-以两总体为例个总体,均值向量,协方差矩阵待判样品,计算到各总体的马氏距离并比较,判定属于马氏距离最小的总体1) 总体协方差
12、矩阵相等:l 总体距离判别准则对任意两个总体,样品到的马氏平方距离差:则 其中 而 距离判别准则为:若总体满足: , 则判定l 利用样本数据的距离判别准则均值向量及公共协方差矩阵,分别用训练样本估计代替距离判别准则为:, 判定其中,线性判别函数的估计为l 特别:重点掌握两总体情形,2)不全相等为二次判别函数,表示样品到总体的马氏平方距离l 多总体距离判别准则: 则判定l 特别:两总体情形(3)误判率的估计设来自两总体()误判率的回判估计误判率的交叉确认估计特别两总体情形(3)两总体Bayes判别判别准则为特殊情形:1)重点则判别准则为 即按照后验概率大小来划分 其中后验概率两个正态总体的Bayes判别称后验概率最优划分两正态总体一般判别准则特殊情形Ø判别准则(等价于)其中后验概率 =广义平方距离函数当未知时,分别用来估计,可得线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-河南-河南农业技术员一级(高级技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-河南-河南不动产测绘员五级(初级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-河北-河北医技工三级(高级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-江苏-江苏药剂员一级(高级技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西计算机信息处理员五级初级历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西信号工-机车信号设备维修三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东汽车修理工(技师/高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-广东-广东无损探伤工三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东保健按摩师五级(初级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-安徽-安徽地质勘查员五级(初级工)历年参考题库典型考点含答案解析
- 下肢静脉曲张课件
- 高考小说阅读导练:蒙太奇、意识流、冰山理论专项(理论指导+强化训练+参考答案)
- 市政工程综合管网及道路施工组织设计方案
- 关于成立建筑垃圾循环利用公司策划书
- 医院义诊与公益活动管理制度
- 上肢骨折功能锻炼
- (完整版)初等数学研究答案
- 13.1 磁场 磁感线 课件 高二上学期物理人教版(2019)必修第三册
- 园林局城市绿化养护手册
- 2024年重庆市北碚区小升初数学综合练习卷含解析
- 河南教材-中式面点技艺(第3版) 教学指南
评论
0/150
提交评论