




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北水利水电大学建模培训,2014年5月31日,Matlab统计分析与应用,目录,1,数据导入、导出与预处理,方差分析,参数估计与假设检验,随机数生成,5,数据拟合,主成分分析,判别分析,聚类分析,1数据处理,1.2调用高级函数导入数据importdata(examp02-01.txt),把文件复制到目录下,重命名选中文件名Load函数适用于全是数据的文件,且等长;常用的还有dlmread,textread(适合分隔符多样的情况),1.1用菜单导入数据对txt文档,直接使用fileimportdata例如example02-01;02-05(长短不齐),1.3调用低级函数导入数据步骤:按指定格式打开文件(fopen),获取文件标识符(fid),读取文件内容(fseek,ftell,frewind,feof控制读写位置,fgets读取文件的下一行,textscan读取数据等),关闭文件(fclose)。,1数据处理,1.5从excel文件中读取数据num=xlsread(examp02_14.xls,A2:H4),1.4数据写入txt文件fprintf(fid,%-f%-f%-f%-f%-f%-f%-f%-fn,x);,1.6数据预处理1.画出散点图估计趋势2.剔除奇异点3.平滑处理(smooth,建议用excel)或对数变换4.标准化变换,适合于各变量的量纲和数量级不一致的时候。数据减去均值,除以标准差(zscore)xz,mu,sigma=zscore(x)5.极差归一化变换(rscore,非matlab自带),2随机数生成,1随机数用于信息安全,网络游戏,计算机仿真和模拟计算等。Rand0,1Randn标准正态Randstream适合于7.7及其以后版本,调用类函数统计工具箱中以rnd结尾的用来生成符合某种分布的随机数,如Normrnd正态分布Binornd二项分布Exprnd指数分布等,2histrate函数(非自带)统计数值型数组,字符串数组等各元素出现的频数,频率等,请同学们检查是否安装的有matlab统计工具箱,2随机数生成,例子:用蒙特卡洛方法求圆周率圆心在原点的单位圆与外接正方形,相互独立的,服从-1,1上的均匀分布,则(,)在正方形内服从二元均匀分布,为落在圆内的概率,则(A)=?还可以用来求面积,体积,积分值,概率等,3蒙特卡洛方法这是计算机随机模拟方法,是一种基于随机数的计算方法,冯以摩纳哥的赌城命名。基本思想:频率确定概率。,3参数估计,2正态总体参数的检验(例子05.02)U检验(标准差已知)ztest检验(标准差未知)ttest均值比较检验ttest2卡方检验(单个方差)vartest检验(两个方差)vartest2,1参数估计统计工具箱中以fit结尾的函数,用来求常见分布的参数的最大似然估计和置信区间估计。例子05.01,3拟合与检验,理论上概率统计都假定变量服从某分布,构造统计量,做出统计推断。但总体到底服从何种分布,你的假定是真的吗?例子examp02_14.xls,描述性统计(examp05-03)均值,标准差,最值,极差,中位数,众数,变异系数,标准差与平均数的比值,自己计算偏度,分布密度曲线的对称性,越接近0,越对称峰度,密度曲线在峰值附近的陡峭性,正态为3,3拟合与检验,3统计图(examp05-03)箱线图(判断对称性)频率直方图(最常用)经验分布函数图正态概率图(+越集中在参考线附近,越近似正态分布),4分布检验Chi2gof,jbtest,kstest,kstest2,lillietest等Chi2gof卡方拟合优度检验,检验样本是否符合指定分布。它把观测数据分组,每组包含5个以上的观测值,根据分组结果计算卡方统计量,当样本够多时,该统计量近似服从卡方分布。jbtest,利用峰度和偏度检验。,3拟合与检验,5核密度估计(example05_04.m)需要用样本估计总体的概率分布函数,方法有参数法和非参数法。参数法假定总体服从某种已知的分布,估计参数。非参数法不需要做对总体分布的假设,核密度估计就是一种非参数法。,4方差分析,预备知识有关术语简介因素或因子:所要检验的对象水平:因子的不同表现观察值:在每个因素水平下得到的样本值方差分析能做:1检验多个总体均值是否相等(不同院系的高数成绩)2需要研究生产条件或实验条件的改变对产品的质量或产量有无影响,比如种植业研究诸多因素对因变量的影响(品种、施肥量、密度对产量)。在诸多影响因素中哪些是主要的?3确定最优组合,4方差分析,1之所以叫方差分析,是我们虽然关心的是均值,但在判断均值是否有差异时需要借助于方差。这个名字也表示,它是通过误差来源的分析来判断不同总体的均值是否相等。,2方差分析的基本假定正态性方差齐性独立抽样前两个条件满足认为方差分析是稳健的,3单因素一元方差分析步骤(example07_01.m判断不同院系成绩均值是否相等)数据预处理正态性检验lillietest(p0.05接受)方差齐性检验vartestn(p0.05接受)方差分析anoval(0有显著差别)多重比较:两两比较,找出存在显著差异的学院,multcompare,4方差分析,方差分析表把数据差异分为三部分(或四部分):列均值之间的差异引起的变差列均值之间的差异引起的变差行列交互作用引起的变差(随机误差)后续可以进行多重比较,multcompare,找出哪种组合是最优的,4双因素一元方差分析步骤(如判断两种肥料使用量不同对产量的影响)数据预处理正态性检验lillietest(p0.05接受)方差齐性检验vartestn(p0.05接受)构造观测值矩阵,每一列对应因素的一个水平,每一行对应因素的一个水平方差分析anova2得到方差分析表,4方差分析,5多因素一元方差分析anovan根据样本观测值向量进行均衡或非均衡实验的多因素一元方差分析,检验多个因素的主效应或交互效应是否显著,这里往往需要结合正交实验进行。6单因素多元方差分析manoval7非参数方差分析:当数据不满足正态性和方差齐性假定时,应采用基于秩的非参数检验(参看非参数统计,王星,人大出版社)两种非参数检验:kruskal-wallis检验friedman检验函数名同上:kruskalwallis,friedman如:example07_07,四个评委判断四个人做得“水煮鱼”是否品质相同,5数据拟合,目的:用一个函数近似表示变量之间的不确定关系。1一元线性回归分析做出散点图,估计趋势;计算相关系数矩阵;regress函数,可以得到回归系数和置信区间,做残差分析,剔除异常点,重新做回归分析Regstats多重线性或广义回归分析,它带有交互式图形用户界面,可以处理带有常数项、线性项、交叉项、平方项等模型robustfit函数:稳健回归(加权最小二乘法),2一元非线性回归分析做出散点图,估计趋势;定义回归方程所对应的函数(幂函数,对数函数等),调用nlinfit函数做回归方程;再用nlparci函数计算参数估计的置信区间;调用nlpredci函数求预测值,5数据拟合,3曲线拟合工具箱cftool作一元非线性拟合运行cftool,主要功能:data(导入数据),fitting(拟合),exclude(筛选),plotting,analysis,4多重回归分析一个变量与诸因素之间的回归模型。调用reglm函数(非自带)。Y=a+bx1+cx2+dx3开始并不知道选择几个自变量,可以先设一个,再根据显著性水平,剔除不显著的项。,5逐步回归分析Stepwise函数,matlab自带函数,输入函数名后打开交互式图形用户界面,,6聚类分析,1聚类分析简介目的:把分类对象按一定规则分成若干类。距离:度量样品间的相似性,明氏距离兰氏距离,马氏距离,斜交空间距离相似系数:度量变量之间的相似性夹角余弦xian,相关系数,,2系统聚类法定义距离(样品之间的距离和类与类之间的距离),距离最近的两类合并为一类,每次减少一类,最后形成聚类树形图或谱系图。类与类之间的距离的不同定义方式,产生了不同的聚类方法。最短距离法:类与类之间的距离为两类最近样品间的距离。最长距离法:类与类之间的距离为两类最远样品间的距离。中间距离法:类与类之间的距离采用中间距离。重心法:类与类之间的距离为两类重心(类均值)的距离。,6聚类分析,4模糊均值聚类法,3K均值聚类法一、将所有样品分为个初始类,这个类的重心作为初始凝聚点。二、每个样品归入离它最近的凝聚点所在的类,更新均值三、重复二,直到结束。注意:初始凝聚点的选择对结果可能有影响所用函数:kmeans,silhouette,类平均法:样品对之间平方距离的平均值,该方法比较好。还有离差平方和法等Pdist,squareform,linkage,dendrogram,cophenet,inconsistent,cluster,clusterdata,距离,距离矩阵,创建系统聚类树,作聚类树形图,计算相关系数,计算不一致系数,输出聚类结果,由数据得到聚类,6聚类分析,4模糊均值聚类法使用模糊数学中的隶属度函数来确定分类Matlab模糊逻辑工具箱fuzzylogictoolbox提供了函数:fcm不同聚类分析方法的结果不一定一致。需要测试集,可参考其它论文系统聚类法的评价:单调性:距离单增空间的浓缩与扩张类平均法比较好,7判别分析,1判别分析简介对未知类别的样品进行归类的一种方法。聚类分析是对还没有分类的对象进行分类。判别分析是对已经有了分类,需要建立判别准则,判别未知类别的样品所属的类型。如考古,医学判断,文字识别等。,2距离判别法这里的思想和前面的聚类分析是类似的,根据样品到各个类的距离(比如用马氏距离)判断其所属的类。,3贝叶斯判别法距离判别没有考虑人们对研究对象已有的认识,而这种认识可能对判别结果产生影响。贝叶斯判断用一个先验概率来描述这种认识,然后用样本来修正先验概率,得到后验概率,最后基于后验概率进行判别。距离判别法和先验分布为正态分布的贝叶斯判别法都可以用统计工具箱中的classify函数,对未知类别的样品进行判断。,7判别分析,4Fisher判别法Fisher判别的基本思想是投影,将组维数据投影到某个方向,使得它们投影组与组之间尽可能地分开。工具箱中没有,有编好的函数fisher.m,程序有205行,如果你能看懂,对你的编程能力大有好处,8主成分分析,通过降维技术把多个变量化为少数几个主成分的多元统计方法。这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合,为使信息互不重叠,要求各主成分之间互不相关。易于抓住主要矛盾,简化问题。,1主成分分析几何意义:通过坐标系旋转,使得新坐标系的各个坐标轴方向是原始数据变差最大的方向,各主成分表达式就是新旧坐标转换关系式(几何直观:一三象限的一个椭圆内部密集分布的点)样本主成分分析步骤:构造样本观测值矩阵,计算样本协方差矩阵和样本相关系数矩阵;从样本协方差矩阵出发求解主成分;(也可以由样本相关系数矩阵出发求解主成分);由主成分重建原始数据注:由于特征值对应的特征向量不唯一,故主成分的表达式也不唯一,不过这对后续分析没有太大影响,8主成分分析,2相关的matlab函数Pcacov根据协方差矩阵或相关系数矩阵进行主成分分析,需先计算协方差矩阵或相关系数矩阵Princomp根据样本观测值进行主成分分析Pcares重建数据,并求出残差;pcares调用了princomp函数,不会自动对数据进行标准化变换,可用zscore
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学生会计考试试题及答案
- 新教师 考试试题及答案
- 绿色能源基金份额分割与赎回执行合同
- 甘肃省武威市2025年八年级下学期语文期末考试卷及答案
- 知识产权优先授权及补充使用合同
- 闲置宅基地流转与现代农业综合示范区建设合同
- 环保主题游戏开发与绿色公益活动联合发行协议
- 俄罗斯网红电商合作营销服务协议
- 培训机构兼职讲师合同续签与调整协议
- 森林公园特色民宿项目长期租赁合作协议
- 社区儿童主任培训
- 《分子动力学模型》课件
- 八年级数学苏科版下册第十单元《单元复习》教学设计教案
- 第二单元+新音乐启蒙+课件【高效课堂精研】高中音乐粤教花城版必修音乐鉴赏
- 子宫肌瘤病人的护理查房
- 班级突发事件处理与预防
- 部编 2024版历史七年级下册第一单元第 5 课《隋唐时期的民族交往与交融》说课稿
- 口腔科各项规章制度
- 2025年江苏省招标中心有限公司招聘笔试参考题库含答案解析
- 安全生产治本攻坚三年行动任务清单
- 企业工会培训
评论
0/150
提交评论