已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章 数据分析,根据大量数据提取某些目标信息(称为数据分析、数据挖掘等)是一类非常重要的实际问题。限于篇幅,本章涉及的数据分析是非常基础的,其目的是让读者对利用MATLAB进行数据分析有一个初步的了解,主要内容包括: 数据排序分析,包括排序、最大(小)数、分位数; 数据求和(积)、差分; 数据统计分析。 前两部分可以归结为基本数据分析。关于插值、回归分析、曲线拟合、傅立叶分析等内容将在第10章高级数值计算中介绍。MATLAB提供的统计工具箱涵盖了大部分数据统计分析功能。,9.1 最大(小)值、中位数,已知数据序列,求序列的最大值、最小值及中位数是实际工程中经常遇到的问题。对这类数据分析问题,MATLAB提供了强大的支持。MATLAB提供的函数max、min、median分别用于求数据序列的最大值、最小值和中位数,详细的使用方法见表,max、min、median函数调用说明,9.2 排序,数据的排序是理论和实际中经常遇到的问题。MATLAB提供sort和sortrow两个函数用于数据的排序操作。这两个函数不仅可以用于数值数据的排序,而且对字符串数据也可以进行排序,这里主要讲述数值排序,对于字符串的排序只稍作介绍。 sort对数组元素按升序或降序进行排列,数组元素的类型可以是整型、浮点型、逻辑类型等数值类型,也可以是字符、字符串。函数sort对字符或字符串数组的排序依据ASCII表进行;对复数数值类型,sort函数首先比较各元素的模值,在模值相同的情况下,考虑上的相位值;对于NaN数据,sort函数将其排在最后,不管是按升序还是降序排列。,9.3 分位数,对数据序列, 分位数是满足 的q,其中 是数据序列的长度,是x中不大于q的元素个数。通常上式的等号不能成立,这样可以定义p分位数是使 最小的q。 MATLAB利用函数quantile求数据序列的分位数,其调用格式为: Y = quantile(X, p) Y = quantile(X, p, dim),9.4 求和(积)、差分,本节介绍数据序列的求和、求积、差分运算。MATLAB中利用函数sum、prod和diff对数据序列作求和、求积及差分等运算,这些内容相对简单,这里不再作过多的文字描述,读者只需练习给出的示例就能熟悉掌握相关函数的用法。,9.4.1 求和,MATLAB中的函数sum用于对数组求和,sum函数以数组A作为数据输入,sum(A)沿数组第一个非1的维进行求和。若A为向量,则返回该向量的和;若A为矩阵,则函数沿列方向求和,返回一个行向量,行向量的元素对应A每一列的和。sum(A, dim)指定函数沿第dim维求和。实际上MATLAB中很多函数的调用格式都与此类似,如前面用到的min、max、sort等。这里为这种类型的函数取一个名字,称为数组支持函数。对下面章节中出现的数组支持函数,如无特别的调用格式,则对其调用方法不作特别说明。 另外sum函数还提供给用户一个选项,该选项可限定运算结果的类型,如sum(, double)限定结果为double型,即使输入数据为整型,默认情况会返回double型。,9.4.2 求积,prod函数用于数据序列求积,其使用方法与sum函数相似,是一种数组支持函数,调用格式为: prod(A) prod(A, dim),9.4.3 求累计和、积和差分,除了一般的求和与求积,MATLAB还定义了两种累积运算,即累积和、累积积,分别由函数cumsum、cumprod实现。累积求和、累积求积函数都是数组支持函数,相应的调用格式为: cumsum(A) cumsum(A,dim) cumprod(A) cumprod(A,dim),9.5 均值和方差,9.6 数据预处理,数据传输、处理可能存在一些随机错误,从而使数据出现缺失或异常等现象,这对后续的数据分析有可能存在不利的影响。本节将采用MATLAB中一些常用的数据预处理方法来解决数据的缺失和异常问题。这些在数据分析之前进行。,9.6.1 处理缺失数据,缺失数据的处理是一个非常困难的问题,随根据具体问题的不同,处理方法也各异。为了数据分析的方便,将缺失数据用NaN表示是一个非常便利的方法。 NaN是MATLAB的一个特殊数据,即“Not a Number”,MATLAB规定,NaN参与的数学运算结果均为NaN。例如向量,对其求和、积,结果均为NaN。在MATLAB命令窗口输入以下代码。 x = 1,2,NaN,4; sum(x) ,prod(x) 运行结果如下。 ans = NaN ans = NaN,9.6.2 处理奇异值,数据传输、处理的错误可能是数据发生异常, 对异常数据可以采用与缺失数据相似的处理方法,即去除异常数据。至于异常数据的标准,将视具体问题而定,实际中经常使用的一种标准是:与平均值的偏差大于3倍标准差。,9.7 统计分析,统计分析是一种既古老又现代的数据分析方法,特别是随着近现代概率论、统计学的发展,统计分析成为数据分析、数据挖掘的主要方法。本节从统计学的角度介绍数据分析的相关内容,包括概率分布、随机数生成、直方图分析和数据统计函数。,9.7.1 关于数学符号的说明,这里列出本节中经常使用的一些数学符号,并对其做简要说明,,9.7.2 几种重要的概率分布,随机变量的概率分布唯一惟一地由概率密度函数决定,可以分为离散型和连续型两大类,,9.7.3 生成随机数,数据仿真、系统仿真是实验研究的重要手段,而随机数的生成几乎是仿真研究中不可缺少的。MATLAB统计工具箱针对每种概率分布有对应的随机数生成函数,这些函数都是基于rand或randn(不同的随机数生成函数与rand、randn的依赖关系如表9.7所示)。rand生成0,1上均匀分布的随机数;randn生成的随机数服从均值为0方差为1的高斯分布。这两个函数都可以生成一维、二维直至N维随机数数组,调用格式为rand(M, N, P,)和randn(M, N, P,)。,9.7.4 数据直方图分析,9.7.5 数据统计函数,概率密度函数可以全面地描述数据的统计性质,当给定某一概率分布的数据样本时,要想得到概率密度函数往往是很困难的,而且有时也是不必要的。实际上除了概率分布外,还有很多概念可以描述数据的统计分布,如数据中心化程度、数据散布程度等。 MATLAB利用下面函数描述数据中心: geomean,几何均值; harmmean,调和均值; mean,算术均值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年劳务员之劳务员基础知识考试题库200道及完整答案(必刷)
- 2026年设备监理师之质量投资进度控制考试题库200道及一套答案
- 2025江苏省灌南县教育局所属学校冬季赴高校招聘高层次人才66人备考公基题库附答案解析
- 2026重庆市地质矿产勘查开发集团有限公司毕业生校园招聘46人历年真题汇编带答案解析
- 2025福建海峡银行董事会办公室社会招聘参考题库附答案解析
- 2026北京天玛智控科技股份有限公司全球校园招聘笔试模拟试卷附答案解析
- 2025四川成都市泡桐树中学同文分校教师招聘历年真题汇编带答案解析
- 2025年滁州市第一人民医院公开招聘编外工作人员5人备考题库带答案解析
- 2025贵州黔南州粮油储备库主任选聘备考题库附答案解析
- 2026天津医科大学口腔医院人事代理制(第一批)招聘12人备考题库附答案解析
- 四川成都空港兴城投资集团有限公司招聘笔试题库2025
- 企业市场部岗位职责与绩效考核方案
- 2025年四川省公务员申论真题预测卷
- 2025秋南水北调生态环保工程有限公司招聘(15人)笔试考试参考试题及答案解析
- 2025高级生命支持(ACLS)理论考核试题库及答案
- 物流新员工流程培训
- 画展展示活动策划方案
- 全国大学生职业规划大赛《财务管理》专业生涯发展展示【曾获省级一等奖】
- 2023年湘西土家族苗族自治州辅警协警招聘考试真题及一套答案详解
- 全册教案-2025-2026学年度二年级上册音乐人音版
- 主播签电子合同范本
评论
0/150
提交评论