




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据分析建模简介观察和实验是科学家探究自然的主要方法,但如果你有数据,那么如何让这些数据开口说话呢?数据用现代人的话说即信息,信息的挖掘与分析也是建模的一个重要方法。1科学史上最有名的数据分析例子开普勒三定律数据来源:第谷布拉赫(1546-1601,丹麦人),观察力极强的天文学家,一辈子(20年)观察记录了750颗行星资料,位置误差不超过0.67。观测数据可以视为实验模型。数据处理:开普勒(1571-1630,德国人),身体瘦弱、近视又散光,不适合观天,但有一个非常聪明的数学头脑、坚韧的性格(甚至有些固执)和坚强的信念(宇宙是一个和谐的整体),花了16年(1596-1612)研究第谷的观测数据
2、,得到了开普勒三定律。开普勒三定律则为唯象模型。2数据分析法2.1 思想采用数理统计方法(如回归分析、聚类分析等)或插值方法或曲线拟合方法,对已知离散数据建模。适用范围:系统的结构性质不大清楚,无法从理论分析中得到系统的规律,也不便于类比,但有若干能表征系统规律、描述系统状态的数据可利用。2.2 数据分析法 基础知识(1)数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出;(2)数据分析(data analysis)是指分析数据的技术和理论;(3)数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律;(4)作用:在实用中,它
3、可帮助人们作判断,以采取适当行动。(5)实际问题所涉及的数据分为: 受到随机性影响(随机现象)的数据; 不受随机性影响(确定现象)的数据; 难以确定性质的数据(如灰色数据)。(6)数理统计学是一门以收集和分析随机数据为内容的学科,目的是对数据所来自的总体作出判断,总体有一定的概率模型,推断的结论也往往一概率的形式表达(如产品检验合格率)。(7)探索性数据分析是在尽量少的先验假定下处理数据,以表格、摘要、图示等直观的手段,探索数据的结构及检测对于某种指定模型是否有重大偏离。它可以作为进一步分析的基础,也可以对数据作出非正式的解释。实验者常常据此扩充或修改其实验方案(作图法也该法的重要方法,如饼图
4、、直方图、条形图、走势图或插值法、曲线(面)拟合法等)。 典型的数据分析工作步骤第一步:探索性数据分析 目的:通过作图、造表、用各种形式的方程拟合、计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。第二步:模型选定分析 目的:在探索性分析的基础上,提出一类或几类可能的模型(如进一步确定拟合多项式(方程)的次数和各项的系数)。第三步:推断分析目的:通常用数理统计或其它方法对所选定的模型或估计的可靠程度或精确程度作出推断(如统计学中的假设检验、参数估计、统计推断)。3建模中的概率统计方法现实世界存在确定性现象和随机现象,研究随机现象主要由随机数学来
5、承担,随机数学包括十几个分支,但主要有概率论、数理统计、试验设计、贝叶斯统计、随机过程、时间序列分析、马尔可夫决策、可靠性理论等。3.1 概率统计建模基本思想面对实际的随机现象,有两类定量方法:(1)方法一:概率统计方法。其思想是从对随机现象的大量观察中提出相应的数学模型(即概率空间),用随机变量来描述随机现象,然后再研究这一数学模型的性质、特点(如随机变量及其分布、随机变量的数字特征等),由此来阐述随机现象的统计规律性。(2)方法二:数理统计方法。其思想是从对随机现象的观测所得到的资料出发(在概率论的指导下)研究怎样去有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断或预测,直
6、至为采取一定的决策和行动提供依据和建议。(3)概率统计分析方法建模的步骤:【Step1】:模型的选择与建立即确定总体的分布类型(分布函数或密度函数如二项分布、泊松分布、正态分布、t、F分布等)、回归函数等,其方法为绘制频数直方图。【Step2】:描述性统计n 数据的收集(全面观测、抽样观测和安排特定的实验(实验设计法、正交实验设计、回归设计、抽样检验)n 数据的整理(数字特征和统计量,如均值、方差等)【Step3】:统计推断据总体模型和由样本描述分析,作出有关总体分布的某种论断,如残次品率为正态分布,常用参数估计和假设检验,或用统计软件做概率值检验。【Step4】:统计预测预测随机变量在未来某
7、个时刻的值,如预测一种产品在未来三年内市场的销售量,常用回归。【Step5】:统计决策就是依据所做的统计推断或预测,并考虑到行动的后果(一经济损失的形式表示),而指定的一种行动方案。【注意】:Step4和Step5涉及内容包含:非参数统计、多元统计分析(相关、方差、聚类、判别、因子、主成分、多维标度法、多变量的图表示法、对应分析(列联表对应分析)、序贯分析、时间序列分析和随机过程统计等。(4)熟悉几个重要的分布:二项分布、泊松分布、正态分布、分布、t分布、F分布。在数学软件中包含很多概率分布,例如在Matlab的统计工具箱(toolboxstats)中的概率分布共有20多种,有norm-正态分
8、布、chi2-分布、t-t分布、fF分布等。工具箱对每一种分布都提供5类函数,其命令字为:pdf-概率密度,cdf-概率分布,inv-逆概率分布,stat-均值与方差,rnd-随机数生成(可以通过help pdf 等查询命令格式)3.2 建模中的实用概率统计方法简单地讲,统计的任务就是从样本推断总体。样本是统计研究的主要对象,对于一次具体的试验,样本是一组数据,但它的取值是随机的,从概率论的观点可以把样本当作随机变量,而且当每个个体都是从总体中独立抽取(即个体被抽取的结果互不影响)时,样本就是一组相互独立、同分布的随机变量,当然总体也可以被视为随机变量,与样本同分布。例如,学校全体学生的身高为
9、总体,其中100名学生的身高数据为样本,100为样本容量。在实际问题的数学建模中,常用的统计方法有数据的统计描述和分析、统计推断、相关性分析、方差分析、回归分析、因子分析、主成分分析、聚类分析和判别分析等。3.2.1 数据的描述性统计针对一组杂乱无章的数据(即样本),描述性统计的步骤为:n 初步整理和直观描述-作出频数表和直方图n 进一步加工,提取有用信息-计算统计量统计量:用来进一步反映数据特征,它是加工出来的,反映样本数据特征的函数,它不含任何未知量,大致可以分三类:n 表示位置的统计量-样本均值、中位数、上下1、4分位点n 表示变异程度的统计量-标准差、方差、极差n 表示分布形状的统计量
10、-偏度、峰度3.2.2 统计推断统计推断主要有参数估计和假设检验。n 参数估计:点估计、均值的区间估计和方差的区间估计n 假设检验:均值检验、方差检验【例】:学校学生的身高构成一个总体,通常认为身高是服从正态分布的(这就是问题的基本假定),从这群人中随机抽出n人,量得身高为(这就是观测数据),它受到随机性的影响。若要估计这群人的平均身高,即上述正态分布的均值(这种估计就是一种推断形式,此处估计的对象是总体分布中的未知参数,故又称为参数估计)。若感兴趣的问题是“平均身高是否超过1.7米”就需要通过样本检验关于总体分布的命题“”是否成立?(这便是假设检验)3.2.3 相关性分析在现实问题中,常会遇
11、到没有因果关系的变量x与y(地位对称),比如:(1)一个家庭的月收入x与这个家庭的孩子数量y;(2)一个人的身高x与他的体重y等。这里x与y无因果关系,但它们之间却存在着一定的关系,如(2)中,一般来说个子高的人体重也大一些。因此,人们希望了解这些x、y之间关系究竟密切到了什么程度?这变需要统计意义下的相关。相关分析的步骤:n 建立样本相关系数,这是衡量x、y之间关系密切程度的指标。n 主要任务:由x、y的一些观测值如估计及检验有关的假设,如(一般地,当时,x、y不相关;时,x、y有正(负)相关)。【例】:从某大学中随机选择10名男生,的观测值如表3。表3 身高与体重观测值身高(x)1.711
12、.631.841.901.581.601.751.781.801.64体重(y)65637075605564696558计算相关系数:;设(x,y)服从正态分布,考虑假设检验问题:H0:x与y线性不相关,取显著水平,查表得所以拒绝H0,即x与y的线性相关性高度显著,即格子高的人一般体重也要大些。3.2.4 方差分析在试验和实践中,影响试验或生产的因素往往很多,我们通常需要分析哪种因素对事情有显著影响,并希望知道起决定影响的因素在什么时候有着最有利的影响。可以分为:单因素多水平方差分析和多因素方差分析。【参见文件】:方差分析.doc3.2.5 回归分析回归分析是研究一个或多个随机变量与另一些变量
13、之间的关系的统计方法。“回归”一词首先被英国生物统计学家高尔顿(Galton)使用。应用回归模型可以进行因果关系分析、预测、优化与控制等多种目的。回归分析分类:n 一元回归分析:m=n=1;模型:n 多元回归分析:m=1,n=k1;模型:n 多重回归分析:m1,n1;模型:回归分析的方法与步骤:n 选定回归函数;n 对回归函数中的位置参数进行估计(最小二乘方法);n 检验有关参数的假设(假设检验);n 对的影响估计;n 建立回归方程进行预测和控制。3.2.6 主成分分析在实际问题中,经常需要对多个变量同时进行统计分析。变量个数多了,就不易看清变量之间的相互关系,会给统计分析带来困难。主成分分析
14、的基本思想是:对原来多个变量进行适当的组合,组合成一些综合指标,用较少的综合指标来近似代替原来的多个变量。这种由原来多个变量组合而成的综合指标,成为主成分。主要目的:降维。主成分选取的原则:n 主成分是原变量的线性组合;n 各个主成分之间互不相关;n 如果原来有m个变量,则最多可以取到m个主成分,这m个主成分的变化可以完全反映原来全部m个变量的变化;如果选取的主成分少于m个,那么这些主成分的变化应该尽可能多地反映原来全部m个变量的变化。3.2.8 聚类分析【参见文件】:聚类分析.doc。3.2.9 判别分析判别分析是判别样品所属的类型的一种统计方法,广泛地应用与生成、科研和日常生活中。例如,一
15、位病人肺部有阴影,医生要判断他的病是肺结核、肺部良性肿瘤还是肺癌。这里,肺结核病人、肺部良性肿瘤病人和肺癌病人就组成了三个总体,判别的目的就是根据病人各种症状的指标(如阴影大小、阴影部位、是否有痰、是否有低烧)来判断他属于哪个总体(即判断他所患的病种);又如生物品种的鉴别、选矿中矿藏储量的贫富等,它们的共性是根据研究对象的一组标志值(通常为一组观测向量)来判断这个研究的个体来自哪个总体。判别分析的数学模型:设有k个总体,它们的分布函数分别是,每个都是m维分布函数,对给定的一个样品y,问y来自哪个母体?判别分析的基本思想:设要研究的对象可分为p类:。任取一个样品,它属于第i类的概率(先验概率)为
16、。现在有N个分类已知的样品,其中属于的样品分别有个。对每一个样品,都可以得到m个变量的观测值,对于N个分类已知的样品,共有N组、每组m个变量的观测值:,i=1,2,N。现在要从这些分类已知的样品的观测值出发,构造出一种判别方法,对于任何一个分类未知的样品,只要知道它的m个变量的观测数据,就可以用这种判别方法,判别出它属于哪一类。数学方法:n 距离判别法;n Bayes判别法;n Fisher判别法。【参见文件】:判断分析.doc4简单的灰色预测-GM(1,1)预测数理统计分析方法的局限:n 需要大量的数据n 要求数据存在统计规律n 要求统计规律是典型的(如正态分布、平稳过程)n 计算工作量大n
17、 信息量不足,结论不直观华中理工大学邓聚龙教授于1982年在Systems & Control Letters系统与控制通信上发表“灰色系统的控制问题论文,宣告横断科学灰色系统理论的诞生。4.1 灰色系统理论概述 基本概念【灰色系统】:既含有已知信息又含有未知的非确知的信息的系统。例如:人口问题、历史系统、中医系统等。【灰色系统的公理】:n 公理1:“差异”是信息,凡信息必有差异;(差异信息原理)n 公理2:信息不完全、不确定的解是非唯一的;(解的非唯一性原理)n 公理3:充分开放利用已经占有的“最少信息”;(最少信息原理)n 公理4:信息是认识的根据;(认识根据原理)n 公理5:新信息对认识
18、的作用大于老信息;(新信息优先原理)n 公理6:“信息不完全”(灰)是绝对的。(灰性不灭原理)表4 “灰”的含义及引申场次概念黑灰白从信息上看未知不完全完全从表象上看暗若明若暗明朗从过程上看新新旧交替旧从性质上看混沌多种成分纯从方法上看否定扬弃肯定从态度上看放纵宽容严厉从结果上看无解非唯一解唯一解【灰色系统的描述】:灰色系统用灰色参数(灰元、灰数)、灰色方程、灰色矩阵、灰色度等综合描述,其中灰数是灰数系统的基本“单元”或“细胞”。n 灰色参数(灰数):只知道大概范围而不知其确切值的数(只知道部分数学特征,而不知道具体数值的参数),记为。实际应用中指在某一个区间或某个一般的数集合内,以a为白化值
19、的灰数,记为(正常的数为相应灰色的白化值)。n 灰色代数方程:含有灰色系数的代数方程。如。n 灰色微分方程:含有灰色导数或灰色微分的方程。如。n 含有灰系数的微分方程:灰系数白微分方程。如。n 灰色矩阵:行列数确知而含有灰元的矩阵。如。n 灰色度:若在A的个元素中,有个灰色元素,则这一矩阵的灰色度可以表示为: 灰色系统理论的主要方法灰色系统理论的主要方法可以分为两大类:n 由灰到白的方法:把具体数值不确定的灰数按具体取值的可能性进行量化以构成白化权函数等。n 由白到灰的方法:将抽象的现象、因素等找出某些对应量,将杂乱无章的数据列进行整理、生成,将空缺的数据通过计算加以补充,用整理过的数据列建立
20、模型并通过它进行决策和预测,将结构、关系、机制不清楚的对象、过程、系统作灰色预测以进行提前控制等。常用方法有:n 关联度分析法-最基本的方法(一个有众多因素构成的系统中哪些因素对系统影响大、中、小?)n 基于白化权函数的灰色统计和灰色聚类法n 灰色预测法(如GM(1,1))n 灰色决策n 灰色提前控制法n 灰色优化技术(如灰色规划等) 生成数灰色理论中常用的生成方法有:累加生成(AGO),即累加生成算子;累减生成(IAGO)或逆累加生成以及均值生成Z。灰色系统是通过对原始数据的整理来寻找其变化规律的,这是一种就数据寻找数据的现实规律的途径,称为灰色序列生成。(灰色系统理论认为,尽管客观表象复杂
21、,数理离乱,但总是有整体功能的,因此必然蕴含某种内在规律。关键在于如何选择适当的方式去挖掘和利用它。一切灰色序列都能通过某种生成弱化其随机性,显现其规律性。)生成法如下:设原始数据列为:,则1次累加(1-AGO):,其中;.R次累加(r-AGO):,其中; 均值生成Z:; 累减生成IAGO:。【例】:已给原始数据列 。1-AGO:Z:,(赋 )IAGO:还原。注意:(1)一般地; (2)通过累加可能是离乱的数据中蕴含的积分特性或规律充分显露出来。4.2 简单的灰色预测-GM(1,1)预测4.1 GM(1,1)模型(来自数学建模方法及其应用,韩中庚编著,高等教育出版社)(1)GM(1,1)定义设,的1-AGO生成数列为,则定义的灰导数为令为数列的均值数列,即则,于是定义GM(1,1)的灰微分方程模型为即 (4-1)其中 称为灰导数,a称为发展系数,称为白化背景值,b称为灰作用量。将时刻k=2,3,n代入(4-1),有令,称为数据向量,B为数据矩阵,u为参数向量,则GM(1,1)可以表示为矩阵方程上述模型参数u的确定方法方法:最小二乘法。(2)GM(1,1)的白化型对于GM(1,1)的灰微分方程(4-1),如果将的时刻k=2,3,n视为连续的变量t,则数列就可以视为时间t的函数,记为,并让灰导数对应于导数,背景值对应于。于是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年市城市自体检报告
- 空调维修合同范文(20篇)
- 2025年无锡赛盈动力科技有限公司介绍企业发展分析报告模板
- 中国分布式光伏发电行业市场发展监测及投资方向研究报告
- 2025年智能型低压开关柜行业分析报告及未来五至十年行业发展报告
- 公路工作调研报告范文
- 2025年萘酚项目安全调研评估报告
- 节能审查评估报告
- 中 国内地市场高端手机消费者调研报告
- 种子行业可行性研究报告
- 研究生学位论文修改情况登记表
- 施工进度计划网络图-练习题知识讲解
- 防孤岛测试报告
- 按摩常用英语
- 食品公司规章制度
- midas NFX使用指南(八)
- 成都高新区小学数学五年级下册半期考试数学试卷
- 2018年人教版九年级英语单词表
- 危险性较大分部分项工程及施工现场易发生重大事故的部位环节的预防监控措施和应急预案11汇编
- 苹果中国授权经销商协议
- 昆山市工业用地项目监管协议-苏州市国有建设用地使用权网上出让系统
评论
0/150
提交评论