科研数据处理方法及应用1_第1页
科研数据处理方法及应用1_第2页
科研数据处理方法及应用1_第3页
科研数据处理方法及应用1_第4页
科研数据处理方法及应用1_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

综合评价与决策,美国数学建模竞赛培训,科研数据处理方法概述,1.预测与预报1灰色预测模型2回归分析预测3微分方程预测4马尔科夫预测5时间序列预测6小波分析预测7神经网络预测8混沌序列预测,科研数据处理方法概述,2.评价与决策1模糊综合评判2主成分分析3层次分析法(AHP)4数据包络(DEA)分析法5秩和比综合评价法6优劣解距离法(TOPSIS法)7投影寻踪综合评价法8.方差分析、协方差分析等,3.分类与判别1距离聚类2.关联性聚类3.层次聚类4.密度聚类3.其他聚类6.贝叶斯判别7.费舍尔判别8.模糊识别,科研数据处理方法概述,科研数据处理方法概述,4.关联与因果灰色关联分析方法Person相关Sperman或kendall等级相关系数Copula相关典型相关系数标准化回归路径分析分析生存分析(事件史分析)格兰杰因果检验,科研数据处理方法概述,3.优化与控制线性规划、整数规划、0-1规划非线性规划与智能优化算法多目标规划和目标规划动态规划网络优化排队论与计算机仿真模糊规划灰色规划,1.模糊综合评价,1.1模糊数学基本概念,人脑较之精确计算机,就是能在信息不完整不精确的情况下,作出判断与决策,模糊性常常是信息浓缩所致,目的是为了提高交换的概率,所以不是毫无用处,而是积极的特性。,如果到火车站去接人,如下描述“大胡子,高个子,长头发戴宽边黑色眼镜的中年男人”,除了男人的信息是精确的之外,其它信息全是模糊的,但是我们却能够找到那个人。,1.1.1经典集合与特征函数,论域U中的每个对象u称为U的元素。,1.模糊综合评价,其中,函数称为集合A的特征函数。,1.模糊综合评价,1.1.2模糊集合及其运算,1.模糊综合评价,1)模糊子集,1.模糊综合评价,论域,模糊集A:高个子,定义隶属函数(具有主观性):,模糊集并不再回答“是或不是”的问题,而是对每个对象给一个隶属度,所以与经典集有本质区别。而且与隶属函数是捆绑一起的,所以可以不做区分。,(还是经典集合),(Zadeh表示法),1.模糊综合评价,模糊子集通常简称模糊集,其表示方法有:,(1)Zadeh表示法,这里表示对模糊集A的隶属度是。,如“将一1,2,3,4组成一个小数的集合”可表示为,可省略,1.模糊综合评价,(3)向量表示法,(2)序偶表示法,若论域U为无限集,其上的模糊集表示为:,1.模糊综合评价,2)模糊集的运算,定义:设A,B是论域U的两个模糊子集,定义,相等:,包含:,并:,交:,余:,1.模糊综合评价,几个常用的算子:,(1)Zadeh算子,(2)取大、乘积算子,(3)环和、乘积算子,1.模糊综合评价,(4)有界和、取小算子,(5)有界和、乘积算子,(6)Einstain算子,1.模糊综合评价,3)模糊矩阵,(1)模糊矩阵间的关系及运算,定义:设都是模糊矩阵,定义,相等:,包含:,1.模糊综合评价,并:,交:,余:,例:,1.模糊综合评价,(2)模糊矩阵的合成,例:,1.模糊综合评价,(3)模糊矩阵的转置,(4)模糊矩阵的截矩阵,1.模糊综合评价,例:,1.模糊综合评价,1.1.3隶属函数的确定,1)模糊统计法,模糊统计试验的四个要素:,1.模糊综合评价,特点:在各次试验中,是固定的,而在随机变动。,模糊统计试验过程:,(1)做n次试验,计算出,2)指派方法,3、其它方法,1.模糊综合评价,1.2模糊综合评判,1.2.1一级模糊综合评判,1.模糊综合评价,1.模糊综合评价,根据运算的不同定义,可得到以下不同模型:,最后得到一个评价向量,1.模糊综合评价,1.模糊综合评价,1.模糊综合评价,其中:,1.模糊综合评价,1.模糊综合评价,1.模糊综合评价,1.模糊综合评价,输入数据:R=0.20.50.20.1;0.70.20.10;00.40.50.1;0.20.30.50A1=0.10.20.30.4A2=0.40.350.150.1,调用函数:B=fuzzy_zhpj(1,A1,R),输出结果:B=0.20000.30000.40000.1000,调用函数:B=fuzzy_zhpj(1,A2,R),输出结果:B=0.35000.40000.20000.1000,1.模糊综合评价,因素集,评判集,1.模糊综合评价,1.2.2多级模糊综合评判(以二级为例),问题:对高等学校的评估可以考虑如下方面,高等学校,1.模糊综合评价,二级模糊综合评判的步骤:,1.模糊综合评价,1.模糊综合评价,1.模糊综合评价,1.模糊综合评价,1.模糊综合评价,1.模糊综合评价,1.模糊综合评价,假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?当然不能。你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。,2.主成分分析,每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。在引进主成分分析之前,先看下面的例子。,2.主成分分析,100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,2.主成分分析,目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。,2.主成分分析,选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约80%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。,2.主成分分析,主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。,一般来说,我们希望这些主成分能够反映原始变量的绝大部分信息(它们通常表示为原始变量的某种线性组合),并具有最大的方差。,2.主成分分析,1.对原始数据矩阵进行标准化处理(相当于对原始变量进行坐标平移与尺度伸缩),主成分的求解步骤:,假设对p个变量进行n次观测得到的观测数据可用下面的矩阵表示,将其进行标准化处理,2.主成分分析,iii)特征分解得(相当于将原来的坐标轴进行旋转得到新的坐标轴U),ii)求协方差矩阵Z,得Z的p个非负特征值,这p个特征值就是主成分的方差。,2.主成分分析,iv)确定主成分个数,(根据累积贡献率),当大于某个阈值时,可认为主成分数目为m。,v)写出主成分表达式,Z阵的每一行相当于原数据矩阵的所有行(即原始变量构成的向量)在主成分坐标轴(载荷轴)上的投影,这些新的投影构成的向量就是主成分得分向量。,2.主成分分析,Vi)构造评价函数,将每个样本的主成分带入评价函数,得到每个样本的综合得分,依据一定的准则可对样本进行排序。,2.主成分分析,例:以下是收集整理了的1990-2002年13年间影响中国蔬菜产量的若干因素数据,请你对这些影响因素作主成分分析,并分析结果。,2.主成分分析,dataex;inputx1-x13;cards;/*数据省略*/;procprincompout=prin;/*主成分分析模块*/varx1-x13;run;procprintdata=prin;varprin1-prin13;run;,2.主成分分析,程序中对应运行结果为:,从程序结果可以看出,第一、第二、第三主成分累计解释方差的比率已经超过了94%,所以只需要求1、2、2所对应的正交化特征向量i(i=1,2,3),2.主成分分析,1=(0.31,0.29,0.22,0.30,0.09,0.31,0.30,0.30,0.30,0.31,0.31,0.31,0.13),2=(0.03,0.23,0.51,0.11,0.77,0.01,0.09,0.13,0.19,0.07,0.04,0.03,0.09),3=(0.03,0.03,0.24,0.08,0.01,0.03,0.02,0.06,0.04,0.03,0.08,0.05,0.96),可知:,其中,第一主成分与蔬菜种植面积、每公顷物质费用、蔬菜零售物价指数、市场化程度、城市化水平1、城市化水平2、交通、城镇居民可支配收入、农村居民纯收入、农民文化素质等密切相关,表示的是市场经济综合因素,着重反映的是市场经济的成熟程度与国家现代化水平;第二主成分与每公顷劳动投入、成本纯收益率等密切相关,表示的是劳动者动力因素;第三主成分与气候条件密切相关,显然表示的是气候因素。,2.主成分分析,主成分得分,2.主成分分析,3.层次分析法,层次分析法(AnalyticHierarchyProcess,简称AHP)是对一些较为复杂、较为模糊的问题作出决策的简易方法,它特别适用于那些难于完全定量分析的问题。它是美国运筹学家T.L.Saaty教授于上世纪70年代初期提出的一种简便、灵活而又实用的多准则决策方法。,层次分析模型,背景,日常工作、生活中的决策问题,涉及经济、社会等方面的因素,作比较判断时人的主观选择起相当大的作用,各因素的重要性难以量化,AHP一种定性与定量相结合的、系统化、层次化的分析方法,3.层次分析法,目标层,O(选择旅游地),准则层,方案层,3.1层次分析法的基本步骤,例.选择旅游地,如何在3个目的地中按照景色、费用、居住条件等因素选择.,3.层次分析法,“选择旅游地”思维过程的归纳,将决策问题分为3个层次:目标层O,准则层C,方案层P;每层有若干元素,各层元素间的关系用相连的直线表示。,通过相互比较确定各准则对目标的权重,及各方案对每一准则的权重。,将上述两组权重进行综合,确定各方案对目标的权重。,层次分析法将定性分析与定量分析结合起来完成以上步骤,给出决策问题的定量结果。,3.层次分析法,成对比较阵和权向量,元素之间两两对比,对比采用相对尺度,设要比较各准则C1,C2,Cn对目标O的重要性,A成对比较阵,A是正互反阵,要由A确定C1,Cn对O的权向量,选择旅游地,3.层次分析法,成对比较的不一致情况,成对比较阵和权向量,3.层次分析法,允许不一致,但要确定不一致的允许范围,考察完全一致的情况,3.层次分析法,成对比较完全一致的情况,成对比较阵和权向量,3.层次分析法,若矩阵A=(aij)mxn满足以下特征:(1)aij0(2)aij=1(当i=j)(3)aij=1/aji(当ij)则称矩阵A为正互反矩阵。,3.层次分析法,A的秩为1,A的唯一非零特征根为n,A的任一列向量是对应于n的特征向量,A的归一化特征向量可作为权向量,对于不一致(但在允许范围内)的成对比较阵A,建议用对应于最大特征根的特征向量作为权向量w,即,一致阵性质,3.层次分析法,2468,比较尺度aij,Saaty等人提出19尺度aij取值1,2,9及其互反数1,1/2,1/9,便于定性到定量的转化:,成对比较阵和权向量,3.层次分析法,3.层次分析法,心理学家认为成对比较的因素不宜超过9个,用13,15,117,1p9p(p=2,3,4,5),d+0.1d+0.9(d=1,2,3,4)等27种比较尺度对若干实例构造成对比较阵,算出权向量,与实际对比发现,19尺度较优。,3.层次分析法,一致性检验,对A确定不一致的允许范围,已知:n阶一致阵的唯一非零特征根为n,可证:n阶正互反阵最大特征根n,且=n时为一致阵,定义一致性指标:,CI越大,不一致越严重,3.层次分析法,为衡量CI的大小,引入随机一致性指标RI随机模拟得到aij,形成A,计算CI即得RI。,定义一致性比率CR=CI/RI,当CR0.1时,通过一致性检验,Saaty的结果如下,3.层次分析法,“选择旅游地”中准则层对目标的权向量及一致性检验,准则层对目标的成对比较阵,最大特征根=3.073,权向量(特征向量)w=(0.263,0.475,0.055,0.090,0.110)T,一致性指标,随机一致性指标RI=1.12(查表),一致性比率CR=0.018/1.12=0.0160.1,通过一致性检验,3.层次分析法,组合权向量,记第2层(准则)对第1层(目标)的权向量为,同样求第3层(方案)对第2层每一元素(准则)的权向量,方案层对C1(景色)的成对比较阵,方案层对C2(费用)的成对比较阵,最大特征根12n,权向量w1(3)w2(3)wn(3),3.层次分析法,组合权向量,RI=0.58(n=3),CIk均可通过一致性检验,w(2)0.2630.4750.0550.0900.110,方案P1对目标的组合权重为0.5950.263+=0.300,方案层对目标的组合权向量为(0.300,0.246,0.456)T,3.层次分析法,组合权向量,第2层对第1层的权向量,第3层对第2层各元素的权向量,构造矩阵,则第3层对第1层的组合权向量,第s层对第1层的组合权向量,其中W(p)是由第p层对第p-1层权向量组成的矩阵,3.层次分析法,层次分析法的基本步骤,1)建立层次分析结构模型,深入分析实际问题,将有关因素自上而下分层(目标准则或指标方案或对象),上层受下层影响,而层内各因素基本上相对独立。,2)构造成对比较阵,用成对比较法和19尺度,构造各层对上一层每一因素的成对比较阵。,3)计算权向量并作一致性检验,对每一成对比较阵计算最大特征根和特征向量,作一致性检验,若通过,则特征向量为权向量。,4)计算组合权向量(作组合一致性检验*),组合权向量可作为决策的定量依据。,3.2层次分析法的广泛应用,应用领域:经济计划和管理,能源政策和分配,人才选拔和评价,生产决策,交通运输,科研选题,产业结构,教育,医疗,环境,军事等。,处理问题类型:决策、评价、分析、预测等。,建立层次分析结构模型是关键一步,要有主要决策层参与。,构造成对比较阵是数量依据,应由经验丰富、判断力强的专家给出。,3.层次分析法,例1国家实力分析,例2工作选择,3.层次分析法,例3横渡江河、海峡方案的抉择,3.层次分析法,例3横渡江河、海峡方案的抉择,3.层次分析法,例4科技成果的综合评价,3.层次分析法,如果在单因素、双因素或多因素试验中有无法控制的因素x影响试验的结果Y,且x可以测量、x与Y之间又有显著的线性回归时,常常利用线性回归来矫正Y的观测值、消去x的差异对Y的影响。例如,研究施肥对苹果树产量的影响,由于苹果树的长势不齐,必须消去长势对产量的影响。又如,研究饲料对动物增重的影响,由于动物的初重不同,必须消去初重对增重的影响。,4.协方差分析,这种不是在试验中控制某个因素,而是在试验后对该因素的影响进行估计,并对试验指标的值作出调整的方法称为统计控制,可以作为试验控制的辅助手段。以统计控制为目的,综合线性回归分析与方差分析所得到的统计分析方法,称为协方差分析,所需要统计控制的一个或多个因素,例如苹果树的长势,又如动物的初重等等称为协变量。,4.协方差分析,4.协方差分析,4.协方差分析,4.协方差分析,4.协方差分析,4.协方差分析,dataex;doa=1to3;doi=1to8;inputxy;output;end;end;cards;475458665363465149565666546144505254535364675862596261636364666944524858465450615970576458695366;procglm;classa;modely=xa/solution;lsmeansa/stderrpdiff;run;,4.协方差分析,4.协方差分析,施用三种肥料的产量矫正后有极显著的差异,4.协方差分析,4.协方差分析,4.协方差分析,dataex;doa=1to3;dob=1to5;inputxy;output;end;end;cards;82.85104.24123.00114.94102.88103.14124.5072.75125.84104.06123.88103.8692.82104.9492.89;procglm;classab;modely=xab/solution;lsmeansab/stderrpdiff;run;,4.协方差分析,4.协方差分析,各小区的产量矫正后没有显著的差异,各品种的产量矫正后有极显著的差异。,4.协方差分析,4.协方差分析,4.协方差分析,dataex;doa=1to4;dob=1to2;doi=1to2;inputxy;output;end;end;end;cards;14.697.812.194.219.511.218.8110.11.6100.312.998.518.5119.412.2114.712.899.210.789.612.2122.216.9105.312.0102.112.4103.816.4117.217.2117.9procglm;classab;modely=xaba*b/solution;lsmeansab/stderrpdiff;run;,4.协方差分析,4.协方差分析,A与B的交互作用矫正后不显著,促生长剂之间的差异极显著,试验批次间的差异不显著,4.协方差分析,5.混合线性模型,通过一个例子讲述混合线性模型的使用艾滋病疗法的评价艾滋病是当前人类社会最严重的瘟疫之一,从1981年发现以来的20多年间,它已经吞噬了近3000万人的生命。艾滋病的医学全名为“获得性免疫缺损综合症”,英文简称AIDS,它是由艾滋病毒(医学全名为“人体免疫缺损病毒”,英文简称HIV)引起的。这种病毒破坏人的免疫系统,使人体丧失抵抗各种疾病的能力,从而严重危害人的生命。人类免疫系统的CD4细胞在抵御HIV的入侵中起着重要作用,当CD4被HIV感染而裂解时,其数量会急剧减少,HIV将迅速增加,导致AIDS发作。,艾滋病治疗的目的,是尽量减少人体内HIV的数量,同时产生更多的CD4,至少要有效地降低CD4减少的速度,以提高人体免疫能力。迄今为止人类还没有找到能根治AIDS的疗法,目前的一些AIDS疗法不仅对人体有副作用,而且成本也很高。许多国家和医疗组织都在积极试验、寻找更好的AIDS疗法。,5.混合线性模型,请你完成以下问题:(1)利用附件1的数据,预测继续治疗的效果,或者确定最佳治疗终止时间(继续治疗指在测试终止后继续服药,如果认为继续服药效果不好,则可选择提前终止治疗)。(2)利用附件2的数据,评价4种疗法的优劣(仅以CD4为标准),并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。(3)艾滋病药品的主要供给商对不发达国家提供的药品价格如下:600mgzidovudine1.60美元,400mgdidanosine0.85美元,2.25mgzalcitabine1.85美元,400mgnevirapine1.20美元。如果病人需要考虑4种疗法的费用,对(2)中的评价和预测(或者提前终止)有什么改变。,5.混合线性模型,ID疗法年龄时间Log(CD4count+1)1236.427103.13551236.42717.57143.04451236.427115.57142.77261236.427123.57142.83321236.427132.57143.21891236.4271403.04452447.846703.06812447.846783.89182447.8467163.97032447.8467233.61092447.846730.71433.33222447.8467393.09103160.287503.73774336.596904.11904336.59697.14294.11094336.596916.14294.7095,5.混合线性模型,对4种疗法的疗效评价的分析对题目所给的附件2的数据进行分析可知,决定病人的CD4的浓度的因素有年龄,检查的时刻,治疗方案这三个因素。因此我们将年龄分成5类,检查的时刻分为4个时间段,治疗方案有4种。而问题是以CD4的浓度为标准来评价疗效的优劣,即CD4的浓度越大,那么疗效越好。由于考虑题中所给的样本有6000多个(病人的个数*各个病人检查的次数),因此我们考虑用MIXED(混合线性模型)。下面我们就混合线性模型的原理进行说明。,5.混合线性模型,混合线性模型过程是拟合许多不同数据的混合线性模型,并利用所拟合的模型对数据进行统计推断。首先混合线性模型的主要假设是数据服从正态分布,由于本题所给的数据的样本容量有6000多个,因此,我们可认为它服从正态分布。又由于正态分布的数据可完全有均值和方差确定,因此一个混合线性模型是由两个模型决定的。分别是均值模型和方差模型。MIXED使用约束最大似然的方法来拟合数据的。一旦数据的模型已经建立,我们可以使用该模型通过固定效应参数和协方差参数进行统计推断。用这些统计量可以对模型进行评价。,5.混合线性模型,再者,该分析的重要假设是数据是正态分布的,由于附录2的数据是分类数据。数据出现在类(如可能是同一年龄段中),那可能的情况是来自同一年龄段的这些CD4的值是相关的,不是独立的。鉴于此,由于附录2所给的数据是高度数据(即样本容量很大),那么考虑这种因素是相关。因此我们对这些因素进行相关性建模,我们使用随机效用。在本题中,我们规定年龄、检查时刻为随机效应,即使得具有相同年龄水平或相同检查时刻的水平之间存在共同的相关性,那么,此模型才较为合理。,5.混合线性模型,对4种疗法的疗效模型的建立1)数据的处理a、所有病人的年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论