数据处理与数据建模方法_第1页
数据处理与数据建模方法_第2页
数据处理与数据建模方法_第3页
数据处理与数据建模方法_第4页
数据处理与数据建模方法_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2 实际中大量信息或海量信息对应着大量的数据实际中大量信息或海量信息对应着大量的数据或海量数据,从这些数据中寻求所需要的问题答案或海量数据,从这些数据中寻求所需要的问题答案-数据建模问题数据建模问题。 通过实际对象过去或当前的相关信息,主要研通过实际对象过去或当前的相关信息,主要研究究两个方面问题:两个方面问题: (1 1)分析研究实际对象所处的状态和特征等,)分析研究实际对象所处的状态和特征等,依此做出评价和决策;依此做出评价和决策; (2 2)分析预测实际对象未来的变化状况和趋势)分析预测实际对象未来的变化状况和趋势等,为科学决策提供依据。等,为科学决策提供依据。 数据处理与数据建模方法数

2、据处理与数据建模方法3 数据处理与数据建模方法数据处理与数据建模方法 1. 一般数据建模问题的提出一般数据建模问题的提出 2. 数据处理的一般方法数据处理的一般方法 3. 数据建模的综合评价方法数据建模的综合评价方法 4. 数据建模的动态加权方法数据建模的动态加权方法 . 数据建模的综合排序方法数据建模的综合排序方法 . 数据建模的预测方法数据建模的预测方法 4实际对象都客观存在一些相关的数据信息;实际对象都客观存在一些相关的数据信息;如何综合利用这些相关信息给出综合评价结果如何综合利用这些相关信息给出综合评价结果、制定决策方案,或预测未来?、制定决策方案,或预测未来?这类问题都归结为这类问题

3、都归结为信息综合利用与评价问题信息综合利用与评价问题。 一般问题:一般问题:什么是综合评价与综合评价问题呢?什么是综合评价与综合评价问题呢? 一、一般数据建模问题的提出一、一般数据建模问题的提出5 依据相关信息对被评价的对象依据相关信息对被评价的对象所进行的客观、公正、合理的全面评价。所进行的客观、公正、合理的全面评价。 如果把被评价对象视为系统,则综合评如果把被评价对象视为系统,则综合评价问题:在若干个价问题:在若干个(同类同类)系统中,如何确定系统中,如何确定哪个系统的运行哪个系统的运行(或发展或发展)状况好,哪个状况状况好,哪个状况差?即哪个优,哪个劣?差?即哪个优,哪个劣? 一类多属性

4、一类多属性(或多指标或多指标)的的综合评价问题综合评价问题。综合评价:综合评价: 一、一般数据建模问题的提出一、一般数据建模问题的提出6 综合评价是综合评价是科学、合理决策的前提科学、合理决策的前提。 综合评价的基础是综合评价的基础是信息的综合利用信息的综合利用。 综合评价的过程是综合评价的过程是数据建模的过程数据建模的过程。 数据建模的基础是数据建模的基础是数据的标准化处理数据的标准化处理。 一、一般数据建模问题的提出一、一般数据建模问题的提出如何构成一个综合评价问题呢?如何构成一个综合评价问题呢?7综合评价问题的综合评价问题的五个要素五个要素: 一、一般数据建模问题的提出一、一般数据建模问

5、题的提出8 (2 2)评价指标)评价指标 它是反映被评价对象它是反映被评价对象( (系统系统) )的运行状况的基本要素。的运行状况的基本要素。 通常问题都有多项指标构成,每一项指标都是从通常问题都有多项指标构成,每一项指标都是从不同的侧面刻画系统所具有某种特征大小的一个度量。不同的侧面刻画系统所具有某种特征大小的一个度量。 所有的评价指标一起称为所有的评价指标一起称为综合评价的指标体系综合评价的指标体系。 原则原则: :系统性、科学性、可比性、可测性和独立性。系统性、科学性、可比性、可测性和独立性。 综合评价问题的五个要素综合评价问题的五个要素 9综合评价问题的五个要素综合评价问题的五个要素

6、(3 3)权重系数)权重系数 针对每一综合评价问题不同的评价目的,针对每一综合评价问题不同的评价目的,各评价指标之间的相对重要性是不同的。各评价指标之间的相对重要性是不同的。 权重系数权重系数: :用来刻画评价指标之间相对重用来刻画评价指标之间相对重要性的大小。要性的大小。10综合评价问题的五个要素综合评价问题的五个要素 (4 4)综合评价模型)综合评价模型 通过建立合适的综合评价数学模型将多通过建立合适的综合评价数学模型将多个评价指标综合成为一个整体的综合评价指个评价指标综合成为一个整体的综合评价指标,即得到相应的综合评价结果。标,即得到相应的综合评价结果。11综合评价问题的五个要素综合评价

7、问题的五个要素 (5 5)评价者)评价者 评价者是直接参与评价的人,可以是某一评价者是直接参与评价的人,可以是某一个人,也可以是一个团体。个人,也可以是一个团体。 对于评价目的选择、评价指标体系确定、对于评价目的选择、评价指标体系确定、权重系数的确定和评价模型的建立都与评价者权重系数的确定和评价模型的建立都与评价者有关。有关。 12 确定指标 初始值 计算综合 评价指标 对nsss,21进行综合评价 排 序 或分类 ? 明 任 确 务 明 目 确 的 确定评价指标 规范化指标mxxx,21 指 预 标 处 的 理 权 重 系 数mwww,21 确 系 定 数 权 综合评价指标),( wxfy

8、选 价 择 模 评 型 依 指 标nyyy,21对nsss,21排序或分类 综合评价过程的流程综合评价过程的流程13 二、数据处理的一般方法二、数据处理的一般方法 1. 数据类型的一致化处理方法数据类型的一致化处理方法 极大型极大型: :期望取值越大越好;期望取值越大越好; 极小型极小型: :期望取值越小越好;期望取值越小越好; 中间型中间型: :期望取值既不要太大,也不要期望取值既不要太大,也不要太小为好,即取适当的中间值为最好太小为好,即取适当的中间值为最好; ; 区间型区间型: :期望取值最好是落在某一个确期望取值最好是落在某一个确定的区间内为最好。定的区间内为最好。 什么是一什么是一致

9、化处理致化处理?为什么要为什么要一致化一致化?14 二、数据处理的一般方法二、数据处理的一般方法 1. 数据类型的一致化处理方法数据类型的一致化处理方法 15 二、数据处理的一般方法二、数据处理的一般方法 1. 数据类型的一致化处理方法数据类型的一致化处理方法 16 2. 数据指标的无量纲化处理方法数据指标的无量纲化处理方法 常用方法常用方法: 标准差法、极值差法和功效系数法等。标准差法、极值差法和功效系数法等。 二、数据处理的一般方法二、数据处理的一般方法17 二、数据处理的一般方法二、数据处理的一般方法 2. 数据指标的无量纲化处理方法数据指标的无量纲化处理方法 (1) 标准差方法标准差方

10、法 18 二、数据处理的一般方法二、数据处理的一般方法 2. 数据指标的无量纲化处理方法数据指标的无量纲化处理方法 (2) 极值差方法极值差方法 19 二、数据处理的一般方法二、数据处理的一般方法 2. 数据指标的无量纲化处理方法数据指标的无量纲化处理方法 () 功效系数方法功效系数方法 20 二、数据处理的一般方法二、数据处理的一般方法 3. 定性定性指标的量化处理方法指标的量化处理方法 在社会实践中,很多问题都涉及到定性因在社会实践中,很多问题都涉及到定性因素素( (指标指标) )的定量处理问题。的定量处理问题。 诸如诸如: :教学质量、科研水平、工作政绩、人教学质量、科研水平、工作政绩、

11、人员素质、各种满意度、信誉、态度、意识、观员素质、各种满意度、信誉、态度、意识、观念、能力等因素有关的政治、社会、人文等领念、能力等因素有关的政治、社会、人文等领域的问题。域的问题。 如何对有关问题给出定量分析呢?如何对有关问题给出定量分析呢?21按国家的评价标准按国家的评价标准, ,评价因素一般分为五个等评价因素一般分为五个等级,如级,如A A,B B,C C,D D,E E。 如何将其量化?若如何将其量化?若A A- -,B B+ +,C C- -,D D+ +等又如何合等又如何合理量化?理量化? 简单地对应数字分量化方法是不科学的!简单地对应数字分量化方法是不科学的! 根据实际问题,构造

12、模糊隶属函数的量化方根据实际问题,构造模糊隶属函数的量化方法是一种可行有效的方法。法是一种可行有效的方法。 二、数据处理的一般方法二、数据处理的一般方法 3. 定性定性指标的量化处理方法指标的量化处理方法 22假设有多个评价人对某项因素评价为假设有多个评价人对某项因素评价为A A,B B,C C,D,ED,E共共5 5个等级个等级: v1 ,v2 ,v3 ,v4,v5。 譬如:评价人对某事件譬如:评价人对某事件“满意度满意度”的评价可分为的评价可分为 很满意,满意,较满意,不太满意,很不满意很满意,满意,较满意,不太满意,很不满意 将其将其5 5个等级依次对应为个等级依次对应为5 5,4 4,

13、3 3,2 2,1 1。 为取连续量化,取偏大型柯西分布和对数函数为取连续量化,取偏大型柯西分布和对数函数作为隶属函数:作为隶属函数: 二、数据处理的一般方法二、数据处理的一般方法23 二、数据处理的一般方法二、数据处理的一般方法 3. 定性定性指标的量化处理方法指标的量化处理方法 24 二、数据处理的一般方法二、数据处理的一般方法 3. 定性定性指标的量化处理方法指标的量化处理方法 根据这个规根据这个规律,对于任何一律,对于任何一个评价值,都可个评价值,都可以给出一个合适以给出一个合适的量化值。的量化值。 根据实际情根据实际情况也可构造其他况也可构造其他的隶属函数。的隶属函数。25 三、数据

14、建模的综合评价方法三、数据建模的综合评价方法 适用条件适用条件: :各评价指标之间相互独立。各评价指标之间相互独立。 对不完全独立的情况,其结果将导致各指标间对不完全独立的情况,其结果将导致各指标间信息的重复,使评价结果不能客观地反映实际。信息的重复,使评价结果不能客观地反映实际。 1. 线性加权综合法线性加权综合法 主要特点:主要特点: (1 1)各评价指标间作用得到线性补偿;)各评价指标间作用得到线性补偿; (2 2)权重系数的对评价结果的影响明显。)权重系数的对评价结果的影响明显。26 2. 非非线性加权综合法线性加权综合法 三、数据建模的综合评价方法三、数据建模的综合评价方法主要特点:

15、主要特点:(1 1)突出了各指标值的一致性,即平衡评价指标值)突出了各指标值的一致性,即平衡评价指标值较小的指标影响的作用;较小的指标影响的作用;(2 2)权重系数大小的影响不是特别明显,而对指标)权重系数大小的影响不是特别明显,而对指标值的大小差异相对较敏感。值的大小差异相对较敏感。27 三、数据建模的综合评价方法三、数据建模的综合评价方法 3. 逼近理想点(逼近理想点(TOPSISTOPSIS)方法方法 28三、数据建模的综合评价方法三、数据建模的综合评价方法4. 其他综合评价法其他综合评价法 l 因子分析因子分析l 聚类分析聚类分析l 模糊评价模糊评价l 层次分析法等层次分析法等29 四

16、、数据建模的动态加权方法四、数据建模的动态加权方法 1. 动态加权问题的一般提法动态加权问题的一般提法 问题问题: :如何对如何对n个系统做出综合评价呢个系统做出综合评价呢? ?30 四、数据建模的动态加权方法四、数据建模的动态加权方法 20052005年中国大学生数学建模竞赛的年中国大学生数学建模竞赛的A A题:题:“长江水质的评长江水质的评价和预测价和预测”问题的第一部份给出了问题的第一部份给出了1717个观测站(城市)的最个观测站(城市)的最近近2828个月的实际检测指标数据,包括反映水质污染程度的最个月的实际检测指标数据,包括反映水质污染程度的最主要的四项指标:溶解氧(主要的四项指标:

17、溶解氧(DODO)、)、高锰酸盐指数(高锰酸盐指数(CODMnCODMn)、)、氨氮氨氮(NH3-N) (NH3-N) 和和PHPH值,要求综合这四种污染指标的值,要求综合这四种污染指标的2828个月的个月的检测数据对检测数据对1717个城市的水质情况做出综合评价。个城市的水质情况做出综合评价。表表(1): 地地表表水水环环境境质质量量标标准准 (G GB B3 38 83 38 82 20 00 02 2)中中 4个个主主要要项项目目标标准准限限值值 单单位位:mg/L 指指 标标 类类 类类 类类 类类 类类 劣劣类类 溶溶解解氧氧( (DO) 7.5,) 6,7.5) 5,6) 3,5)

18、 2,3) 0,2 高高锰锰酸酸盐盐指指数数( (C CO OD DM Mn n) ) (0,2 (2,4 (4,6 (6,10 (10,15 (15, ) 氨氨氮氮(N NH H3 3- -N N) (0,0.15 (0.15,0.5 (0.5,1 (1,1.5 (1.5,2 (2, ) P PH H 值值(无无量量纲纲) 6 , 9 31 四、数据建模的动态加权方法四、数据建模的动态加权方法 根据国标(根据国标(GB 3838GB 383820022002)的规定,关于地表水的水的规定,关于地表水的水质可分为质可分为类、类、类、类、类、类、类、类、类、劣类、劣类共六个类类共六个类别,每一个

19、类别对每一项指标都有相应的标准值(区间),别,每一个类别对每一项指标都有相应的标准值(区间),只要有一项指标达到高类别的标准就算是高类别的水质,所只要有一项指标达到高类别的标准就算是高类别的水质,所以实际中以实际中不同类别的水质有很大的差别不同类别的水质有很大的差别,而且,而且同一类别的水同一类别的水在污染物的含量上也有一定的差别在污染物的含量上也有一定的差别。 在对在对1717个城市的水质做综合评价时,要充分考虑这些指个城市的水质做综合评价时,要充分考虑这些指标值不同类别水的标值不同类别水的“质的差异质的差异”和同类别水的和同类别水的“量的差异量的差异”, ,在此简称为在此简称为“质差质差”

20、和和“量差量差”。因此,这是一个较复。因此,这是一个较复杂的多因素多属性的综合评价问题。杂的多因素多属性的综合评价问题。 32 四、数据建模的动态加权方法四、数据建模的动态加权方法针针对对长长江江水水质质的的综综合合评评价价这这一一问问题题,采采用用动动态态加加权权综综合合评评价价方方法法来来解解决决。假假设设1 17 7个个城城市市为为被被评评价价对对象象1217,S SS,共共有有四四项项评评价价指指标标(或或属属性性)D DO O、C CO OD DM Mn n、N NH H3 3- -N N 和和P PH H值值,分分别别记记为为321,xxx和和4x,前前三三项项指指标标都都有有 6

21、 6 个个等等级级126,p pp,相相应应的的分分类类区区间间值值如如表表(1 1)所所示示,而而P PH H值值没没有有等等级级之之分分。 33 四、数据建模的动态加权方法四、数据建模的动态加权方法 注意注意: 问题对于每一个属性而言,既有问题对于每一个属性而言,既有不同类别不同类别的差异,同类别的又有的差异,同类别的又有不同量值不同量值的差异。的差异。 对于这种既有对于这种既有“质差质差”,又有,又有“量差量差”的问题,合理有效的方法是的问题,合理有效的方法是动态加权综合动态加权综合评价方法评价方法。 1. 动态加权问题的一般提法动态加权问题的一般提法 34 四、数据建模的动态加权方法四

22、、数据建模的动态加权方法 考虑到评价指标的考虑到评价指标的“质差质差”与与“量差量差”,既要能体现不同类型指标之间的差异,也既要能体现不同类型指标之间的差异,也要能体现同类型指标的数量差异。要能体现同类型指标的数量差异。 具体取什么样的具体取什么样的动态加权函数动态加权函数,主要是,主要是从实际问题出发分析确定。从实际问题出发分析确定。 对于不同的指标可以取相同的权函数,对于不同的指标可以取相同的权函数,也可以取不同的权函数。也可以取不同的权函数。 2. 动态加权函数的设定动态加权函数的设定 35 四、数据建模的动态加权方法四、数据建模的动态加权方法2. 动态加权函数的设定动态加权函数的设定

23、36 四、数据建模的动态加权方法四、数据建模的动态加权方法2. 动态加权函数的设定动态加权函数的设定 37返回 四、数据建模的动态加权方法四、数据建模的动态加权方法2. 动态加权函数的设定动态加权函数的设定 38 四、数据建模的动态加权方法四、数据建模的动态加权方法3. 动态加权的综合评价模型动态加权的综合评价模型 39 五、数据建模的综合排序方法五、数据建模的综合排序方法 1. 综合排序问题的一般提法综合排序问题的一般提法 问题问题: :如何给出如何给出n个系统的最终排序结果呢个系统的最终排序结果呢? ?40 五、数据建模的综合排序方法五、数据建模的综合排序方法 2. 综合排序问题的方法综合

24、排序问题的方法 41 1. 指标数据的标准化处理指标数据的标准化处理(1)溶溶解解氧氧(DO)的的标标准准化化 注注意意到到溶溶解解氧氧(D DO O)为为极极大大型型指指标标,首首先先将将数数据据指指标标作作极极小小化化处处理理,即即令令倒倒数数变变换换111xx ,相相应应的的分分类类标标准准区区间间变变为为 1111 11 11 11(0,(, ,( , ,( , ,( , ,( , )7.57.5 66 55 33 22, 然然后后通通过过极极差差变变换换5 . 011xx 将将其其数数据据标标准准化化,对对应应的的分分类类区区间间随随之之变变为为 (0,0.2667,(0.2667,

25、0.3333,(0.3333,0.4,(0.4,0.6667,(0.6667,1,(1, ) 42 1. 指标数据的标准化处理指标数据的标准化处理()高高锰锰酸酸盐盐指指数数(CODMn)的的标标准准化化 高高猛猛酸酸盐盐指指数数本本身身就就是是极极小小型型指指标标,即即由由极极差差变变换换将将其其数数据据标标准准化化, 即即令令1522xx , , 对对应应的的分分类类区区间间随随之之变变为为 (0,0.1333,(0.1333,0.2667,(0.2667,0.4,(0.4,0.6667,(0.6667,1,(1, ) ()氨氨氮氮(NH3-N)的的标标准准化化 氨氨氮氮也也是是极极小小型

26、型指指标标, 对对指指标标数数据据作作极极差差变变换换将将其其数数据据标标准准化化,即即令令233xx ,对对应应的的分分类类区区间间随随之之变变为为 (0,0.075,(0.075,0.25,(0.25,0.5,(0.5,0.75,(0.75,1,(1,) 43 1. 指标数据的标准化处理指标数据的标准化处理()PH值值的的处处理理 酸酸碱碱度度(P PH H 值值)的的大大小小反反映映出出水水质质呈呈酸酸碱碱性性的的程程度度,通通常常的的水水生生物物都都适适应应于于中中性性水水质质, 即即酸酸碱碱度度的的平平衡衡值值 (P PH H值值略略大大于于) , 在在这这里里不不妨妨取取正正常常值

27、值的的中中值值7 7. .5 5。 当当P PH H 7 7. .5 5 时时偏偏酸酸性性,而而偏偏离离值值越越大大水水质质就就越越坏坏,P PH H 值值属属于于中中间间型型指指标标。为为此此,对对所所有有的的P PH H 值值指指标标数数据据作作均均值值差差处处理理,即即令令 5 . 7325 . 15 . 7444xxx, 则则将将其其数数据据标标准准化化。 44 2. 动态加权函数的确定动态加权函数的确定 根根据据对对这这一一实实际际问问题题的的分分析析,不不妨妨取取动动态态加加权权函函数数为为偏偏大大型型正正态态分分布布函函数数,即即 20 ,( )1,iiixiixw xex 当时

28、,当时, 其其中中i在在这这里里取取指指标标ix的的类类水水标标准准区区间间的的中中值值,即即( )( )11()/2iiiba,i由由) 3 , 2 , 1( 9 . 0)()(4iawii确确定定。 由由实实际际数数据据经经计计算算可可得得0375. 0,0667. 0,1333. 0321,,2197. 0,1757. 021 3048. 03, 则则代代入入上上式式可可以以得得到到D DO O、 C CO OD DM Mn n和和N NH H3 3- -N N三三项项指指标标的的动动态态加加权权函函数数。 45 3.综合评价指标函数的确定综合评价指标函数的确定 考考虑虑到到对对实实际际

29、评评价价效效果果影影响响差差异异较较大大的的是是前前三三项项指指标标,以以及及指指标标P PH H值值的的特特殊殊性性,这这里里取取前前三三项项指指标标的的综综合合影影响响权权值值为为0 0. .8 8,而而P PH H 值值的的影影响响权权值值取取0 0. .2 2。因因此此,根根据据综综合合评评价价模模型型,某某城城市市某某一一时时间间的的水水质质综综合合评评价价指指标标定定义义为为 4312 . 0)(8 . 0 xxxwXiiii。 根根据据1 17 7 个个城城市市的的2 28 8 组组实实际际检检测测数数据据,经经计计算算可可得得各各城城市市的的水水质质综综合合评评价价指指标标值值

30、,即即可可得得到到一一个个17 28阶阶的的综综合合评评价价矩矩阵阵17 28()ijX。 46 4.各城市水质的综合评价各城市水质的综合评价 由由 1717 个城市个城市 2828 个月的水质综合评价指标个月的水质综合评价指标(1,2,17;ijXi 1,2,28)j ,根据其大小(即污染的程度)进行排序,数值越,根据其大小(即污染的程度)进行排序,数值越大说明水质越差。由此可得反映大说明水质越差。由此可得反映 1717 个城市水质污染程度的个城市水质污染程度的 2828 个排个排序结果, 根据序结果, 根据BordaBorda数的计算方法则得到第数的计算方法则得到第i个城市个城市( (被评价对象被评价对象) )iS的的 BordaBorda 数为数为 281()() (1,2,17)ijijB SB Si。 经计算可得到各城市的经计算可得到各城市的 BordaBorda 数及总排序结果如表数及总排序结果如表(2)(2)所示。所示。 表表( (2 2) ):按按各各城城市市的的水水质质污污染染总总排排序序结结果果 城市 排序 1S 2S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论