版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第36卷第2期测绘学报Vol.36,No.22007年5月ACTA GEODAETICA et CARTO GRAPHICA SINICAMay ,2007文章编号:100121595(2007022*中图分类号:P208文献标识码:A基于多属性决策的统计数据分级评价模型江南,白小双,孙娟娟(信息工程大学测绘学院,河南郑州450052Classif ication Evalu ation Model of Statistic Data B ased on MultiattributeDecision 2makingJ IAN G Nan ,BAI Xiao 2shuang ,SUN J uan
2、 2juan(Instit ute of S urveyi ng and M appi ng ,Inf ormation Engi neeri ng U niversity ,Zhengz hou 450052,Chi na Abstract :Since there is great significance of Classification Evaluation Model of Statistic Data in thematic mapping ,GIS space analysis and data mining.This paper analyzes and researches
3、 the existent classification evaluation model ,then a new classification evaluation model of statistic data the classification evaluation model of multiattribute de 2cision 2making is put forward ,based on mathematical statistic and decision 2making theoretics ,choosing the classifica 2tion precisio
4、n ,the quantity of information and classification distance as the attribute ,and working out the value of power with the method of entropy.Finally ,the classification evaluation model of multiattribute decision 2making is presented.The testing system is established in which a lots of data experiment
5、s are conducted.Through experi 2ments ,it proves that the new evaluation model has a great effect on a relatively scientific method selecting quickly classification model for users.K ey w ords :classification evaluation ;multiattribute decision 2making ;classification precision ;information quantity
6、 ;classification distance摘要:通过对已有的专题数据分级评价模型进行分析研究,运用数理统计和决策理论,提出一种新的统计数据分级评价模型多属性决策分级评价模型,即首先,以常用的分级数学模型作为决策方案;然后,选取分级精度、信息量、分级间隔作为方案的属性,用熵法确定各个属性的权重;最后,提出多属性决策分级评价模型,并通过建立的试验系统,进行数据实验。理论分析和实验结果表明,多属性决策分级评价模型具有很好的评价效果,为用户快速选择分级数学模型提供一种新方法。收稿日期:2006209218;修回日期:2007203213作者简介:江南(19642,女,湖南醴陵人,博士生,教授,
7、主要从事电子地图显示和专题地图数据处理等方面的研究。E 2mail :map 关键词:分级评价;多属性决策;分级精度;信息量;分级间隔1引言分级,是简化数据,揭示数据所表达现象发展规律最常用的一种综合研究方法。统计数据分级处理已广泛地应用于专题地图制图,GIS 和数据挖掘的非空间分析的属性数据处理中。目前,在专题地图制图系统和GIS 系统中都包含有数据分级处理的功能模块,该模块包含有几种至十几种分级模型,如,等差分级法、等比分级法、分位数分级法、级数分级法、标准差分级法和最优分割分级法等。它们主要是用于专题要素或属性数据的处理,为制作专题地图和空间分析奠定基础。但是,在使用中都存在如下问题:描
8、述某一现象的同一组数据时,可以用多种分级模型来处理,但一般不知道选用哪一种方法更科学、更符合客观实际、更适应数据的分布特点。特别是对于非专业用户,往往需要将同一数据用多种分级方法进行计算并可视化后,还不能确定选用哪一种分级模型更好一些,这样,既浪费了时间,又不能保证结果的科学合理。究其原因,是因为缺乏科学实用的评价分级模型的方法,这是一个较难解决而又迫切需要解决的问题,它直接影响到研究成果的科学合理性,影响到专题地图制图和GIS空间分析的效率。目前解决的方法有:一是专业人员的参与,根据经验使用某一领域常用的分级模型;二是应用数学的方法研究出能对各种分级模型做出较为正确评判的评价模型,提供给广大
9、的非专业用户使用,供其参考。长期以来,有很多人对分级评价方法进行了研究,主要提出了三种评价模型,分级精度评价模型、分级总体精度评价模型和信息量评价模型。陆效忠提出的分级精度评价模型4,根据各等级内部的一致性,也就是数值估计误差来衡量分级的好坏。孙亚梅、王如云提出的分级总体精度评价模型6,根据各级的内部误差和级别之间的一致性,也就是分级间隔来衡量分级的优劣。信息量评价模型则是根据现代信息论,用熵函数来表示分级产生的信息量大小来进行评价3。根据分析,上述每种评价模型只考虑了影响分级优劣的一种或两种因素,只适合于少数分级模型的评价,因此在实际应用中具有较大的局限性。如分位数分级使信息量最大,而当数据
10、不是均匀分布时,分级精度就不是最高;最优分割分级是使总偏差和达到最小的方法,但它的信息量未必是最大的。本文在分析已有的分级评价模型基础上,运用决策理论和信息论的方法,综合考虑影响分级精度的多种因素,通过探讨属性确定原则和权值计算的方法,提出了一种新的综合分级评价模型多属性决策分级评价模型,并建立了相应的测试系统,进行了大量数据的实验。实验结果表明,多属性决策分级评价模型具有更广泛的适应性和较大的实际应用价值。2多属性决策的基本理论2.1分级方法的决策过程根据决策论的思想,对于某一个问题的解决方案的确定,应该尽量综合考虑多因素才能保证决策的科学性,使得这种方案具有普遍指导意义。所以为了保证分级的
11、整体效果最好,就需要兼顾多个指标,因此本文提出多属性决策分级评价模型。多属性决策就是指对于一个问题,有多个解决方案,每个方案又有多个属性,每个属性都有一定的权重,符合归一化条件,决策的目的就是找出这些方案中最满意的一个。决策的过程是人们为实现一定的目标而制订方案,并准备实施的活动,这个过程是一个提出问题、分析问题、解决问题的过程。对一组数据的分级处理方法有很多,到底选用哪一种方法更适合这组数据呢?这就是一个决策的过程。目标就是对于一组数据能够快速确定出最合适的分级方法,而不必逐个分级模型都去尝试。在对分级方法进行评价的决策过程中,各个分级模型就是已知的方案,对各方案进行评价,根据对结果的分析、
12、绘图,即实施方案,从实际情况出发观察分级方法是否合理,这就是整个决策过程。如果有一种较为科学的评价模型,就能快速地做出判断,提高数据处理的速度和智能化程度,这也是目前各种制图系统和GIS系统中数据处理的发展趋势。2.2多属性决策多属性决策是指给定一组可能的方案A1, A2,A m,伴随每个方案的n个属性记为C1, C2,C n,各属性的重要程度用1,2,n表示,符合归一化条件ni=1i=1,决策的目的是要找出A1,A2,A m中最满意的方案A max。多属性决策问题可表示成矩阵形式:D=x11 (x1 nx m1x m m,其中,x ij表示第i个方案对应的第j个属性的权值5。多属性决策评价模
13、型建立的关键是属性的确定和权重的确定。3多属性决策分级评价模型的建立3.1属性的确定我们知道影响分级界线确定的因素有很多,如保持数据的分布特征;任何一个等级内部必须有数据,任何一个数据必须有相应的等级;另外还有地图用途、可视化的要求、信息量、分级精度和分级间隔等。根据多属性决策的基本理论,作为多属性决策分级评价模型的属性,应该满足如下三个条件:1.该属性应为影响确定分级界线的主要因素;2.各属性之间应互不相关,反映目标的不同方面;3.应选择易定量化的因素作为属性。991第2期江南等:基于多属性决策的统计数据分级评价模型根据上述原则,选择加权总偏差分级精度、分级间隔和信息量作为多属性决策的属性。
14、加权总偏差分级精度:A CU 2(N ,K =1-Kj =11X jij +1-1=i j|X -X j |1X N=1|X -X |(1分级间隔:DIS TA N CE =(K (2信息量:H =-Ki =1p ilogp i (3其中,K 表示分级数,N 表示数据个数,X j 表示第j 级数据的平均值,X 表示所有数据的平均值,表示数据的最大值与最小值之差,(K 表示各级数据的最大值与下一级最小值之差的绝对值的和,p i 表示第i 级频率。3.2权重的确定属性确定后,就要考虑如何确定各属性的权重,这是重点所在。根据信息论中的熵法来确定权重,表明各指标对每种分级模型的重要程度。在决策论中,权
15、重的确定方法有四种,在已知决策矩阵的情况下,应采用熵法确定权重,那么,什么是熵函数呢?熵函数是衡量事件不肯定程度的数学表达式,发生概率小的事件,不肯定程度就越大,发生概率大的事件,不肯定程度就越小,小概率事件发生了,信息量就越大。设事件X =x 1x 2x np 1p 2p n,则有熵函数S (p 1,p 2,p n =-nj =1p jlog 2pj,式中n 是一个正的常数,p i 是事件x i 发生的概率。性质1:熵函数的最大值即当p 1=p 2=p n =1n时,S (p 1,p 2,p n =log 2n 达到最大值。也就是说,当p i 的值越“集中”,则S (p 1,p 2,p n
16、的值越大。性质2:熵函数与权重成反比在含有m 个方案和n 个属性的决策矩阵D中,定义x ij 出现的概率为p ij =x ijm i =1xij,i ,j(4则属性j 的熵E j 的计算式为E j =-mi =1pij log 2p ij ,j(5就某一属性来说,如果不同策略在这一属性上的表现相当接近,则各个策略在这一属性上所占的比率p ij 越集中,由性质1知,此时熵E j 较大;而对决策论来说,当每个策略在这一属性上的值“相同”时,该属性的作用便不太突出,即所对应的权重就越小;反之,若属性指标间的差异越大,即p ij 越分散,熵E j 越小时,该属性也就显得越重要,对应的值越大。已知权重须
17、满足0i 1及ni =1i=1,由性质2知,权重j 与熵E j 的关系是成反比的,故令j =1-E jlog 2mnj =11-E jlog 2mj (6这样就可以求得任意属性的相对重要程度。若决策者主观上对属性j 已经有一个先验的权重0j ,则可以将二者结合起来形成一个新的权重j =0j jn j =10jj(73.3多属性决策分级评价模型确定了权重后,以加权和函数作为评价函数,就可以建立起多属性决策分级评价模型,目标是函数值越大,则对应的分级模型越合理。多属性决策分级评价模型就是将各种分级方法作为决策方案,各个评价指标作为方案的属性,用熵法确定各个属性的权重,以加权和作为评价公式(8。A
18、i =1A CU 2+2DIS T A NCE +3H (8其中,1,2,3分别为各评价指标A CU 2,DIS TA N 2CE ,H 的权重,则A i 越大,表明第i 个分级模型越好。其应用步骤为:1.先针对每一种分级模型计算出分级精度,分级间隔,信息量,构造决策矩阵D ;2.用熵法确定各个属性的权重1,2,3;3.计算出每个分级模型的A i ;4.比较A i 值,找出相应的第i 个分级模型;5.用第i 个分级模型对原始数据进行分级处理。002测绘学报第36卷4实验与分析从理论上来讲,多属性决策分级评价模型是一个更科学、更合理的评价模型。为了检验它的实用性,我们还设计了分级评价模型试验系统
19、,该系统具有数据调用、精度选择、分级处理、 模型评价和专题地图绘制的功能。选取常用的六种分级数学模型3,即等差分级法、等比分级法、分位数分级法 、级数分级法、标准差分级法和最优分割分级法作为决策评价方案,利用该系统进行了大量的数据实验。通过实例来检验多属性决策分级评价模型的科学性和合理性。实验一:选用了十组具有明显分级界线的数据进行试验。表1是其中的一组数据,从图1中可以明显地看出其分级结果应为5,6,3,7,5(每级数据个数。同时采用六种分级数学模型计算出分级结果,从图2中,也可以看出理论上最优分割分级的结果与图1分析的一致,说明该组数据的最佳分级方案是最优分割分级法。表1具有明显分级界线的
20、数据T ab.1The d ata of h aving distinctive classif ication conf ines 序号数据序号数据序号数据序号数据135.12872.3815136.0122160.31235.31972.3916136.3423160.53335.491072.6217136. 4324160.62435.831172.9418136.4325160.80535.891290.3019136.5826160.97672.031390.4820136.80772.341490.5421136.89图1数据分布散点图Fig.1The spot picture
21、of data distributing图2分级结果Fig.2The result of classification下面运用多属性决策分级评价模型,根据上述步骤,对该组数据进行实验:第一步:按照式(1式(3计算出六种分级模型分别对应的属性值,构成决策矩阵DD =0.9038461.147721.261460.9038461.073581.261460.7389370.1428681.598840.9038461.073581.261460.6571271.046641.283430.9928710.9725071.57494第二步:按照式(4式(6计算出权重1,2,3,有1=0.0782=0
22、.8733=0.049第三步:按照式(8计算出各个分级模型的评价结果,即A i 值,见表2。表2评价结果T ab.2The result of evalu ation 等差分级A 1等比分级A 2分位数分级A 3级数分级A 4标准差分级A 5最优分割分级A 6多属性决策评价结果1.0691.0650.935 1.0650.852 1.193第四步:比较表2中的A i 值,可以看出最优分割分级对应的A i 值最大,故评价结果为最优分割分级为最佳分级方法。对于该组数据,多属性决策分级评价结果认为,最优分割分级是最佳分级方案,这与理论上的分级结果一致。可见,该实验从理论上证明,多属102第2期江南等
23、:基于多属性决策的统计数据分级评价模型性决策分级评价的结果具有很高的可信度。实验二:选用河南省2005年各市文盲人口占总人口比重数据(如表3进行试验。表3河南省2005年各市文盲人口占总人口比重T ab.3The proportion of illiteracy population occupying Total from cities of H enan province in2005地名百分比地名百分比地名百分比安阳市 4.74焦作市 4.72周口市7.19漯河市8.53洛阳市 4.11商丘市7.39鹤壁市 6.06三门峡 1.69平顶山7.18新乡市 5.21南阳市 3.86济源市 3
24、.40许昌市 6.91信阳市9.09濮阳市 5.95开封市7.56驻马店 5.58郑州市 3.69首先,利用多属性决策分级评价模型,同上述实验一的计算步骤,计算出各个分级模型对应的A i值,如表4所示。表4评价结果T ab.4The result of evalu ation等差分级A1等比分级A2分位数分级A3级数分级A4标准差分级A5最优分割分级A6多属性决策评价结果1.0320.9280.9210.9280.9211.004从表4的数据中,可以看出,等差分级法的A i 值最大。根据多属性决策分级评价模型的基本原理,等差分级法是最适合此组数据的分级方法。然后,利用等差分级法进行分级,得到分
25、级结果表5,并采用等值区域法制作出专题地图(图3。该图反映的情况与实际的情况基本符合。表5分级结果T ab.5The result of classif ication等差分级城市名称0.69-3.17三门峡3.17-4.65郑州、洛阳、南阳、济源4.65-6.13焦作、新乡、鹤壁、安阳、濮阳、驻马店6.13-7.61开封、 许昌、平顶山、周口、商丘、7.61-9.1漯河、信阳通过上述实验,可以证明多属性决策分级评价模型具有较好的适应性和实际应用价值。5结论通过对已有的分级评价模型进行分析,运用数理统计和决策理论提出了一种新的数据分级评价模型多属性决策分级评价模型,并进行了大量数据的试验,得出
26、了比较好的实验结果。多属性决策分级评价模型能从定量的角度,对同一数据采用的不同分级数学模型做出科学评价,为合理、快速选用分级数学模型提供了较为科学的参考依据,这对于统计数据的智能化处理具有重要的理论意义和较大的实际应用价值。本方法可应用于专题地图制图系统、GIS中的数据处理模块中,并将在数据挖掘等领域中得到应用。图3专题地图Fig.3Thematic map参考文献:1W ANG Jia2yao,Z OU Jian2hua.Map Data Processing M odelingMethodM.Beijing:The PLA Press,1992.(王家耀,邹建华.地图制图数据处理模型方法M.北京:解放军出版社,1992. 2ZHANG K e2quan,GUO Ren2zhong.Thematic Mapping Mathe2matics ModelM.Beijing:Publishing H ouse of S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026预制菜行业标准化建设及消费习惯研究报告
- 2026零信任安全架构在企业数字化转型中的应用实践研究报告
- 2026年天津滨海职业学院单招职业技能考试题库及参考答案详解一套
- 2026镍基电池材料技术路线与市场前景预测报告
- 高速公路施工护栏质量验收标准
- 2026锂电池回收行业技术路线选择与环境效益评估分析研究报告
- 2026铜合金材料行业市场发展分析及发展趋势与管理策略研究报告
- 2026年培训学校培训合同(1篇)
- 2026年天津职业大学单招综合素质考试题库附参考答案详解(巩固)
- 人力资源管理制度优化方案
- 光伏发电工程建设标准工艺手册(2023版)
- 职业技术学校兽医临床诊疗技术教案
- MOOC 颈肩腰腿痛中医防治-暨南大学 中国大学慕课答案
- TCPA 005-2024 星级品质 婴儿纸尿裤
- 桩基承载力优化设计研究
- DJ公主岗位职责
- 多联机安装全过程经典技术指导手册
- 龙虎山正一日诵早晚课
- 排球基础理论 【核心知识精讲精析】 高一上学期体育与健康人教版必修第一册
- 医院课件:《规范医疗服务收费行为培训》
- 煤矿掘进顶板管理
评论
0/150
提交评论