



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据规格化处理在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小最大标准化”、“Z-score标准化”和“按小数定标标准化”等。 min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间0,1中的值x,其公式为: 新数据=(原数据-极小值)/(极大值-极小值) 二、z-score 标准化 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x。z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。 新数据=(原数据-均值)/标准差2、属性约简属性约简是粗糙集知识发现的核心内容之一,它描述了信息系统属性集中的每个属性是否都是必要的以及如何删除不必要的知识,从而减少数据挖掘要处理的信息量,提高数据挖掘的效率。目前,求解约简的算法主要有两种:一种是基于差别矩阵的算法,另一种是基于属性重要性的算法。采用分辨矩阵和逻辑运算相结合的方法求解属性约简集和核,需要浪费大量的存储空间。算法是从属性集中逐渐删除重要度较小的属性而得到约简,但只能依次从最小重要度的属性删除,判断,再删除,再判断,计算复杂度高。文献设计了基于属性重要性的逐步约简算法, 利用在决策系统中已获得的正区域逐步缩小数据处理范围。本文的主要思想是:通过计算单个属性的重要性,取重要性大于零的属性作为核,然后以核为基础计算条件属性集中除核以外其他属性的重要性,取重要性最大的属性加入到核集中形成新的集合RED,再以RED 为基础依次循环下去直至剩下所有属性的重要性都为零,得出的集合REDn即为属性约简。1 基本概念一个信息系统S,表示为S = (U, A,V, f ),其中1 2 , ,., n U = X X X 是论域;A 是属性集合; a V = v ,a A, a v 表示属性的值域; f =U AV 是一个信息函数,它对一个对象的每一个属性赋予一个信息值,即xU,a A有( , ) a f x a v 。3、评价、决策方案、权重计算参照国家大气环境质量标准(GB3095-82) 和有关规定, 选取二氧化硫SO2 (mg/ m3 ) 、氮氧化物NOx( mg/ m3 ) 、总悬浮物TSP(mg/ m3) 和飘尘( 吨/ 千米2月) 这4 项为空气污染状况评价指标(m= 4) , 空气质量分为级( c= 5) , 组成空气质量评价标准值矩阵某市区19851989 年度的空气质量状况构成评价样本集( n= 5) , 5 年的4 项空气污染指标监测值的年统计平均值组成实测值矩阵式中yih 0, 表示空气质量评价标准中各项指标的各级标准值; xij 0, 表示评价本集的各项空气污染指标监测值。i= 1, 2, , m; j = 1, 2, n; h= 1, 2, , c。空气质量评价是分析空气污染程度的过程,而“污染”属于模糊概念, 可用模糊集合论中的隶属度来描述。由于分级数越大时表明空气质量越差, 则第i 项空气污染指标的第h 级标准值yih对于模糊子集“污染”的指标隶属度sih可按线性内插公式来确定sih = yih - yilyic - yil显然有0sih1。由上式可将评价标准值矩阵Y 变换为空气质量标准值模糊矩阵由于4 项污染指标均是实测值越大表明空气污染越严重, 可根据下式rij = xij - yilyic - yil将各污染指标实测值xij 规格化为指标隶属度rij ,从而将空气质量实测值矩阵X 变换为空气质量实测值模糊矩阵评价时常要考虑污染指标的重要性权重。从毒理学角度分析, 4 项空气污染指标的危害性差别并不很大, 而且在空气质量分级标准中各污染指标对环境的危害程度已有所体现。如浓度同样是0. 15mg/ m3 , 对于T SP, 根据分级标准其属于级即清洁; 而对于SO2 和NOx , 则分别判其属于级和级标准。因此此例中可取各污染指标由空气质量实测值模糊矩阵R, 第j 个样本可用向量表示为rj = ( r 1j , r 2j , , rmj ) T根据模糊集理论中权距离的概念, 第j 个样本与评价标准的第h 级别之间的差异可用考虑了指标权重的Hamming 广义权距离表示 3设第j 个样本以分级隶属度uhj 隶属于第h级标准, 且满足ch= 1uhj = 1 。现将uhj 作为权重, 引入权广义距离:D( rj , sh ) = uhj wr j - sh 权广义距离更全面合理地描述了第j 个样本与第h 级标准之间的差异。为求解最优相对隶属度uhj , 运用最小二乘法则, 建立目标函数为全体样本对于各级标准间的权广义距离的平方和最小, 即现求解此目标函数及其唯一变量uhj , 对目标函数式求导并令导数等于零, 即令dF ( uhj ) / duhj= 0。最后经推导整理可得第j 个样本对于第h 级标准的最优隶属度计算模式为分别将上述空气质量分级标准模糊矩阵S、污染指标实测值模糊矩阵R 和指标权重向量w代入该最优隶属度计算模式中, 便可计算得到某市城区19851989 年各年度的空气质量对5 级空气质量标准的最优分级隶属度矩阵然后依据最大隶属度原则可得到相应的评价结果, 如表1 所示。为便于比较, 表中同时列出应用模糊综合评价模型M( , ) 得到的结果。经分析比较, 运用模糊综合评判模型M( ,) 得到的评价结果各级隶属度值比较均化, 区别不是很明显。特别是对2012年的空气质量的评价结果, 其隶属于级和级空气质量标准的隶属度均为0. 38, 难以做出明确判断
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年美甲师(高级)美甲行业职业规划与执行考试试卷
- 2025年热处理工(中级)专业理论考试试卷
- 2025年陕西省事业单位招聘考试卫生类护理学专业知识试卷
- 2025年食品检验工(食品安全法规)考试试卷:法规执行
- 2025年度新能源电池材料研发与技术保密服务合同
- 2025年企业培训师(中级)理论知识试卷:培训师法律法规
- 2025年矿山开采施工劳务合同及地质灾害防治与应急响应服务约定
- 2025年战略性新兴产业人才引进与培养合作协议
- 2025年宁波市事业单位招聘考试综合类专业能力测试试卷(电气类)实战演练
- 2025年校园夜间安全巡逻员雇佣服务协议书
- (2025年标准)委托他人要账协议书
- 2025-2030中国青少年无人机教育课程体系构建与创新能力培养研究
- 煤矿安全规程新旧版本对照表格版
- 2025山东“才聚齐鲁成就未来”水发集团高校毕业招聘241人笔试参考题库附带答案详解(10套)
- 中学2025年秋季第一学期开学工作方案
- 儿童急救流程
- GB 11122-2025柴油机油
- 私募薪酬管理办法
- 经营废钢管理办法
- 药品经营企业讲课课件
- 广东省深圳市海韵中学2026届中考押题语文预测卷含解析
评论
0/150
提交评论