(应用数学专业论文)基于粗糙集和模糊集理论的综合评价研究.pdf_第1页
(应用数学专业论文)基于粗糙集和模糊集理论的综合评价研究.pdf_第2页
(应用数学专业论文)基于粗糙集和模糊集理论的综合评价研究.pdf_第3页
(应用数学专业论文)基于粗糙集和模糊集理论的综合评价研究.pdf_第4页
(应用数学专业论文)基于粗糙集和模糊集理论的综合评价研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(应用数学专业论文)基于粗糙集和模糊集理论的综合评价研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 在现实生活中,存在着许多对象需要综合评价。然而,常用的评价方 法就是应用统计理论,并且只能对实时数据进行统计分析。由于使用评价方 法的不尽合理,就造成评价结果的不公正。因此,研究综合评价方法具有 较重要的理论与实际意义。本文讨论了基于模糊集理论上的模糊综合评价 方法,给评价对象一个定量的综合评价结果;讨论了基于粗糙集理论数据 挖掘技术上的综合评价方法,给评价对象一个定性的综合评价结果;把该 理论应用到教师教学质量综合评价中,并取的较好的结果。本文的主要研 究工作如下: 首先,对数据挖掘技术上的综合评价过程进行研究。传统的综合评价 只能对时实数据进行处理,本文引入了数据挖掘中的数据仓库技术,由此 可以对历史数据和实时数据集合起来进行分析处理。因此,综合评价过程 分为针对不同的评价数据进行数据仓库的建立、评价数据的提取、评价数 据的预处理、综合评价分析、输出评价结果等过程。 其次,对综合评价过程中数据预处理进行研究,特别是对空缺值的填 补和属性值的离散化问题在研究。用改进的r o u s t i d a 算法空缺值进行填 补,用模糊聚类方法对属性值进行离散化。 再其次,对预处理后的数据进行分析研究。利用模糊综合评价技术进 行综合评价,给每一个评价对象一个定量的描述。 最后,对基于粗糙集理论上的数据挖掘算法进行研究。把信息熵理论 与粗糙集理论相结合,提出了条件属性相对于决策属性的相关性理论,把 它运用到属性约筒的搜索算法中,最后得到每一个评价对象的一个定性的 描述。 关键词:数据挖掘:模糊集;粗糙集;信息熵;综合评价 西南交通大学硕士研究生学位论文第1 l 页 a b s c r a c t m a n yo b j e c t s i nt h e r e a l i t y n e e dt ob ee v a l u a t e dc o m p r e h e n s i v e l y t h e g e n e r a le v a l u a t i o n m e t h o di sb a s e d0 ns t a t i s t i c a lt h e o r ya n da n a l y z e st h ec u r r e n t d a t a g e n e r a l l y , a ni m p r o p e re v a l u a t i o nm e t h o du s u a l l yc a u s e su n f a i rr e s u l t s t h e r e f o r e ,t h es t u d yo f c o m p r e h e n s i v e e v a l u a t i o nm e t h o di so f g r e a ti m p o r t a n c e i nt h e o r ya n dp r a c t i c e t h i st h e s i s ,b a s e do nt h ef u z z ys e tt h e o r y , a t t e m p t st o d i s c u s st h ef u z z yc o m p r e h e n s i v ee v a l u a t i o nm e t h o da n de v a l u a t et h eo b j e c t si na q u a n t i t a t i v ew a y t h i sa n a l y s i s ,b a s e do n t h er o u g hs e tt h e o r y , a l s ot r i e st ou s e t h ed a t am i n i n gt oe v a l u a t et h eo b j e c t sq u a l i t a t i v e l y t h ep a p e ra p p l i e st h i s c o m p r e h e n s i v e m e t h o dt oe v a l u a t et h e t e a c h i n gq u a l i t y a n d g e t s ar a t h e r s a t i s f a c t o r y r e s u l t t h em a i np r o c e d u r e so ft h eb o d yi sc o n d u c t e da st h e f o l l o w i n g : f i r s t l y , t h eb o d y i sc o n c e r n e dw i t ht h eo v e r a l le v a l u a t i o np r o c e s so ft h ed a t a m i n i n g c o n t r a s t e dw i t h t h et r a d i t i o n a le v a l u a t i o nm e t h o d ,w h i c hu s u a l l yd e a l s 丽lt h ec u r r e n td a t a , t h e p a p e r i n t r o d u c e st h ed a t aw a r e h o u s ei nt h ed a t am i n i n g a n dc o m b i n e st h ec u r r e n td a t aw i t ht h eh i s t o r i c a ld a t aa n da n a l y z e st h e m c o m p r e h e n s i v e l y a n d t h e nt h eo v e r a l lp r o c e s so ft h ea n a l y s i si ss u b d i v i d e di n t o s e v e r a l p r o c e d u r e s :b u i l d i n gd a t a w a r e h o u s eu p o nt h ee v a l u a t e dd a t a , d a t a d r a w i n g ,d a t ap r e - p r o c e s s i n g ,c o m p r e h e n s i v ee v a l u a t i o na n a l y z i n ga n do u t p u t s e c o n d l y , , t h ep a p e rs t u d i e st h ed a t ap r e - p r o c e s s i n g ,i n c l u d i n gf i l l i n gt h o s e n u l lv a l u e sa n da n a l y z i n gt h ed i s c r e t ep r o c e s so fa t t r i b u t ev a l u e t h ei m p r o v e d r o u s t i d a a l g o r i t h mi sa d o p t e dt od e a lw i t ht h ef o r m e ra sw e l la st h ef u z z y c l u s t e rw i mt h el a t t e l t h i r d l y , t h eb o d yi s c o n c e r n e dw i t ht h es t u d yo ft h ed a t ao u t c o m ea f t e r p r e - p r o c e s s i n g t h ef u z z yc o m p r e h e r 谴i v ee v a l u a t i o n m e t h o di su s e dt od e s c r i b e e a c ho b j e c tq u a n t i t a t i v e l y f i n a l l y , t h el a s tp a r to f t h ep a p e ri st os t u d yt h ed a t a - m i n i n ga l g o r i t h mb a s e d o nt h er o u g hs e t t h e o r y r e l y i n go nt h ec o m b i n a t i o no ft h ee n t r o p y a n dt h e 西南交通大学硕士研究生学位论文第l | l 页 r o u g hs e tt h e o r y , ar e l a t i v i t yt h e o r yi sp u tf o r w a r dt h a tt h ec o n d i t i o na t t r i b u t ei s r e l a t i v et ot h ed e c i s i o n , w h i c hi s a p p l i e dt o t h e s e a r c h i n ga l g o r i t h m o ft h e a t t r i b u t er e d u c t i o na n di nt h ee n de a c ho b j e c ti sd e s c r i b e dq u a l i t a t i v e l y k e y w o r d a :d a t am i n i n g ;f u z z ys e t ;r o u g hs e t ;e n t r o p y ;, c o m p r e h e n s i v e e v a l u a t i o n 西南交通大学硕士研究生学位论文第1 页 第1 章绪论 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积 累的数据越来越多。人们希望将这些数据转换成有用的信息和知识,以便 更好地利用这些数据,用于决策。当前的数据库系统可以高效地实现海量 数据的录入、查询、统计等功能,但无法有效的发现海量数据背后隐藏的 具有决策意义的知识,如关系和模式,无法根据现有的数据预测未来的发 展趋势。由于缺乏挖掘数据背后隐藏的知识手段,导致了“数据爆炸但知 识贫乏”的现象。面对“被数据淹没,却饥饿于知识”的挑战,数据挖掘 和科研课题以及现代技术应运而生,并得以蓬勃发展,越来越显示出其强 大的生命力。 粗糙集作为一种新兴数据分析工具,能够通过对数据的深入分析,实 现对数据库中知识的发现,挖掘出其中隐藏的、潜在有用的知识模式,帮 助我们获得一个有效的评价结果。目前,在世界范围内基于粗糙集理论的 数据挖掘技术的研究取得了令人瞩目的成就,已经成功地应用到了市场、 工业、金融、工程与科学研究、医疗保险、司法等多种领域。目前,还没 有将粗糙集理论应用于综合评价中。由此,把粗糙集理论与数据挖掘相结 合,应用于综合评价中,必然会有十分广阔的前景。 本文在分析讨论了当前数据挖掘现状及存在的问题的基础上,尝试将 粗糙集、模糊集、数据挖掘技术与一些实际情况相结合,对基于粗糙集和 模糊集理论的综合评价进行研究。 1 1 粗糙集和模糊集概述 2 0 世纪8 0 年代,波兰华沙理工大学z p a w l a k 教授等提出了粗糙集 理论。粗糙集作为一种处理不精确、不确定和不完整数据的新的数学理论, 与用统计方法处理不确定问题不同,它不是采用概率方法描述数据的不确 西南交通大学硕士研究生学位论文第2 页 定性:同时与传统的模糊集合论处理不精确数据的方法也不同。所谓粗糙 集方法,是基于一个或一组关于一些现实的大量数据信息,以对观察和测 量所得的数据进行分类的能力为基础,从中发现推理知识和分辨系统的某 些特点、过程、对象等。粗糙集理论不仅为信息科学和认知科学提供了新 的科学理论和研究方法,也为信息处理提供了有效的处理技术。 粗糙集理论是建立在分类机制的基础上的,它将分类理解成在特定空 间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论的关键 思想是利用已知的知识库,将不确定的或不精确的知识用已知的知识库中 的知识来近似地刻画。该理论的特点是:它不需要提供除问题所需处理的 数据集合之外的任何先验信息,所以对问题的不确定性的描述和处理相对 客观。 1 9 6 5 年美国加利福尼亚大学控制论专家扎德教授在i n f o r m a t i o n a n d c o n t r o l 是发表了一篇开创性的论文,这标志着模糊数学的诞生。 在自然科学或社会科学研究中存在着许多定义不很严格或者说具有模 糊性的概念。这里所谓的模糊性:主要是指客观事物的差异在中间过渡中 的不分明性,如某一生态条件对某种害虫、某种作物的存活或适应性可以 评价为“有利、比较有利、不那么有利、不利”:灾害性霜冻气候对农业产 量的影响程度为“较重、严重、很严重”,等等。这些通常是本来就属于模 糊的概念,为处理分析这些“模糊”概念的数据,便产生了模糊集合论。 根据集合论的要求,一个对象对应于一个集合,要么属于,要么不属于, 二者必居其一,且仅居其一。这样的集合论本身并无法处理具体的模糊概 念。为处理这些模糊概念而进行的种种努力,产生了模糊数学。 从诞生到今,模糊数学在实际中的应用几乎涉及到国民经济的各个领 域及部门。农业、气象、环境、地质勘探、医学、军事、经济管理等方面 都有模糊数学的广泛面又成功的应用。 1 2 数据挖掘技术及应用概述 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据 西南交通大学硕士研究生学位论文第3 页 中,提取隐含在其中的、人们事先不知道的、又是潜在有用的信息和知识 的过程。也有人称之为知识发现( k n o w e d g ed is c o v e r yi nd a t a b a s e , k d d ) ,长期以来,在知识发现领域,“知识发现”与“数据挖掘”这两个 术语的范畴和使用界限一直不很清晰,直到k d d 9 6 国际会议上知识发现研 究领域的知名学者f a y y a d 、p i a t e t s k y s h a p i r o 和s m y t h 就这两个术语关 系作了如下阐述:k d d 是数据库中知识发现的全过程【2 1 ,而d a t am i n i n g 只 是全部过程中的一个特定步骤,它一般分为五个阶段:选择目标数据、预 处理数据、转化数据、进行数据挖掘以提取模式和关系、解释并评价发现 的结构,如图卜1 所示。但是,由于两个术语的内涵大致相同,一般情况下, 数据挖掘和知识发现可以作为互换的术语【3 】【4 。 图卜1 知识发现全过程 目前,从总体上看,国外在数据挖掘领域中的研究内容十分广泛。从 挖掘的知识的种类看,已经取得了明显的成果,研究重点从发现方法逐步 转向系统应用,注重多种发现策略和技术的集成以及多种学科之间的相互 渗透,并且已经开发出了十多种关于数据挖掘的软件。比如:s a s 公司的 e n t e r p r i s em i n e r 、i b m 公司的i n t e l l i g e n tm i n e r 、s g i 公司的s e t m i n e r 、 s p s s 公司的c l e m e n t i n e 、s y b a s e 公司的w a r e h o u s es t u d i o 、r u l e o u e s t 等 等 6 1 。与国外相比,国内对于数据挖掘与知识发现的研究稍晚。但自1 9 9 3 年国家自然科学研究基金首次支持该领域内的研究项目以来,近几年己经 西南交通大学硕士研究生学位论文第4 页 有相当多的数据挖掘和知识发现方面的研究成果,在许多学术会议上都设 有专题进行学术交流i7 】【引。大量的科研单位和高等院校竞相开展数据挖掘的 基础理论及其应用研究,并在互联网上进行广泛的讨论和交流( 比如:复旦 大学的“数据挖掘讨论组h t t p :w w d m g r o u p o r g c n ”) 。 数据挖掘是一门交叉学科,涉及到机器学习、模式识别、统计学、智 能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。 数据挖掘的成果可以用在信息管理、过程控制、科学研究、决策支持等许 多方面。从现有的研究成果来看,数据挖掘技术分为五类,即预测模型化、 聚类、数据归纳、依赖模型化以及发现变化和偏差。常用的数据挖掘方法 有决策树方法、神经网络方法、覆盖正例排斥反例方法、粗糙集方法、概 念树方法、遗传算法、公式发现、统计分析方法、模糊论法、可视化技术 等【9 1 1 0 ) i n 。 在数据挖掘的众多挖掘方法中,粗糙集方法对于处理复杂系统是一种 较为有效的方法。粗糙集理论是一种数据分析工具,其主要思想是在保持 信息系统分类能力不变的前提下,通过知识的约筒,导出问题的决策或分 类规则。目前,粗糙集已经被成功地应用于机器学习、决策分析、过程控 制、模式识别与数据挖掘等领域。前几年,粗糙集在数据挖掘领域得到了 成功的应用,建立了不少基于粗糙集的数据挖掘系统,其中最具代表性的 有l e r s 。r o s e ,k d d - r ,r o s c t t a 和r o u g he n o u g h 等。l e r s ( l e a m i n gf r o m e x a m p l e sb a s e do nr o u g hs e t ) 系统是美国k a i l s a s 大学开发的集于粗糙集的 实例学习系统。r o s e ( r o u g hs e td a t ae x p l o r e r ) 是波兰p o z n a n 科技大学基于 粗糙集开发的用于决策分析的系统。k d d r 是由加拿大的r e g i n a 大学开发 的基于可变精度粗糙集模型的采用决策矩阵方法实现的医学数据分析系 统。r o s e t t a 是由挪威科技大学计算机与信息科学系和波兰华沙大学数学研 究所合作开发的一个基于粗糙集理论的表格逻辑数据分析工具包,是一个 很好的实验研究平台( 可以在h t t p :w w w i d t u n i t n o 一a l e k s r o s e t t a m s e t t a h t m l 下载得到) 。r o u g h e n o u g h 是由挪威的t r o l l d a t a i n c 公司开发的数据挖掘工 具( 可在网站h t t p :w w w t r o l l d a t a n o r e n o u g h 下载该软件) 。目前,数据挖掘 领域中应用粗糙集方法进行数据挖掘是一个非常有前途的应用领域,许多 西南交通大学硕士研究生学位论文第5 页 学者致力于研究基于粗糙集理论的高效约简算法、大数据集问题以及数据 挖掘的多方法的融合( 粗糙集的最新研究进展可以在 h t t p :w w w c s t t r e g i n a c a - r o u g h s e t 的e l e c t r o n i c b u l l e t i no ft h e r o u g hs e t c o m m u n i t y 中了解到) 。 目前,几种典型的数据挖掘问题是:关联规则数据挖掘、时态数据挖 掘、w e b 挖掘、分布式并行挖掘、移动计算中的数据挖掘等等。进行数据 挖掘的对象主要有关系数据库、数据仓库和w e b 数据【砼j 。 数据挖掘与数据仓库的结合,是目前应用数据挖掘进行决策支持领域 的新技术。最初,人们在构建数据挖掘系统时,自然而然地想到建立在传 统的联机事务处理系统的数据库基础之上,因为数据库技术正日趋成熟, 特别是关系数据库技术的飞速发展。使数据库的整体性能得到了迅速地提 高。但是,随着数据量越来越大,查询越来越复杂,逐渐出现了许多难以 克服的问题,其中最为严重的有以下几点: ( 1 1 数据缺乏组织性; ( 2 ) 系统效率极为低下,数据难以转化为有用信息; ( 3 ) 数据挖掘系统和联机事务处理系统相互干扰,难以满足系统的性能 要求; ( 4 ) 数据挖掘系统常常需要对一段历史时期的数据加以分析,但是联机 事务处理系统中一般只存储短期数据,分析时难以满足数据挖掘系统的需 要【1 3 1 4 1 。 随着时间的推移,人们越来越意识到,基于传统的数据库的数据挖掘 系统已经不能很好地满足需要【1 5 】。人们的需求增多,于是数据仓库应运而 生。数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集 合。主要是面向知识工人( 比如:经理、主管、分析人员等) 的数据分析, 它为管理大量的历史数据提供汇总和聚集机制,并可在不同的粒度级别上 存储和管理信息,使得数据容易用于决策分析。尽管数据仓库的创建有自 身的特点,但从根本上来说,其技术仍然是以数据库为主 1 6 1 7 1 。 虽然数据挖掘技术的研究和开发已经取得了令人瞩目的进展,但是与 此同时,一些尚待解决和需要完善的课题也摆在了研究者的面前1 9 ,比如: 西南交通大学硕士研究生学位论文第6 页 针对更大型数据库挖掘算法的效率和可扩充性、互联网络上数据的挖掘、 和其它系统的集成、挖掘结果的可理解性以及数据挖掘应用领域的推广等 等。 1 3 本文的主要工作及意义 粗糙集、模糊集、数据挖掘是近几年来十分活跃的研究领域,已经成 功应用于市场、工业、金融、工程与科学研究、医疗保险、司法等多种领 域。因此,本文尝试将粗糙集理论、模糊集、数据挖掘应用到综合评价中, 并对综合评价数据进行分析。将模糊集、数据挖掘这两种新兴的数据分析 技术与传统的统计计算方法相互融合,给评价对象一个定量的评价结果; 利用粗糙集理论、数据挖掘技术,给评价对象一个定性的评价结果,并且 将评价数据中_ 二些隐藏的规律提取出来,提供给管理决策者。 西南交通大学硕士研究生学位论文第7 页 第2 章综合评价的分析与设计 2 1 综合评价功能结构分析 基于粗糙集和模糊集的综合评价与传统的综合评价的共同点在于:都 需要进行统计和分析,得到相应的评价结果。不同的是:在传统的评价中 只对评价数据进行简单的统计计算,评价结果是单一的分数或等级的形式, 对评价数据的所有操作是针对当次评价活动的,没有包含各次评价活动的 历史数据。在基于粗糙集和模糊集的综合评价中,不仅要对本次评价数据 进行统计计算,还利用模糊综合评价对评价数据进行处理,并以分数或等 级的形式给出量化的评价结果;而且还应用数据挖掘技术对大量评价数据 ( 包括本次评价数据也包括评价历史数据) 进行多粒度、多方位、多维度 深入的分析和发掘,并能以决策规则的形式将隐藏在数据中的潜在有用的 知识以规则的形式呈现出来。 因此,基于模糊集与粗糙集理论的综合评价不仅包括数据统计、查询 等功能,还应该有满足数据挖掘要求的数据仓库的数据抽取、数据预处理、 综合评价等功能。 2 1 1 综合评价的系统模型 根据以上分析,基于模糊集与粗糙集理论的综合评价主要分为数据预 处理、数据分析挖掘、结果输出三大部分。具体的系统模型如图2 1 所示。 西南交通大学硕士研究生学位论文第8 页 : 数据库服g - :n 数据分析 5数据统计 l 圄 f 模糊评价 ll 数据仓库f 数据输 i l 一数据挖掘 | 两 入接口 属性约简 ll 数据源j y属性值约 镣 l n 知识库 数据预处理数据分析挖掘结果显示 图2 - 1 综合评价模型 2 1 2 综合评价的业务流程 根据以上模型分析,首先进行综合评价数据的收集,将收集来的评价 数据传输到数据库服务器,再进行数据分析。由此,绘制出实现综合评价 的内部单位和人员之间业务关系、作业顺序和管理信息流动的业务流程图 ( 如图2 - 2 ) ,用以描述业务活动,进行规范化说明,表达出管理部门之间 的信息流动和存储情况。 图2 - 2 综合评价业务流程图 西南交通大学硕士研究生学位论文第9 页 2 1 3 综合评价的逻辑模型 根据对系统模型和系统业务流程的分析可以得到系统的逻辑模型。 f 1 :信息采集f 4 :信息统计分析 f 2 :信息转至数据仓库f 5 、f 6 = 结果输出 f 3 :信息统计分析d 1 - d 2 :相关数据 固2 - 3 综合评价数据流图 2 2 综合评价主要部分功能结构设计 根据对综合评价功能结构的分析,综合评价主要需要实现数据预处理、 数据分析挖掘两大功能。每一部分的具体功能结构设计如下: 2 2 1 综合评价的数据预处理 数据预处理是系统运行的重要一环,主要目标是为数据挖掘分析模块 准备数据。需要根据系统的数据挖掘引擎所采用的数据挖掘算法的要求, 提前对数据进行处理。数据预处理需要完成的主要任务有: ( 1 ) 数据仓库数据抽取。数据抽取是指将各类数据从各个数据源向面 向数据挖掘分析的数据仓库集成;由于各个数据源存放的都是一些细节性 的数据,而数据挖掘分析需要的是一些概括性的数据。所以,在此过程中 可以将这些细节数据进行一些聚集计算和变换,同时需要构造一些系统挖 掘分系所需要的属性,以方便后续的挖掘分析操作。 ( 2 ) 数据的清理。数据清理通常包括不一致数据处理、噪声数据平滑、 西南交通大学硕士研究生学位论文第10 页 空缺值补齐和数据变换等工作。这里,着重解决空缺值补齐和数据变换。 由于受到数据挖掘算法的约束,要求进入挖掘引擎的数据是完整的、离散 的。所以,需要在数据预处理模块对数据进行处理。采用基于粗糙集理论 的空缺值补齐和数据值离散化方法来实现数据的预处理操作。 ( 3 ) 重复记录和冲突记录的处理。在进行数据挖掘之前,在选取的分析 数据中有可能出现重复和冲突的情况,需要预先进行处理。这里的重复记 录是指记录值完全相同的两条记录称为重复记录,可以对重复记录进行删 除操作。冲突记录指的是两条记录的条件属性值完全相同,而具有不同的 决策属性。 通过以上的数据预处理操作,使系统具有个完整、干净、适合于挖 掘的的数据输出,以保证后续的数据挖掘能够产生出有用的规则。 2 2 2 综合评价的数据分析 数据分析是综合评价的核心。主要分两个部分:一个部分是应用传统 的统计计算的方法以及应用模糊综合评价对评价数据进行统计分析,并对 每一个评价对象以具体的分数的形式给出一个定量的结果;另一部分就是 应用数据挖掘技术对评价数据进行挖掘分析,发现隐藏在数据中有用的知 识,并将之提取出来供决策者使用,并对每一个评价对象以规则的形式给 出一个定性的结果。 ( 1 ) 综合评价:综合评价是根据评价指标体系中设定的各评价指标的权 值,应用模糊综合评价方法对每一个评价对象的评价数据进行分析,进而 得出每一个评价对象的评价结果。 ( 2 ) 数据挖掘:在综合评价中实现数据挖掘,主要是根据用户选取的分 析数据,从中提取出相应的决策规则。可以根据系统挖掘出的规则,作出 相应的决策。 分析数据挖掘的许多实现方法,其中的粗糙集方法无需任何的先验信 息,对不确定、不完整和模糊的信息能给出满意的结果。所以,采用粗糙 集方法实现数据挖掘。 西南交通大学硕士研究生学位论文第”页 2 3 综合评价数据仓库设计 2 3 1 综合评价数据仓库设计 数据仓库是在决策处理应用中面向主题的、集成的、与对间相关的、 不可修改的数据集合。它与传统的实时操作数据库有所不同,实时操作数 据库其主要任务是执行联机事务和查询处理,涵盖了一个系统大部分的日 常操作,主要是面向办事员、客户和信息技术专业人员的事务查询处理, 因此实时操作数据库管理的是当前数据而不会涉及到历史数据,这种数据 过于详细琐碎,而难于用于数据分析,实时操作数据库的设计通常都采用 实体联系( e r ) 模型和面向应用的数据库设计,对于实时操作数据库的访 问主要由短的原子事务组成。对于数据仓库的设计通常采用星型和雪花模 型或者面向主题的数据库设计,其访问大部分是只读操作,并且大部分是 极为复杂的查询。 由于数据仓库和实时操作数据库各自的不同特点,为提高系统的性能, 增强系统的可维护性,所以不同的分析系统都会设计一个不同的数据仓库。 2 3 1 1 数据仓库的需求分析 需求分析直接影响到数据仓库实施的成败。首先要确定数据仓库的粒 度,根据不同的评价数据,决定数据仓库中的数据到达哪一个细节级别, 这将决定数据仓库回答查询的能力。在确定粒度后,需要考虑有哪些候选 的评价指标,事实表包括哪些事实,相应的维度有哪些。在确定了衡量指 标、事实表以及维度之后,就自然得到初始的多维模型。 2 3 1 2 数据仓库的模型设计 数据模型的构造无疑是数据仓库的建立过程中最关键的一步。数据模 型的影响是很深远的,它决定了数据仓库所能进行分析的类型、分析的细 致程度、分析的效率以及响应时间。另一方面,不同的模型会导致不同的 西南交通大学硕士研究生学位论文第1 2 页 存储空间以及数据更新策略,并直接影响着数据仓库项目的投资。 在数据仓库模型中,星型模型是最常用的数据仓库设计结构的实现模 式。它使数据仓库形成一个集成系统,为最终用户提供报表服务,为用户 提供分析服务对象。星型模型通过使用一个包含主题的事实表和多个包含 事实的非正规化描述的维度表,支持各种决策查询。每一个维度表有一个 维作为主键,所有这些维组合成事实表的主键,即事实表的主键的每个元 素都是维度表的外键。 星型模型可以采用关系型数据库结构,模型的核心是事实表,围绕事 实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表 都连接到中央事实表。维度表中的对象通过事实表与另一维度表中的对象 相关。通过事实表将多个维度表进行关联,就能建立各个维度表间的对象 之间的联系。每个维度表通过一个主键与事实表进行连接。如图2 - 4 所示。 图2 4 维度联系图 2 3 1 3 数据仓库的物理设计 数据仓库的物理模型就是逻辑模型在数据仓库中的实现模式。其中包括 逻辑模型中的各种实体表的具体化,如表的数据结构类型、索引策略、数 据存放位置以及数据存储分配等等。 在评价数据分析的数据仓库实现中,为提高数据的可读性,对表名和各 西南交通大学硕士研究生学位论文第13 页 列名采用其英文名称。加下划线的大小写混合方式来命名。这样命名可以 保证数据仓库的设计、实旌和管理保持稳定,不产生混乱。所有数据都存 放在一个高性能的d e l l 数据库服务器上。 对于软件产品的选择目前几乎所有的软件厂商 o r a c l e ,s y s b a s e ,i n f o r m i x 以及m m ,c a ,n c r ,m i c r o s o f t , s a s 等都 推出了各自的数据仓库产品。这些产品都各有特点,经过反复咨询讨论, 基于经济性、实用性、开发复杂性等方面的考虑,最终选择了m i c r o s o f t 的 s q l s e r v e r2 0 0 0 作为我的数据仓库平台。 微软的s q ls e r v e r2 0 0 0 是一套完整的数据库和数据分析解决方案,已 经在性能和可扩展性方面建立了世界领先的地位。它将o l a p 功能集成到 s q l s e r v e r2 0 0 0 中。提供可扩充的基于c o m 和o l a p 接口,通过一系列 服务程序支持数据仓库的应用。 2 3 2 综合评价数据的提取 由于数据分析和数据存储的需要,都需要设计数据仓库,将大量的评 价历史数据,按主题进行组织存放。数据仓库数据的抽取,主要是将面向 事务处理的实时的操作数据库中采集和处理的各类信息,提取存入面向数 据分析的数据仓库中,为实现综合评价做数据准备。 西南交通大学硕士研究生学位论文第14 页 第3 章基于粗糙集理论的综合评价的实现 3 1 基本理论 1 知识与分类 一般认为,知识是人类实践经验的总结和提炼,具有抽象和普遍的特 性,是属于认识论范畴的概念。任何知识,都是对事物运动状态及其变化 规律的概括性描述。这个对知识的定义不能算是一个完全的、精确的表达, 因为知识具有多种意义【1 9 1 。 粗糙集理论从认知科学的一些观点来理解知识,正是由于这一点使得 粗糙集理论在数据推理等人工智能领域有了新的突破,并得到广泛应用。 知识是源于人类以及其它物种的分类能力。关于环境的知识,从生存 的观点看,就是感觉信号的复杂分类,它是动物的基本机能对不同情况分 类的能力而来的。更抽象层次的分类是推理、学习、决策的关键,是一种 基础知识。例如,在某种环境下,机器人表现的像是有知识、有“智慧”, 实质上是它们将外部环境和内部状态的传感信号分类,得出可能的情况并 由此支配行动;知识直接与真实或抽象世界有关的不同分类模式联系在一 起。因此,任何一个物种都是由一些知识来描述的,根据这些知识可以把 它们分类,利用物种不同的属性知识描述,对物种以产生不同的分类。 2 不可分辨关系 设u 是感兴趣的对象组成的非空有限集合,称u 为论域( u n i v e r s e ) ,孵 是u 上的二元等价关系( e q u i v a l e n c er e l a t i o n ) 族,称序对k = 为 近似空间( a p p r o x i m a t i o ns p a c e ) 或者知识库洲。 对任意的( x ,y ) u u ,如果( z ,y ) r ( r 孵) ,称x 和y 在近似空间 k = 中是不可分辨的,r 被称为不可分辨关系( i n d i s c e r n i b i l i t y r e l a t i o n ) 。根据,的定义域可以对u 划分,称为等价类,记为 u r = x 。,z :,z 。) ,其中是,的等价类。一般地,用 工】,表示包含z 的 r 等价类。 西南交通大学硕士研究生学位论文第15 页 设p 吼,p a ,那么n p ( 表示p 中所有等价关系的交集) 也是【,一个 等价关系,称为p 的不可区分关系,记为m d 一( p ) 。i n d ( p ) 的等价类称为 i n d ( p ) 的基本范畴或基本概念【2 ”。 3 上近似集和下近似集 设x 【,是任一个子集,五是u 上的一个等价关系,则有: 足( x ) = u r u r :,r x ) 胄( ) = u ( y u r :y n x o ) 分别称它们为r 的下近似和r 的上近似,其中。是空集 2 2 】。下近似和 上近似也可写为下面等价的形式: 见( x ) = 扛u : x k x ) r ( 柳= x u :【巩n x 四 集合b n 。( x ) = r ( 膏) 一兄( ) 称为x 的尺边界域,p o s 。( x ) = r 。( 彳) 称 为x 的r 正域,n e g r ( z ) = u r ( x ) 称为x 的r 负域【2 3 1 。 4 等价关系( 族) 相对于等价关系( 族) 的正域 设p 、q 是两个等价关系,xc - u ,q 的p 正域记着p o s ,( q ) ,定义 为: p o s e ( 9 = u 只( 聊 膏e u ,口 从定义可以得出:q 的p 正域是,中的所有根据分类u p 的信息可以 准确地划分到关系q 的等价类中去的对象的集合【“1 。 设m 、n 是等价关系族,疋c u ,n 相对m 的正域记为 p o s ( m ) ( m d ( n ) ) ,定义为: p 呱一( m ) ( i n d ( n ) ) = x e u 删un ) ( i n d ( m ) ) ( x ) 从定义可以得出:关系族m 对关系族n 的正域是u 中的所有根据分类 西南交通大学硕士研究生学位论文第16 页 u ,i n d ( m ) 的信息可以准确地划分到i n d ( n ) 的等价类中去的对象的集合 2 5 1 。 5 知识的约简和核 ( 1 ) 知识约简和核 在实践应用中,经常要在保持知识库中基本范畴的情况下删去冗余的 基本范畴,进行知识的约简。而完成知识约简需要用到约简和核这两个基 本概念。 令辨为等价关系族,并且r 吼,如果i n d ( 9 1 ) = i n d ( 9 1 一 r ) ) ,称r 为孵 中可省略的,否则称,为孵中不可省略的。通俗地说,织是表达研究的对 象的属性集合,在近似表达中有一些特征作用不大,可以将这些属性删除 而不影响对对象的表达,去掉冗余属性,后,剩下的属性集仍然保留其等价 关系。 当对任意r 飒,如果r 不可删除,则称族孵为独立的。在用属性集孵来 表达系统的知识时,倪为独立的意味着属性集合中的每个属性都是不可缺 少的。 当孵是独立的,如果存在属性于集p c 吼,则p 也是独立的。对于属 性子集p c 吼,若存在o = p 一 r ) ,使得i n d ( q ) = i n d ( 9 1 ) ,且q 为最小子集 则称q 为p 的约简,记为r e d ( m ) 。一个属性集合可以有多种约简。孵中所 有约简属性集中都包含的不可约去关系的集合,即约简集r e d ( 听) 的交集称 为孵的核,表示为c o r e ( 9 1 ) ,即c o r e ( 9 1 ) = n r e d ( 贸) 2 6 o ( 2 )知识的相对约简和相对核 设p 和q 为u 上的等价关系族, 如果 p o s m ( 即( 加d ( q ) ) 2 p o s m ( ,- , ) ( 伽d ( q ) ) ,则称,为p 中q 可约去的,否则称 r 为p 中q 不可约去的。当p 中每一个都为q 不可约去的,则称尸为q 独立 的 , 当p 一 r 为 p的 p o s ( p ) ( m d ( q ) ) = p o s w c p 一 ,) ( j h d ( q ) ) q 独立子族 ,且 则族p 一 r ) 称为尸的q 相对约简。 西南交通大学硕士研究生学位论文第17 页 p 中所有q 不可约去原始关系族,即约简集r e d o ( p ) 的集合交,称为p 的q 核,记为c o r e 口( p ) ,即c o r e 口( p ) = f i r e d a ( 尸) a 6 数据表知识表达系统 定义3 1 2 7 l 称s = 为一个信息系统,或者数据库系统, 其中u 是对象的有限集合,即u = 红,i :,“。) ;吼是属性的集合,婀= “,r 卅 ;v = u 。是属性值的集合,一表示了属性r 孵的属性值的 取值范围,矿可以是定量的也可以是定性的:f 是u 和贸的关系集,即 f = 乃:,m ) ,其中f j :u 0 _ 。 可以用表格来实现知识表达系统的定义,知识的表格表示法可以看作 是一种特殊的形式语言,它用符号来表示等价关系,在知识表达系统数据 表中,列表示属性,行表示对象,并且每行表示该对象的一条信息,一个 属性对应一个等价关系,个表可以看作是定义的一簇等价关系,即知识 库。 根据s = ,知识表达系统可以形式化地定义为:s = ( u ,a ) , 其中,u 为非空的有限集论域,4 为非空的属性有限集。对于每个属性 b a ,可以定义一个不可分辨关系i n d ( 6 ) ,即: i n d ( b ) = ( x ,y ) :( x ,y ) u u ,a ( 曲= a ( y ) 这里兀( z ) 表示对象x 的属性b 的属性值。很容易证明这样定义的不可 分辨关系是一个等价关系。对于每个属性子集b a i n d ( b ) = n i n d ( r ) ,r b ,显然i n a ( 8 ) 也是一个等价关系口8 1 。 定理3 1 在知识表达系统s = 中,属性子集4 ,b 孵, 西南交通大学硕士研究生学位论文第18 页 如果有a b ,则一定有i n d ( b ) i n d ( a ) 。 证明:设v ( 工,y ) i n d ( b ) ,那么对于v b b 都有兀( x ) = 兀( y ) 因为,4 b ; 所以,一定有对于任意a ,都有正( j ) = 丘( y ) 。 故有,( x ,y ) i n d ( a ) 进而:i n d ( b ) 抽d ( 爿) 。 定理3 2 在知识表达系统s = 中,属性子集a ,b 辨, 则a b 的充分必要条件是对于v x u ,有 z 】m i x m ( ) 。 证明:( 必要性) 任取y i x ( 。) ,那么对于任意b b ,都有 兀( 6 ,x ) = 兀( 6 ,y ) 。 。 由于a b ,所以,对于所有的口a 都有l ( 工) = l ( y ) 。 由此,ye x 】。 ( 充分性) 对于v x u ,【工】( 口) , 由等价类的定义可知:对y - v b b ,所以有五 ) = l ( y ) ; 因为,;对- y v x u ,都有f 工 州( m z 耐f 肿; 进而有,y “x 】。( 。) ,即是对于v d 爿有无( z ) = l ( y ) 。 所以有:a 至b 。 故命题得证,a b 的充分必要条件是对于v x u ,有 x m 州。) m m d ( j r 西南交通大学硕士研究生学位论文第19 页 由定理3 2 可得,对于属性子集a 、b ,如果a b ,由它们得到对象 集的划分分别为u i n d ( a ) = x ,x :,x 。) ,u i n d ( b ) = 一,l ,) 那 么对于v y u i n d ( b ) ,都存在x u i n d ( a ) ,使得y x 。 7 决策表的公式化定义 决策表是一类特殊而重要的知识表达系统,它指满足某些条件时,决 策应该怎样进行。多数决策问题都可以用决策表形式来表达,这一工具在 决策应用中起着重要作用。 定义3 2 t 3 6 1 设s = ( u ,4 ) 为一知识表达系统,且c ,d a 是两个属性 子集,且c u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论