(应用数学专业论文)基于粗糙集的定性数据分析.pdf_第1页
(应用数学专业论文)基于粗糙集的定性数据分析.pdf_第2页
(应用数学专业论文)基于粗糙集的定性数据分析.pdf_第3页
(应用数学专业论文)基于粗糙集的定性数据分析.pdf_第4页
(应用数学专业论文)基于粗糙集的定性数据分析.pdf_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

宁夏大学硕士学位论文李长升:基于粗糙集的定性数据分析 l 摘要 定性数据作为数据的一种基本类型,随着应用领域的不断广泛,对其分析显得越 来越重要传统上对定性数据分析一般从统计建模的角度进行,如考虑变量独立性的 列联表分析,考虑定性因变量和自变量之间关系的一般线性模型和l o g i s t i c 回归模型 等z p a w l a k 提出的粗糙集理论从一个全新的角度对定性数据进行了分析和研究 粗糙集是一种处理含糊和不确定性信息的数学工具其基本思想是在保持分类能 力不变的前提下,通过知识约简,导出概念的分类规则信息系统的属性对于描述知 识或者制定决策不是同等重要的,有些甚至是冗余的因此需要在保持信息系统分类能 力不变的条件下,删除其中不相关的属性属性约简可以在保持信息系统分类能力不变 的前提下,在信息系统属性集中寻找一个最小的属性子集,使分类知识表示得到简化 本文针对名义数据以粗糙集理论中的等价关系为基础,给出了信息系统和决策信 息系统的基本理论,考虑了决策信息系统的属性约简和规则提取方法针对有序数据 给出了基于优势关系的粗糙集模型及属性约简,并给出了优势关系下决策信息系统的 规则提取方法及数值例子对于实际问题中名义数据和有序数据同时出现的情况,本 文提出优等关系粗糙集模型,并研究了它的性质在此基础上,本文给出优等关系下信 息系统的属性约简判定定理,从而提取简洁的决策规则 关键词:定性数据;粗糙集;信息系统;优势关系;优等关系;属性约简 宁夏大学硕士学位论文 李长升:基于粗糙集的定性数据分析 i i a b s t r a c t q u a l i t a t i v ed a t aw h i c hi so n eo ft h eb a s i cd a t a + t y p e si sm o r ea n dm o r ei m p o r t a n t t oa n a l y s i sa l o n gw i t ht h eb r o a df i e l do fa p p l i c a t i o n t h eg e n e r a lm e t h o do fa n a l y z i n g q u a l i t a t i v ed a t aa n a l y s i si ss t a t i s t i c a lm o d e l i n g ,s u c ha sw ec o u l dc o n s i d e rc o n t i n g e n c y t a b l ea n a l y s i so ft h ei n d e p e n d e n c eo ft h ev a r i a b l e s ,c o n s i d e rq u a l i t a t i v ed e p e n d e n ta n d i n d e p e n d e n tv a r i a b l e so ft h er e l a t i o n s h i pb e t w e e nt h eg e n e r a ll i n e a rm o d e la n dl o g i s t i c r e g r e s s i o nm o d e l z p a w l a k sr o u g hs e tt h e o r yd a t aa n a l y s i sq u a l i t a t i v ed a t af r o ma n e wp e r s p e c t i v e r o u g hs e ti sam a t h e m a t i c a lt o o lo fd e a l i n gw i t hv a g u e n e s sa n du n c e r t a i n t y t h e b a s i ci d e ai st om a i n t a i nt h es a m ep r e m i s eo fc a t e g o r i e s ,t h r o u g ht h er e d u c t i o no f k n o w l e d g ed e r i v e dc o n c e p to ft h ec l a s s i f i c a t i o nr u l e s s o m ea t t r i b u t e so ft h ei n f o r m a - t i o ns y s t e m sa r e n ts oi m p o r t a n ta so t h e r sf o rt h ed e s c r i p t i o no fk n o w l e d g ea n dd e c i s i o n m a k i n g s o m ea t t r i b u t e se v e na r er e d u n d a n t i t si m p o r t a n tf o ru st od e l e t et h ei r r e l e v a n ta t t r i b u t e sw i t ht h es a m ec l a s s i f i c a t i o na b i l i t ya sb e f o r e a t t r i b u t er e d u c t i o nc a n f i n do n eo ft h es m a l l e s ta t t r i b u t e ss u b s e tt os i m p l i f yt h ec l a s s i f i c a t i o nk n o w l e d g ea n d u n c h a n g et h ec l a s s i f i c a t i o na b i l i t yo fi n f o r m a t i o ns y s t e m s i nt h i sp a p e r ,w ep r o p o s ei n f o r m a t i o ns y s t e m sa n dd e c i s i o n - m a k i n gi n f o r m a t i o n s y s t e m st h e o r yb a s e do nt h ee q u i v a l e n c er e l a t i o ni nr o u g hs e tt h e o r yf o rn o m i n a l d a t a w ea l s oc o n s i d e rt h ed e c i s i o n - m a k i n gi n f o r m a t i o ns y s t e ma t t r i b u t er e d u c t i o na n d r u l e se x t r a c t i o nm e t h o d f o ro r d i n a ld a t aw ep r o p o s ed o m i n a n c er e l a t i o no ft h er o u g h s e tm o d e la n da t t r i b u t er e d u c t i o n ,g i v i n gt h ed o m i n a n c er e l a t i o n sb e t w e e nt h ed e c i s i o n - m a k i n gi n f o r m a t i o ns y s t e mu n d e rt h er u l e so fe x t r a c t i o nm e t h o d sa n dn u m e r i c a le x - a m p l e s d o m i n a n c e i n d i s c e r n i b i l i t yr e l a t i o ni sp r o p o s e df o ro b j e c t sw h i c hh a v eb o t h n o m i n a ld a t aa n do r d i n a ld a t aa n ds t u d yi t sn a t u r e e x c e l l e n c ei ni n f o r m a t i o ns y s t e m a t t r i b u t er e d u c t i o nj u d g e m e n tt h e o r e m ,s oa st oe x t r a c ts i m p l ed e c i s i o n m a k i n gr u l e s k e yw o r d s :q u a n t i t a t i v ed a t a ;r o u g hs e t s ;i n f o r m a t i o ns y s t e m ;d o m i n a n c er e l a t i o n ;d o m i n a n c e - i n d i s c e r n i b i l i t yr e l a t i o n ;a t t r i b u t er e d u c t i o n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得宁夏大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示 了谢意。 研究生签名:荡枉叶 时间: 州年多月枷日 关于论文使用授权的说明 本人完全了解宁夏大学有关保留、使用学位论文的规定,即:学校有权保留送交论 文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制手段保 存、汇编学位论文。同意宁夏大学可以用不同方式在不同媒体上发表、传播学位论文的 全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名:办扛叶时间:州时年多月粕日 导师签名: 虿也主力 时间; 掰年印月c 厂日 第一章引言 1 1定性数据分析 数据按其取值来分可以分为四种类型:( 1 ) 计量数据:如人的身高、体重、产品的长度、直径、 重量、股票的价格等等它们的取值可以是某个区间内的任意一个实数( 2 ) 计数数据:如企业职工 人数、成交股票股数等它们在整数范围内取值,大部分还仅在非负整数范围内取值( 3 ) 名义数 据:观察值不是数,而是事物的属性,如人的性别( 男、女) 、婚姻状况( 未婚、有配偶、丧偶、离婚 等) 、物体的颜色、形状等我们常用数来表示属性的分类,例如用数。1 ”和“2 ”分别表示男和女, 这些数只是起一个名义的作用,只是一个代码,没有大小关系,也不能进行运算在这里,。2 ”与 。l ”不能比较大小,。1 + 2 ”也没有意义这一类数据称为名义定性数据,简称名义数据( 4 ) 有序数 据:有些事物的属性有一个顺序关系,如人的文化程度由低到高可分为文盲、小学、初中、高中或 中专和大专或大学等5 类用数0 、l 、2 、3 和4 分别表示文盲、小学、初中、高中或中专和大专或 大学又如顾客对某商场营业员服务态度的评价分为“满意”、。一般”、。不满意”三类,可分别用 “3 ”、。2 ”、“1 ”表示这些数只起一个顺序作用,类与类之间的差别是不能运算的例如,。满意”比 “一般”好,但“好多少”是不能计算的,即这里的“3 - 2 ”是没有意义的这一类数据称为有序定性 数据,简称有序数据 计量数据和计数数据称为定量数据;名义数据和有序数据称为定性数据在经济和社会 管理过程中,经常会遇到很多定性变量,这些变量的取值特点是各变量值出现的是频数,而 不是具有计量单位的计量数据,即它们只有定类尺度和定性尺度的特征,不具有定距尺度和 定比尺度的特征如,对不同课程的教学效果进行评价,得到学生对各课程的各种不同的评价 频数分布资料;对各地区的基本单位结构进行差异比较分析,得到各地区的各类基本单位数 的频数分布数列;对社会各阶层的收入状况进行研究,得到各阶层的收入等级的频数资料等等 定性数据通常采用统计建模的方法进行分析,如分析两个变量独立性的列联表分析和卡方检验 【6 】,考虑因变量和自变量的不同组合情况有对数线性模型m 、l o g i s t i c 回归模型【8 】及多维标度法1 9 1 2粗糙集理论的研究现状及趋势 粗糙集作为一种处理不精确、不确定与不完全数据的新的数学理论,最初是由波兰数学家z p a w l a k 于1 9 8 2 年提出的近几年来,由于它在机器学习与知识发现、数据挖掘、决策支持与分析等 方面的广泛应用,研究逐渐趋热粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特 定空闻上的等价关系,而等价关系构成了该空间的划分粗糙集理论将知识理解为对数据的划分, 每一被划分的集合称为概念粗糙集理论的主要思想是利用已知的知识库:将不精确或不确定的知 识用已知知识库中的知识来( 近似) 刻画该理论与其他处理不确定和不精确问题理论的最显著的 区别是它无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述 或处理可以说是比较客观的,由于这个理论未能包含处理不精确或不确定原始数据的机制,所以 这个理论与概率论、模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性 宁夏大学硕士学位论文李长升:基于粗糙集的定性数据分析 2 粗糙集理论的基本特点 粗糙集的基本方法是使用等价关系将集合中的元素( 对象) 进行分类,生成集合的某种划分, 与等价关系相对应根据等价关系的理论,同一分类( 等价类) 内的元素是不可分辨的,对信息的 处理可以在等价类的粒度上进行,由此可以达到对信息进行简化的目的粗糙集是一种基于集合论 的不确定信息处理方法,具有如下基本特点: ( 1 ) 粗糙集是一种软计算方法,传统的知识处理是一种硬计算方法,使用精确、固定和不变的 算法来表达和求解问题而软计算方法则允许利用不精确性、不确定性和部分真实性以得到易于处 理、鲁棒性强和成本低的解决方案,以便更好地与现实系统相协调 ( 2 ) 粗糙集仅仅从数据本身进行分析,无需提供所要分析的样本数据之外的任何先验知识或附 加信息,不要预先给予主观评价,如统计学中要假定概率分布,模糊集中要给定隶属度,证据理论 中要赋予似然值等 ( 3 ) 粗糙集能分析各种数据,包括确定性和非确定性的;不精确和不完整的以及拥有众多变量 的数据,并对数据进行简化,从而发现知识、推理决策规则,不仅是一种决策分析方法,而且是一 种系统建模方法系统模型是由求出的一组决策规则来表达的,因此,利用该组系统特性的表达公 式建立的系统模型,我们可以进行系统预测、控制和决策分析等 ( 4 ) 粗糙集与其他不确定方法一样,它们都是处理含糊性和不确定性问题的数学工具但是它 们又有不同之处:主观b a y e s 中,不确定性看成是概率;证据理论中,不确定性是可信度;模糊集 理论中,不确定性是集合的隶属度;粗糙集理论中,不确定性是上下近似集之差集,有确定的数学 公式来描述,所以含糊元素的数目可以计算出来,这就使得边界域具有清晰的数学意义,大大减少 了算法设计的随意性 目前粗糙集理论研究主要集中在数学性质、粗糙集拓广、与其他不确定方法的关系和互补、多 a g e n t 系统中粗糙集、粒计算( g r a n u l a rc o m p u t i n g ) 、粗糙集的不确定性度量以及粗糙集的有效算 法等,这些问题都在文献 1 2 】有较为详细的论述 在数学性质方面的研究,主要讨论粗糙集的代数结构与拓扑结构,以及粗糙集的收敛性等同题 在粗糙集理论与其他处理模糊性或不确定性之间关系的研究中,在粗糙集理论拓广方面的研究主 要有:可变精度粗糙集模型1 1 5 ,1 7 ,3 1 1 、模糊粗糙集模型与粗糙模糊集模型【5 2 s 、概率粗糙集模型 【1 6 1 、基于优势关系的粗糙集模型【4 3 ,4 4 1 等文献【2 】研究了粗糙集与贝叶斯推理的联系在粗糙集 的有效算法研究方面,主要集中在约简的启发式算法、规则抽取算法、增量挖掘算法,以及粗糙集 的基本运算的并行算法等 对粗糙集理论研究的不断深入,与其他数学分支的联系也更加紧密例如,从算子的观点看粗 糙集理论,与之关系较紧的有拓扑空间、数理逻辑、格与布尔代数、算子观点等;从构造性和集合 的观点来看,它与概率论、模糊数学、证据理论、图论、信息论等联系较为密切粗糙集理论研究 不但需要以这些理论作为基础。同时也相应地带动这些理论的发展 1 粗糙集与概率统计相结合 粗糙集主要研究信息系统中知识的不准确、不完善的问题,它的基本方法是确定性的,因而忽 略了可利用的概率统计信息我们可否根据获得的知识符合( 例如属性和属性值) 对给定的一组对 象进行专家分类和推理决策,这里包括我们知道论域u 中全部研究对象的描述( 确定性知识) 和 宁夏大学硕士学位论文 李长升:基于粗糙集的定性数据分析 3 仅知道论域u 中一个随机抽样构成的子集的对象的描述( 概率性知识) 探讨在一定条件下,粗糙 集方法和概率统计方法的联系,两种信息处理方法的共同点和统一性,从而为确定性和不确定性 知识表达系统提供一个统一模型一统计粗集模型统计粗集模型是确定性粗集模型的一个扩展与补 充 2 粗糙集与模糊集相结合 粗糙集理论与模糊集理论都是研究信息系统中知识的不完整、不确定性问题,都可以从复杂 系统的大量数据中提取有用特征,发现数据中的知识,推理决策规则,但两者的着眼点不一样:粗 糙集着眼于集合的粗糙程度,模糊集着眼于集合的模糊性;粗糙集基于集合中对象间的不可分辨 性思想,模糊集建立这个集合的子集边缘的病态定义模型粗糙集和模糊集的研究方法不同,因而 导致各自相互不能替代的特点,例如,利用粗糙集可以更方便地研究表达知识系统的属性的重要 性,更方便地研究属性之间的依赖关系,因而更容易对系统的描述特征进行优选,达到简化系统的 目的;而模糊集在信息处理中,对输入数据没有离散归一化的要求,而且考虑了研究对象的不确定 性因此,利用粗糙集的概念考虑模糊集的粗近似,利用模糊划分的相似性关系研究集合的近似问 题,从而把两种方法有机地结合在一起,取长补短,大大丰富了对信息系统中不完善、不精确性知 识的描述和处理 3 粗糙集与神经网络相结合 从大量观察和实验数据获取知识、表达知识、推理决策规则是智能信息处理的重要任务,特别 是对于不精确、不完整的知识粗糙集方法和人工神经网络方法都显示了无穷的魅力然而由于两 者方法不同,粗糙集方法模拟人类的抽象逻辑思维,神经网络方法模拟形象直觉思维,因而具有不 同特点粗糙集是基于不可分辨性的思想和知识简化的方法,从数据中推理逻辑规则作为知识系 统的模型;神经网络是利用非线性映射的思想和并行处理的方法,粗糙集可以输入定性、定量或者 混合性信息,神经网络可以实现无导师聚类学习,但不能确定哪些知识是冗余的、哪些知识是有用 的粗糙集方法可以描绘知识表达中,不同属性的重要性,简化知识表达空间,但它是从训练数据 中推理规则,属于有师学习由此可见,两者既各有特点,有具有很多相同之处,探索两者的有机 结合,可望为智能信息处理开拓一个值得期待的前景 粗糙集理论是- - i 1 新型学科,从它的产生到应用,一直受到人们的广泛关注,目前正处于一 个快速发展阶段粗糙集的理论研究主要包括粗糙逻辑、粗糙函数、,模型拓展以及理论融合等方 面粗糙集理论是- - n 实用性很强的学科,对它的应用研究也一直备受关注,并在实际应用中迅速 推广,例如,基于粗糙集的实例学习系统、基于粗糙集的决策支持系统、基于粗糙集的数据挖掘系 统、基于粗糙集的的数据分析和知识发现系统、基于粗糙集的图像识别系统等等。 粗糙集理论的研究热点主要包括以下几个方面: ( 1 ) 大数据集问题现实中的数据库已经越来越大,如何降低算法的执行效率和复杂度,从众多 数据中寻找最有用的数据,是粗糙集理论需要应对的一个挑战虽然目前这方面已有了一些研究成 果,但是还不完善,仍需要进一步研究 ( 2 ) 缺失值处理方法在对样本数据进行处理时,往往会遇到数据丢失的问题一般把含有丢失 数据的信息系统称为不完备的信息系统造成数据丢失的原因很多,如对数据测量的误差、数据处 理和数据获取的限制等等由于经典粗糙集理论是基于完备信息系统的,为了使这一理论适合于不 宁夏大学硕士学位论文李长升:基于粗糙集的定性数据分析 4 完备信息系统的处理,需要采用某种方法对缺失值进行处理,建立处理不完备信息系统的扩展粗糙 集模型 ( 3 ) 高效的约简算法约简的求解是一个n p 难问题,导致n p 难问题的主要原因是属性的组 合爆炸高效的约简算法是粗糙集应用于知识发现的基础要在令人可接受的时间内获得约简的通 常做法是基于启发式知识的约简方法,国内外学者在这方面做了大量的研究,现在尚不存在一种非 常有效的方法因此寻求快速的约简算法及其增量版本这一问题仍是粗糙集理论的研究热点之一 ( 4 ) 多方法融合由于粗糙集在处理数据时存在一定的缺点,因此有必要把粗糙集和其他不确 定方法结合起来目前比较常用的作法是粗糙集和神经网络及模糊集的结合应用虽然在这方面已 经取得了一定的成绩,但是还有很多难点并没有解决,仍需进一步的研究 ( 5 ) 连续数据的离散化因为粗糙集只能处理离散化的数据,而现实中存在的一般是连续型的 数据,因此,连续数据的离散化变得极为重要目前已经有了一些这方面的相关研究,但是这些方法 或多或少的都存在一定的缺陷,还没有一种比较公理化的方法因此该方面的研究仍是今后研究的 热点 1 3本文工作要点和结构安排 本文针对定性数据中的名义数据和有序数据,利用粗糙集理论中的等价关系和优势关系对上 述两种数据做了分析,当数据中既有名义数据又有有序数据时,提出了优等关系粗糙集模型文章 的结构安排如下: 第二章以粗糙集理论中的等价关系为基础,讨论了信息系统的属性约简和规则提取,为名义 数据的分析提供一定的理论依据 第三章分析了有序数据,考虑了优势关系下的粗糙集模型,给出决策信息系统在优势关系下的 辨识矩阵约简方法及规则提取公式,并给出了数值例子最后给出了优势关系下的变精度粗糙集模 型 第四章介绍了既有名义数据又有有序数据的混合数据的分析方法,提出了优等关系粗糙集模 型,给出了属性约简的辨识矩阵方法,并给出了数值计算例子 第五章为总结与展望 第二章名义数据分析 名义数据是定性数据的一种基本类型,又称为分类数据,例如以0 和1 分别代表男性和 女性、i ,2 ,3 分别代表红、绿、蓝等这些赋值只是一个名义的作用,它的值的大小和顺序并 无统计意义,也不能进行运算从数据分析的角度来看,对这种分类数据一般需要建立统计模 型,如考虑变量相关性的列联表分析,一般的线性模型等本章对名义数据以粗糙集中的等价关 系为基础,给出信息系统及决策信息系统的辨识矩阵,并给出属性约简的判定定理和规则提取方法 2 1 粗糙集及其近似 经典粗糙集理论是以等价关系为理论基础的,下面给出等价关系的定义 定义2 1 1 1 1 1 设u 是对象集,记 u 2 = uxu = ( z ,z j ) :z i ,u ) 冗u 2 称为矿上的一个等价关系,若r 满足以下条件: ( 1 ) 自反性:( z i ,z j ) r ,( v i n ) ( 2 ) 对称性:v i ,j sn ,( 戤,) r j ( ,以) 咒 ( 3 ) 传递性:v i ,歹,七n ,( 戤,) r ,( ,z 1 ) r 号( 戤,x k ) 冗 定义2 2 1 1 设矿是对象集,若存在g 冬u c i 七) ,若满足以下条件: ( 1 ) a 0 ( f 七) , ( 2 ) a n 劬= 0 ( i 歹) , i ( 3 ) ug = u 称a = a ,q ,仇) 为u 的一个分划 知识的概念是内涵和外延的统一体,而往往由于现有信息的不足不能对所有的概念进行精 确的刻画和描述,所以用基本概念近似描述任意概念将成为最重要的问题,粗糙集中的近似空间 的概念正是基于这种要求所提出的 定义2 3 【1 l 】设r 是u 上的等价关系称( u ,r ) 为p a w l a k 近似空间,记含z 的r 等价类为 【z 】r = 可u :( z ,! ,) r ) 基本确定集的全体定义为由r 导出的u 上的分划: 4 = 叫冗= k 】r :z u ) 确定集的全体定义为由4 生产的最小的代数盯( 4 ) 粗糙集可以用两个近似集即下近似( 1 0 w e ra p p r o x i m a t i o n ) 和上近似( u p p e ra p p r o x i m a t i o n ) 来 近似地定义 宁夏大学硕士学位论文 李长升:基于粗糙集的定性数据分析 6 定义2 4 【1 1 】设( u ,r ) 为p a w l a k 近似空间,即冗是u 上的等价关系,对于任意x u ,称 丑( x ) = z u :m 兄冬u ) = u r :翻r x ) ( 2 1 1 ) 为x 关于近似空间( 以r ) 的下近似,称 r ( x ) = z u :【z 】rnx 0 ) = u p 】r :k 】rnx 0 ) ( 2 1 2 ) 为x 关于近似空间( 阢r ) 的上近似 定理2 1 ( 1 ) x 为r 可定义集当且仅当旦何) = 瓦( x ) ; ( 2 ) x 为r 粗糙集当且仅当显( x ) 瓦( x ) 我们也可将旦( x ) 描述为x 的最大可定义集,将瓦( x ) 描述为含有x 的最小可定义集 定理2 21 1 1 】设( 以r ) 为p a w l a k 近似空间,下近似与上近似满足以下性质: ( 1 ) 星( x ) = 一冗( 一x ) ,冗( x ) = 一旦( 一x ) ( 2 ) 显( u ) = r ( u ) = 仉显( 0 ) = r ( o ) = 毋 ( 3 ) 旦( xny ) = r ( x ) n 显( y ) ,r ( xuy ) = n ( x ) ur ( y ) ( 4 ) 显( x u y ) 2 垦( x ) u 显( y ) ,r ( x n y ) r ( x ) n r ( y ) ( 5 ) a ( x ) x r ( x ) ( 6 ) 若x y ,贝0 丑( x ) 显( y ) ,瓦( x ) 瓦( y ) ( 7 ) 显( x ) 三显( 显( x ) ) ,冠( x ) 夏( 瓦( x ) ) 定义2 5 称b n x = 再( x ) 一显( x ) 为x 的r 边界域;p o s x = 显( x ) 为x 的r 正域;n e g x = u 一一a ( x ) 为x 的r 负域 下近似集( 正域) 实际上是由那些根据已有知识判断肯定属于x 的对象所组成的最大集合, 上近似集指的是那些可能属于x 的对象组成的集合,边界域是由那些可能属于也可能不属于x 的对象组成的集合,负域是那些根据知识r 判断肯定不属于x 的【,中元素构成的集合 2 2信息系统及其属性约简 信息是人类认识客观世界的结果,同时也是人们行为决策的准则人们利用已掌握的知识,面 对不断变化的环境与条件进行决策,同时人们不断地利用成功的决策形成知识,不断丰富自己的 知识卑首先给出信息系统的形式定义 定义2 6 1 1 1 】称( u , a ,k ,) 是一个信息系统,其中u 为对象集,即 、 u = :g l ,x 2 ,z n ) , u 中的每个元素翰0 n ) 称为一个对象a 为属性集,即 a = 0 1 ,a 2 ,a n , 宁夏大学硕士学位论文李长升:基于粗糙集的定性数据分析 7 a 中的每个元素铆( f m ) 称为一个属性y = u 。e a k ,亿表示属性。的值域,f :u a v 是一 个信息函数,它指定u 中的每一个对象z 的属性值,即对阢n a ,有f ( x ,a ) k 如果属性 集a 可以分为条件属性q 和决策属性d ,即a = qud ,qnd = o ,d o ,则该信息系统称为决 策信息系统或决策表 信息系统是数据库的抽象描述信息系统中的信息函数,是非常重要的,它是对象集与属性 集之间的纽带,也是知识发现的现实基础 对决策表而言有单一决策与多决策之分,如果决策属性集中只包含一个属性,则称决策表为 单一决策表,否则称为多决策表事实上单一决策与多决策并无本质区别,因为我们可以很容易地 将一个多决策表转化为一个单一决策表,因此本文将只对单一决策问题进行讨论 定理2 3 1 1 l 设( 仉a ,k ,) 是一个信息系统,对于b a , r b = t ( z t ,吻) :f l ( x , ) = l l ( z j ) ( v a l b ) ) ( 2 2 1 ) r b 是u 上的一个等价关系, 其中 扛i 】日= 巧:( z ,即) r i b = x j :i z ( x j ) = 五( z i ) ( v a t b ) ) 定理2 4 设r b 为信息系统( 玑a ,k ,) 上的等价关系,则 ( 1 ) 冗b 是自反的、传递的和对称的 ( 2 ) 若b a ,则r j 4 r b ( 3 ) 若b a ,则【z i a k 】日 ( 4 ) 若z j b i 】 ,则【】 = 陆l 4 ( 5 ) 【巧】 = 陋d a 当且仅当,( 瓤,口1 ) = f ( x j ,a 1 ) ( v a l a ) ( 6 ) 对于任意b a ,有l :i b2 。b r 。 ( 7 ) 了= u ( x , a l x i 【,) 是u 的分划 属性约简是粗糙集理论的核心内容之一,信息系统中属性并不是同等重要的,甚至某些属性 是冗余的,属性约简是在不降低信息系统分类能力的基础上,用能区分所有对象的最小属性子集 来代替原来的属性集,使得相同的决策通过更少量的条件得出,经过一些较少的判断就可以得出 同样精度的结果 定义2 7 1 1 l 设s = ( 阢a ,k ,) 是信息系统,r b 是信息系统s 上的等价关系,设b 冬a ,若等 价关系r b = 冗a 成立且对于b b ,等价关系r b 一 6 r 不成立,则称b 是信息系统孓在等价 关系下的约简 一般说来,信息系统的约简不是唯一的,用 b i :i f ) 表示信息系统的所有约简则称b = n 鼠为信息系统s 的核心一般地,核心不一定构成约简,若核心非空,则任何约简都包含核心,且 i = l fl 核心中的元素是任何约简都必须的,因而是绝对必要属性b = ub i n 鼠是相对必要属性,它 i - - - - - li = 1 i 仅出现在某些约简中而b ”= 口一u 鼠是绝对不必要属性,它不出现在任何约简中 宁夏大学硕士学位论文 李长升:基于粗糙集的定性数据分析8 定义2 8 设( 阢a ,k ,) 为信息系统,d 为决策属性,若r 吼,则称决策信息系统是协调 的,否则称决策信息系统是不协调的 定理2 5 协调的决策信息系统的约简总是存在的 定理2 5 保证了协调决策信息系统属性约简的存在性,以下给出决策信息系统属性约简的辨 识矩阵方法 定义2 9 设( 仉a = q u d ) ,k f ,驰) 为协调的决策信息系统,d 为决策属性,驰为决策函数, 等价关系r 在矿上构成的分划为:w r a = q :i t ) ,称 , d d ( q ,c j ) : 吼q :a ( g ) ( o ) ) 驰( g ) 9 d c ” 1 a 驰( g ) = g d ( o ) 为q 与岛关于d 的可辨识属性集,称 仇= ( d d ( c ,岛) :i ,歹st ) 为决策信息系统的可辨识属性矩阵 定理2 6 设( 以a ,k ,) 为协调决策信息系统,则 ( 1 ) 对于b a 使 口n d d ( c _ i ,0 ) d 成立当且仅当冗b 冠d ( 2 ) 对于b a ,r b r d 当且仅当对于任意d a ,bnd = o ,必有dg 仇 ( 3 ) a 是决策信息系统的核心元素当且仅当存在2 i ,x 1 u ,使d d ( c i ,岛) = 口) 证明( 1 ) 假定r b r d ,则当g d ( c ) = 驰( g ) 时,有d d ( c 1 i ,q ) = a 于是b n d d ( c i ,岛) 0 而当肌( q ) g d ( 岛) 时,则存在z i g 和巧0 ,使勺g 【z i d 由于r b r d ,因此 k 】b z i d ,于是巧叠陋i 】b ,从而必存在a l b ,使f l ( z , ) ( 即) 这样就有m d d ( c ,g ) ,即 b nd d ( c ,c j ) o 反之,对于任意双u ,记k 】 = g 对于任意gk 】d ,记b 】a = g , 则驰( g ) = 驰( k 】a ) g d ( z j h ) = g d ( q ) ,从而由bnd d ( c i ,岛) o 知,存在c i l b ,使 i t ( = i ) 五( 巧) ,这说明巧zk 】口,于是k 】b = i l d ,即r b 如 ( 2 ) 由( 1 ) 知r b r d 当且仅当d l p d 时,bnd 0 ,贝4 得证 ( 3 ) 设a 为决策信息系统的核心元素假如包含a 的任何可辨识属性集中至少有两个元素,令 b = u ,f ( d d ( q ,岛) 一 口) ) ,则b n d d ( c ,岛) 0 ( w ,j t ) 从而由( 1 ) 知冗口吼,于是存在 c b 使得c 是决策信息系统的约简显然,a 掣c ,这与a 是核心元素矛盾 反之,若存在a ,q ,使d d ( c ,o ) = 口) 若l a l = 1 ,即a = n ) ,贝l jn 就是核心元素现 假设l a i 1 ,则欲证口在所有约简中,我们只须证r a 一 。,耽不成立即可,即只须证存在瓤 使k 】 一 。) 垡【z 】d 事实上,由于d d ( c i ,岛) = 口) ,因此夕d ( g ) 9 d ( q ) ,即存在戤g 和 岛,使巧窖b 】d ,但是由d d ( c _ i ,g ) = a ) 可知【甄】 一 。) = b 】 一 。) ,从而q 阮h t 口, 于是陆】a 一 。 k 】d 不成立因此,a 是核心 宁夏大学硕士学位论文李长升:基于粗糙集的定性数据分析 9 2 3 数值例子 表2 1 决策表 表2 1 为协调的决策信息系统,q = 口,a 2 ,a 3 ,n 4 ) 为条件属性,利用辨识矩阵的方法求得该 决策信息系统的约简属性为 口2 ,口3 ) ,约简过程如下: 等价关系勘在u 上构成的划分为u 砀= e l ,q ,c 3 ,c 4 ,g ) ,其中c 1 = x l ,z 3 ,z 9 ) ,c , 2 = z 2 ,x 7 ,z l o ,c 3 = z 4 ) ,c 4 = z 5 ,z 8 ) ,g = z 6 ) 等价关系玩在u 上构成的分划为c ,r d = d 1 ,d 2 ) ,其中d 1 = z l ,x 3 ,x 6 ,z 9 ) = qug , d 22 z 2 ,x 4 ,x 5 ,z 7 ,x 8 ,x 1 0 = v 2uc 3ua 由定义2 9 可得该决策信息系统的辨识矩阵为 表2 2 决策表的辨识矩阵 c lc 2c 3c tc 5 q aa a l ,n 2 ) 口l ,a 3 ,n 4 a q a a aa a 1 ,口2 ,d 3 ) 伤 o l ,0 2 ) a aaa c 4 n l ,0 , 3 ,a 4 aaa 口3 ) 锯 a a l ,a 2 ,n 3 ) a 0 3 ) a 根据定理2 6 可知q l = 口1 ,a 3 ) 或q 2 = a 2 ,0 3 ) 为该决策信息系统的约简 宁夏大学硕士学位论文李长升:基于粗糙集的定性数据分析 1 0 对于q 1 = 口1 ,0 3 ) ,得到以下几条决策规则: ( 口1 ,3 ) a ( 口3 ,1 ) o ( d ,2 ) , , l ,1 ) a ( 0 , 3 ,4 ) - + ( d ,2 ) , ( 口l ,1 ) a ( 0 , 3 ,2 ) _ ( d ,1 ) , ( n 1 ,2 ) a ( ( 1 3 ,3 ) - ( d ,1 ) v ( d ,2 ) 对于q 2 = 0 2 ,0 3 ) ,得到以下几条决策规则: ( 0 , 2 ,1 ) a ( 口3 ,3 ) _ ( d ,1 ) , ( 0 , 2 ,2 ) a ( 0 , 3 ,1 ) - 4 ( d ,2 ) , ( 0 2 ,2 ) a ( 0 , 3 ,3 ) _ ( d ,2 ) , ( a 2 ,1 ) a ( 口3 ,4 ) - + ( d ,2 ) , ( n 2 ,1 ) a ( o , 3 ,2 ) _ + ( d ,1 ) 第三章有序数据分析 在现实世界中,我们往往遇到的数据是有序的情况,例如地质学中考虑矿床规模可有小、 中、大之分,人们对某社会问题的态度可分为支持、中立、反对和极力反对,人们所受教育 的程度可分为初等、中等和高等,人们的年龄可分为少年、中年和老年等这类数据即不能计 量,也不能计数,而只能给出一个顺序,如用1 ,2 ,3 等表示各状态间的顺序关系,且这些数 是不能进行算术运算的对于这类数据,我们称之为有序定性数据,简称有序数据,描述它的 属性称之为有序属性对于这种有序属性,如果不考虑状态之间的顺序关系,则损失对象间的 序信息基于粗糙集理论的等价关系不能够处理这类数据,因为经典粗糙集理论是以等价分类 为基础的,该理论的核心也正是这种等价关系本章以基于优势关系的粗糙集模型来分析有序数据 3 1 基于优势关系的粗糙集模型 定义3 1 设s = 阢a ,k ,) 为一个信息系统,其中u 为非空有限集合,即u = z l ,x 2 ,z 。) , u 中的每个甄“n ) ,称为一个对象a 为属性集,即a = 口l ,a 2 ,o m ) ,a 中的每个a “m ) , 称为一个属性,为u 和a 的关系集,即,= 办:j ;m ) 其中方:u - y j u m ) ,y j 为属性吩 的值域,b a , r 言= ( x i ,巧) u u :f l ( x _ i ) ,l ( ) ,v a l b )( 3 1 1 ) 称为信息系统上的优势关系若( z ,y ) 月言,则称z 关于属性集b 比y 有优势 记陋t 】b = z j u :( x i ,x j ) r 刍) = z j u : ( z t ) h ( x j ) ,v a i b ) 易见优势关系具有以下性质: ( 1 ) r 言是自反和传递的,不是对称的,因此不是等价关系 ( 2 ) 当b l 岛a ,有r 言。2r 言:2 碥 ( 3 ) 当b lsb 2 a ,有p d b ,2 【x i z :2 【z d a ( 4 ) z i b = 扛,】日当且仅当五( 瓢) = 五( q ) ,( n l b ) ( 5 ) 如= b 1 ,玩,风) = ( k 】口:x i u ) 是对象集u 上的覆盖 对于任意x u ,定义x 关于近似优势空间( 阢r 言) 的下近似和上近似分别为 r 言c x ) = 戤u :k 】b x ) , r 言x ) = 瓤u :k 】bnx 毋) , ( 3 1 2 ) ( 3 1 3 ) x 关于近似优势空间( 阢r 荟) 的正域p o s 口( x ) ,负域n e g b ( x ) 和边界b n b ( x ) 分别为: p o s b 2 ( x ) = r 言伍) , n e g b ( x ) = 一赡( x ) = z u :扛i 】bnx = 口) , b n b 2 ( x ) = r 言( x ) 一冗言( x ) 宁夏大学硕士学位论文李长升:基于粗糙集的定性数据分析 1 2 当r b - - 何) = 兄言( x ) 时,称x 关于优势近似空间( 阢r 言) 是可定义的,否则称x 关于优势近似空 间( 配r 言) 是粗糙的 例3 1 表3 1 给出了一个信息系统,其中u = z l ,z 2 ,x 3 ,乳,z 5 ,x 6 ,a = 口1 ,口2 ,0 3 ) 表3 1 按照优势关系定义可以得到若取x = x 2 ,t , 3 ,z 5 ) ,则有 从中也可以看出,在优势关系下, 扁伍) = z 3 ) 冬x , r ;( x ) = z 2 ,x 3 ,z 5 ,z 6 2x r ;( x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论