




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
粗糙集理论介绍,1,问题的提出:知识的含糊性,术语的模糊性,如高矮数据的不确定性,如噪声知识自身的不确定性,如规则的前后件间的依赖关系不完全可靠不完备性,数据缺失,2,由此,提出了包括概率与统计、证据理论:理论上还难以令人信服,不能处理模糊和不完整的数据模糊集合理论:能处理模糊类数据,但要提供隶属函数(先验知识)粗糙集理论:能处理具有不精确性和不确定性的知识等各种理论和方法,3,模糊集和基于概率方法,有时需要一些数据的附加信息或先验知识,如模糊隶属函数,基本概率指派函数和有关统计概率分布等,而这些信息有时并不容易得到粗糙集无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理可以说是比较客观的,4,粗糙集理论的历史,20世纪70年代,波兰数学家Z.Pawlak和一些波兰科学院,波兰华沙大学的逻辑学家们,一起从事关于信息系统逻辑特性的研究.1982.Z.Pawlak发表论文“RoughSet”.宣告RS的诞生1991.Z.Pawlak出版著作“RoughSets:TheoreticalAspectsofReasoningaboutData”1992.召开首次国际研讨会,应用专集.之后得到飞速发展,在数据挖掘,模式识别,粗糙逻辑等方面取得较大进展.,5,粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。,粗糙集理论的基本观点,6,Outline:,粗糙集理论的基本概念粗糙集理论的应用(规则挖掘和属性约简)其他,7,基本概念,1信息系统,决策表2知识3等价关系,不可分辨关系与基本集4下、上近似正区域,负区域,边界域5粗糙度6粗糙隶属函数,8,基本概念(1)信息系统,信息系统是四元组(U,Q,V,f).其中U是对象集合Q是属性集合(包括条件属性C和决策属性D),V是属性的值域f是一种映射,反应对象集合之间的值,9,返回,信息系统实例:其中U1,2,3,4,5;QA1,A2,A3,A4;V=VA1VA2VA3VA40,1,2f,将对象属性映射到它的值域,10,基本概念(2):知识,RS中,知识被认为是一种分类能力。人们的行为是基于分辨现实的或抽象的对象的能力。那些根据事务的特征差别将其分门别类的能力都可以看作是某种“知识”。论域中相互间不可分辨的对象组成的集合。是组成知识的颗粒(granule)。知识是有粒度的.粒度越小,能精确表达的概念越多.粒度的形式表示:不可分辨关系/等价类.粒度是知识的最小单位。,返回,11,基本概念(3)不可分辨关系与基本集,不可分辨关系IND(P)/等价关系:分类过程中,相差不大的个体被归于同一类,他们的关系就是不可区分关系。对于任何一个属性集合P,不可分辨关系用IND表示,定义如下:IND(P)(x,y)UU:f(x,a)=f(y,a),aP不可分辨关系就是U上的等价关系基本集:由论域中相互间不可区分的对象组成的集合,是组成论域知识的颗粒。,12,例1一玩具积木的集合如下表描述(表1)取不同的属性组合,可得不同的等价关系(粒度)为:IND(R1)x1,x3,x7,x2,x4,x5,x6,x8IND(R1,R2)x1,x2,x3,x7,x4,x5,x6,x8,返回,13,基本概念(4)集合的上近似、下近似和边界区,一个对象a是否属于集合X根据现有知识来判断,可分为三种情况:1)a肯定属于集合Xa可能属于也可能不属于集合Xa肯定不属于集合X,返回,14,LetU为论域(非空对象集合),I为U中的一组等价关系,Then集合X关于I的下近似(Lowerapproximation)是由那些根据现有知识判断肯定属于X的对象所组成的最大集合,有时也称为X的正区(positiveregion),记做POS(X)集合X关于I的上近似(Upperapproximation)是由所有与X相交非空的等效类I(x)的并集,是那些可能属于X的对象组成的最小集合。,15,如果上下近似是相等的,则这是一个精确集合,否则它是一个粗糙集,其中下近似称为该概念的正区域,上下近似的差称为边界。上近似以外的区域称为负区域(Negativeregion),记为NEG(x)。so,16,等价类IND(R1)=x1,x3,x7,x2,x4,x5,x6,x8X=X1,X2,X3,X4,例2:(表2),Then,thereare:I*(x)=x2,x4I*(x)=x1,x3,x7,x2,x4,回,回,回24,17,近似的示意图,假定有一个信息系统,有两个属性.属性一有5个值,属性二有6个值.现在有一个要近似的集合(X),在图中用红色的圆表示.,18,仅使用第一个属性进行划分的情形.正区域为空.蓝色区域为负区域.,19,使用两个属性进行划分的情况,加入第二个属性,负区域,正区域(下近似),20,边界区域,上近似,综合表示,返回,21,基本概念(5)粗糙度,下近似、上近似及边界区等概念称为可分辨区,刻化了一个边界含糊(vague)集合的逼近特性。粗糙程度按右边公式计算。式中|表示集合的基数或势,对有限集合表示集合中所包含的元素个数。,例2的粗糙度2/5,返回,22,基本概念(6)粗糙隶属函数(Roughmembershipfunction),含糊集合没有清晰的边界,即,根据论域中现有知识无法判定某些元素是否属于该集合。在RS中,不确定(uncertainty)这个概念是针对元素隶属于集合的程度而言。,例2中,I为属性R1上构成的等价关系时,x1对集合的粗糙隶属函数为:2/3,23,粗糙度与粗糙隶属函数,vague(粗糙度):用来描述集合,指集合的边界不清楚uncertainty(粗糙隶属函数):描述元素,指某个元素是否属于某集合是不确定的。,返回,24,粗糙集理论的基本概念粗糙集理论的应用(规则挖掘和属性约简)其他,25,粗糙集的应用,粗糙集在数据挖掘中的应用基于粗糙集的数据约简,返回,是一种刻划不完整性和不确定性的数学工具,能有效地分析不精确,不一致,不完整等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,26,1.粗糙集在数据挖掘中的应用,粗糙集理论的的数学基础:假定所研究的每一个对象都涉及到一些信息(数据、知识),如果对象由相同的信息描述,那么它们就是相似的或不可区分的。,粗糙集对不精确概念的描述是通过上、下近似这两个精确概念来表示的。,27,Example例3含6个流感病例的表(表43),Step1.寻找不可分辨关系:“头疼”:p2,p3,p5,p1,p4,p6“肌肉痛”:p1,p3,p4,p6,p2,p5“体温”:p1,p2,p5,p3,p6,p4“头疼肌肉痛”:p1,p4,p6,p2,p5,p3“头疼体温”:p1,p2,p5,p3,p4,p6“肌肉痛体温”:p1,p2,p5,p3,p6,p4“头疼肌肉痛体温”:p1,p2,p5,p3,p4,p6,28,Step2.针对各个属性下的初等集合寻找下近似和上近似。,以“头疼肌肉痛体温”为例,设集合X为患流感的人的集合,I为3个属性构成的一个等效关系:p1,p2,p5,p3,p4,p6,则X=P1,P2,P3,P6I=p1,p2,p5,p3,p4,p6集合X的下近似为I*(X)=POS(X)=p1,p3,p6集合X的上近似为I*(X)p1,p2,p3,p5,p6集合X的负区为NEG(X)=p4集合X的边界区为BND(X)=p2,p5,29,Step3.获取规则,根据上面的分析可得出关于属性“头疼肌肉痛体温”的规则:下近似得到的:RULE1:IF(头疼否)and(肌肉痛是)and(体温高)THEN患有流感RULE2:IF(头疼是)and(肌肉痛是)and(体温很高)THEN患有流感RULE3:IF(头疼否)and(肌肉痛是)and(体温很高)THEN患有流感负区得到的:RULE4:IF(头疼否)and(肌肉痛是)and(体温正常)THEN没患流感边界区得到的:RULE5:IF(头疼是)and(肌肉痛否)and(体温高)THEN可能,30,以“肌肉痛体温”为例:X=P1,P2,P3,P6I=p1,p2,p5,p3,p6,p4,可以处理不完整的数据的体现,RULE1:IF(肌肉痛是)and(体温高)THEN患有流感RULE2:IF(肌肉痛是)and(体温很高)THEN患有流感RULE3:IF(肌肉痛是)and(体温正常)THEN没患流感RULE4:IF(肌肉痛否)and(体温高)THEN可能,返回,31,2.基于粗糙集的数据约简,不可分辨关系近似集(下近似和上近似)属性的依赖度属性的重要性冗余属性属性约简,返回,32,属性的依赖度,利用两个属性集合D、C之间的相互依赖程度,确定在决策属性D之下的条件属性集合C的重要性,即,决策属性集合D对条件属性集合C的依赖程度用如下定义来表示:,POSc(D)是属性集C在U/IND(D)中的正区域。example,33,例4.属性依赖度的计算,令CA1,A2,D=A5依据属性A1、A2,可得到U/IND(D):1,8,2,6,3,4,5,7正区域为:4,5,7So,POSC(D)POSA1,A2(A5)4,5,7Q(P)=3/8=0.375,返回,34,属性的重要性,不同属性对于决定条件属性和决策属性之间的依赖关系起着不同的作用,属性a加入C,对于分类U/IND(D)的重要程度定义为:SGF(a,C,D)=C(D)-C-a(D),有属性a的依赖度,没有属性a的依赖度,35,例5.属性的重要性计算,表4,令CA1,A2,D=A5有POSC(D)4,5,7C(D)=3/8=0.375ifaA1,thenC-a(D)A2(D)=3/8ifaA2,thenC-a(D)A1(D)=0SO,SGF(A1,C,D)=0SGF(A2,C,D)=3/8说明属性A2比属性A1更重要,返回,36,冗余属性,对于属性集D和R,属性a属于R,如果POSR(D)=POSR-a(D),ORSGF(a,R,P)=0则a在属性集R中是冗余的(如例5中的A1),否则a在R中对于D是不可缺少的。,37,实际应用中存在的问题,不可分辨关系对问题的限制太过于严格,对问题的描述过于单调离散化问题难以优化,对于规模小,且属性本身具有明确的逻辑意义的数据会有较好的数据分析效果。对于大规模,特征又是连续值的数据,一定要离散化之后用粗糙集方法,很难得到十分满意的结果。,38,粗糙集知识发现系统http:/www.cs.uregina.ca/roughset,RSES系统:基于粗糙集理论的方法分析数据的工具集,波兰华沙大学LERS系统:基于粗糙集的实例学习系统,美国Kansas大学开发ROSE系统:实现了Pawlak的基本粗糙集模型和可变精度粗糙集模型,波兰Poznan工业大学计算机科学研究所智能决策支持系统实验室研制KDD-R系统:基于可变精度粗糙集模型,采用知识发现的决策矩阵方法。加拿大Regina大学研制RoughEnough系统:包括数据输入、预处理、编辑、生成可辨识矩阵、集合近似、约简、生成规则、预测和分析。挪威TrollDataInc.公司开发,39,重要文献,Pawlak,Z.Roughsets:Theo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南昌市公安局交通管理局2025年上半年招聘警务辅助人员【57人】模拟试卷含答案解析
- 宁波市公安局北仑区分局招聘警务辅助人员50名笔试备考题库参考答案详解
- 2025年公安辅警招聘知识考试题(含参考答案)
- 互联网+教育平台资金申请报告:2025年教育行业投资策略研究
- 年产5万吨PVC工程管材生产扩建项目可行性研究报告模板立项申批备案
- 2025年新能源汽车充电设施布局与充电站建设与运营模式创新研究报告
- 2025年养老金制度在2025年对金融市场投资策略调整与投资机会研究报告
- 2025年企业可持续发展目标(SDGs)与可持续发展能力评估报告
- 农业生物技术在种业创新中的应用与突破产业竞争力分析报告
- 年产48套输电线路覆冰监测装置项目可行性研究报告
- 校园基孔肯雅热防控措施课件
- (2025年标准)离职手协议书
- 2025年团场人员考试题库
- 班组质量管理
- 2025年四川省建筑施工企业安管人员考试(企业主要负责人·A类)历年参考题库含答案详解(5卷)
- 实战能力评估模型-洞察及研究
- 超声引导髂筋膜阻滞技术
- 铁路建设工程质量安全监督管理办法
- 数字经济与市场结构-洞察及研究
- DB42T 1496-2019 公路边坡监测技术规程
- 学校餐厅试吃活动方案
评论
0/150
提交评论