(统计学专业论文)基于粗糙集的定性数据分析方法研究.pdf_第1页
(统计学专业论文)基于粗糙集的定性数据分析方法研究.pdf_第2页
(统计学专业论文)基于粗糙集的定性数据分析方法研究.pdf_第3页
(统计学专业论文)基于粗糙集的定性数据分析方法研究.pdf_第4页
(统计学专业论文)基于粗糙集的定性数据分析方法研究.pdf_第5页
已阅读5页,还剩117页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 定性数据分析方法有着广泛的应用前景,但随着数据采集和存储技术的 进步,我们开始面对日益增多的庞大数据库,由于“总体漂移 及非独立同 分布数据的出现,现有定性数据分析方法急待发展与完善。粗糙集作为一种 处理离散数据的数学工具,为定性数据分析方法的创新提供了一种新的视角。 通过深入研究定性数据分析内容和粗糙集方法,本文从理论与应用两个方面 较为全面和系统地提出了基于粗糙集的定性数据分析方法,主要探讨了粗糙 集在数据描述、数据预处理、判别分析及聚类分析等方面的应用。 本文创新之处:1 应用粗糙集从数据归纳推理的角度进行定性数据分析 方法的研究,这使得分析方法除了数据本身之外不需要任何其他的信息,由 推断到推理是方法上的根本转变。2 提出了用分类信息表s = u r ,彳,矿,f 描述定性数据的方法,将变量之间关系的分析转换为变量等价类之间关系的 分析。提出了用关联信息系数豫( 置,x ,) 描述变量间关联关系的方法,克服了 采用z 2 检验方法的不足。3 提出了基于信息熵进行变量约简的方法和对数据 的关联结构进行压缩的方法。4 在引入粗糙集流向图的同时,提出了按照变 量的重要性确定流向图层次的方法,避免了分析中由于流向图层次选择不当 而可能出现的辛普森悖论问题。5 提出了基于信息量进行判别变量筛选的方 法,并将定性数据判别分为完全确定型判别、完全不确定型判别及粗糙型判 别。6 借鉴因子分析思想,提出在分析变量子集关联结构的基础上,确定最 优等价类簇的聚类方法。 研究表明,本文提出的定性数据分析方法,既可用于大型数据集的分析, 也可以用于传统数据的分析,克服了传统分析方法的局限性,研究成果对于 定性数据分析方法的发展具有一定的贡献。 关键词:定性数据分析;粗糙集;流向图 a b s t r a c t q u a l i t a t i v e d a t a a n a l y s i sm e t h o d sh a v e a w i d e s p r e a dp e r s p e c t i v e o f a p p l i c a t i o n s ,b u tf - a c i n gf o l l o w i n gp r o b l e mi t sn e c e s s a d ,t od e v e l o p e dt h et h e o d r a n dt om a k ei tm o r ep e r f e c t :w i t i lm ep r o 铲e s si i ld a t aa c q u i s i t i o na 1 1 dd a t as t o r a g e , t h ed a t a - b a n kb e c o m eb i g g e ra n db i g g e r ,p o p u l a t i o nd r i a n dd e p e n d e n td a t a 、i t ht h es a m ed i s t r i b u t i o n 印p e 牡a sam a t h e m a t i c a lt o o lf o rp r o c e s s i n gd i s c r e t e d a t a ,r o u 曲s e t sp r o v i d ean e wp o i n to fv i e wf o rq u a l i t a t i v ed a t aa n a l y s i sm e t h o d s t 1 1 r o u 曲i n t e n s i v es t u d yo ft i l e c o n t e n t so fq u a l i t a t i v ed a t aa 1 1 a l y s i sa i l dm e m e t h o d so fr o u g hs e t s ,f b mb o t ht l l et h e o r e t i ca n d 印p l i c a t i v ep o i n to fv i e w w e e s t a b l i s hi nt 1 1 i sp 印e rt l l em e t h o d so fq u a l i t a t i v ed a t aa 1 1 a l y s i sb a s e do nr o u g hs e t s , a n dd i s c u s sm a i l d ym ea p p l i c a t i o n so fr o u 曲s e t st 0d a t a d e s c r i p t i o n ,d a t a p r e p r o c e s s i n g ,a 1 1 dd i s c r i m i n a t i o na j l dc l u s t e ra n a l y s i s t h ec r e a t i v ep o i n t sa r et 1 1 ef o l l o w i n g : 1 t h es t u d yo fq u a l i t a t i v ed a t a 觚a l y s i sm e t h o d s ,a p p l y i n gr o u 曲s e t sa 1 1 d f m mt h ep o i n to f 。v i e wo f 。i n d u c t i v ed e d u c t i o nb a u s e do nt h ed a 慨 2 t 1 1 i st l l e s i sp r o p o s e st l l ec o n c e p to fi n f o m a t i o nt a b l e 晰t l ld i v i d e dc l a s s e s s = u 尺,么,y ,f t od e s c r i b eq 砌i t a t i v ed a t 钆s om a tt 1 1 ea n a j y s i so fr e l a t i o n s b e m e e nv a r i a b l e sc a j lb et i 觚s f 0 m e di n t oa 1 1 a l y s i so fm er e l a t i o n sb e t w e e n e q u i v a l e n tc l a s s e s f u r t l l e rp r o p o s e di st h ed e s c r i p t i o no fa s s o c i a t i o nr e l a t i o n sb y m e a l l so ft h ea s s o c i a t i o ni n f o r m a t i o n c o e 箍c i e n t 豫( 置,x ,) , s ot 1 1 a tt h e s h o r t c o m i i l go fz 2 t e s tc a i lb eo v e r c o m e 3 7 r 1 1 i st l l e s i sa l s op r 叩o s e sar e d u c t i o nm e t h o do fv a r i a b l e sb a s e do n i i l f o r m a t i o ne n 昀p y ,a i l dam e t l l o dt oc o m p r e s s 嬲s o c i a t i o ns 协j c t u r co fd a t a 4 a tt l l et i m eo ft l l ei n t r o d u c t i o no fn o w 伊a p h s ,t h et h e s i ss u g g e s t st h el a y e r o faf l o w 黟印h ss h o u l db ed e t e 砌n e da c c o r d i n gt 0t h ei m p o r t a n c eo ft h ev a r i a b l e s , s ot l l a tm i n g sl i k es i m p s o n sp a r a d o xa i ea v o i d e d ,w 1 1 i c ha r ec a u s e db yi m p r o p e r d e t e n 】【1 i n a t i o no fl a y e r s 5 f u n h e rs u g g e s t e di st h es e l e c t i o nm e t h o do fd i s c 血l i n a t i v ev a r i a b l e s a c c o r d i n gt ot h e 锄o u n to fi n f o m a t i o n ,a n dd i s c r i m i n a t i o n so fq u a l i t a t i v ed a _ t aa u r e d i v i d e di n t ot h f e ec l a s s e s :c o m p l e t e l yd e t e m l i n i s t i cd i s c r i m i n a t i o n ,c o m p l e t e l y n o n - d e t e m l i i l i s t id i s c r i m i n a t i o na n dr o u g hd i s c r i m i n a t i o n 6 i nt h el i g h to ff a c t o ra n a l y s i s ,t l l i st h e s i sb r i n g su pac l u s t e rm e 也o dt o d e t e m i n et l l e o p t i m a lf 锄i l yo fe q u i v a l e n tc l a s s e s ,b a s e do nt h e 锄a l y s i so f a s s o c i a t i o ns n u c t l l r eo fv a r i d b l e sw i t l ld i m e n s i o n sr e d u c e d o u rs t u d ys h o w st h a tt h em e t h o d sp r o p o s e di nt h i sm e s i sc a nb ea p p l i e dt om e t r a d i t i o n a ld a 妇a n 甜y s i sa sw e ua st 0t h ed a t aa n a l y s i so fl a 唱es c a l e ,s ot h a ts o m e 1 i m i t a t i o n so ft r a d i t i o n a lm e t h o d sa r eg o tm o a 1 1 do u rr e s u l t sa d dc o n t 曲u t i o n st o t h ed e v e l o p m e n to fq u a l i t a t i v ed a t aa 1 1 a l y s i s k e yw o r d s :q u a l i t a t i v ed a t aa n a l y s i s ;r o u g hs e t s ;f l o wg r a p h s 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文产生的权利 和责任。 声明人( 签名) :魄 彬年乡月名日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦 门大学有权保留并向国家主管部门或其指定机构送交论文的纸 质版和电子版,有权将学位论文用于非赢利目的的少量复制并允 许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关 数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密 的学位论文在解密后适用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( ) ( 请在以上相应括号内打“) 日期:砌圹年刁月多日 日期:砂留年弓月日 第一章导论 1 1 引言 第一章导论 基于粗糙集理论,本文提出了几种分析定性数据的新视角与新方法。随着 数据采集和存储技术的进步,我们开始面对日益增多的庞大数据库,大容量 的数据带来了传统统计方法难以解决的问题。一方面,传统的多维定性数据 分析的对象是随机抽取的定性数据,对于定性变量间的关系则是通过独立性 检验来实现。目前数据库的数据大多都不是随机获取的,当数据本身不具有 随机性时,这一方法就无法应用,因此,现有的独立性检验方法已难以满足 这种分析的需求。另一方面,经典的统计学面临的往往是数据缺乏,而对于 大型的数据集而言,情况恰恰相反,数据库中涉及的变量个数越来越多,数 据的类型和复杂程度已远远超出传统统计学研究的范畴,传统的列联表表示 方式显然已无法满足海量数据的分析要求。如一家公司经营近2 0 0 种的产品, 拥有上万的新老客户,按月累计交易数据已达8 0 0 多万条,且除了交易数据, 大多是定性数据。从管理角度需要对这些定性数据进行关联分析,并识别具 有相同特点的客户,对于新的客户还要能根据其特征迅速做出类别判断。解 决这样的问题必须要有多维定性数据分析技术的支持,然而,且前的定性数 据分析方法主要包括多维列联表分析、对数线性模型、对应分析等,这些统 计方法大多要求数据要满足一定的前提条件,经典统计学通常假定总体是不 变的、随机的或独立同分布的,大型数据集不大可能符合独立同分布,这就 使很多基于独立同分布的统计学方法失去效用;其次是总体漂移即总体的非 平稳性,这些因素使得现有的定性数据分析方法面临严峻的挑战。 对于大型定性数据的研究发现,定性数据分析主要涉及以下几方面:一 是对于数据结构的描述。要深入分析数据就要了解数据,因而就要对数据进 行概括性的描述;二是数据的预处理。大型数据中往往存在冗余的数据,首 要的任务就是要消除不必要的数据,对于定性数据而言最关键就是变量的约 简与关联关系的压缩;三是定性数据的分类问题。包括聚类和判别分析。如 1 基于粗糙集的定性数据分析方法研究 何根据所掌握的数据对研究对象进行分类是分析过程中会遇到的问题,分类 既涉及将对象分成不同的类别,也涉及判断一个对象所属的类别;四是列联 表对于高维交叉分类数据描述存在的局限性。 对于这些问题的解决,首先从数据归纳推理的哲学角度出发,理解把握 研究方法的确定。最为根本的一点是:对于海量数据,分析的角度应该从数 据推断转向数据归纳推理。现有的多维定性数据分析方法均是在“统计推断 的基础上发展起来的,在随机的思想下进行的,而海量数据的分析显然有着 不同的要求,我们需要另辟它径。 粗糙集( r o u 曲s e t s ) 理论是由z p a w l a l 【于1 9 8 2 年提出来的一种数据 归纳推理的方法,它的基本思想是通过案例库的分类,归纳出概念和规则, 通过案例的条件特征变量将案例库分类而形成概念,并通过生成的概念去研 究目标特征,从而得到关联规则。分类是粗糙集理论的基本工具,粗糙集理 论的贡献是给出特征变量的约简核心,简化了概念的分类特征,也简化了规 则的表示。粗糙集理论通过上近似和下近似,使不能用已有概念表述的新概 念得到近似的表示。这一新的数学工具是基于数据归纳推理而非推断,现已 广泛应用于智能分析领域,已成为归纳学习与信息融合的重要工具,不仅为 信息科学和认知科学提供了科学逻辑和研究方法,而且为智能信息处理提供 了有效的处理技术。在医学、药学、银行、商业、金融、市场研究、工程设 计、气象学、声音识别、决策分析及其他领域都有重要的应用。由于粗糙集 处理的对象是离散数据,不需要任何有关分布等额外的信息,直接对获得的 数据进行处理,目前,统计领域也开始引入这一新的数学工具,作为一种新 的分析工具,将粗糙集理论用于定性数据分析是具有可行性的。文献表明目 前尚无较为系统的将粗糙集理论引入定性数据分析方面的研究。 基于粗糙集理论进行的定性数据分析方法研究,将提供一种基于数据归 纳推理的定性数据分析新视角,其得到的知识是人们可以理解的关联规则, 非常适合对定性数据的分析。这一研究对于多维定性数据的描述、预处理、 关联分析、判别分析及聚类分析将具有一定的推动作用,对粗糙集理论的推 广应用也将具有一定的积极作用。对于定性数据分析方法的讨论与研究不仅 对统计学科有意义,对其他学科也具有积极的意义。 2 第一章导论 1 2 定性数据分析方法研究现状 定性数据分析方法的研究与定量数据分析方法的研究相比进展相对缓 慢,对于定性数据分析方法的研究,主要可以概括为两个方面:一是变量的 关联关系研究;二是多维定性数据的数量化研究。 自k 砌p e a r s o n ( 皮尔逊) 和r a f i s h e r ( 费歇) 以来,交叉分类形式的 定性数据分析在统计文献中占有一个突出的位置。1 9 3 5 年b a n l e t t ( 巴特来特) 关于2 2 2 表无二阶交互作用的检验论文的发表,标志着多维交叉分类定 性数据方法的突破,而随后在2 0 世纪6 0 7 0 年代,b i r c h ,b i s h o p ,f i e n b e r g 口1 和g o o d i i l a i l 等人在多维列联表分析方面做了大量的工作,提出了用对数线性 模型拟合的列联表分析。2 0 世纪8 0 年代后的研究,主要是围绕广义线性模型 展开研究,针对广义线性模型中线性回归、l o g i t 模型、p r o b i t 模型、对数线 性模型以及泊松分布模型等,进行了改进和完善的研究,m c c u l l a 曲和 n e l d e “1 9 8 9 ) 对这方面的研究进展作了较为详尽的讨论。目前国内外开始采用 路径分析、结构方程方法用于定性数据分析,但实质上该方法也是线性回归 分析的一种扩展,b a n l l o l o m e w 和k n o t t ( 1 9 9 9 ) 就类别潜结构模型进行了较 为系统的研究,n e l d e r ( 1 9 9 8 ) 提出了层次数据的随机效应模型也是广义线性 模型的一种主要扩展形式。广义线性模型均是基于一定的随机分布假设下建 立的,本质上都是从不同角度研究多维列联表中定性变量之间的关联关系, 且结构方程实际上是由很多边缘表组成的一种结构关系,在建立方程的过程 中可能存在辛普森悖论的问题。国外目前也有学者口1 开始应用粗糙集理论进行 多维列联表分析研究,但只是对二维列联表的线性独立性做了分析,对于多 维定性数据的列联表关联性分析方法还有待研究。目前的这些方法,实质上 都是对随机抽取的数据,以列联表的形式对多维定性变量间的关联性进行分 析,显然不能用于非随机获取数据的分析。 多维定性数据的另一个重大的发展是日本统计学家林知己夫h 1 提出的数 量化理论,利用o ,1 赋值将定性变量转化为定量变量,然后应用多元统计分 析方法进行定性变量的分析,但从文献资料看,这一方法主要是在1 9 6 0 1 9 7 0 被日本所大量采用,对此方法也褒贬不一,社会学家认为这种方法忽略变量 基于粗糙集的定性数据分析方法研究 的实际含意,认为定性变量已不再是欧氏空间的数据,变量间的关系只能用 复杂结构加以描述和解释,而无法用线性的欧氏空间拟合非线性关系,从频 数出发分析定性变量依然是最为可行的方法,因此这一方法的应用还值得商 榷。 粗糙集理论是19 8 2 年由波兰华沙理工大学z p a w l a l ( 教授提出的一种处 理不确定性问题的新型数学工具,应用粗糙集理论处理的主要问题包括:数 据约简、数据相关性的发现、数据的近似分类及归纳决策算法。z p a w l a k 教 授提出粗糙集理论之后,粗糙集理论研究已成为许多的国际重要会议研讨内 容,粗糙集理论受到了广泛的关注。研究成果也迅速增多,其中与定性数据 分析方法有关的文献主要有:关于粗糙集理论与统计学中判别分析啼1 的关系研 究;粗糙集中的概率方法研究1 ;粗糙集理论中的贝叶斯理论研究:布尔代数 及决策分析盯1 的关系研究;粗糙集理论的信息描述1 研究;应用粗糙集理论进 行分类与决策研究1 。各国学者在上述研究中产生了一系列的成果: r s l o w i n s 虹( 1 9 9 2 ) 提出了扩展粗糙集模型的概念,l i n 和l i u ( 1 9 9 6 ) 基于 拓扑学的观点定义了类似上近似和下近似的算子l 和h ,并建立了带这两个 算子的近似推理的逻辑演绎系统,l i u ( 1 9 9 9 ) 又提出t 带算子l 和h 的r o u 曲 逻辑的近似推理模式和归结原理。张文修( 2 0 0 1 ) 对粗糙集理论和概念格理 论进行了深入探讨,王国胤( 2 0 0 1 ) 、张文修、刘清( 2 0 0 1 ) 先后出版专著来介 绍粗糙集,使得粗糙集的研究成为学者们普遍重视和高度关注的热点。国际 粗糙集学会( i r s s ) 的成立也加速了粗糙集理论的交流与发展。 作为一种数据推理的新方法,粗糙集理论也开始受到统计界的关注,也 开始应用于定性数据的分析乜,但大多是应用于计算机领域和数据挖掘领域 中的数据约简、决策规则提取、数据近似分类,查阅文献表明,尚无较为完 整的对多维定性数据分析方法的系统研究。鉴于粗糙集理论的迅猛发展,将 其引入定性数据分析方法研究中具有重大的学术价值和应用价值。 4 第一章导论 1 3 研究内容与创新点 1 3 1 研究内容 定性数据是指那些每个个体是用一系列性质来表示的,具有相同属性的 全部个体是可以数清楚的数据,也称为属性数据或离散数据。本文研究的对 象就是定性数据,也是s s s t e v e n s ( 1 9 5 1 ) 定义的定类尺度数据。定性数据 的每一个个体必定属于而且只属于尼类中的某一类,分类互斥且有穷尽。从粗 糙集理论来看,信息系统s = ( u ,彳) 中的u = 材。,“:,) 为定性数据研究个体 的集合,对应行个观测个体;么= 五,五,x 。) 为属性集,对应定性数据的 变量集,u 上的等价关系必然产生u 上的一个划分u b = u ,) , 即等价关系将研究对象分成七个不同的类,这些类之间互不相交 ( un u ,= 巾if 力,且任何对象只包含于某一类中。对于分类结构的分析是 定性数据分析的基本内容,本文对于定性数据分析方法的研究主要包括以下 内容: 一、定性数据的粗糙集描述是本文首要解决的问题。基于粗糙集理论,本 文将定性数据表示为一个信息系统s = u ,么,y ,力,用分类信息表 s = u r ,么,y ,毋描述p 维变量的交叉分类结构,而用变量子集等价关系的频 率分布代替列联表描述变量子集形成的分类结构,这一研究成果克服了高维 列联表的不足,不仅可以使我们能更有效的描述数据的分类特征,而且是粗 糙集理论应用于定性数据分析的关键所在,这一问题的解决为下一步的研究 提供了理论依据。在分类信息表的基础上,对现有的定性数据概括性测度进 行了理论比较探讨,针对现有测度中存在的不可比问题,基于粗糙集的信息 描述理论,提出了用更为合理的信息熵系数口日( x ) 来测度定性变量的离散测 度及变量在分类中的重要性。对于定性变量间的关联测度,则根据分类信息 表的特点,提出了关联信息系数侬( 置,x ,) 及依存度系数。从粗糙集的角度 对关联性进行研究,克服了z 2 检验要求期望频数不小于5 的限制,且在分析 基于粗糙集的定性数据分析方法研究 中不用考虑频数出现o 的问题。应用粗糙集以一种新的视角对定性数据进行 描述,是拓展定性数据分析的内容和应用范围的探索性研究。 二、定性数据的预处理是本文讨论的第二个问题。数据的预处理主要涉 及数据分类不变的变量约简和数据关联结构的压缩两个方面。粗糙集中变量 的约简就是找到使分类不变的最小子集,有鉴于此,参照粗糙集中辨识矩阵 约简变量的基本思路,依据定性变量的分类不变信息熵就保持了不变这一特 性,本文提出了基于信息熵日( 足r ) 进行多维定性变量约简方法,当得到最小 的子集b 使得日( r 。) = 日( 如) 时,子集b 就是使分类不变的约简集。这一方法 适用于任何多维定性变量冗余变量的消除。定性数据分析的核心内容就是关 联关系的分析,但对于多维定性数据而言,对不重要的关联结构进行压缩可 大大减少分析的难度。因而本文参照聚类分析思想,建立了通过关联信息系 数矩阵的关联结构压缩方法。由于在数据关联结构压缩过程中有可能导致辛 普森悖论的产生,所以本文从粗糙集理论对辛普森悖论进行了诠释。研究给 我们的启示是:在列联表的构造或定性变量的交叉分类分析中,分层变量选 择不当会导致辛普森悖论的发生。 三、定性数据粗糙集流向图1 1 j ( f l o w 印h s ) 的描述是本文讨论的第三个 问题。流向图是粗糙集理论创始人z p a w l a k 于2 0 0 2 年提出用于分析信息流 决策算法的数学工具,是一种有向、非循环、有限的信息流向图,定义为 g = ( ,b ,缈) ,其中为图中节点的集合,b 互为有向分支的集合, 矽:b 专r + 为信息流函数,尺+ 为非负的实数集合。从统计学的角度看,流向图 中的每个节点对应定性变量的一个取值,有向分支表示多个定性变量不同取 值之间的联系,不同变量对应流向图中不同的“层 ,同一变量的不同取值对 应流向图同一层的不同节点。流向图中的数量关系与多维定性变量交叉分类 后的数量关系具有对等关系。从描述定性数据结构而言,现有统计方法中的 列联表与数据挖掘中的决策树本质上是相同的。而粗糙集中的流向图,不仅 能够提供与列联表、决策树同样的数据结构信息,而且能通过3 个系数,、 c o v 、盯及依存系数7 7 产生数据推理规则。本文在将流向图引入定性数据分析 6 第一章导论 的同时,对于流向图分层变量顺序对分析结果的影响进行了探讨,并提出了 确定分层变量顺序的方法,克服了在应用流向图分析中可能产生辛普森悖论 的不足,这一研究在其他的文献中尚未发现。流向图作为一种新的定性数据 分析工具,既适用于对随机获取数据的分析,也特别适用于对非随机获取的 大型数据集分析。 四、定性数据的判别分析是本文讨论的第四个问题。由粗糙集可知,信 息系统s = u ,c ,研可表示一组定性数据,u 表示刀个研究对象的集合, c = c i ,c 2 ,c p ) 为判别变量集合,d 为类别变量。判别分析的任务就是: 根据信息系统,建立由c 的取值判断研究对象所属类别的规则。从粗糙集角 度看,一个分类与另一个分类的关系可用一个分类相对于另一个分类的正域 表示,u 如分类的u 恐分类正域( 下近似) 记为p 呱( d ) ,简称为d 的c 正域,即: p 呱( d ) = uc _ ( x ) d 的c 正域是u 中所有根据分类u 的信息可以准确地划分到分类 u 如中去的研究对象集合。如果u 中所有的研究对象均可根据分类u 如的 信息可以准确地划分到分类u 如中去,则意味着我们可以根据分类u 恐与 分类的对应关系建立确定的判别规则。但在不少情况下,并非u 中所有 的研究对象均可根据分类u 恐的信息可以准确地划分到分类u 如中去。因 此,首先需要根据这两种分类的关系,通过计算两种分类的依存系数丫c ( d ) 明 确判别分析的类型。 依存系数:夕= 彪( 。) = 等 当丫c ( d ) = 1 时,为完全确定型判别分析,可建立确定的判别规则;当 丫c ( d ) = 0 时,为完全不确定型判别分析,可建立具有不确定的粗糙判别规则; 当0 丫c ( d ) 。 当集合x 能表示成属性子集b 等价类的并集时,称集合x 是可以精确定义的, 否则,就只能通过逼近的方式刻画。 定义2 5 集合x 关于的下近似为:罡( x ) = u 心l :【】8s x ) 。 玑e , 罡( x ) 是由那些根据已有知识判断肯定属于x 的对象组成的最大集合, 也称为x 的正域,记为尸傩占( ) 。 定义2 6 集合x 关于的上近似为:b 一( x ) = u 】8 : “,bn x g ) 。 “e 【, 召一( 彳) 是由所有与x 相交非空的等价类【】8 的并集,是那些可能属于x 的对象组成的最小集合。 定义2 7 集合x 关于的边界定义为:尉( 工) = b 一( x ) 一盟( x ) 。 觋( x ) = 汐一艿一( x ) 。依据以上定义可知,当且仅当删日( x ) = g ,x 为可定义集;当且仅当剧( x ) 囝,x 为不可定义集,也称x 为粗糙 集。 例如,假设有u = ,甜:,蚝) 和一个基本等价关系u r = ,e ,e ,) , 各等价类为:k = ,“。,) ,艺= z f :,蚝,“,) ,e = 材, ,= 蚝 。设 x = “,“。,蚝) ,因为没有一个,e ,e ,匕包含在x 中,故罡( x ) = f 2 j ,又因 x n 囝,x r 、艺囝,x r 、e = a ,xn 匕= g ,所以有: b 一( x ) = xu e = ,甜2 ,甜5 ,甜7 ,蚝) 1 5 基十籼糙集的定性数h 析方法研究 p o s 。t n = bt x 、= 0 删b ( 肖) = 口一( ) 一且( z ) = e u k 由于口日( ) o ,所以是不町定义的粗糙集 r |、 f - 口- 厂 厂 、 一u 之 o b a f j ( x ) = 甜u :o 日( 五五墨) ,说明五、 2 7 基于粗糙集的定性数据分析方法研究 置、五之间不独立。进一步计算可得到如表2 7 所示的结果。 情况1 : 表2 5 :分类信息表1 u | r 五五五只只 ul114o 0 3 2 l121 6o 1 2 8 以 12l1 60 1 2 8 以 1 226 4o 5 1 2 乩 2 ll 1 0 0 0 8 氓 2l 2 4o 0 3 2 玑22l40 0 3 2 2221 60 1 2 8 情况2 : 表2 6 :分类信息表2 uir 五x tx le u 11l80 0 6 4 l123 2o 2 5 6 l2 l80 0 6 4 以 1223 20 2 5 6 弘 2111o 0 0 8 以 21 24o 0 3 2 玑22180 0 6 4 u 22 23 20 2 5 6 2 8 第二章粗糙集与定性数据的描述 表2 7 :情况2 的关联信息系数矩阵 xx2x 3 置 10 1 2 90 恐 lo 局 l 根据表2 7 可知,变量五与置关联,与五独立;五与墨也相互独立。 情况3 : x t 、 、 墨 图2 2 :情况2 的关联图 表2 8 :分类信息表3 u | r 五tx ,f只 u 1ll1 6 0 0 2 9 1126 40 1 1 7 12l 2 5 6 0 4 7 0 u 1226 40 1 1 7 以 21110 0 0 2 玑 2126 4o 1 1 7 玑2211 6 o 0 2 9 以 2226 40 1 1 7 根据情况3 中表2 8 可得:日( 五) = o 8 3 6 ,日( 五) = 0 8 3 6 ,日( 墨) = 0 9 9 7 , 基于粗糙集的定性数据分析方法研究 日( i x 2 墨) = 2 2 7 9 ,日( 五) + 日( 五) + 日( 也) = 2 6 6 9 日( 墨x 2 五) ,说明五、 砭、墨之间不独立。进一步计算可得到如表2 9 所示的结果。 表2 9 :情况3 信息关联系数矩阵 xx2x 3 五 lo 0 5 0o 2 1 3 恐 1 0 。2 1 3 局 1 由表2 9 可知,变量五、五、墨相互具有关联关系。 二、依存度系数 霸、 +、 l b 0 5 0 i 。 o 2 1 3 , :,娩i, 6 +,声,7 妁, 图2 3 :情况3 关联图 设信息系统s = u ,彳) ,属性子集b 彳,属性子集c 彳,定义 刊c ) = 咩掣 称属性子集c 是( 0 1 ) 度依存属性子集曰,是属性子集b 与属性子集 c 的依存度系数。当= l 时,称属性子集c 完全依存于属性子集b ;当 0 巾 恐,玛) 彳 蜀,妁) 爿 恐,玛 彳 巾 彳么么 恐,b 墨 巾 恐,恐) 恐) 五) 恐,恐) 牵 彳 伐,恐) 恐,恐) 巾 五 彳 巾 彳 击 由辨识矩阵可得约简集b = 墨,五 。因此,应用变量五和置的取值即 可描述细胞组织病理变化的不同状态,如扩散状态下的特征是容积密度正常 和数字密度增加。显然通过约简集可以有效的减少冗余变量,简化分类特征 描述。 3 2 2 基于信息熵的约简 从粗糙集理论看,分类冗余变量的消除就是变量的约简,也即寻找出使 对象集分类不变的最小变量集合。我们可以直接采用粗糙集理论中的约简方 法,通过确定变量辨识矩阵来进行变量的约简。但是,对于海量数据而言提 高运算效率和消除“维数灾 一样重要,因此,在借鉴吸收粗糙集约简思路 的基础上,本文采用信息熵来进行多维变量的约简。 设变量子集暑等价关系岛的频率分布为: :譬麓) 可用信息熵来测度由变量子集b 形成的等价关系r 。的不确定性。即 3 4 第三章定性数据的预处理 h ( ) = 一bl o g :( n ) j = l 如果分类不变,则信息熵就不变。因而,变量的约简也就转换为寻找信 息熵不变的最小变量子集过程。 设有p 维定性变量集彳= ( q ,呸,口。) ,以次观测值,如何利用信息熵找 到分类不变的最小变量子集呢? 第一种思路:先计算等价关系心的信息熵日( 亿) ,然后分别计算等价关 系心的信息熵日( 心) ( f = 1 ,2 ,p ) ,如果 日( 也) = 日( ) ( 1 所p ) 则 ) 即为约简集,其他p 一1 个变量可以被约简。如果 日( 如) 日( 咒) ( 待l ,2 ,p ) 则求 嘴( 日( ) = h ( 屯) ( 1 小p ) 进一步计算变量和其他p 1 个变量两两组合形成等价关系的信息熵 日( & ,巳) ) ( _ ,= l ,2 ,p ;歹朋) 如果有 日( 凡) = 日( & ,以) ( 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论