




已阅读5页,还剩50页未读, 继续免费阅读
(数量经济学专业论文)基于模糊集的关联规则及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内容摘要 数据挖掘( d a t am i n i n g ) 就是近年来随着人工智能和数据库技术的发展而出 现的一门新兴学科。关联规则( a s s o c i a t i o nr u l e ) 是数据挖掘的重要的研究课题, 是数据挖掘的主要技术之一,目的就是要在交易数据库中发现各项目之间的关系。 它在决策支持系统、专家系统和智能型信息系统等各个方面都起着重要的作用。 近年来有许多学者都在进行关联规则的研究,并在原有的方法基础上进行了很大 的改进,还结合不同领域的知识得出了多种不同的关联分析方法。 本文对基本关联规则的现状进行了剖析,指出了其两个重要衡量工具一支持 度和置信度的表达方式上的混淆之处,并从集合论和概率论两个角度给出了规范 化描述,为以后的研究分析奠定了基础。 随后采用灰色关联分析进行实证分析。大多数学者都是将灰色关联规则用于 研究方案的可行性,即与参考方案的相似程度,而本文将该方法用于分析调查问 卷,就问卷调查结果分析了问卷中各问题的关联度。 然后在现有的模糊集关联规则研究的基础上,结合数据统计特征提出了具体 的隶属函数,再在灰色关联规则分析的基础上,进行模糊关联规则分析。 最后,将灰色关联规则和模糊关联规则结合在一起,将灰色关联系数作为权 数加入到模糊关联规则中,进行加权模糊关联规则分析,并以厦门市的产业结构 作为实证分析的对象进行了研究,并就分析结果对厦门市的产业结构调整提出了 几点建议。 本文的创新点主要体现在以下几个方面:第一,在总结现有关联规则的表达 方式的基础上,指出了其中的矛盾以及容易产生的混淆,并进行了规范化描述: 第二,结合原始数据的特征,提出具体的隶属函数形式:第三,将两种关联规则 结合起来,以灰关联度作为权数加入到模糊关联分析中。 关键词:数据挖掘:关联规则;灰色理论;模糊集 a b s t r a c t d a t am i n i n gi san e ws u b j e c tw h i c ha r i s e sw i t ht h ed e v e l o p m e n to fa r t i f i c i a l i n t e l l i g e n c ea n dd a t a b a s e a s s o c i a t i o nr u l ei s oneo ft h ei m p o r t a n tr e s e a r c ht a s k s ,a n d a l s ooneo ft h ek e yt e c h n o l o g i e si nd a t am i n i n g i t sp u r p o s ei st of i n do u tt h ea s s o c i a t i o n b e t w e e na l li t e m si nb u s i n e s sd a t a b a s e a s s o c i a t i o nr u l ep l a y sav e r yi m p o r t a n tr o l ei n d e c i s i o ns y s t e m ,e x p e r ts y s t e ma n da p t i t u d ei n f o r m a t i o ns y s t e mi ne v e r ya s p e c t m a n y e x p e r t sh a v eb e e nm a k i n gr e s e a r c ho na s s o c i a t o nr u l e ,a n dh a v em a d eb i gp r o g r e s s b a s e do do r i g i n a lm e t h o d s t h e ya l s of i n do u ts e v e r a ln e wm e t h o d sw i t hr e s p e c tt ot h e k n o w l e d g eo f m a n yo t h e rf i e l d s t h i sp a p e rg i v e so u ta na n a l y s i so ft h ed e f i n i t i o n so fa s s o c i a t i o nr u l ei nt h ee x i s t i n g b o o k sa n dp a p e r s t h e ni t p o i n t so u tt h ec a u s eo ft h ed i f f e r e n c e ,n o r m a l i z e st h e d e s c r i p t i o na n dm a k e so u tn e wd e s c r i p t i o n sf r o mt h ea n g l eo f s e ta n dp o s s i b i l i t y , w h i c h l a y saf o u n d a t i o no nt h ef u r t h e rr e s e a r c ho f t h et h e o r ya n da p p l i c a t i o no f t h ea s s o c i a t i o n r u l e t h e nw eu s et h eg r e ya s s o c i a t i o nr u l et om a k ee m p i r i c a la n a l y s i s t h i st h e o r yi s o f t e nu s e dt oa n a l y z et h ef e a s i b i l i t yo fap r o j e c t ,b u ti nt h i sp a p e ri ti su s e dt of i n do u t t h er e l a t i o n s h i pb e t w e e nt h eq u e s t i o n si naq u e s t i o n n a i r eb ya n a l y z i n gt h er e s u l t s , a f t e rt h a t ,am e m b e r s h i pf u c t i o ni sg i v e no u tb yc o n s i d e r i n gt h ef e a t u r eo ft h e o r i g i n a ld a t a ,w h i c hi su s e dt oa n a l y z et h er e s u l tg i v e nb y t h eg r e ya s s o c i a t i o nr u l e i nt h ee n d ,w eu s et h et w or u l e st o g e t h e rt oa n a l y z et h ei n d u s t r i a ls t r u c t u r eo f x i a m e nc i t y t h eg r e ya s s o c i a t i o nc o e f f i c i e n ti su s e da sp a r to ft h ew e i i g h ti nf u z z y a s s o c i a t i o nr u l et of i n do u tf u z z yw e i g h t e da s s o c i a t i o nr u l e f i n a l l yw eg i v e so u ts o m e s u g g e s t i o n sa c c o r d i n gt ot h ea n y a l y s i sr e s u l t t h em a i nc o n t r i b u t i o n so ft h i sd i s s e r t a t i o na r et h a tf i r s t l y , w ep o i n t so u tt h e i n c o n s i s t e n c ya n dt h ep o s s i b l ec o n f u s i o nt h a ti tl e a d st ob a s e do nt h es u m m e r i z a t i o no f t h ee x i s t i n ge x p r e s s i o no fa s s o c i a t i o nr u l e ,a n dn o r m a l i z et h ed e s c r i p t i o n ;s e c o n d l n g i v e so u tam e m b e r s h i pf u n c t i o nc o n s i d e r i n gt h ef e a t u r eo fd a t a ;t h i r d l y , w el i n kt h e t w om e t h o d st o g e t h e r , t h eg r e ya s s o c i a t i o nc o e f f i c i e n ti su s e dt ob ep a r to ft h ew e i e , h t i nf u z z yw e i t h t e da s s o c i a t i o nr u l e k e y w o r d s :d a t am i n i n g ;a s s o c i a t i o nr u l e ;g r e yt h e o r y ;f u z z ys e t 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。 本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明 确方式标明。本人依法享有和承担由此论文而产生的权利和责任。 声明人( 签名) :种晶& j o 。5 年上月t 7 日 厦门大学学位论文著作权作用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电子 版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校 图书馆被查阅,有权将学校论文的内容编入有关数据库进行检索,有 权将学校论文的标题和摘要汇编出版。保密的学位论文在解密后适用 本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密() ( 请在以上相应括号内打“4 ”) 作者签名:轴办凼 导师签名: 日期:j o 。6 年j 月 日 日期:年月日 第一章引言 第一章引言 第一节数据挖掘综述 一、什么是数据挖掘 随着科学技术的不断进步和全球化的向前推进,世界各地的交流已经趋于频繁 和便利,i n t e r n e t 技术的出现和发展已将整个世界连接在一起,人们可以穿越时 空般地在网上交换信息和工作,在这个信息爆炸的时代,面对着伴随出现的大量 数据信息,如何去粗取精,去伪存真将浩如烟海的数据转换成知识的技术是一个 急需解决的问题。数据挖掘( d a t am i n i n g ) 就是近年来随着人工智能和数据库技 术的发展而出现的- - f 7 新兴学科。它是通过仔细分析大量的数据,从中筛选出隐 含的、可信的、新颖的、有效的信息的高级处理过程。它是一门交叉性学科,融 合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个 领域的知识和技术。 二、数据挖掘的主要对象 数据挖掘的范围非常广泛,可以是社会科学、经济学、商业数据、科学处理产 生的数据和卫星观测得到的数据。它们的数据结构也各不相同,可以是层次的、 网状的、关系的和面向对象的数据。 关系数据库是表的集合,每个表都赋予一个唯一的名字。每个表包含一组属 性( 列或字段) ,并通常存放大量元组( 记录或行) 。关系中的每个元组代表一个被 唯一的关键字标识的对象,并被一组属性值描述。 当数据挖掘用于关系数据库时,可以进一步搜索趋势或数据模式。数据挖掘 系统也可以检测偏差,如在商业营运中,与以前的年份相比,哪种商品的销售出 人预料。这种偏差可以进步考察,例如包装是否有变化,或价格是否大幅度提 高。 随着数据库技术的发展,各种高级数据库系统已经出现并在开发中,以适应 新的数据库应用需要。 基于模糊集的关联规则及其应用 新的数据库应用包括处理空间数据( 如地图) 、工程设计数据、超文本和多媒 体数据、时间相关的数据( 如历史数据或股票交易数据) 署d w e b 。 为响应这些需求,开发了高级数据库系统和面向特殊应用的数据库系统。这 些包括面向对象和对象一关系数据库系统、空间数据库系统、时白j 和时间序列数据 库系统、文本和多媒体数据库系统、异种和遗产数据库系统、基于w e b 的全球信息 系统。 事务数据库由一个文件组成,其中每个记录代表一个事务。通常,一个事务包 含一个唯一的事务标识号,和一个组成事务的项的列表( 如,在商店购买的商品) 。 事务数据库可能有一些与之相关联的附加表,包含关于销售的其他信息,如事务 的日期、顾客的i d 号、销售者的i d 号、销售分店等等。 三、数据挖掘的主要任务 数据挖掘的产生来源于需求。随着人类社会步入信息时代,信息的获得和利 用在生产和生活中占据越来越重要的地位。作为信息载体或者知识载体的数据, 其数量空前地巨大。日益成熟的数据库系统和数据库管理系统,以计算机网络技 术为代表的数据的传输和远程交互技术手段,使得人们生成、采集和传输数据的 能力都有了巨大增长,而数据挖掘的任务,则是在此基础上完成从原始数据到信 息和知识的转化。数据挖掘的任务可以分为以下几个方面: 1 总结规则的挖掘,就是从客户指定的数据中挖掘出( 从不同角度或在不同的 层次上) 平均值极小值极大值、总和、百分比等。 2 关联规则挖掘,即从客户指令的数据库中挖掘出满足一定条件的依赖性关 系。 3 分类规则挖掘,也就是在已知训练信息的特征和分类结果的基础上,为每 一种类别找到一个合理的描述或模型,然后再用这些分类的描述或模型来对未知 的新数据进行分类。 4 群集规则挖掘是根据事物本身的特性,研究个体分类的方法,目的在于客 观地按被处理对象的特征分类,有相同特征的对象归为一类。与分类规则挖掘的 区别在于群集不需要事先定义好该如何分类,同时也不需要训练组的数据。 5 预测分析,这是在当分类工作偏向于插入漏掉的数据、预测数据分类或发 第一章引言 展的趋势时所用到的方法。像“购物篮分析”就可以预测在超市中哪些商品总是 会被同时购买。而经过修正后,也可以通过最新的更新数据来预测未来的购买行 为。 6 趋势分析,又称为时间序列分析,它是从相当长时间的发展中发现规律与 趋势的。 7 偏差分析,又称为比较分析,它找出一系列差别的规则,以区别客户设置 的不同类别。 四、数据挖掘中的应用方法 数据挖掘是一个交叉性的学科,在对海量数据进行挖掘的过程中用到了多个领 域的研究成果和工具,提出了很多方法。其中主要的挖掘方法及其重点如下: 1 统计分析方法 统计分析方法主要用于完成知识总结和关系型知识挖掘。常用的有回归分析、 相关分析和主成分分析等设计分析方法。 2 模糊( f u z z y ) 方法 模糊集的核心是隶属度函数,它在基于规则的分类系统是引入了模糊逻辑,就 可以定义“模糊”阂值或边界,对于原来对连续值强硬的划分进行了改善,更能 体现数据的特性。 3 人工神经网络 人工神经网络用于分类、群集特征挖掘、预测和模式识别。人工神经网络具有 分散型或储存讯息、平行处理信息和进行推理、自我组织和自我学习等特点,解 决了众多以往方法很难解决的问题。 4 粗糙集 粗糙集( r o u g hs e t ) 理论是由波兰科学家z p a w l a k 在1 9 8 2 年提出的一种处理 含糊和不精确性问题的新型数学工具,这一理论从新的视野出发,对知识进行了 定义,把知识看作定义域的划分,并引入了代数学中的等价关系来讨论知识。粗 糙集用于数据简化、数据意义评估、对象相似性或共性分析、因果关系及范式挖 掘等。 5 基因算法 基于模糊集的关联规则及其应用 基因算法用于分类、关系型规则挖掘等。基因算法模仿人工选择培育良种的思 路,从一个初始规则集合( 知识基因) 开始,逐代地通过交换对象成员( 杂交、 基因突变) 产生群体( 繁殖) ,评估并择优复制,逐代积累计算,最终得到最优化 的知识集。 6 证据理论 证据理论又称“d e m p s t e r s h a f e r ”理论,是经典概念论的扩充,在处理并行 分布及异构数据库时有显著的优越性。它首先由d e m p a t e r 在2 0 世纪6 0 年代提出, 在7 0 年代中期由s h a f e r 进一步发展,形成处理不确定信息的证据理论。该理念的 一个重要贡献就是划清了不确定和不知的界限。由于证据理论在处理不确定性方 面的优点,加之基于证据理念的通用数据挖掘框架e d 、t 的开发和应用,使得这一方 法论在数据挖掘中具有潜在的应用性。 7 归纳学习 归纳学习是从大量的经验数据中归纳抽取出一般的规则和模式,是一种重要的 数据挖掘方法。 第二节关联规则概述 一、关联规则的考察及发展 关联规则( a s s o c i a t i o nr u l e ) 是数据挖掘的重要的研究课题,是其中的主要 技术之一,也是在无指导学习系统中挖掘本地模式的最普通形式。该问题是由 a g r a w ar , m i e l i s k ft ,a n ds w a m ia ( 1 9 9 3 ) 卜3 提出的,目的就是要在 交易数据库中发现各项目之间的关系。一般地说也就是要挖掘出具有这种形式的 规则:由于某些事件的发生而引起另外一些事件的发生。因此具有一定精确度的 关联规则具有很好的预测功能,进而高效地挖掘具有一定精确度的关联规则具有 很重要的意义,尤其适合于效率比精确度要求更高的场合。它在决策支持系统、 专家系统和智能型信息系统等各个方面都起着重要的作用。 关联规则发现的主要对象是事务数据库,其中常针对的应用是售货数据,我 们称之为购物篮分析( m a r k e tb a s k e ta n a l y s i s ) 。最经典的例子就是在美国大型 超市w a l m a r t 发生的实例:在星期四,消费者通常同时购买尿布与啤酒。这两种 第章引言 人们认为风马牛不相及的商品之间竟然有如此大的关系,确实出人意料。但是对 w a l m a r t 的老板而言,如果将尿布和啤酒的货架放在一起,就可以大大地提高利润。 由此可见,关联规则的预测是很重要的。销售分析人员可以运用关联规则挖掘技 术对大量的销售数据进行分析,可以发现顾客购买模式和趋势,改进服务质量, 取得更好的顾客保持力和满意程度,提高货品销售比率设计更好的货品运输与分 销策略,减少商业成本。 不仅如此,关联规则也越来越多地应用到各个领域中。在生命科学、天文科 学、生态科学和环境科学等数据密集型的自然研究领域,关联规则可以提供市郊 的规律发现和模式识别。而医药、金融、商业和工业制造等领域也有成功的应用。 这些都说明了关联规则的理论生命力和实际应用价值。 关联规则结构简明,规则的表达形式简单易懂,这使得它相对于其他的数据挖 掘技术更容易接受,其广泛应用前景也被学术界所认同。因此关联规则成为数据 挖掘的重要工具,同时也成为其中的重要研究方向。但随着现代数据库技术的发 展和应用领域的拓宽,数据存储形式甚至数据格式都发生了巨大变化,关联规则 研究也面临了前所未有的挑战。为解决这一问题,感觉学者们引入其他领域的方 法,与关联规则相结合,提出了很多新的关联规则,克服了许多困难。 1 粗糙集理论 粗糙集理论是波兰数学家p a w l a kz w 在1 9 8 2 年提出的一种分析数据的数 学理论,其特点是不需要预先给定某些特征或属性的数量描述,而直接从给定问 题的描述集合出发,找出该问题中的内在规律。在关联规则中引入粗糙集主要是 用于简化数据,挖掘分类规则。 2 模糊集与云模型理论 隶属度在基础变量上的分布称为云。在对模糊集的处理过程中,论域中某一 点到它的隶属度之间的映射是一对多的转换,不是一条明晰的隶属曲线,从而产 生了云的概念。在云模型中,经过映射,属于一个定性语言值的数值是不确定的。 而是始终在细微变化着,并且这种变化不剧烈影响到云的整个特征。云可伸缩、 无边沿、有弹性,云滴的分布特性反映了映射的模糊性和随机性,其整体形状是 最重要的。 3 灰色系统理论 基于模糊集的关联规则及其应用 灰色系统是通过对原始数据的收集与整理来寻求其发展变化的规律,这是因 为,客观系统所表现出来的现象尽管纷繁复杂,但其发展变化有着自己的客观逻 辑规律,是系统整体各功能间的协调统一,因此,如何通过散乱的数据系列去寻 找其内在的发展规律就显得特别重要。灰色系统理论认为,一切狄色序列都能通 过某种生成弱化其随机性而呈现本来的规律,也就是通过灰色数据序列建立系统 反应模型,并通过该模型预测系统的可能变化状态。 4 可视化挖掘 由于数据挖掘算法本身的复杂性,所以使得一般用户难以理解和接受。关联 规则挖掘的可视化主要是通过可视化技术的直观性来弥补数据挖掘算法复杂性的 缺陷,使用户与挖掘系统有效的交互,加强与领域专家的合作。 二、关联规则的分类 i 根据可能取值的不同,关联规则可以分为两种形式,即布尔型关联规则和 定量型( 多值型) 关联规则。 布尔型的属性值只能为1 或0 ( t 或f ) 。例如在超级市场中如果某个顾客购买 了啤酒,那么在这次交易中,“啤酒”的属性值是l 。我们需找出属于i 或t 的所 有关系,列为数据库属性表再操作。而定量型的属性值则是不能简单地用布尔型 表示的,如顾客的年龄、职业等。这类的关联规则通常要转化为布尔型的关联规 则再进行处理。而转换的方法分两种情况:第一,当全部属性为有限个时,只需 将每个属性映射为一个布尔属性;第二,当属性有连续值范围时,需适当划分区 间映射到布尔型上。一般来说,布尔型关联规则的挖掘过程分为两个步骤:第一 步是找出所有的频繁项集,第二步再从这些频繁项集中挖掘出可能存在的布尔型 关联规则。 2 基于规则的数据的抽象层次,可以分为单层关联规则和多层关联规则,在 单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次 的,而在多层的关联规则中,对数据的多层已经进行了充分的考虑。 3 基于规则中涉及找到的数据的维数,关联规则可以分为单维的和多维的。 在单维的关联规则中,我们只涉及到数据的一个维;而在多维的关联规则中,要 处理的数据将会涉及多个维。 第二章关联规则的规范化描述 第二章关联规则的规范化描述 第一节关联规则概念的剖析 一、关联规则的几种表述 在现有的有关知识发现和数据挖掘的书籍及文献中,都给出关于关联规则的 相同或不同的形式描述。它们的原理都是没有差别的,但是在表述方面却有些不 同。由于支持度和置信度是两个常用的度量有关规则有效性的工具,它们分别描 述了一个被挖掘出的关联规则的有用性和确定性,因此下面我们就主要从这两个 定义的描述来比较其不同的表现形式。 设,= ,t , 是事务数据项集合。设d 为事务集r 的集合,即事务数据库, 其中事务丁是一个数据项子集,即丁,。设爿为一个数据项集合,当且仅当a t 时,称交易厂包含彳。 关联规则是形如a 寸b 的蕴含式,其中a c i ,b i ,且a n b = a 。 1 以概率方式来表述的定义 ( 1 ) 关联规则爿斗b 在交易数据集d 中成立,其支持度为s ,置信度为c 。也 即交易数据集d 中有s 比例的交易r 包含a u b 的数据项,同时交易数据集d 中有 c 比例的交易丁满足“若包含爿就包含b ”条件。具体定义式如下: s u p p o r t ( a 岭b ) = p ( 4 u 占) c o n f i d e n c e ( a b ) = p ( b la ) ( 2 ) 可信度( c o n f i d e n c e ) 描述的是在事务集爿出现的前提下数据集b 出现 的概率。具体说就是如果d 中支持事务集爿的事务中有c 的事务同时也支持数据 集占,则此关联规则的可信度为c 。 支持度( s u p p o r t ) 描述的是数据一与口同时出现的概率。如果d 中有s 的事 务同时支持物品集爿和b ,则此关联规则的支持度就为s 。 用p ( 爿) 表示事务中出现事务集4 的概率,p ( b i 爿) 表示在出现事务集a 的事务 基于模糊集的关联规则及其应用 中,出现事务集口的概率,则上述概念的定义式如下: s u p p o r t ( a 哼b ) = p ( a n b ) c o n f i d e n c e ( a b ) = p ( b i a ) ( 3 ) 关联规则分析的基本目标是为特征向量求解一个原型值x 的集合 q ,使得在这些值上计算的概率密度p “q ) 相对较大。 ( i ) 合取规则( c o n j u n c t i v er u l e ) 令一表示第 ,个变量所有可能值的集合,并且令已互s j 为这些值的子集。则 关联分析目标就变为求子集5 i ,j 。,使得每个变量同时在其对应的子集中取值的 概釉 白c _ 叫 相对较大。子集的交集白c _ 吲称为合取删。 在常用的关联规则分析中,只考虑两种类型的子集:s j 仅包括置的一个值, s = ,:或者s ,包括设定取值的整个集合,s ,= s j 。 ( i i ) 哑变量( d u m bv a r i a b l e ) 引入哑变量集合乙,k = 1 2 ,k ( k p e i s 。i ,其中i s 。j 是由i - 导n n n n j = l 值的个数) 。每个变量可以由原始变量( _ ,= 1 ,2 ,p ) 获得值。 计驼删等嚣粉驴值 这样,项乏被划分为两个不相交的子集,彳u b = k ,并记为:a j b ,第一 个子项集a 称作“前件”,第二个子项集占称为“后件”。 ( i i i ) 支持度与置信度( s u p p o r ta n dc o n f i d e n c e ) 规则的“支持度”t ( a j b ) 是前件和后件集中观测的比例,这正是由其推导 出规则的项集丘的支持度。它可以看作是在随机选择的购物篮中同时观测到两个 项集的概率p r ( a , b ) 的一个估计n 跫c 五= , = 万l 善n 取气。 第二章关联规则的规范化描述 规则的“置信度”或“预测度”c ( a j b ) 是规则的支持度除以其前件的支持 度: c c ,= 帮 2 以集合的方式表述的定义 用l n l 表示集合n 中的元素的个数。那么,规则a 斗b 在数据库d 中的支持度 是事务集中包含爿和b 的所有事务数与总体事务数之比。用i n l 来表示集合n 中的 元素个数。记支持度为s u p p r o t ( a 斗b ) ,则 s u p p r o t ( a 斗b ) = i 伊:a u b s t ,t d l i d i 规则4 斗b 在数据库d 中的可信度是事务集中包含a 和b 的所有事务数与包 含a 的事务数之比,记为e o n f i d e n e e ( a 斗b ) ,即 c 。n n a e n c e 似+ b ,2 1 1 i i ;! 辫 在统计学中,分别用p ( a ) ,p ( b ) 和p ( a b ) 表示事件a 发生的概率、事件b 发 生的概率、事件a 和b 同时发生的概率。在数据挖掘中,分别用项集a 的支持度、 项集b 的支持度、项集a u b 的支持来计算p ( a ) 、p ( b ) 、p ( a u b ) ,并以此来分 析项集爿和b 的相关性,则有 s u p p r o t ( a 寸b ) = p ( a b ) c o n f i d e n c e 口jb ) = p ( a b 徊( a ) = p ( b i a ) 二、对以上概念的几点分析 从以上各种描述可以看出来,以概率方式表达的三种描述,是从算法的角度 来表述的;而以集合方式表达的描述,则是从统计角度来说的。它们总体的思想 都大致相同,只是在具体的定义描述方面有些差别。 第一,对爿、曰描述的比较。以概率方式表达的第一和第二种描述及以集合 方式表达的描述使用了常用的集合定义,而以概率方式表达的第三种描述则引入 基于模糊集的关联规则及其应用 了合取规则和哑变量,提出了前件和后件的概念。 第二,对支持度和置信度的描述。从前面列举的概念及描述式可以看出,从 算法角度描述的支持度和置信度都是用概率来表示的,而从统计角度描述的则是 用集合元素个数来表示的。而同样是用概率表示的支持度也是有所不同的。以概 率方式表达的第一种和从集合角度描述的是用并集的概率p ( a u b l 表示,以概率 方式表达的第二种是用交集的概率p ( a n b ) 表示的,以概率方式表达的第三种则 厂 是用有关哑变量的概率p r i 丌( 乙= 1 ) l 来说明的。因此,这样不同形式的表述,容 l t e kj 易引起人们概念上的混淆。 这里我们应该注意的是,在关联规则的概念中,a n 占= g ,那么从概率的角 度来看,p ( a d b ) = 0 。这个等式是恒成立的,无论以与b 之间有什么样的关系都 不会影响这个结果,从而支持度这个衡量工具就失去了其应有的作用。而置信度 甚至于其他的度量工具又是在支持度这一概念的基础上定义出来的。这样所有对 关联规则的衡量和分析 9 也就失去其意义了。另一方面,并集a u b 表示的是 “或”而不是“且”的关系,包含了在爿和曰中的所有元素,这与“a 和b 同时 发生”并不是同一个概念,因此也与支持度的意义也是不相符合的。总之,会出 现这样的错误是因为在表达上没有将原来的事务集与后来的数据集区别开来,造 成了表达符号上的混淆,从而导致了对定义的误解。至于以概率表述的第三种描 述方法,虽然通过引进新的变量集,用语言描述来说明支持度的意义,体现出了 支持度的真正含义,却使得整个定义复杂化,不易理解,也不够直观。因此,我 们就从两种新的角度来诠释这个问题。 第二节关联规则概念的规范 基于以上对现有关联规则定义的分析,为了避免这种混淆的情况,这里引入 了新的符号来区分事务集和数据集,从而达到一个规范的目的。 兰三主茎壁塑型塑塑蔓些塑堕 一、从集合的角度来描述 关联规则总体说来就是从数据集合中挖掘出的一个数据关系,因此我们从集 合的角度出发,对关联规则作出新的定义。 设,= :l , 是事务数据项集合。设d 为事务集r 的集合,即事务数据库, 其中事务,是一个数据项子集,即,。设r 为一个数据项集合,当且仅当a c t 时,称交易t 包含爿。 关联规则是形如a 呻b 的蕴含式,其中a c ,b c ,且a n b :g 记j 为支持4 的事务集,百为支持b 的事务集,西为支持d 的事务集。引入函数 埘( 4 ) 来计算集合4 的基数。根据关联规则的定义,关联规则4 一b 的支持度为 s u p p 。n ( 一畸b ) 2 气c a r d 丽( j 4 矿n b ) c o n 蜘e n c e 口一卧鬻 二、从概率的角度来描述 所谓概率,就是指随机事件发生的概率的大小。在前面所列出的以概率定义 的概念中,所用的概率却是关于事务集合的概率,这就有些矛盾。因而在此引入 新的符号来定义相关事件,并得到如下定义: 设,= ( ,i 2 ,) 是事务数据项集合。设d 为事务集丁的集台,即事务数据库, 其中事务7 1 是一个数据项子集,即丁,。设爿为一个数据项集合,当且仅当a t 时,称交易,包含a 。 关联规则是形如a 斗b 的蕴含式,其中a i ,b cj r ,且a n b :g 记a 表示“支持项集a ”这一事件,占表示支持项集b 这一事件,西表示“支 持项集d ”这一事件a 因此,我们用这些事件相应的概率来计算它们的支持度和 置信度。其中支持度为 s u p p o r t ( a 斗曰) = j d ( 匀n 百) 基于模糊集的关联规则及其应用 置信度为 三、关联规则的模拟 c o n n c e 口郴) = p ( 即) = 篇 仍然以购物篮分析来模拟分析两个新定义。若在某一超市的交易数据库中有 如下的1 0 0 条交易记录,其中我们关注的是购买咖啡和奶粉的情况。若在这一百 条记录中,有2 5 条购买咖啡的记录,9 0 条购买奶粉的记录,而只购买奶粉的有 7 0 条,只购买咖啡的有5 条,两样都买的有2 0 条,而两样都没买的有5 条。下面 来研究关联规则“c o f f e e ”一“m i l k ,。 根据上面的定义,我们若从集合角度的定义出发,可以定义j 为“购买咖啡 的顾客的集合”,而啻为“购买奶粉的顾客的集合”,西为“全体顾客的集合”。 于是可以求得此条关联规则的支持度为 s u p p o r t ( c o f f e e 斗m i l k ) 2 0 i 0 0 = 0 2 0 c 。n n d e n c e ( c 。r k e n m ) = - ! j ;i ! :! 等= z 。,z s = 。s 。 若从概率角度的定义出发,我们定义j 为“购买咖啡”的事件,而后为“购 买奶粉的”的事件,6 为全体事件。于是有p ( j ) = o 2 5 ,p ( 百) = o 9 0 s u p p o r t ( c o f f e e 斗m i l k ) = p ( jn 雪) = o 2 0 c o n e ( c 。f f e e _ 1 1 1 i 1 1 ( ) = p ( h i a ) = 篙= 0 2 0 o2 5 _ 0 8 。 以上研究的是数据挖掘中的一个重要分析工具一一关联分析。就目前现在的 几种表述有所差别的关联规则概念,特别是对支持度和置信度的表示做了对比和 分析,并指出了它们之间的矛盾。同时从集合论和概率论的角度对其进行了规范, 提出了两个新的描述方式。 从集合和概率这两个角度进行描述的方法各有各自的优点。从集合角度出发 第二章关联规则的规范化描述 的定义较为直观地反映出了关联规则的概念,从概率角度出发的定义则反映出了 关联规则的实质,以概率的方式显示出了其所研究的数据库中数据的规律性。而 后一种更有利于关联规则的进一步研究。因为我们可以利用概率的重要性质对关 联规则引入更多的评判规则并进行维护。这也是我们以后所要继续探讨的问题。 基于模糊集的关联规则及其应用 第三章灰色关联分析 第一节灰色系统理论的引入 数据挖掘的实质是数据仓库的自动化分析,是从大量数据集合中有效地自动 发现隐含的、先前未知的、对决策有潜在价值的信息。典型数据挖掘的方法和技 术主要有归纳学习方法、仿生物技术方法、统计分析方法、模糊数学方法和可视 化技术。但是这些方法均要求数据量必须大到足够辨认出期望的关系,以便数据挖 掘能够发现一些有价值的关系。 大样本数据将在某些时候不能很好地解决问题,原因是:样本数据量不大或 有残缺;样本数据更新变换快,前期数据将对数据挖掘结果有负面影响,不应当 引入计算:整体数据规律相当复杂,但在某一时间或空间的数据却有很强的规律 性。此时面对的是一类“贫”信息系统,即灰色系统,必须寻求“贫”信息系统的 数据挖掘技术。这样,在数据挖掘中有必要引入灰色系统理论。 第二节灰色理论 一、灰色系统理论概述 灰色系统理论( g r e ys y s t e mt h e o r y ) 的创立源于2 0 世纪8 0 年代。邓聚龙教 授在1 9 8 1 年上海中一美控制系统学术会议上所作的“含未知数系统的控制问题”的 学术报告中首次使用了“灰色系统”一词。1 9 8 2 年,邓聚龙发表了“参数不完全 系统的最小信息正定”、“灰色系统的控制问题”等系列论文,奠定了灰色系统理 论的基础。他的论文在国际上引起了高度的重视,众多的中青年学者加入到灰色 系统理论的研究行列,积极探索灰色系统理论及其应用研究。 所谓灰色系统是指部分信息已知而部分信息未知的系统,灰色系统理论所要 考察和研究的是对信息不完备的系统,通过已知信息来研究和预测未知领域从而 达到了解整个系统的目的。灰色系统的研究对象是外延分明、内涵不分明的事件, 例如“人体”、“飞碟”、“癌”等等。 第三章灰色关联分析 一个灰色概念可表示为x = ( 口,卢) l “u l ,其中,u 表示这个灰色概念的 内涵所包括的所有层次的集合,例如“电脑”这一概念的内涵具有“基本结构” 这一表层次,还可以有“使用性能”这样的内存层次。“e u 表示u 的某层次,口 为“层中的已知因素集,口为“层中的未知因素集。如在“电脑”的“基本结构” 这一层上,显示器、主板、c p u 、电源等已知因素构成口集,而使用寿命、兼容情 况等未知因素构成集,只考虑一个层次时,一个灰色概念,可以用陋,) 来表示。 由于这种概念普遍存在,所以灰色系统理论得到了极为广泛的应用,不仅成 功地应用于工程控制、经济管理、社会系统、生态系统等领域,而且在复杂多变 的农业系统,如在水利、气象、生物防治、农机决策、农业规划、农业经济等方 面也取得了可喜的成就。灰色系统理论在管理学、决策学、战略学、预测学、未 来学、生命科学等领域展示了极为广泛的应用前景。 二、灰色系统理论的特点 灰色系统理论与概率论、模糊数学一起并称为研究不确定性系统的三种常用 方法,具有能够利用“少数据”建模寻求现实规律的良好特性,克服了数据不足 或系统周期短的矛盾。 概率统计、模糊数学和灰色系统理论是三种最常用的不确定性系统的研究方 法。研究对象都具有不确定性,这是三者的共同点。正是研究对象在不确定性上 的区别派生出三种各具特色的不确定性学科。 模糊数学着重研究“认知不确定”问题,其研究对象具有“内涵明确,外延 不明确”的特点,比如“优秀”就是一个模糊概念,因为每一个人都十分清楚优 秀的内涵,但想划定一个确定的范围则很难办到,因为优秀这个概念外延不明确。 对这类内涵明确外延不明确的“认知不明确”问题,模糊数学主要是凭经验借助 于隶属函数进行处理。 概率统计研究的是“随机不确定”现象,着重于考察“随机不确定”现象的 历史统计规律,考察具有多种可能发生的结果之“随机不确定”现象中每一种结 果发生的可能性大4 、。其出发点是大样本,并要求对象服从某种典型分布。 灰色系统着重研究概率统计、模糊数学所不能解决的“小样本、贫信息不确 基于模糊集的关联规则及其应用 定”问题,并依据信息覆盖,通过序列生成寻求现实规律。其特点是“少数据建 模”。与模糊数学不同的是,灰色系统理论着重研究“外延明确,内涵不明确” 的对象。比如:n 2 0 5 0 年,中国要将总人口控制在l j 亿到1 6 亿之间,这“1 5 到1 6 亿 之间”就是一个灰概念,其外延是非常明确的,但如果进一步要问到底是哪个具 体值,则不清楚。 三、基于灰色理论的数据挖掘技术 基于灰色系统理论的“贫”信息系统,数据挖掘技术具有如下特点:( i ) 模 型简单,计算量小,能很好进行复杂问题分析,预测的数学模型也只不过是一个 一阶微分方程g m ( 1 ,1 ) 模型,其参数的获得仅仅依靠原始时间数据序列的组合变 换。( 2 ) 对数据要求低,解决问题的数据量可大可小。一般数据量大于j 就能解决 问题,但它也不拒绝大数据样本;数据可正可负,即可在全数域内取值。( 3 ) 满 足世界的“灰性”哲学,灰色系统理论能较好解决当前“灰”色世界的问题,在“贫” 数据的情况下,能得出其它挖掘方法不能得到的准确信息。传统的数理统计方法 是建立在无穷数据的概率基础上,当数据不够时,将只能得出近似结果或不能得 出结果,若某段时间或空间的数据有问题时,将一些得出意想不到的结果。 1 灰色关联分析,是灰色系统理念的一个重要内容,是灰色决策里最常用的 工具,它通过参考序列与比较序列之间的距离分析来确定各序列之间的影响关系 及影响系统行为的主要因子。灰色关联分析不需要大量的样本及数据的典型分布, 而且计算简单,最多只需要用到灰模型g m ( i ,i ) 。 2 灰色预测是就灰色系统所作的预测。灰色预测一般有四种类型:数列预测, 对某现象随时问的顺延而发生的变化所作的预测;灾变预测,对发生灾害或异常 突变事件可能发生的时间预测;系统预测,对系统中众多变量i 自i n 互协调关系的 发展变化所进行的预测:拓扑预测,将原始数据作曲线,在曲线上按定值寻找该 定值发生的所有时点,并以该定值为框架构成时点数列,然后建立模型预测未来 该定值所发生的时点。 3 灰色聚类分析是根据灰色关联矩阵或灰数的白化权函数将一些观测指标 或观测对象聚集成若干个可定义的方法。 第三章灰色关联分析 4 灰色统计。设用于目标检测的变量有s 个,待检测目标有m 个,给定的目 标灰类数为n ,d o 为第f 个变量所采样到的第j 个待归类目标白化数据。我们的 任务是将多变量所采样到的数据岛按给定灰类白化函数生成,以判决各个目标从 整体上来说属于哪几个灰类。 第三节灰色关联分析及其模拟 一、灰色关联分析 灰色关联分析是狄色系统理论的一个重要内容,它通过参考序列与比较列各 点之间的距离分析来确定各序列之间的差异性和相近性,从而找出各因子之间的 影响关系及影响系统行为的主要因子。一般的复杂系统都包含有许多因素,多种因 素共同作用的结果决定了系统的发展态势,人们常常希望知道在众多的因素中,那 些是主要因素,那些是次要因素:那些因素对系统发展影响大,那些因素对系统发 展影响小。而通常的回归分析、方差分析、主成分分析等数理统计方法在统计数 据有限或数据不遵从典型分布的情况下,往往难以奏效,而灰色关联分析方法弥补 了数理统计方法作系统分析所导致的缺憾。它对样本量多少和样本有无规律都同 样适用,且计算量小,更不会出现量化结果与定性分析结果不符的情况 灰色关联分析不需要大量的样本及数据的典型分布,而且计算简单,因此,自 从邓聚龙教授创立这一理论以来,已被广泛地应用。为了进一步完善这一理论
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论