数据挖掘中的关联规则方法.doc_第1页
数据挖掘中的关联规则方法.doc_第2页
数据挖掘中的关联规则方法.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

则 AB。 挖掘关联规则关键在于寻找频繁项集。定理设 A,B 是数据集 DB 中的项目集,若 A 包含 B, 则 A 的支持度大于 B 的支持度;若 A 包含于 B,且 A 是非频繁模式 集,则 A 也是非频繁模式集;若 A 包含于 B,且 B 是频繁模式 集,则 A 也是频繁模式集。引言0关联规则是数据挖掘的典型方法,它是描述在一个交易中物品之间同时出现的规律的知识模式。 更确切地说,关联规则 是通过量化的数字描述物品 X 出现对物品 Y 的出现有多大的 影响。同时满足最小可信度阈值和最小支持度阈值的关联规则 为强关联规则。2关联规则的种类基于规则中处理的变量的类别关联规则可以分为布尔型和数值型。 布尔型关联规则处理 的位都是离散的、种类化的,它显示了这些变量之间的关系;数 值型关联规则可以和多维关联或多层关联规则结合起来,对数 值型字段进行处理,将其进行动态的分割,或者直接对原始的 数据进行处理,而数值型关联规则中也可以包含种类变量。2.2 基于规则中数据的抽象层次关联规则可以分为单层关联规则和多层关联规则。 在单层 的关联规则中,所有的变量都没有考虑到现实的数据是具有多 个不同层次的;而在多层的关联规则中,对数据的多层性已经 进行了充分的考虑。2.3 基于规则中涉及到的数据的维数关联规则可以分为单维的关联规则和多维的关联规则。 单 维的关联规则中,只涉及到数据的一个维,如用户购买的物品; 而在多维的关联规则中,要处理的数据将会涉及多个维。 换句 话讲,单维关联规则是处理单个属性中的一些关系;多维关联 规则是处理各个属性之间的某些关系。2.1关联规则的基本概念1关联规则描述了交易数据集 DB 中两组不同项目之间存在的某种关联关系。 关联规则定义的形式化描述如下:给定一个交易数据库 DB,I=I1,I2,Im为 DB 中 m 个不同 交易事务集合,其中每个事务 T 是项的集合,使得 T哿I。 每一 个交易事务有一个唯一的标识,记作 TID。定义 1 k 项集定义为项集中包含的项的个数,A2, ,Ak称为 k 项集。集合A1,定义 2若 A,B 为 项 集 ,A奂I,B奂I, 并 且 AB=, 则 形如 AB 的表达式称为关联规则。定义 3 支持度 S, 即任务相关的事务占总交易事务的百 分比,表达为:S(AB)=P(AB)。定义 4 规则 AB 具有可信度 C, 即在 DB 中包含 A 的事务同时也包含 B 的百分比,表达为 C(AB)=P(B A)。定义 5 设最小支持度为 Smin,则 DB 中的 k 频繁模式集 和 k 非频繁模式集分别定义为 :Lk=A1,A2 AKA11,(i=1,2,k),S(A1A2AK/DB)Smin;Lk=AlA2AkAi,(i=1,2,k),S(A1A2Ak/DB)第二支持度。 如果不等式不满足,就产生了多余的规则,或不能发现稀少数据。 特 异关联规则就是挖掘这些重要的稀少数据,从而发现这些稀少用了频繁项集的向下封闭性,即频繁项集的子集必须是频繁项集。 Apriori 算法主要是由连接和剪枝完成。3.2 频集算法的几种优化方法数据之间存在的关联性。但是有一个问题是第二支持度也不能Web 数据,提取藏其中的、有用的、新颖的模式或知识的过程。从数学角度,Web 数据挖掘是指从大量 Web 文档结构和使用 的集合 C 中发现隐含的模式 P。 如果将 C 看作输入,P 看作输1Web数据挖掘概述1.1 Web 数据挖掘的提出原因及重要意义数据库技术和数据挖掘技术的出现与发展很大程度上取 决于用户需求:对于 Web 数据挖掘,需求仍是提出对其研究的 主要原因。1.2 Web 数据挖掘的定义从数据库技术角度,Web 数据挖掘是将数据挖掘方法用于出,那么 Web 数据挖掘的过程就是从输入到输出的一个映射:CP。1.3 Web 挖掘原理一般地,Web 数据挖掘的基本原理可以用图 1 所示的处理 过程表示,目标数据集就是根据用户要求,从 Web 资源中提取重复出现) 和混合维关联规则现)。(允许维在规则的左右同时出2HTOIVONENSampling Large Databases for Association RulesCProceedings of the 22nd International Conference on VeryLargeDatabase, Bombay,India,September 1996SAVASERE A,Omiecimki E,Navathe SAn efficient Algorithm forMining Association Rules in Large Databases CfProceedings0fthe21stInternational Conference on Veryhrgo DatabaseNew York:ACM1995:432-443J HAN,M KAMBRData Mining Concepts and Techniques MMorgan Kaufmann Publishers,2000HYUNYOON YUN A,1,Danshim Ha b,2,Buhyun Hwang a,1 KeunHo Ryu c*Mining association rules on significant Fare data using relative support JThe Journal of Systems and Software,2003(67).(责任编辑:卓 光)结束语43对于关联规则的今后研究发展,可以从以下几个方面重点考虑:面对海量的数据,提高算法的效率、缩短运行进程是一个 急待解决的问题;如何在多维多层数据库中设置用户感兴趣的 多个支持度和可信度来挖掘更有价值的关联规则;如何有效挖 掘相关的有价值的稀有项集。45参考文献:1R AGRAWALMining Association Rules Between Sets of Items inLarge Databases CWashington:Proceedings of the ACMSIGMOD International Conference Management of Data,1993:207-2l6Method of AssociationRule in Data MiningAbstract:This article introduces the basic concept of association rule, summarizes the classification and kinds of excavation algorithmabout association rule, especially on some typical algorithms, at last forecasts the next

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论