




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘:概念和技术,1,数据挖掘:的概念和技术Chapter6,2001-11-6,数据挖掘:概念和技术,2, 第6章:从大数据库中挖掘关联规则从挖掘交易数据库中挖掘一维布尔关联规则从挖掘交易数据库中挖掘多级别关联规则从交易数据库和数据仓库中挖掘多维关联规则从挖掘到关联分析约束、2001-11-6,数据挖掘:概念和技术,3,对多层关联规则项目通常具有层次基础的项目支持度也低的特定层次的规则,更有意义的交易数据库可以根据维和层次代码共享的多维挖掘,2001-11-6,数据挖掘: 挖掘分层关联规则,自上而下,深度优先的方法:顶层“强”规则:寻找牛奶面包20%,60%。 并且,他们基础的“弱”规则:酸奶面包6% 50% .多层关联规则的变种层次交叉的关联规则:酸奶复旦面包屋黄面包的不同层次方法之间的关联规则:酸奶复旦面包屋面包,2001-11-6,数据挖掘:概念和技术,5,多层关联规则如果某个项目集合的父项目集合不具有最小支持度,其本身也不能满足最小支持度。 下级项目不能频繁集合。 如果支持度过高,下位关联规则过低,上位关联规则的支持度减少到:随着阶层的减少,支持度减少的4种检索策略:通过阶层和阶层的独立用k-项目集的阶层间过滤用项目进行可控的阶层间过滤,2001-11-6,数据支持度不变,支持度不变的多层挖掘牛奶support=10%,酸奶support=6%,脱脂奶粉support=4%、层1min_sup=5%,层2min_sup=5%,2001-11-6,数据迈支持度减少多层挖掘、酸奶support=6%、脱脂奶粉support=4%、第1层1min_sup=5%、第2层2min_sup=3%、牛奶support=10%、2001-11-6、数据挖掘:概念例如牛奶白面包support=8%,confidence=70%酸奶白面包support=2%,confidence=72%第一规则是第二规则的祖先参照规则的祖先,如果他的支持度与我们的“期待”的支持度接近,我们就根据这个规则2001-11-6,数据挖掘:概念和技术,9,多层挖掘:深度优先,自上而下,深度优先的方法:顶层频繁项目:牛奶(15% ),面包(10% ),他们基础较弱的频繁项目:酸奶(5% ),白帕横穿时支持度不同的处理方法不同算法:层间的支持度不变:如果t的祖先不频繁,则不考虑t的支持度逐层减少:只考虑它们的祖先不能频繁/无视的项目,2001-11-6,数据挖掘:概念和技术数据挖掘查询的逐步细化, 分阶段挖掘操作的成本高、低、结果细、粗,可能会在速度和质量之间进行折衷:分阶段细化超集的特征:事先记住所有肯定的答案-不需要验证错误的两个或两个以上的挖掘:首先粗糙、简单运行,然后对减少的候选集合运行计算量大的算法(KoperskiHan,SSD95 )。 2001-11-6,数据挖掘:概念和技术11,逐渐求出空间关联规则挖掘,空间关系层次:“g_close_to”:相邻、接触、交叉,查找粗糙度的关系,然后细化,2001-11-6,数据挖掘:概念空间关联规则的两阶段算法:步骤1:粗糙度空间计算(过滤用) MBR或R-tree粗糙度推定步骤2: 2001-11-6数据挖掘:概念和技术,第13、6章:从大数据库中挖掘关联规则, 从关联规则挖掘交易数据库挖掘一维布尔关联规则从交易数据库和数据仓库挖掘多层次关联规则从关联挖掘基于关联分析约束对关联挖掘进行总结,2001-11-6,数据挖掘:概念和技术,14, 多维关联规则:概念单一维规则: buys(X,“milk”)buys(X,“bread”)多维规则:两个或多个维/谓词维间关联规则(维词不重复) age(X,“19-25”)occupation(X,“student”) buys (混合维关联规则(维词重复) age(X )”、“19-25”) buys (x“popcorn”)类别属性有限个值,值间的无顺序关系数量属性数字的值间的隐式顺序关系,2001-11-6,数据挖掘: 挖掘多维关联的技术,频繁检索的k维词语集合:age,occupation,buys是三维词语集合。 1 .通过age的处理方式,以预定的概念水平离散化数值属性的数值属性。 2 .带数量的关联规则根据数据的分布将数值属性离散化为不同的“箱”。 3 .基于距离的关联规则用数据点之间的距离动态离散化,2001-11-6,数据挖掘:概念和技术,16,数值属性的静态离散化,要用区间范围关系数据库替换挖掘前在概念层次离散化的数值,要找到所有频繁的k维词,请找到k或k 1适合使用数据多维数据集的n维多维数据集的每个单元格,对应一个维词语的集合而使用数据多维数据集的速度更快,2001-11-6,数据挖掘:概念和技术,17,数量关联规则,age (x ) 30-34 ) income (x ) 24 动态离散化数值属性suchthattheconfindencedecorcompaticssoftherulesminedismaxized.2 -维数量关联规则: Aquan1Aquan2Acat在二维表中组合“相邻”的关联规则的示例,2000 数据挖掘:概念和技术,18 ARCS (关联规则集合系统)、ARCS流1 .分箱2 .查找频繁的维词集合3 .集合4 .优化,2001-11-6,数据挖掘:概念和技术,19,ARCS的极限数值属性只出现在规则的左侧2 基于网格的方法等深箱基于局部完整性测度的集合“miningquititiationsociationrullessinlargerelationaltables”byr.srikantandr.agra awal .2001-11-6 挖掘是基于距离的关联规则的,划分箱子的方法是没有表示数据间隔的意义的距离的分割是更有意义的离散化方法,区间内的密度和点的个数区间内的点的“紧密度,2001-11-6,数据挖掘:概念和技术,21,标记SX是n个元组t1, tN在属性集x上的投影是SX的直径:distx:距离测量,如欧几里得距离和Manhattan,收集和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 规划公寓建筑组团方案设计
- 2025年职业能力考试题及答案
- 供暖散热器营销推广方案
- 2025年潍坊铲车考试试题及答案
- 2025年农业推广学试题及答案
- 第3课 阈值控制便生活说课稿-2025-2026学年小学信息科技泰山版2024六年级下册-泰山版2024
- DB65T 4389-2021 雷电灾害风险区划技术规范
- 2025年新能源汽车电池管理系统在电动垃圾车领域的应用报告
- DB65T 4479-2021 鲜食桃果品质量分级
- DB65T 4466-2021 特种设备安全风险分级管控工作导则
- 红军长征感人红色故事3-10分钟10篇
- 斯蒂芬金英语介绍
- 集团公司石油工程专业化整合重组总体方案
- JJF 1015-2014计量器具型式评价通用规范
- GB/T 38597-2020低挥发性有机化合物含量涂料产品技术要求
- 农业科学技术政策课件
- 优秀初中语文说课课件
- DB45-T 679-2017城镇生活用水定额-(高清可复制)
- 人教精通版六年级上英语Lesson15教学课件
- 五四制青岛版2022-2023四年级科学上册第二单元第6课《测量距离和时间》课件(定稿)
- GB∕T 16762-2020 一般用途钢丝绳吊索特性和技术条件
评论
0/150
提交评论