data 数据挖掘培训1ppt课件

上传人：咸*** IP属地：江苏上传时间：2020-02-24 格式：PPT 页数：103 大小：1.59MB 积分：15 举报 版权申诉

已阅读5页，还剩98页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘DataMining 2020 2 24 三数据挖掘技术1 1 基本概念2 有效的和可伸缩的频繁项集挖掘方法3 挖掘各种类型的关联规则4 由关联挖掘到相关分析5 分类与预测基本概念6 决策树技术挖掘动机什么产品经常被一同购买啤酒和尿布买了PC后接下来会买什么哪类DNA对新药敏感能否对web文档自动分类频繁项集闭项集和关联规则概率论基本知识 P A B 发生A或发生B的概率P B A A条件下B发生的概率事件相关性相互独立事件 datamining 3 3 1基本概念频繁模式与关联规则项集X x1 xk 每个事务T是项的集合关联规则是形如X Y的蕴涵式满足最小支持度和置信度支持度s 事务中同时包含项X Y的概率置信度c 事务包含项X时也包含项Y的条件概率关联规则挖掘的一般步骤 1 找出所有的频繁项集 support X supmin 2 由频繁项集产生强关联规则从大型数据库中挖掘频繁项集的主要困难在于将产生大量的频繁项集频繁k项集含k个频繁项一个长项集包含大量的频繁子项集的组合 n个频繁1项集可能组合出的频繁项集C1n C2n Cnn 2n 1 基本概念闭项集和极大项集解决办法挖掘闭项集和极大项集闭频繁项集若不存在真超项集Y Y X 使得Y与X在数据集S中有相同的支持度计数则称项集X在S中是闭的极大频繁项集如果X是频繁的并且不存在频繁的超项集Y使得Y X 称X是极大项集闭项集包含了频繁项集的完整信息减少了频繁项集和规则的数量关联规则挖掘一个例子对于规则A C support support A C 50 confidence support A C support A 66 6 Min support50 Min confidence50 思考怎样编程提取关联规则步骤基本概念闭项集和极大项集练习 min sup为4数据库TIDitem1abc2abcd3bce4acde5de频繁项集 b c 3 2挖掘方法 Apriori使用候选项生成频繁项集 Apriori算法是最有影响的挖掘关联规则频繁项集的算法使用逐层搜索的迭代方法找到1到K项频繁项集即由k项集搜索生成 k 1 项集为提高频繁项集逐层产生的效率利用Apriori性质 Apriori性质反单调性 Apriori性质频繁项集的所有非空子集也必须是频繁的 i e 如果 AB 是频繁项集 A 和 B 都应该是频繁项集反单调性如果一个集合不能通过测试则它的所有超集也都不能通过相同的测试 Apriori算法思想 1 扫描数据库累积每个项的支持度计数生成频繁1项集集合L1 2 扫描数据库由L1构造搜索频繁2项集L2 3 同理生成L3 直到不能生成频繁k项集注每次搜索都要扫描一遍数据库 TheAprioriAlgorithm 算法伪码 Ck CandidateitemsetofsizekLk frequentitemsetofsizekL1 frequentitems for k 1 Lk k dobeginCk 1 candidatesgeneratedfromLk foreachtransactiontindatabasedoincrementthecountofallcandidatesinCk 1thatarecontainedintLk 1 candidatesinCk 1withmin supportendreturn kLk Apriori算法怎样产生候选项连接步为找Lk 通过将Lk 1与其自身连接产生候选k项集集合Ck 例如设l1和l2是Lk 1中的项集如果它们的前 k 2 个项相同的话则是可连接的剪枝步 Ck是Lk的超集即Ck中的成员可能是频繁的也可能不是但所有的频繁k项集都包含在Ck中为压缩Ck 剪枝任何非频繁的 k 1 项集都不是频繁k项集的子集产生候选项的例子设L3 abc abd acd ace bcd 自连接 L3 L3abcdfromabcandabdacdefromacdandace剪枝删acde 因为ade不在L3中即非频繁C4 abcd Apriori算法示例 DatabaseD ScanD C1 L1 L2 C2 C2 ScanD C3 L3 ScanD 怎样产生候选项假设Lk 1中的项集都按序排列第一步自连接Lk 1insertintoCkselectp item1 p item2 p itemk 1 q itemk 1fromLk 1p Lk 1qwherep item1 q item1 p itemk 2 q itemk 2 p itemk 1 q itemk 1第二步剪枝第二步剪枝forallitemsetscinCkdoforall k 1 subsetssofcdoif sisnotinLk 1 thendeletecfromCk 课堂练习设最小支持度为50 使用Aprioir找出全部频繁项集画出生成频繁项集的详细过程 Apriori算法示例 DatabaseD ScanD C1 L1 L2 C2 C2 ScanD C3 L3 ScanD datamining 23 Apriori是否足够快性能瓶颈 Apriori算法的核心使用频繁 k 1 项集来产生候选频繁k项集使用数据库扫描和模式匹配来对候选集计数Apriori算法的瓶颈候选集的产生和检测它可能需要产生大量候选项集 104个频繁1项集将产生107候选2项集为发现长度为100的频繁模式如 a1 a2 a100 必须产生多达2100 1030个候选多次扫描数据库代价高需要 n 1 次扫描 n是最长的模式长度 Challengesof频繁模式挖掘 Chanllenges多遍扫描事务数据库庞大的候选集数量冗长乏味的工作量统计候选集支持度计数改进Apriori 通常的想法减少数据库扫描次数压缩候选集数量改进候选集支持度计数的统计方法提高Apriori算法的效率 1 基于散列 hash 的技术选择一个散列函数散列项集到对应的桶中删去桶计数低于支持度阈值的桶2 事务压缩压缩未来迭代扫描的事务数即删除不包含任何频繁k项集的事务因为它们不能产生 k 1 项集故可加标记或删除提高Apriori算法的效率 3 划分只需扫描2次阶段1 将D中事务划分成不重叠的n个部分对每个划分找出该划分中所有的局部频繁项集第1次扫描阶段2 合并局部频繁项集形成全局候选项集扫描数据库D 确定全局频繁项集第2次扫描提高Apriori算法的效率 4 抽样在一个较小的随机抽样样本集内挖掘降低最小支持度阈值以减少被遗漏的频繁项集可能需要第二次扫描数据库以找出被遗漏的频繁项集 5 动态项集计数在扫描的不同点添加候选项集扫描数据库的次数比Apriori少挖掘频繁模式不需要候选集将一个大型数据库压缩到一棵Frequent Patterntree FP tree 树的结构中高度的压缩但是保持完全的频繁模式挖掘避免高消耗的数据库扫描形成一种高效基于FP 树的频繁模式挖掘方法一种分治策略分解挖掘任务成一些小的挖掘任务避免候选项的产生只对子数据库挖掘无需候选集地挖掘频繁模式根据局部频繁项将短模式增长为长模式 abc 是频繁模式获取包含 abc 的全部事务集 DB abc d 是DB abc中的局部频繁项生成频繁模式abcd min support 0 5 TIDItemsbought ordered frequentitems100 f a c d g i m p f c a m p 200 a b c f l m o f c a b m 300 b f h j o f b 400 b c k s p c b p 500 a f c e l p m n f c a m p 为什么要给1 项集排序挖掘FP 树的主要步骤思想通过模式和数据库划分递归地增长频繁模式为FP 树的每一个基点构造一个条件模式基从每个条件模式基来构造条件FP树像这样不断的挖掘频繁模式基和条件FP树如果条件FP 树只包含一条路径就简单的列出所有的模式即可 FP 树结构的带来的优点完全不会破坏任何事务的长模式为频繁模式挖掘保持完整的信息简洁紧密减少不相关的信息去掉非频繁项频繁项的降序排序越频繁越可能被共享永远不会比初始数据库大例压缩率甚至可以超过100 FP Growth是否快性能表明FP Growth比Apriori算法快一个数量级也比树投影算法快原因没有候选集产生没有候选测试使用压缩的数据结构没有过多的数据库的扫描基本操作是计算和FP tree的构造 FP Growthvs Apriori 用支持度阈值来度量 DatasetT25I20D10K FP Growthvs Tree Projection 用支持度阈值来度量 DatasetT25I20D100K 其他方法挖掘闭项集和最大模式CLOSET DMKD 00 挖掘序列模式FreeSpan KDD 00 PrefixSpan ICDE 01 基于约束的频繁模式挖掘Convertibleconstraints KDD 00 ICDE 01 用复杂度量计算冰山立方体H treeandH cubingalgorithm SIGMOD 01 挖掘频繁闭合模式 CLOSET Flist listofallfrequentitemsinsupportascendingorderFlist d a f e c分割搜索空间PatternshavingdPatternshavingdbutnoa etc 递归发现频繁闭合模式Everytransactionhavingdalsohascfa cfadisafrequentclosedpatternJ Pei J Han R Mao CLOSET AnEfficientAlgorithmforMiningFrequentClosedItemsets DMKD 00 Min sup 2 CHARM MiningbyExploringVerticalDataFormat Verticalformat t AB T11 T25 tid list listoftrans idscontaininganitemsetDerivingclosedpatternsbasedonverticalintersectionst X t Y XandYalwayshappentogethert X t Y transactionhavingXalwayshasYUsingdiffsettoaccelerateminingOnlykeeptrackofdifferencesoftidst X T1 T2 T3 t XY T1 T3 Diffset XY X T2 Eclat MaxEclat Zakietal KDD 97 VIPER P Shenoyetal SIGMOD 00 CHARM Zaki Hsiao SDM 02 CLOSET MiningClosedItemsetsbyPattern Growth Itemsetmerging ifYappearsineveryoccurrenceofX thenYismergedwithXSub itemsetpruning ifY X andsup X sup Y XandallofX sdescendantsinthesetenumerationtreecanbeprunedHybridtreeprojectionBottom upphysicaltree projectionTop downpseudotree projectionItemskipping ifalocalfrequentitemhasthesamesupportinseveralheadertablesatdifferentlevels onecanpruneitfromtheheadertableathigherlevelsEfficientsubsetchecking 三数据挖掘技术 1 基本概念2 有效的和可伸缩的频繁项集挖掘方法3 挖掘各种类型的关联规则4 由关联挖掘到相关分析5 分类与预测基本概念6 决策树技术多层关联规则数据项经常形成层次关系在低层的数据项希望有较低的支持度根据恰当层的数据集得到的规则结果是非常有用的事务数据库能在不同的维和层被编码浏览共享的多层挖掘结果多层关联规则挖掘从上到下逐步接近先发现高层的强规则 milk bread 20 60 然后发现底层的弱规则 2 milk wheatbread 6 50 多层关联规则的挖掘的各种变种层交叉关联规则 2 milk Wonderwheatbread多层可选的层次关联规则 2 milk Wonderbread 多层关联规则统一支持度vs 逐减支持度一致支持度所有层使用相同的最小支持度一个最小支持度不需要检查项集那些不满足的项低层的项不会频繁的发生如果支持度的限度太高失去了低层的关联规则太低产生太多的高层关联规则递减支持度顺着层数的降低最小支持度也减小有4种搜索策略每层独立k项层交叉过滤单项层交叉过滤受控的层交叉单项过滤策略一致的最小支持度一致支持度挖掘 Milk support 10 2 Milk support 6 脱脂Milk support 4 Level1min sup 5 Level2min sup 5 Back 递减支持度递减支持度的多层挖掘 2 Milk support 6 脱脂Milk support 4 Level1min sup 5 Level2min sup 3 Back Milk support 10 多层挖掘冗余的过滤一些规则因为祖先的关系可能是冗余的例子 milk wheatbread support 8 confidence 70 2 milk wheatbread support 2 confidence 72 这里我们说第一个规则是第二个规则的祖先假如一个规则基于这个规则的祖先它的支持度和预料的差不多那么这个规则是多余的挖掘大型数据库中的关联规则由关系数据库和数据仓库挖掘多维关联规则多维关联挖掘概念单维规则 buys X milk buys X bread 多维规则 2维或者2个谓词维间关联规则没有重复的谓词 age X 19 25 occupation X student buys X coke 混合维关联规则有重复的谓词 age X 19 25 buys X popcorn buys X coke 分类属性具有有限个不同的值值间没有顺序量化属性是数值并在值之间具有一个隐含的序挖掘多维关联规则的技术搜索频繁的k 项谓词集例子 age occupation buys 就是一个3 谓词集这技术能被用来分类比如通过怎么被age处理 1 使用量化属性的静态离散化量化属性能够通过预先的概念分层进行静态的离散化2 量化关联规则量化属性基于分布式的数据能够动态的离散化为到箱 3 基于距离的关联规则这也是动态的离散化过程过程中考虑数据点之间的距离使用量化属性的静态离散化挖掘多维关联规则使用概念分层在挖掘之前进行离散化数字值被范围代替在相联系的数据库中找到所有的频繁k项谓词集它需要k或者k 1扫描数据表数据立方体更适合数据挖掘一个n 维的单元立方体和谓词集相一致从数据立方体进行挖掘能够更加的快速三数据挖掘技术 1 基本概念2 有效的和可伸缩的频繁项集挖掘方法3 挖掘各种类型的关联规则4 由关联挖掘到相关分析5 分类与预测基本概念6 决策树技术感兴趣的衡量客观的衡量两个最常用的衡量手段支持度置信度主观的衡量 Silberschatzand or可控的使用者能够利用他做一些事情强关联规则一定有趣吗强关联规则不一定有趣例子1 Aggarwal Yu PODS98 在5000学生中3000打篮球3750吃谷物2000都打篮球和吃谷物打篮球吃谷物 40 66 7 是误导的因为学生吃谷物的全部百分比是75 高过66 7 打篮球不吃谷物 20 33 3 更精确尽管它的支持度和置信度比较低支持度和置信度的不足例2 XandY 肯定的联系 XandZ 否定的联系X Z的支持度和置信度都占优势我们需要一个方法来度量事件的依赖性和相关性P B A P B 是关联规则A B的提升度 lift 兴趣度衡量方法 Interest Interest correlation lift 同时考虑P A andP B 如果A和B是独立事件的画 P A B P B P A 1如果值小于1 则A和B是负相关否则是正相关的回顾三数据挖掘技术1 1 基本概念2 有效的和可伸缩的频繁项集挖掘方法3 挖掘各种类型的关联规则4 由关联挖掘到相关分析5 分类与预测基本概念6 决策树技术分类预测分类标号预测建立连续值函数模型典型应用 3 5分类与预测数据分类一个两步过程模型建立描述预定的数据类集模型使用为将来或未知的对象分类即用模型预测分类过程 1 模型建立训练数据分类算法 IFrank professor ORyears 6THENtenured yes 分类规则分类过程 2 在预测中使用模型分类规则测试数据新数据 Jeff Professor 4 Tenured 分类法准确性估计错误概率划分训练与测试交叉验证10折交叉验证 10 foldcrossvalidation 将数据集分成十份轮流将其中9份做训练1份做测试 10次的结果的均值作为对算法精度的估计一般还需要进行多次10折交叉验证求均值例如 10次10折交叉验证以求更精确一点交叉验证有时也称为交叉比对讨论经过训练的模式是否准确率越高越好 Supervisedvs UnsupervisedLearning 监督学习 Supervisedlearning 分类监督训练数据的分类标号已知通过观察度量等根据训练数据集对新数据分类无监督学习 Unsupervisedlearning 聚类训练数据的分类标号未知要学习的类或集合的个数也可能未知用聚类尝试确定相似的组群什么是预测预测和分类的相似点首先构建一模型其次用模型预测未知值预测和分类的不同点分类指预测分类标号预测模型化连续值函数线性函数 Y X多元回归 Y b0 b1X1 b2X2 非线性回归和其他回归模型预测中的回归分析和线性模型分类和预测的问题 1 数据准备数据清理消除减少噪声处理缺失值相关分析分析强相关的冗余属性和不相关属性探查对分类无用的属性数据变换与归约规范化概念分层分类和预测的问题 2 比较分类方法分类的准确率评估分类器的预测准确率需要用测试数据而不是训练数据来检测避免过拟合 overfit 速度鲁棒性能适应噪声和数据缺失可伸缩性可解释性分类与预测不同数值预测没有类标号因为处理的属性值是连续值构建模型的方法不同三数据挖掘技术1 1 基本概念2 有效的和可伸缩的频繁项集挖掘方法3 挖掘各种类型的关联规则4 由关联挖掘到相关分析5 分类与预测基本概念6 决策树技术 3 6用决策树归纳分类决策树一个类似流程图的树结构每个内部节点表示在一个属性上的测试每个分支代表一个测试输出每个树叶节点代表类或类分布决策树的产生包含两个方面树的构造树的剪枝决策树的使用对未知样本分类样本的属性值在决策树上测试训练数据集输出概念 buys computer 的决策树 age overcast student creditrating no yes fair excellent 30 40 no no yes yes yes 30 40 决策树归纳算法基本算法贪心算法 1 如何划分训练集自顶向下递归的分治法构造决策树开始所有的训练样本在根部属性分类假如是连续值属性首先离散化基于选定的属性递归的形成每个划分选择属性基于启发式或统计式策略比如信息增益 2 如何停止停止条件给定节点的所有样本属于同一类没有剩余属性可以用来进一步划分样本使用majorityvoting没有样本剩余划分方式离散属性 BinarySplit Multi waysplit 划分方式连续值属性需离散化决策树归纳创建决策树算法基本框架 Hunt算法通过将训练集相继划分为较纯的子集以递归方式创建决策树设Dt是与结点t相关联的训练集 y y1 y2 yc 是类标号算法递归定义如下决策树归纳创建决策树 1 如果Dt中所用元组都属于同一个类yt 则t是叶结点用yt标记递归结束条件 2 若Dt中包含属于多个类的元组则根据分裂准则找出最好的分裂属性将数据划分成较小的子集为测试条件的每个输出创建一个子女结点含相应元组 3 对每个子女结点递归调用该算法 Hunt sAlgorithm Don tCheat 分裂准则哪个属性是最佳的分类属性属性选择度量选择最佳划分的度量理想的希望每个划分都是纯的即落在给定划分的所有元组都属于相同的类信息增益InformationGain增益率gainratioGini指标信息增益 ID3 C4 5 选择具有最高信息增益的属性期望信息熵Entropy 对D中元组分类所需的期望信息为 pi是D中任意元组属于类Ci的概率假定有两类 P和N样本集合D包含类P的p个元素类N的n个元素D中的任意样本属于类P和N 所需的期望信息 ExamplesforcomputingEntropy P C1 0 6 0P C2 6 6 1Entropy 0log0 1log1 0 0 0 P C1 1 6P C2 5 6Entropy 1 6 log2 1 6 5 6 log2 1 6 0 65 P C1 2 6P C2 4 6Entropy 2 6 log2 2 6 4 6 log2 4 6 0 92 何时熵为1 信息增益 ID3 C4 5 用属性A将训练集D划分成v个部分后为得到准确的分类还需要的信息为还需要的期望信息越小划分的纯度越高信息增益Informationgain一个属性A的信息增益就是由于使用这个属性划分数据后导致的期望熵降低训练数据集通过信息增益选择属性 ClassP buys computer yes ClassN buys computer no Computetheentropyforage 通过信息增益选择属性 Computetheentropyforage HenceSimilarly选取age作为决策树根节点的分裂属性用增益率gainratio选择属性 C4 5 信息增益倾向于选择具有大量的值的属性将导致大量划分极端的每个值都是一个划分每个划分都是纯的C4 5算法采用增益率来克服该问题用分裂信息来规范化信息增益用增益率gainratio选择属性 C4 5 增益率定义为GainRatio A Gain A SplitInfo A Ex gain ratio income 0 029 0 926 0 031选择具有最大增益率的属性作为分裂属性 Gini指标 CART IBMIntelligentMiner 设数据集D中样本有n个类 Gini指标度量不纯度 pj是D中元组属于类j的概率若属性A将D划分为D1andD2 则gini指标为不纯度的降低为选取Gini指标最小或者等价的不纯度降低最多的属性来分裂数据比较三种度

人人文库> 全部分类> 教育资料 > 幼儿教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

data 数据挖掘培训1ppt课件

文档简介

温馨提示

最新文档

评论

data 数据挖掘培训1ppt课件

文档简介

温馨提示

最新文档

评论

相关文档