第五讲关联规则实验解释及决策树

上传人：6*** IP属地：湖北上传时间：2023-01-15 格式：PPT 页数：60 大小：3.29MB 积分：28 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

事例表与嵌套表事例表包含要分析的实体的事例，嵌套表包含每一事例附加的信息(通常是事务信息)。事例表是维度表，嵌套表是事实表

购买事务表（VassocseqlineItem）嵌套表示例Vassocorder（示例表）Vassoclineitem（嵌套表）custIDGenderIncomeregion嵌套表内容ordernumberlinenumberproductnamequantityC0001男高北美S00011牛奶22面包33啤酒3S00211蛋糕52果汁2C0002女中北美S00551奶酪102面包3C0004男高中部S00071面包22果汁4事例表主键：唯一确定每个事例的属性ordernumber嵌套键：嵌套键和外键不一样，嵌套键十分重要，在嵌套部分，其他属性用于描述嵌套键。嵌套键不是一个标识符，它包含有关模式的有用信息。经常用PRODUCT作为嵌套键。本例中用linenumber，可以表示不同的商品。分析单一购物篮不能只以购物事务表作为事例表只有一个购物事务表，因Linenumber不能当主键（有重复），而其又代表同一次购买行为中购买的不同商品。最适合做嵌套表中的主键ordernumber也有重复结果集只有一个项按实验要求，将顾客情况与购物事务表当做事例表与嵌套表一起操作，如下表事例表中ordernumber为主键，嵌套表中Linenumber为主键，model为predict列。4种不同类型的列键列输入列可预测列（predictonly）输入与可预测列（predict）对于大多数的数据挖掘模型使用一组输入列来预测输出列，有一些算法（如聚类算法）不需要可预测列。单维挖掘结果如下图多维挖掘：添加收入和地区为输入列，model为输入及预测列如果表有很多列，则很难知道选择哪些列作为输入列。通常可以使用所有列，但是这会导致额外的处理开销，而且，根据具体的算法，也可能会使最终模型很难理解。

单击向导的“指定定型数据(SpecifytheTrainingData)”页面中的“建议(Suggest)”按钮将会执行一个基于熵(entropy-based)的快速分析，它可以指出哪些列对于所选择的输出列可以提供一些有用的信息，进而可以在最终模型中减少列的数量。要注意，通过这个功能进行分析时，只对事例级列起作用，而且不能保证选择的列会对目标变量有影响，没有选择的列不会对目标变量产生影响关于数据类型下一步，在向导中将会列出已经选择的列和这些列的数据类型及内容类型，如图4-14所示。指定合适的内容类型对模型的性能和精确度是至关重要的。

例如，如果有一个字段(比如Income)标记为DISCRETE，则算法将会假定每一个可能的Income值是完全不同的类别，并且可能花费额外的时间进行处理，而无法得到真正有用的信息。相反，如果有一个分类类型的列，分类由标记为CONTINUOUS的整型指定(例如，1－蓝色，2－黄色，3－红色，4－绿色，等等)，数据挖掘算法将会假定：可以对这些分类进行数学比较，并计算它们的间隔。此时就会得到古怪的逻辑，比如绿色(4)－红色(3)＝蓝色(1)！数据挖掘向导有能力自动检测出一个数值列是分类类型(离散)的列还是连续型的列。在向导的“指定列的内容和数据类型”页中，单击“检测”按钮，该向导就会采样和分析源数据，并且选择一种合适的内容类型。

如果选择了连续的内容类型，但是所选择的算法不支持连续的列，则内容类型将会被指定为DISCRETIZED。在设计器中，可以设置离散化参数，在进入向导的下一步之前，应该确保为每一列都指定了正确的内容类型，如果还没有正确指定，则应该修改。决策树分类(Classification)分类的意义数据库分类模型了解类别属性与

特征预测DecisionTree决策树决策树是用二叉树形图来表示处理逻辑的一种工具，是对数据进行分类的方法。决策树的目标是针对类别因变量加以预测或解释反应结果。主要有两个步骤：首先，通过一批已知的样本数据建立一棵决策树；然后，利用建好的决策树，对数据进行预测。决策树的建立过程可以看成是数据规则的生成过程，因此，决策树实现了数据规则的可视化，其输出结果也容易理解。241/15/2023可以预测离散的，或者连续的数值•把已知条件（不论是离散还是连续）自动分解为多个离散的类别。•挖掘的结论易于理解•初始状态是一个大的空间，挖掘的过程是递归分区–不断分割案例我们有大量的会员–年龄在20–60岁–月薪在0–8000元•55%的被我们认可为忠实会员（好会员）•里面潜在的规律是什么？谁是我们的忠实会员？帮助高中生进入大学的主要因素都有哪些？决策树的工作方式IQ父母的鼓励家庭收入性别高中低有无高低男女进入大学是300500200700300400600500500否100100090040016004001600110090001002003004005006007008009001000IQ=HighIQ=MediumIQ=Low020040060080010001200140016001800PI=HighPI=low020040060080010001200140016001800PE=TRUEPE=FALSE020040060080010001200MaleFemale是否帮助高中生进入大学的决定性因素是…进入大学：55%是45%否所有学生进入大学：79%是21%否IQ=高进入大学：45%是55%否IQ=低IQ?Wealth进入大学：94%是6%否家庭收入=高进入大学：69%是21%否家庭收入=低父母的鼓励?进入大学：70%是30%否进入大学：31%是69%否父母的鼓励=无父母的鼓励=有分类的技术监督式(supervisedlearning)的机器学习法------决策树(DecisionTree)数据库分类标记性别年龄婚姻否是否是FemaleMale<35≧35未婚已婚分类的过程1.模型建立(ModelBuilding)2.模型评估(ModelEvaluation)3.使用模型(UseModel)性别年龄婚姻否是否是FemaleMale<35≧35未婚已婚分类规则IF性别=FemaleAND年龄<35THEN购买RV房车=否IF性别=FemaleAND年龄≧35THEN购买RV房车=是IF性别=MaleAND婚姻=未婚THEN购买RV房车=否IF性别=MaleAND婚姻=已婚THEN购买RV房车=是数据库训练样本(trainingsamples)建立模型测试样本(testingsamples)评估模型资料Example训练样本婚姻年龄家庭

所得否是否是未婚已婚<35≧35低高否小康1.建立模型测试样本2.模型评估X错误率为66.67%修改模型3.使用模型预测离散值已知–性别–年龄–交通距离–收入–汽车数目–子女数目•预测–潜在的自行车客户预测连续值•已知–性别–年龄–交通距离–购买自行车情况–汽车数目–子女数目•预测–收入决策树结果展现被预测的是离散属性:–分支条件–预测数值用彩色水平条描述，根据概率大小排序•被预测的是连续属性:–菱形图–回归等式•关联网络–展现挖掘模型中各种属性的预测能力之间的关联例1

一个自行车厂商想要通过广告宣传来吸引顾客。他们从各地的超市获得超市会员的信息，计划将广告册和礼品投递给这些会员。但是投递广告册是需要成本的，不可能投递给所有的超市会员。而这些会员中有的人会响应广告宣传，有的人就算得到广告册不会购买。所以最好是将广告投递给那些对广告册感兴趣从而购买自行车的会员。分类模型的作用就是识别出什么样的会员可能购买自行车。自行车厂商首先从所有会员中抽取了1000个会员，向这些会员投递广告册，然后记录这些收到广告册的会员是否购买了自行车。事例列会员编号12496141772438125597…………输入列婚姻状况MarriedMarriedSingleSingle性别FemaleMaleMaleMale收入40000800007000030000孩子数1500教育背景BachelorsPartialCollegeBachelorsBachelors职业SkilledManualProfessionalProfessionalClerical是否有房YesNoYesNo汽车数0210上班距离0-1Miles2-5Miles5-10Miles0-1Miles区域EuropeEuropePacificEurope年龄42604136预测列是否购买自行车NoNoYesYes在分类模型中，每个会员作为一个事例，居民的婚姻状况、性别、年龄等特征作为输入列，所需预测的分类是客户是否购买了自行车。使用1000个会员事例训练模型后得到的决策树分类如下图中矩形表示一个拆分节点，矩形中文字是拆分条件矩形颜色深浅代表此节点包含事例的数量，颜色越深包含的事例越多，如全部节点包含所有的1000个事例，颜色最深。经过第一次基于年龄的拆分后，年龄大于67岁的包含36个事例，年龄小于32岁的133个事例，年龄在39和67岁之间的602个事例，年龄32和39岁之间的229个事例。所以第一次拆分后，年龄在39和67岁的节点颜色最深，年龄大于67岁的节点颜色最浅。节点中的条包含两种颜色，红色和蓝色，分别表示此节点中的事例购买和不购买自行车的比例。如节点“年龄>=67”节点中，包含36个事例，其中28个没有购买自行车，8个购买了自行车，所以蓝色的条比红色的要长。表示年龄大于67的会员有74.62%的概率不购买自行车，有23.01%的概率购买自行车。预测连续值可以找出几个有用的节点：1.年龄小于32岁，居住在太平洋地区的会员有72.75%的概率购买自行车；2.年龄在32和39岁之间的会员有68.42%的概率购买自行车；3.年龄在39和67岁之间，上班距离不大于10公里，只有1辆汽车的会员有66.08%的概率购买自行车；4.年龄小于32岁，不住在太平洋地区，上班距离在1公里范围内的会员有51.92%的概率购买自行车；

在得到了分类模型后，将其他的会员在分类模型中查找就可预测会员购买自行车的概率有多大。随后自行车厂商就可以有选择性的投递广告册。关系网络决策树的确定过多的细节末梢–可以事先限制–可以事后切除数据量过大时，性能会有问题决策树参数Maximum_Input_Attributes：指定算法在调用功能选择之前可以处理的最大输入属性数。如果将此值设置为0，则为输入属性禁用功能选择。默认255Maximum_Output_Attributes：指定算法在调用功能选择之前可以处理的最大输出属性数。如果将此值设置为0，则为输出属性禁用功能选择。默认255Score_Method：指定用来计算拆分分数的方法。可用的方法有:Entropy(1)、BayesianwithK2Prior(3)或BayesianDirichletEquivalentwithUniformprior(4)Split_Method：指定用来拆分节点的方法。可用方法有:Binary(1)、Complete(2)或Both(3)。

决策树参数Minimum_Support：指定一个叶节点必须包含的最小事例数。如果将该值设置为小于1的数，则指定的是最小事例数在总事例数中所占的百分比。如果将该值指定为大于1的整数，则指定的是最小事例的绝对数。默认10Complexity_Penalty：抑制决策树的生长。该值越小，拆分的可能性越大；该值越大，拆分的可能性越小。默认值由给定模型的属性个数决定:如果有1到9个属性，则默认值为

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第五讲关联规则实验解释及决策树

文档简介

温馨提示

最新文档

评论

第五讲关联规则实验解释及决策树

文档简介

温馨提示

最新文档

评论

相关文档