数据挖掘复习资料.doc_第1页
数据挖掘复习资料.doc_第2页
数据挖掘复习资料.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1事务集合有如下7个事务,T1:牛肉、鸡肉、牛奶T2:牛肉、奶酪T3:奶酪、靴子T4:牛肉、鸡肉、奶酪T5:牛肉、鸡肉、衣服、奶酪、牛奶T6:鸡肉、衣服、牛奶T7:鸡肉、牛奶、衣服设最小支持度为30%。使用Apriori算法找出所有的频繁项目集。解答:Apriori算法多次描述描述交易,目的是产生长度不同的频繁。项集的总数是7,元素总数是6,包括:牛肉、鸡肉、衣服、奶酪、牛奶、靴子。30%=3/102/71-候选集C1和1-频繁集L1项集C1支持度项集L1支持度牛肉4/7牛肉4/7鸡肉5/7鸡肉5/7牛奶4/7牛奶4/7奶酪3/7奶酪3/7靴子1/7衣服3/7衣服3/72-候选集C2和2-频繁集L2项集C2支持度项集L2支持度牛肉、鸡肉3/7牛肉、鸡肉3/7牛肉、牛奶2/7牛肉、奶酪3/7牛肉、奶酪3/7鸡肉、牛奶4/7牛肉、靴子0牛奶、衣服3/7牛肉、衣服1/7鸡肉、牛奶4/7鸡肉、奶酪2/7鸡肉、靴子0鸡肉、衣服2/7牛奶、奶酪1/7牛奶、靴子0牛奶、衣服3/7奶酪、靴子1/7奶酪、衣服1/73-候选集C3和3-频繁集L3项集C3支持度项集L3支持度牛肉、鸡肉、奶酪2/7鸡肉、牛奶、衣服3/7牛肉、鸡肉、牛奶2/7鸡肉、牛奶、衣服3/7项集L1=牛肉、鸡肉、牛奶、奶酪、靴子、衣服项集L2=牛肉、鸡肉、牛肉、奶酪、鸡肉、牛奶、牛奶、衣服项集L3=鸡肉、牛奶、衣服2训练数据如下:编号收入本次取款额度增长率取款频率购物频率购物金额增长率客户信用度是否欺诈1中10低低30中高50一般Y4高30低高2050差Y5低50优N6中1030高中2050优N7高1030中高50差Y8低30中中20一般Y9中10高低2050差Y10高50一般Y11低1030低低30高中30中高50差Y14中1030高低2050优Y15中10中中20差N假定分类的未知样本为: X=(收入=“中”,本次取款额度增长率=“1030”,取款频率=“中”,购物频率=“中”,购物金额增长率=“2050”,客户信用度=“一般”),请采用贝叶斯分类预测样本的分类。解答:描述属性:收入、本次取款额度增长率、取款频率、购物频率、购物金额增长率、客户信用度;类别属性:是否欺诈。设A=收入=“中”,B=本次取款额度增长率=“1030”,C=取款频率=“中”,D=购物金额增长率=“2050”,E=客户信用度=“一般”,则:P(A)=2/5, P(B)= 1/5,P(C)= 4/15,P(D)= 1/5, P(E)=4/15, P(X)= P(A)*P(B)*P(C)*P(D)*P(E)=32/28125, P(N)= 7/15,P(Y)=8/15,P(N|X)= P(X|N)* P(N)= P(XN)/ P(X)= P(X)P(Y|X)= P(Y|N)* P(N)= P(YN)/ P(X)= P(X)1.OLAP和OLTP的区别:OLTPOLAP用户操作人员、低层管理人员决策人员、高级管理人员功能日常操作型事物处理分析决策数据库设计目标面向应用面向主题数据特点当前的、最新的、细节的、二维的与分立的历史的、聚集的、多维的、集成的和统一的存取模式通常一次读或写数十条记录可能读取百万条以上记录工作单元一个事物一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论