版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么?数据仓库是一个面向主题的( Subject Oriented )、集成的(Integrate)、相对稳定的(Non-Volatile )、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 特点:1、面向主题操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。3、相对稳
2、定的数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后, 一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4、反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋 势做出定量分析和预测。所谓基于数据库的知识发现(KDD )是指从大量数据中提取有效的、新颖的、潜在有用的、 最终可被理解的模式的非平凡过程。数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可用的信息数据库有 4 笔交易。设 m
3、i nsup=60%, mi neon f=80%。TIDDATEITEMS BOUGHTT1003/5/2009A, C, S, LT2003/5/2009D, A, C, E, BT3004/5/2010A, B, CT4004/5/2010C, A, B, E使用Apriori算法找出频繁项集,列出所有关联规则。解:已知最小支持度为 60%,最小置信度为80%1) 第一步,对事务数据库进行一次扫描,计算出D中所包含的每个项目出现的次数,生成候选1-项集的集合CoDTID项集T100A, C, S, LT200D, A, C, E, BT300A, B, CT400C, A, B, EC1
4、项集支持度计数A4B3C4D1E2S1L12)第二步,根据设定的最小支持度,从C中确定频繁1-项集L1L1项集支持度计数A4B3C43)第三步,由Li产生候选2-项集C2,然后扫描事务数据库对 C2中的项集进行计数C2项集支持度计数A, B3A, C4B, C34)第四步,根据最小支持度,从候选集C2中确定频繁2-项集L2L2由频繁项集产生关联规则如下:针对频繁3-项集L3,非空真子集有:A,B,C,A,B,A,C,B,C,相应的置信度为:规则置信度A-B&C3/4=75%B-A&C3/3=100%C-A&B3/4=75%A&B-C3/3=100%A&C-B3/4=75%B&C-A3/3=10
5、0%因为最小置信度为90%故所有关联规则为:B-A&C、A&B-C、B&C-A三、假设数据集D含有9个数据对象(用二维空间的点表示):A1(3, 2),A2(3, 9),A3(8, 6),B1(9, 5),B2(2, 4),B3(3, 10),C1(2, 6),C2(9, 6),C3(2, 2)基于欧几里得距离采用k-均值方法聚类,取k=3,初始的簇质心为A1,B1 和C1,求:(1) 第一次循环结束时的三个簇的质心。(2) 最后求得的三个簇。解:(1)第一次循环:d2( A1,A1)=(3-3)2+(2-2)2=0d2( A1,B1)=(3-9)2+(2-5) 2=45d2( A1,C1)=
6、(3-2)2+(2-6)2=17因为d2( A1,A1)最小,所以,A1-A1d2( A2,A1)=(3-3)2+(9-2)2=49d2( A2,B1)=(3-9)2+(9-5)2=60d2( A2,C1)=(3-2)2+(9-6)2=10因为d2( A2,C1)最小,所以,A2-C1d2( A3,A1)=(8-3)2+(6-2)2=41d2( A3,B1)=(8-9)2+(6-5)2=2d2( A3,C1)=(8-2)2+(6-6) 2=36因为d2( A3,B1)最小,所以,A3-B1d2( B1,A1)=(9-3)2+(5-2)2=45d2( B1,B1)=(9-9)2+(5-5) 2=
7、0d2( B1,C1)=(9-2)2+(5-6) 2=50因为d2( B1,B1)最小,所以,B1-B1d2( B2,A1 ) =(2-3)2+(4-2)2=5d2(B2,B1)=(2-9)2+(4-5) 2=50d2(B2,C1)=(2-2)2+(4-6) 2=4因为d2 ( B2, C1)最小,所以,B2-C1d2(B3, A1 ) =(3-3) 2+(1 0-2) 2 =64d2(B3, B1) =(3-9) 2+(1 0-5) 2=61d2(B3, C1) =(3-2)2+(10-6)2=17因为d2 (B3, C1)最小,所以,B3-C1d2(C1, A1 ) =(2-3)2+(6-
8、2)2=17d2( C1 , B1) =(2-9) 2+(6-5) 2=50d2(C1, C1) =(2-2)2+(6-6)2=0因为d2 (C1, C1)最小,所以,C1-C1d2( C2, A1 ) =(9-3)2+(6-2) 2=50d2(C2, B1) =(9-9) 2+(6-5) 2=12 2 2d2(C2, C1) =(9-2)2+(6-6)2=49因为 d2( C2, B1 )最小,所以, C2-B1 d2( C3, A1 ) =(2-3)2+(2-2) 2=1 d2( C3, B1) =(2-9)2+(2-5) 2=58 d2(C3, C1) =(2-2)2+(2-6)2=16
9、 因为 d2( C3, A1 )最小,所以, C3-A1 所以第一次循环结束时,第一类:A1, C3,质心为 O1 (2.5, 2 )第二类: B1, A3,C2, 质心为 O2(9, 5.67 )第三类: C1, A2,B2,B3, 质心为 O3(2.5, 7.25 )(2) 第二次循环结束时,第一类:A1,B2,C3, 质心为 01(2.33,3 ),第二类:A3,B1,C2,质心为 02 (8.67,5.67 ),第三类:A2,B3,C1,质心为 03 (2.67,8.33 )。第三次循环结束时,第一类:A1, B2, C3,质心为 01 (2.33,3 ),第二类:A3, B1, C2
10、,质心为 02 ( 8.67,5.67 ),第三类:A2, B3,C1,质心为 03 (2.67,8.33 )。结果与第二次循环结束的结果一样,故最后求得的结果为:第一类:A1,B2, C3,质心为 01(2.33,3),第二类:A3, B1,C2,质心为 02 ( 8.67,5.67 ),第三类:A2, B3,C1,质心为 03 (2.67,8.33 )。四、给定数据集S,试根据前7个样本构造ID3决策树模型,并预测第8个样本 的类别?数据集SSampleABCS1a0boC1S2a。b1C1S3a0bC1S481bC2S5a1b1C1Sa1bC2S7a2b0C2S8a2b1解:现计算每个属
11、性的信息增益。对给定样本分类所需的期望信息为:E(S)= - (3/7)log2 (3/7) - (4/7)log2 (4/7)=0.5239+0.4613=0.9852 Values(A)=aO, a1, a2,Sa0 =S1, S2, S3 , I Sa0 I =3,其中 3 个都属于类 C1,故有:E(Sa0)= -(5/5)log2(5/5) (0/5)log2(0/5)=0Sa1= S4, S5, S6 , I Sa1 I =3,其中,1 个属于 c1,2 个属于 c2,故有 E(Sa1)= -(1/3)log2(1/3) -(2/3)log2(2=0.5283+0.3900=0.9
12、183 同理,E(Sa2)= -(1/1)log2(1/1) - (0/1)log2(0/1)=0因此属性 A 的期望熵为:E(S,A)=(3/7)E(Sa0)+ 7)E(Sa1)+(1/7)E(Sa2)=0.3936 故A的信息增益为:Gain(S, A)= E(S) - E(S, A) =0. 9852 - 0. 3936=0.5916同理:Values(B)=b0, b1, b2,Sb0 =S1, S4, S7 , I Sb0 I =3,其中,1 个属于 c1,2 个属于 c2,故有E(Sb0)= -(1/3)log2(1/3) -(2/3)log2(22/3)=0.5283+0.390
13、0=0.9183Sb仁S2, S5 , I Sb1 I =2,其中2个都属于类 C1,故有E(Sb1)= - (2/2)log2(2/2) (0/2)log2(0/2)=0同理,E(Sb2)= -(1/2)log2(1/2) -(1/2)log2(1/2)=1因此属性B的期望熵为:E(S, B)=(3/7)E(SbO)+ (2/7)E(Sb1)+(2/7)E(Sb2)=0.3936+0+0.2857=0.6793故B的信息增益为:Gain(S,B)= E(S) - E(S, B) =0. 9852 - 0. 6793 =0.3059故A的信息增益最大,令属性A为根节点的测试属性,并对应每个值(
14、a0,a1,a2)在根节点下建立分支,形成部分决策树:对于A=aO和A=a2节点,它们对应的属性唯一,不需进一步讨论,而对于 A=a1节点,需 要进一步讨论。由于只有B属性可供讨论,因此依据不同的取值,可得最终的决策树:A根据以上决策树,可知第 8个样本S8的类别为c2.五、设论域U=x1, x2 ,x6,属性集A=C 一 D,条件属性集C=a, b, c,决策属 性集D=d,决策表如下:决策表abcdX11021X21021X31202X41220X52102冷2112问:决策表是否为一致决策表?利用分辨矩阵对决策表进行约简解:由决策表可知,U/C=x1, x2, x3, x4, x5, x6U/D=x1, x2, x3, x5, x6, x4P0Sc(D)=x1, x2, x3, x4, x5, x6 因为k=| P0Sc(D)|/|U|=1,故该决策表为一致决策表。该决策表的分辨矩阵为6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 牙科医师聘用合同范本
- 电梯检测代理合同范本
- 物流股份分红协议合同
- 小麦安全生产总结讲解
- 撤资合同(标准版)
- 医患关系法律分类详解
- 2025年江西省丰城市辅警招聘考试试题题库附答案详解(培优a卷)
- 2025年公共卫生医师定期考核考试试题(附答案)
- 一建考试题真题及答案2024
- 2025年安全试题及答案可复制
- 从探索到深化:基于可信数据空间的公共数据运营报告2025
- 安徽省合肥市46中学2026届九年级物理第一学期期中调研模拟试题含解析
- 2025年滁州海关招聘协管员10人备考考试题库附答案解析
- 教育学原理 第二版 课件 马工程 第1-5章 教育及其本质-第5章 人的全面发展教育
- 临床输血采血流程标准操作规范
- 2025年公开招聘教师简章
- 2025-2026学年统编版(2024)七年级道德与法治上册全册教案(教学设计)
- 华为ICT大赛中国区(实践赛)-基础软件赛道往年考试真题试题库(含答案解析)
- 2025年国家能源集团校园招聘笔试(10月29日)笔试题库历年考点版附带答案详解
- 2025年汽车后市场布局可行性分析报告
- 2025至2030中国硅基光电子行业运营态势与投资前景调查研究报告
评论
0/150
提交评论