下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘考试试题填空题15分、1. 数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化2. 元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。3.0LAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为"中心和辐射架构,其中 企业级数据仓库 是中心,源数据系统和数据集市在输 入和输出 范围的两端。5.0DS实际上是一个集成的、面向主题的、可更新的、当前值的、 企业级的、详细的数据库,也叫运营数据存储。二、多项选择题10分6.
2、在数据挖掘的分析方法中,直接数据挖掘包括ACD A分类B关联C估值D预言7. 数据仓库的数据ETL过程中,ETL软件的主要功能包括ABCA数据抽取B数据转换C数据加载D数据稽核8. 数据分类的评价准那么包括ABCD9. 层次聚类方法包括BC A划分聚类方法B凝聚型层次聚类方法 C分解型层次聚类方法D基于密度聚类方法10. 贝叶斯网络由两局部组成,分别是A DA网络结构B先验概率C后验概率D条件概率表三、计算题30分11. 个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的工程,假定 supmin=40% conf min =40%使用AprioN算法计算 生成的关
3、联规那么,标明每趟数据库扫描时的候选集和大工程集。15分事务工程事务工程T1面包、果冻、花生酱T4啤酒、面包T2面包、花生酱T5啤酒、牛奶T3面包、牛奶、花生酱解:1 由1= 面包、果冻、花生酱、牛奶、啤酒的所有工程直接产生1- 候选Cl,计算其支持度,取出支持度小于SUPmin的项集,形成1-频繁集L1,如下表所示:项集G支持度项集L1支持度面包4/5面包4/5花生酱3/5花生酱3/5牛奶2/5件奶2/5啤酒2/5啤酒2/5(2 )组合连接Li中的各工程,产生2-候选集C2,计算其支持度,取出支持度小 于SUpmin的项集,形成2-频繁集L2,如下表所示:项集C2支持度项集L2支持度面包、花
4、生酱3/5面包、花生酱3/5至此,所有频繁集都被找到,算法结束,所以,con fide nee ( 面包 f 花生酱)=(4/5 ) / (3/5 )=4/3> conf mincon fide nee ( 花生酱 f 面包 )=(3/5 ) / (4/5 )=3/4> conf min所以,关联规那么面包f花生酱、花生酱f面包均是强关联规那么。12. 给定以下数据集(2, 4, 10,12, 15, 3, 21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)解:(1 )从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别
5、,由题可知 k=2,那么可设m=2,m=4:(2)对于X中的任意数据样本Xm (1<xm<total ),计算它与k个初始代表点的 距离, 并且将它划分到距离最近的初始代表点所表示的类别中:当m=2时,样本(2,4,10,12,15, 3, 21)距离该代表点的距离分别为 2, 8,10,13, 1,19。当m=4时,样本(2 , 4, 10, 12, 15, 3, 21)距离该代表点的距离分别为-2, 6, 8,11, -1 , 17最小距离是 1或者-1将该元素放入 m=2 的聚类中,那么该聚类为2, 3,另一 个聚类 m=4 为4,10,12,15,21。 3 完成数据样本的
6、划分之后,对于每一个聚类,计算其中所有数据样本的均 值,并且将其作为该聚类的新的代表点,由此得到k 个均值代表点: m=2.5 ,m2=12: 4 对于 X 中的任意数据样本 xm 1<xm<total ,计算它与 k 个初始代表点 的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当 m=2.5 时,样本 2,4,10,12,15, 3, 21距离该代表点的距离分别为 -0.5, 0.5, 1.5 , 7.5, 9.5, 12.5, 18.5 。当 m=12 时,样本 2,4,10,12,15, 3, 21 距离该代表点的距离分别为 -10, -9 , -8 , 2, 3
7、, 9 o最小距离是 1.5 将该元素放入 m=2.5 的聚类中,那么该聚类为 2, 3, 4,另 一个聚类 m=12 为10, 12, 15, 21 o 5 完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到 k 个均值代表点: m=3, 02=14.5 : 6 对于 X 中的任意数据样本 xm 1<xm<total ,计算它与 k 个初始代表点 的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m=3 时,样本2 , 4, 10, 12, 15, 3, 21距离该代表点的距离分别为 -1 , 1, 7, 9,
8、12,18,o当m=14.5时,样本(2 , 4, 10, 12, 15, 3, 21)距离该代表点的距离分别为-12.58 , -11.5 , -10.5 , -4.5 , -2.5 , 0.5 , 6.5。最小距离是0.5将该元素放入m=3的聚类中,那么该聚类为(2, 3, 4),另一个聚类 m=14.5 为(10, 12, 15, 21)。至此,各个聚类不再发生变化为止,即误差平方和准那么函数的值到达最优。四?设计题(45分)13. 按照题目给定的3个数据文件,任选一个建立数据流图,要求至少包括记录 选项、字段选项、图形结点各一个。任选关联规那么Apriori算法、贝叶斯网络、K-Mea
9、ns聚类、决策树C5.0 (C4.5)算法、神经网络中的一个进行挖掘并给出数据流图。(10分)14. 对以上数据流图中使用的每个结点做一简短说明。10分选择:age>25.过滤:过滤后的字段。Regi on ,te nu re,age,marital,chur n.字段O region;tenure age marital churn类型:T1r172網无无无无无A人入人岀输 辅输输输15. 给出以上数据流图中模型的执行结果生成模型完全展开后的数据,对于 执行结果太多的,可节选局部结果。10分16.对以上模型生成的结果做一简要的分析,包括算法采用的根本原理、数学模型、算法步骤等。15分答
10、:k-means聚类算法根本原理:将各个聚类子集内的 所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚集类性能的准那么函数到达最优,从而使生成的每个聚集类的紧凑,类间独立 操作步骤:输入:数据集 , 其中的数据样本只包含描述属性,不包含类别属性。聚类个数K输出: 1从数据集 X 中随机地选择 k 个数据样本作为聚类的出示代表点,每一个代 表点表示一个类别 2 对于 X 中的任意数据样本 xm 1<xm<total ,计算它与 k 个初始代表点 的 距离,并且将它划分到距离最近的初始代表点所表示的类别中 3 完成数据样本的划分之后,对于每一个聚类,计算其中所有数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 辅警培训课件教学模板
- 失能老人护理专业培训课程
- 《GAT 797.2-2008公安基本装备业务信息代码 第2部分:公安基本装备流向方式代码》专题研究报告深度
- 2026年深圳中考物理磁场的基本性质试卷(附答案可下载)
- 2026年深圳中考生物生物体的结构层次试卷(附答案可下载)
- 2026年深圳中考生物高分冲刺综合试卷(附答案可下载)
- 健身证书题库及答案大全
- 2026年人教版物理八年级上册期末质量检测卷(附答案解析)
- 大数据分析技术平台搭建要点
- 2025云南昆华医院投资管理有限公司(云南新昆华医院)招聘3人备考题库参考答案详解
- 2025年华龙证券招聘考试题库
- 森林抚育等服务采购项目方案投标文件(技术文件)
- 麻醉科常用耗材分类与管理要点
- 隧道人员管理办法
- 材料力学性能检验工安全教育培训手册
- 健康经济学课件
- 2025年上海国资国企招聘笔试备考题库(带答案详解)
- 小说影视化改编的深度解析
- JJF 2214-2025 机动车检测用气象单元校准规范
- 严格招标需求管理制度
- 外科洗手操作标准与流程
评论
0/150
提交评论