版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国矿业大学银川学院期末考试试题2010至2011学年第2学期考试科目数据仓库与数据挖掘学分2年级2008系机电动力与信息工程系专业计算机一、填空题(15分)1。数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。2。元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。3。OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。4。基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。二、多项选择题(10分)6。在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A分类B关联A分类B关联C估值D预言7。数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A数据抽取B数据转换C数据加载D数据稽核8。数据分类的评价准则包括(ABCD)A精确度B查全率和查准率CF-MeasureD几何均值9。层次聚类方法包括(BC)A划分聚类方法B凝聚型层次聚类方法C分解型层次聚类方法D基于密度聚类方法10。贝叶斯网络由两部分组成,分别是(AD)A网络结构B先验概率C后验概率D条件概率表三、计算题(30分)11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=40%,confmin=40%,minmin使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)事务项目事务项目T1面包、果冻、花生酱T4啤酒、面包T2面包、花生酱T5啤酒、牛奶T3面包、牛奶、花生酱解:(1)由1={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产
生1-候选C[,计算其支持度,取出支持度小于sup•的项集,形成11min—频繁集如下表所示:项集C1支持度项集L1支持度{面包}4/5{面包}4/5{花生酱}3/5{花生酱}3/5{牛奶}2/5{牛奶}2/5{啤酒}2/5{啤酒}2/5(2)组合连接L1中的各项目,产生2—候选集C2,计算其支持度,取出支持度小于supminmin的项集,形成2-频繁集L2,如下表所示:项集c2支持度项集l2支持度{面包、花生酱}3/5{面包、花生酱}3/5至此,所有频繁集都被找到,算法结束,所以,confidence({面包}—{花生酱})=(4/5)/(3/5)=4/3>conf.minconfminconfidence({花生酱}f{面包})=(3/5)/(4/5)=3/4confmin所以,关联规则{面包}f{花生酱}、{花生酱}—{面包}均是强关联规则。12。给定以下数据集(2,4,10,12,15,3,21),进行K—Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m]=2,m2=4:(2)对于X中的任意数据样本x(1〈xvtotal),计算它与k个初mm始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为2,8,10,13,1,19.当m2=4时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,—1,17.最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3),另一个聚类m2=4为(4,10,12,15,21)。(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:ml=2o5,m2=12:(4)对于X中的任意数据样本xm(1〈xm〈total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2.5时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为-0。5,0.5,1o5,7.5,9o5,12.5,18。5.当m2=12时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,—8,2,3,9。最小距离是1。5将该元素放入m1=2.5的聚类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m]=3,m2=14。5:(6)对于X中的任意数据样本xm(1〈xmvtotal),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=3时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为—1,1,7,9,12,18,。当m2=14。5时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为—12。58,-11。5,-10.5,—4.5,—2。5,0。5,6.5.最小距离是0.5将该元素放入m1=3的聚类中,则该聚类为(2,3,4),另一个聚类m2=14。5为(10,12,15,21).至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优.四.设计题(45分)13。按照题目给定的3个数据文件,任选一个建立数据流图,要求至少包括记录选项、字段选项、图形结点各一个。任选关联规则Apriori算法、贝叶斯网络、K—Means聚类、决策树C5.0(C4。5)算法、神经网络中的一个进行挖掘,并给出数据流图.(10分)
churnGhurnStchurnGhurnSt14。对以上数据流图中使用的每个结点做一简短说明.(10分)选择:age〉25.过滤:过滤后的字段。Region,tenure,age,marital,churn.字段类型regiontenure1earu9-IharrcFlaFlEJF1HJ二一二二一■三一十日+邑2.3-72I.77.1J.1J字段类型regiontenure1earu9-IharrcFlaFlEJF1HJ二一二二一■三一十日+邑2.3-72I.77.1J.1JI8oO缺失方向'无无无无无\4flu.A.\输A、输入、输永©输出给出以上数据流图中模型的执行结果(生成模型完全展开后的数据),对于执行结果太多的,可节选部分结果。(10分)
li^al】l于…于:‘于:+潯:忌V-4>-寻占S=口口C日=31li^al】l于…于:‘于:+潯:忌V-4>-寻占Ste-ri■_-!re-c:■曰::■r=a11=1r-1Cl—AI口口曰曰t-S=S5=对以上模型生成的结果做一简要的分析,包括算法采用的基本原理、数学模型、算法步骤等.(15分)答:k—means聚类算法基本原理:将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚集类性能的准则函数达到最优,从而使生成的每个聚集类的紧凑,类间独立。操作步骤:输入:数据集,其中的数据样本只包含描述属性,不包含类别属性。聚类个数K输出:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别(2)对于X中的任意数据样本xm(1〈xmvtotal),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别(3)完成数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (正式版)T∕SIGA 007-2026 人工智能辅助医保档案处理系统通 用要求
- 商务管理就业方向
- 钢筋焊接工艺参数记录要求
- GB 30871-2022 危险化学品企业特殊作业安全规范课件(2014版与2022版对照)
- 职业健康救援处置预案
- 2026浙江丽水莲都电信业务项目部招聘智家工程师6人考试参考题库及答案解析
- 针对外墙保温三检制度
- 2026山东临沂科技职业学院引进高层次人才56人考试模拟试题及答案解析
- 2026兴义民族师范学院高层次人才引进12人笔试备考试题及答案解析
- 重大事故隐患排查治理制度
- 2026AHA-ASA急性缺血性卒中早期管理指南解读课件
- 2026届百师联盟高三下学期考前适应性训练(一) 历史试题+答案
- 2026年博物馆陈列部招聘笔试陈列设计知识
- 放射科床旁照相工作制度
- 2026年安徽中医药大学资产经营有限公司第二批次招聘13名笔试备考试题及答案解析
- 松下vf100变频器使用手册
- 四十二式太极拳图文
- xx站下行离去区段ZPW-2000A移频自动闭塞工程设计
- 2011版不锈钢产品手册
- 水性树脂化学品安全技术说明书
- 重庆市住宅工程质量分户验收表格
评论
0/150
提交评论