




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、填空题(15分)1. 数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。2. 元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。3.0LAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中 企业级数据仓库 是中心,源数据系统和数据集市在输 入和输出范围的两端。5.0DS实际上是一个集成的、面向主题的、可更新的、 当前值的、 企业级的、详细的数据库,也叫运营数据存储。二、多项选择题(10分)6. 在数据挖掘的分析方法中,直
2、接数据挖掘包括(ACD )A分类 B 关联 C 估值 D 预言7. 数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A数据抽取 B 数据转换C 数据加载 D数据稽核8. 数据分类的评价准则包括(ABCD )A精确度 B查全率和查准率C F-Measure D 几何均值9. 层次聚类方法包括(BC )A划分聚类方法B凝聚型层次聚类方法 C分解型层次聚类方法 D 基于密 度聚类方法10. 贝叶斯网络由两部分组成,分别是( A D )A网络结构 B 先验概率 C后验概率 D 条件概率表三、 计算题(30分)11. 个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务
3、中卖出的项目,假定 supmin=40% confmin=40%使用AprioN 算法计算 生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)事务项目事务项目T1面包、果冻、花生酱T4啤酒、面包T2面包、花生酱T5啤酒、牛奶T3面包、牛奶、花生酱解:(1)由1=面包、果冻、花生酱、牛奶、啤酒的所有项目直接产生1-候选G,计算其支持度,取出支持度小于 supmin的项集,形成1-频繁集L1,如下表所示:项集G支持度项集L1支持度面包4/5面包4/5花生酱3/5花生酱3/5牛奶2/5牛奶2/5啤酒2/5啤酒2/5(2) 组合连接Li中的各项目,产生2-候选集C2,计算其支持度,取出
4、支持度小于supmin的项集,形成2-频繁集L2,如下表所示:项集G支持度项集L2支持度面包、花生酱3/5面包、花生酱3/5至此,所有频繁集都被找到,算法结束,所以,confidence (面包 花生酱) = (4/5 ) / (3/5 ) =4/3> conf mincon fide nee (花生酱 面包) = (3/5 ) / (4/5 ) =3/4> conf min所以,关联规则面包花生酱、花生酱 面包均是强关联规则。12. 给定以下数据集(2,4,10,12,15, 3, 21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)解:(1)从数
5、据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知 k=2,则可设m=2,m=4:(2)对于X中的任意数据样本Xm( 1<xm<total ),计算它与k个初始代表点的距 离,并且将它划分到距离最近的初始代表点所表示的类别中:当m=2时,样本(2,4,10,12,15, 3, 21)距离该代表点的距离分别为 2,8,10,13,1,19。当m=4时,样本(2 , 4, 10, 12, 15, 3, 21)距离该代表点的距离分别为-2 ,6, 8, 11, -1 , 17。最小距离是1或者-1将该元素放入m=2的聚类中,则该聚类为(2, 3),另一
6、个 聚类 m2=4 为(4,10,12,15,21)。(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m=2.5 , m=12:(4)对于 X 中的任意数据样本 xm(1<xm<total ),计算它与 k 个初始代表点的 距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2.5 时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为 -0.5 ,0.5 ,1.5 ,7.5 ,9.5 ,12.5 ,18.5。当m=12时,样本(2,4, 10,12, 15, 3, 21
7、)距离该代表点的距离分别为-10,-9 , -8 , 2, 3, 9。最小距离是 1.5 将该元素放入 m1=2.5 的聚类中,则该聚类为( 2, 3, 4),另一 个聚类 m=12为(10, 12, 15, 21)。( 5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均 值,并且将其作为该聚类的新的代表点,由此得到 k 个均值代表点: m1=3, m2=14.5:( 6)对于 X 中的任意数据样本 xm( 1<xm<total ),计算它与 k 个初始代表点的 距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=3 时,样本(2 , 4, 10, 1
8、2, 15, 3, 21)距离该代表点的距离分别为 -1 , 1, 7, 9, 12, 18 ,。当 m2=14.5 时,样本( 2 , 4, 10, 12, 15, 3, 21)距离该代表点的距离分别为-12.58 , -11.5 , -10.5 , -4.5 , -2.5 , 0.5, 6.5。最小距离是0.5将该元素放入m=3的聚类中,则该聚类为(2, 3, 4),另一个聚类 02=14.5 为(10,12,15,21)。至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。四设计题(45分)13. 按照题目给定的3个数据文件,任选一个建立数据流图,要求至少包括记录选项、字段
9、选项、图形结点各一个。任选关联规则Apriori算法、贝叶斯网络、K-Means聚类、决策树C5.0 (C4.5)算法、神经网络中的一个进行挖掘,并给出数据流图。(10分)churncmurn对以上数据流图中使用的每个结点做一简短说明。(10分) 选择:age>25.过滤:过滤后的字段。Regio n, te nure,age,marital,churn.宇段类型值厭失检查方可regiontenureFIEJFl_F1BJ rm im tm +巳直+B F F F1 SJ70.1【叩】14. 给出以上数据流图中模型的执行结果 (生成模型完全展开后的数据),对于执行结果太多的,可节选部分结
10、果。(10分)过滤:过滤后的字段。Regio n, te nure,age,marital,churn.过滤:过滤后的字段。Regio n, te nure,age,marital,churn.Jipe*=Ft=H1 走亠1151 -I 2 F 日 HLFTzz4占歼 m 口iW < 4 0丁曰 a > 4-1r-r-isirit&l C O_4S >亠卜 Jfn re q I o> ri a 1 O O 5<> 頁砖孝±_壬 O "F TL-T*t0P0< dNb曰 N >"p* r-Fisrl1r&
11、;l < 0.0 > 叶1于"T-=i |r-| ILJ r& < 3 卫 T 3 曰 > a l oi m一 -1 OO<tMS.>l=j- -erg!玉住凸二 & e Fwmt中m a © < o. 3&S > 匸口占= itmmiriitmj f 匚i ” 口二 i-3*-?-J r& < 3 坷.5 Y 才 >Str-E*o* on <1 一 q 口口耳 Qim < -< 3-1 Iri "?- >r¥f F n >FF>
12、;"* " J *=* < r=S!l 4 hF=E >亠厂戶 b n> m < -i =- -i n n 7»>鼻 i_-5S3 <Z®> IFC Ft15. 对以上模型生成的结果做一简要的分析,包括算法采用的基本原理、数学模型、算法步骤等。(15分)答: k-means聚类算法基本原理:将各个聚类子集内的所有数据样本的均值作为 该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚集类性能的准则函数达到最优,从而使生成的每个聚集类的紧凑,类间 独立。操作步骤:输入:数据集 , 其中的数据样本只包含描述属性,不包含类别属性。聚类个数 K输出:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别( 2)对于 X 中的任意数据样本 xm( 1<xm<total ),计算它与 k 个初始代表点的 距离,并且将它划分到距离最近的初始代表点所表示的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030医美光电设备市场监管趋严与合规发展路径分析报告
- 2025-2030医疗物联网发展分析及智慧医院建设路径报告
- 2025-2030医疗人工智能算法监管框架构建建议
- 道路改造项目施工组织方案
- 四年级数学奥数竞赛全套资料包
- 项目式学习(PBL)评估工具设计
- 城市绿化管理与养护方案范文
- 营商环境法治化进程中仲裁法治体系之完善
- 企业员工消防安全培训记录表
- 第17课 机器人构造探秘说课稿-2025-2026学年小学信息技术(信息科技)3年级武汉版
- 采购业务审计培训
- 2025-2026学年冀美版(2024)小学美术二年级上册(全册)教学设计(附目录P284)
- 服装色彩构成课件
- 化工仪表检修与维护课件
- 2025年华为软件开发工程师招聘面试题库及答案解析
- 程序化广告课件
- 电工基础课件
- 四川省石渠县2025年上半年公开招聘辅警试题含答案分析
- 真菌生物膜毒力因子-洞察及研究
- 基孔肯雅热危害及预防课件
- 副校长在任职宣布会上的表态发言材料
评论
0/150
提交评论