下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘试题库系统有什么区别二、关系模型和多维模型在数据仓库设计中各有什么优缺点三、数据仓库上的代数操作有哪些如何定义的,举例说明。四、什么是知识发现,知识发现的过程包括那几个步骤关联规则有哪些1、数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。 数据仓库的主要特征: 面向主题的、集成的、时变的、非易失的数据仓库与数据库的区别数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入 冗余,采用反
2、范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计它的两个基本的元素是维表和事实表。2、关系模型先建立企业级数据仓库,再在其上开发具体的应用。企业级数据仓库固然是我们所追求的目标,但在缺乏足够的技术力量和数据仓库建设经验的情况下,按照这种模型设计的系统建设过程长, 周期长,难度大,风险大,容易失败。这种模型的优点是信息全面、系统灵活。由于采用了第三范式, 数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等,但同时会存在大量的数据表,表之间的联系比较多,也比较复杂,跨表操作多,查询效率较低,对数据仓库系统的硬件性能要求高等问题。另一方面,数据模
3、式复杂,不容易理解,对于一般计算机用户来说,增加了理解数据表的困难。;这种维的变动将是非常复杂、非常耗时的。而且信息不够全面、系统欠灵活、数据冗余多。3、切片(Slice(Dice(aggregation) (Cube(roll-up) (drill-down) 、集合操作、类似于关系代数的操作等。切片(Slice)给定一个多维数据集合 MDS(D1,D2,Dn;M1,M2,Mk)在MDS 的第i 维上的切片是一条件为Di=c 选择操作,c 是常量。切片的结果是一个 n-1 维的数据集合切块(Dice)给定一个多维数据集合 MDS(D1,D2,Dn;M1,M2,Mk) ,在MDS 的第i 维上
4、的切块是个条件为 c1Dic2 选择操作,c1 和c2 是常值。切块的结果是一个 n 维的数据集合聚集(Aggregation)给定一个多维数据集合 MDS(D1,D2,Dn;M1,M2,Mk) 及一个维属性 Di(1in),MDS 在Di 上的聚集操作表示为 Agg(MDS,Di,F) ,其中F=f1,f2,fk,fj是Mj 上聚集函数,如求最大值、最小值、均值、和、计数等。幂聚集 (Cube)给定一个多维数据集合 MDS(D1,D2,Dn;M1,M2,Mk)及一个维属性集合 SDi|1in 在S 上的幂聚集操作表示为 Cube(MDS,S,F) ,其中F=f1,f2,fk,fj 是Mj 上
5、聚集函数,如求最大值、最小值、均值、和、计数等。上卷(roll-up )给定一个多维数据集合 MDS(D1,D2,Dn;M1,M2,Mk) ,MDS 上的上卷操作的功能是从 MDS 始沿着计算下钻(drill-down )旋转数据旋转是改变维度的位置关系,使最终用户可以从其他视角来观察多维数据5数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、
6、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用1 有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。可能产生大量的候选集 ,以及可能需要重复扫描数据库,是 Apriori 算法的两大缺点。4、知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿ft中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。数据准备 包括
7、3 个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的质量。预处理是为了克服目前数据采掘工具的局限性。数据挖掘要先决定如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘,后一种称为验证型的数据挖掘。选择合适的工具。挖掘知识的操作。证实发现的知识。结果表达和解释 根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来, 并且通过决策支持工具提交给决策者,因此这一步骤任务不仅是把结果表达出来,还要对信息进行过滤处理,如果不能令决策者满意,需要重复以上数据挖掘过程6(classification是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年数据结构与算法编程知识要点测试
- 2026年团建活动方案设计与预算题
- 2026年项目组织与管理案例及成功因素解析
- 2026年林牧区防火阻隔系统建设规范试题
- 眼癌放射治疗患者的自我管理指导
- 牙齿保护技巧
- 浙江省绍兴市稽阳联谊学校2026年4月高三年级联考生物学试卷(含答案)
- 2026浙江丽水云和县县级综合应急救援队工作人员招聘3人笔试参考题库及答案解析
- 国家管网集团湖北公司2026届春季高校毕业生招聘考试模拟试题及答案解析
- 2026湖南长沙卫生职业学院招聘3人考试参考题库及答案解析
- 2026年黑龙江省《保密知识竞赛必刷100题》考试题库带答案详解(基础题)
- 2026四川南充市仪陇县疾病预防控制中心(仪陇县卫生监督所)遴选4人建设笔试参考题库及答案解析
- 年产5万吨乙酸乙酯生产工艺的设计
- 信号与系统教学 第八章 通信系统
- 中国甲状腺疾病诊治指南
- GB/T 5195.11-2021萤石锰含量的测定高碘酸盐分光光度法和火焰原子吸收光谱法
- GA/T 946.2-2011道路交通管理信息采集规范第2部分:机动车登记信息采集和签注
- FZ/T 90107.4-1999圆柱形筒管变形丝用筒管的尺寸、偏差和标记
- 2023年湖南化工职业技术学院教师招聘考试笔试题库及答案解析
- 施工现场安全保证计划
- 既有线顶进桥涵资料
评论
0/150
提交评论