


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1. 熟悉数据挖掘的流程:提示:1)业务理解 2)数据理解 3)数据准备 4)建立模型 5)模型评估 6)模型发布2. 数据库系统与数据仓库系统的区别:数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程:而数据库是面向具体操作的、单一的、实时的、更新的数据集合,支持管理机构日常操作的。数据库系统的主要任务是执行联机事务和查询处理,这种系统称为OLTP系统,涵盖了组织机构的大部分日常操作;另一方面,数据仓库在数据分析和决策方面为用户和知识工人提供服务。具体表述如下:项目数据库系统数据仓库系统数据类型操作型数据分析型数据数据组织方式面向应用面型主题试图机制虚表存储,只存视图结构实试图存储系统开发方法需求驱动数据驱动面向应用面向OLTP面向OLAP工具数据查询、开发分析和一般查询功能复杂简单优化事务处理和访问系统决策和分析索引有限数量完整结构自由空间需要附加数量空间无更新开销大无更新操作增、删、改频繁少3. 数据聚合需考虑的问题;4. 利用免费商品做促销的关联规则挖掘问题:1) 找到免费商品的频繁1项集,记为S1。2) 使用FP增长算法生成那些价格不少于$200的频繁项集,记为S2。这是一个单调约束,因此不必要在每一步使用“生成测试”过程,这样能节省一些不必要的计算开销。如果我们有一个频繁项价格至少¥200,则没必要对这个频繁项的任何超集进行测试。这是因为任何其他商品加到这个频繁项里,价格肯定会增多。需要检验的是超集是否是频繁的。这里之所以使用FP增长算法的原因是Apriori算法丢弃了那些价格低于$200的频繁项集。这样导致了将不能够发现满足约束条件的频繁项集。FP增长算法不会有这样的问题,因为它保留了关于数据库的完整信息在一个树结构中。3) 从S1S2中找到频繁项集。4) 生成满足最小置信度且形如的规则。5. 分布式数据的关联规则挖掘方法:第一 在每一个站点挖掘局部频繁项集,设CF为四个站点的局部频繁项集的并集;第二 计算CF中每个频繁项集在各个站点的支持度计数;第三 计算CF中每个项集的全局支持度计数,可以通过将它在四个站点的局部支持度计数累加起来;那些全局支持度大于支持度阀值的项集为频繁项集;第四 从全局频繁项集里导出强规则。6. 急切分类、惰性分类的优缺点:急切分类比惰性分类在速度上要更快。因为它在接受新的待测数据之前已经构造了一个概括的模型。能够给一些属性指定一些权重,因为能提高精度。急切分类的缺点是它必须针对整个样本空间作出一个单一的假设,这可能削弱分类性能,并且需要更多的时间去训练。惰性分类使用更广泛的函数空间,这能够提高分类精度。相对于急切分类,它需要更少的时间用于训练。缺点是惰性分类必须把所有的训练样本都保存下来,这可能引入了昂贵的存储代价并且要求有效的索引技术。另外一个缺点是在分类时更慢,因为分类器在待测样本来之前并没有构造出来。而且,所有属性都是具有一样的权值,这可能导致降低分类性能。7. 熟悉贝叶斯分类方法的计算;8. 聚类分析及聚类分析的常用算法;9. 数据预处理中的规范化方法;10. 关联规则挖掘的常用算法及计算11. 挖掘海量数据的挑战:第一个挑战是数据挖掘的性能问题,也就是说数据挖掘算法的有效性和可伸缩性。在一定精度的要求下,在可接受的运行时间内,为了有效的从大量数据里提取信息,数据挖掘算法必须是有效的和可伸缩的。第二个挑战是数据挖掘算法的并行性,分布式和增量处理过程。由于数据可能有很多数据库组成,这些数据库分布在不同的区域,而且有些数据挖掘算法本身比较复杂,这些都需要数据挖掘算法具有并行性和分布式计算功能。由于针对大规模数据的数据挖掘代价昂贵,因此当新的数据加入时,数据挖掘算法需要能够只对更新的数据进行处理,而不需要对整个数据集重新挖掘一次。12. k均值与k中心点的优缺点比较:划分和层次的比较:K中心点算法比k均值算法在面临噪音数据和离群点数据时更具鲁棒性,因为中心点相对均值来说,更少受到群点或者其他极端值的影响。然而,k衷心点聚类的预处理过程比K均值代价更高。K中心点和k均值都是基于划分的角力,基于划分的聚类的一个优缺点是,他们能够撤销之前的聚类过程,不像基于层次的聚类方法,一旦分类或者聚合执行了,就不能调整。这项缺点可能引起层次聚类的结果质量。基于划分的聚类方法在寻找椭圆形聚类模式时具有更好的效能,在针对中等以下规模的数据集进行聚类时,聚类效果较好。划分聚类的一个缺点是聚类之前需要知道类别的数目;而层次聚类能够自动决定类别的数目。然而,层次聚类在伸缩性方面有困难。因为每一次聚合或者分裂都要求对很多样本或者类别进行评估和检查。层次聚类方法能够与其他聚类方法相结合来提高聚类性能。13. 简述决策树分类的主要步骤14. 简单地描述如何计算由如下类型的变量描述的对象间的相异度;1)数值(区间标度)变量2)不对称的二元变量3)分类变量4)比例标度型(radio-scaled)变量5)序数变量15. 给定K和描述每个样本的属性数n,写一个k-最近
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国广电宜春市2025秋招网申填写模板含开放题范文
- 神农架林区中储粮2025秋招购销统计岗高频笔试题库含答案
- 国家能源张家口市2025秋招交通运输类面试追问及参考回答
- 中国移动昆明市2025秋招笔试行测题库及答案技能类
- 公路定额类考试题及答案
- 甘南藏族自治州中石油2025秋招笔试综合知识专练题库及答案
- 大唐电力临汾市2025秋招面试专业追问及参考计算机与信息岗位
- 中国移动广安市2025秋招笔试行测题库及答案综合管理类
- 中国广电济源市2025秋招网络优化与维护类专业追问清单及参考回答
- 中国联通儋州市2025秋招笔试行测经典题及答案
- 《ESPEN重症病人营养指南(2023版)》解读课件
- 初三学习策略模板
- 外销合同协议书英文翻译
- 灌区续建配套与节水改造规划报告
- 财务咨询外包协议
- 2023-2024学年上海市杨浦区六年级上学期期中考试语文试卷含详解
- 农行超级柜台业务知识考试题库(含答案)
- 新标准大学英语(第三版)综合教程3(智慧版)课件 Unit6 Path to prosperity
- 3认识你自己-大学生自我意识发展课件
- 中药学全套(完整版)课件
- GB 1886.232-2016食品安全国家标准食品添加剂羧甲基纤维素钠
评论
0/150
提交评论