




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、概述数据挖掘概念:数据挖掘是对大量数据进行探索和分析、以便发现有意义的模式和规则的过程. 数据仓库:数据仓库就是面向主题的、集成的、非易失的(稳定性)、随时间变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据立方体:允许以多维对数据建模和观察.由维和事实组成.其中事实是数值的度量.分类:就是通过学习获得一个目标函数f, 将每个属性集x映射到一个预先定义好的类标号y. 分类任务的输入数据是纪录的集合,每条记录也称为实例或者样例.用元组(X,y)表示,其中,X 是属性集合,y是一个特殊的属性,指出样例的类标号(也称为分类属性或者目标属性).信息检索:信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。知识发现(KDD):知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。OLAP:OLAP是针对特定问题的联机数据访问和分析.通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的实的“维”)的很多可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察.维:是人们观察数据的特定角度.企业常常关心产品销售随着时间推移而产生的变化的情况,这时企业是从时间的角度来观察产品的销售,所以时间就是一个维(时间维).企业也常常关心自己的产品在不同地区的销售分布情况,这时企业是从地理分布的角度来观察产品的销售,所以地理分布也是一个维(地理维).上卷: -通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集,也称为聚合操作.下卷: -是上钻的逆操作.它由不太详细的数据到更详细的数据.钻取可以通过沿维的概念分层向下或引入新的维来实现.切片:-设有(维1,维2,维i,维n,观察变量)多维数据集,对维i选定了某个维成员,则(维1,维2,维i成员,维n,观察变量)就是多维数据集(维1,维2,,维I,维n,观察变量)在维i上的一个切片.切块:-将完整的数据立方体切取一部分数据而得到的新的数据立方体.在(维1,维2,维i,维k,维n,观察变量)多维数据集上,对维i,维k,选定了维成员,则(维1,维2,维i成员,维k成员,维n,观察变量)就是多维数据集(维1,维2,维i,维k,维n,观察变量)在维i,维k上的一个切块.二、简述1、KDD的主要过程KDD过程是多个步骤相互连接、反复进行人机交互的过程。主要包括以下步骤: 1.问题的理解和定义:数据挖掘人员与领域专家合作对问题进行深入的分析以确定可能的解决途径和对学习结果的评测方法。 2相关数据收集和提取:根据问题的定义收集有关的数据。在数据提取过程中,可以利用数据库的查询功能以加快数据的提取速度。 3数据探索和清理:了解数据库中字段的含义及其与其他字段的关系。对提取出的数据进行合法性检查并清理含有错误的数据。 4数据工程:对数据进行再加工主要包括选择相关的属性子集并剔除冗余属性、根据知识发现任务对数据进行采样以减少学习量以及对数据的表述方式进行转换以适于学习算法等。为了使数据与任务达到最佳的匹配这个步骤可能反复多次。 5算法选择:根据数据和所要解决的问题选择合适的数据挖掘算法并决定如何在这些数据上使用该算法。 6运行数据挖掘算法:根据选定的数据挖掘算法对经过处理后的数据进行模式提取。 7结果的评价:对学习结果的评价依赖于需要解决的问题由领域专家对发现的模式的新颖性和有效性进行评价。数据挖掘是KDD 过程的一个基本步骤它包括特定的从数据库中发现模式的挖掘算法。KDD过程使用数据挖掘算法根据特定的度量方法和阈值从数据库中提取或识别出知识,这个过程包括对数据库的预处理、样本划分和数据变换。2、操作数据库系统与数据仓库的区别 OLTP和OLAP的主要区别概述如下: 用户和系统的面向性:OLTP是面向顾客的,用于办事员、客户、和信息技术专业人员的事务和查询处理。OLAP是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析。 数据内容:OLTP系统管理当前数据。通常,这种数据太琐碎,难以方便地用于决策。OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。 数据库设计:通常,OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计。而OLAP系统通常采用星形或雪花模型和面向主题的数据库设计。 视图:OLTP系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP系统常常跨越数据库模式的多个版本。OLAP系统也处 理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP数据也存放在多个存储介质上。 访问模式:OLTP系统的访问主要由短的、原子事务组成。这种系统需要并行控制和恢复机制。然而,对OLAP系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。 OLTP和OLAP的其它区别包括数据库大小、操作的频繁程度、性能度量等。OLTP系统和OLAP系统的比较特性 OLTP OLAP特征 操作处理 信息处理面向 事务 分析用户办事员、DBA、数据库专业人员 知识工人(如经理、主管、分析员)功能 日常操作 长期信息需求,决策支持DB设计基于E-R,面向应用 星形/雪花,面向主题数据 当前的;确保最新 历史的;跨时间维护汇总 原始的,高度详细 汇总的,统一的视图 详细,一般关系 汇总的,多维的工作单位 短的、简单事务 复杂查询存取 读/写 大多为读关注 数据进入 信息输出操作 主关键字上索引/散列 大量扫描访问记录数量 数十个 数百万用户数 数千 数百DB规模 100MB到GB 100GB到TB优先高性能,高可用性 高灵活性,端点用户自治度量 事务吞吐量 查询吞吐量,响应时间其中:OLTP指联机事务处理 OLAP指联机分析处理3、如果面对学校数据库,你认为数据挖掘的目标是什么?4、比较星型模式,雪花模式和事实星座模式5、你了解的信息检索模型幷简要叙述其思想6、数据挖掘的相关领域及主要的数据挖掘方法数据挖掘的相关领域:1. 金融数据分析的数据挖掘 为多维数据分析和数据挖掘设计和构造数据仓库 贷款偿还预测和顾客信用政策分析 针对定向销售的顾客分类和聚类 洗黑钱和其他金融犯罪的侦破2. 零售业的数据挖掘 基于有效数据挖掘的数据仓库的设计和构造 销售,顾客,产品,时间和地区的多维分析 促销活动的有效性分析 顾客保持力顾客忠诚度分析 产品推销和产品的交叉推动3. 电信业的数据挖掘 电信数据的多维分析 盗用模式分析和异常模式识别 多维关联和序列模式分析 移动通信服务 电信数据分析中可视化工具的使用4. 生物学数据分析的数据挖掘 异构分布基因组和蛋白质组数据库的语义集成 多核苷、蛋白质序列的对比、索引,相似性搜索和比较分析 结构模式的发现、遗传网络和蛋白质路径的分析 关联和路径分析:识别同时出现的基因序列、把基因与疾病的不同阶段链接 基因数据分析中的可视化工具5. 其他科技应用的数据挖掘 数据仓库和数据库预处理 挖掘复杂数据类型 基于图的挖掘 可视化工具和特定领域知识数据挖掘的方法:可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国家事业单位招聘2025海洋出版社有限公司招聘应届毕业生岗位笔试历年参考题库附带答案详解
- 国家事业单位招聘2025中国地质科学院岩溶地质研究所招聘拟聘用人员笔试历年参考题库附带答案详解
- 四川省2025年四川省减灾中心招聘编外工作人员(第二批)笔试历年参考题库附带答案详解
- 商品混凝土员工安全培训课件
- 北京市2025北京市金融发展促进中心招聘2人笔试历年参考题库附带答案详解
- 2025青海西矿稀贵金属有限公司招聘38人笔试参考题库附带答案详解
- 2025湖南高速工程咨询有限公司招聘专业技术人员22人笔试参考题库附带答案详解
- 2025浙江杭州市建德市林业总场下属林场招聘10人笔试参考题库附带答案详解
- 2025河南洛阳市新安县龙潭大峡谷荆紫仙山景区招聘23人笔试参考题库附带答案详解
- 2025广东省广晟控股集团校园招聘2025人笔试参考题库附带答案详解
- DBJT15-147-2018 建筑智能工程施工、检测与验收规范
- 华为鸿蒙课件
- 全站仪使用课件
- 中国心房颤动管理指南(2025)解读
- 2025年成人高考专升本民法真题及答案
- 2024年云南省公务员考试行测真题参考答案详解
- 初中普法主题教育
- 多发骨折病人疑难病例讨论
- 草果种植技术课件大全
- 2025年水利A证考试题及答案
- 新疆就业政策课件
评论
0/150
提交评论