




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘原理与SPSSClementine元昌安总编邓松李文敬刘海涛编辑了电子工业出版社,双击添加了主题、数据挖掘的体系结构和模型、数据挖掘的体系结构数据挖掘的过程模型Fayyad模型3、3.1数据挖掘的体系结构,数据挖掘系统由各种数据库、挖掘预处理模块、挖掘操作模块、模式评价模块、知识输出模块构成,这些模块的有机结构构成了数据挖掘系统的体系结构负责数据挖掘系统的体系结构图、4、3.1数据挖掘体系结构、数据库管理模块、系统内的数据库、数据仓库、基于挖掘知识的维护和管理。 这些数据库、数据仓库是外部数据库的转换、整理、净化,是数据挖掘的基础。 挖掘预处理模块对收集到的数据进行清理、整合、选择、转换,生成数据仓库或数据挖掘库。 其中,进行清扫,选择并转换与主要消除噪音的整合、多个数据源组合问题相关的数据,并将选定的数据转换为可挖掘的形式。 5、3.1评价数据挖掘的体系结构、模式评价模块、数据挖掘结果。 由于被挖掘的模式可能很多,因此需要将用户的兴趣度与这些模式进行比较,评价模式价值,分析不足的原因,在被挖掘的模式与用户的兴趣度大不相同的情况下,需要返回适当的程序(挖掘预处理或挖掘操作等)再次执行。 知识输出模块完成了数据挖掘模型的翻译、解释,并以方便人们理解的方式提供给真正想知识的决策者。 利用数据库、数据仓库、数据挖掘库、挖掘知识库规则、方法、经验和事实数据等,利用6、3.1数据挖掘体系结构、挖掘操作模块、各种数据挖掘算法挖掘知识的双曲馀弦值。 7,3.2数据挖掘的过程模型,FAYYYYYYYD数据挖掘模型将数据库中的知识发现视为一个多步骤过程,它集中从数据中识别模式表示的知识,包括整个知识发现过程中的许多过程步骤,每个步骤之间FAYYYDD数据挖掘过程模型、8、3.2.1FAYYYDD模型、FAYYYDD处理过程共分为9个处理阶段,数据准备:了解KDD相关领域的相关情况,熟悉背景知识,阐明用户的要求。 数据选择:按照用户的要求从数据库中提取KDD的相关数据,KDD主要从这些数据中进行知识提取,其过程中利用几个数据库操作处理数据。 9,3.2.1 fayad模型,数据清洗和预处理:可重新加工数据,检查数据完整性和数据完整性,处理其中的噪音数据,用统计方法填补丢失的数据。 降维/转换数据:根据知识发现任务对预处理的数据进行重新处理,主要通过投影或数据库中的其他操作来减少数据量。 KDD的目标是根据用户的要求来决定KDD发现了什么样的知识。 对KDD的要求是在具体知识发现过程中采用不同的知识发现算法。 10、3.2.1fayad模型,知识发现算法的确定:根据阶段5中确定的任务,选择合适的知识发现算法。 这包括选择合适的模型和参数,知识发现算法符合整个KDD的评估标准。 数据挖掘:采用选定的知识发现算法,从数据中提取用户感兴趣的知识,用一定的方法表达。 模式解释:为了在解释发现的模式(知识)的过程中获得更有效的知识。 11,3.2.1 fayad模型,知识评价:向用户提示发现的知识以便用户理解。 其间也包含知识的整合性检查,我们确信这次发现的知识与以前发现的知识不矛盾。12,3.2.1 fay YAD模型,fayad过程模型是偏置技术模型,该模型在实际应用中存在以下两个问题:为什么选择这些数据? Fayyad过程模型忽视了具体业务问题的确定。 这是决定选择哪些数据的关键。 模型是如何使用的? 数据挖掘是一种分析型环境的技术,当数据挖掘是一种数据分析技术时,数据挖掘应该在分析型环境中应用。 但是,挖出的模型需要回到操作型环境中来应用。 因此,有必要构成从操作型环境到分析型环境,再到操作型环境的关键信息流。 13、3.2.2crisp-dm模型、crisp-DM (cross-industrystandardprocessfordataming,跨行业数据挖掘标准过程)重视数据挖掘技术的应用,Fayyad模型中存在的两个问题CRISP-DM过程模型从业务的角度表示了对数据挖掘方法的理解。 目前,数据挖掘系统的开发和开发基于CRISP-DM标准,将典型挖掘与模型部署紧密结合在一起。 14、3.2.2CRISP-DM模型、crisp-DM模型过程的基本步骤是业务理解、数据理解、数据准备、模型建立、模型评估、模型实施。 CRISP-DM数据挖掘过程模型、15、3.2.2CRISP-DM模型和CRISP-DM模型阶段任务。 业务理解(BusinessUnderstanding )的第一阶段,着眼于理解项目目标,从业务角度理解需求,同时将这一知识转化为定义数据挖掘问题和实现目标的初步计划。 16,3.2.2 crisp-DM模型,数据理解(DataUnderstanding )数据理解阶段从初始数据采集开始,通过一些活动的处理,熟悉数据,识别数据质量问题,首次发现数据的内部属性,或引起兴趣的子集17、3.2.2crisp-DM模型和“数据准备”(DataPreparation )数据准备阶段包括从未处理的数据构建最终数据集的所有活动。 这些数据是模型工具的输入值。 这个阶段的任务可以多次执行,没有规定的顺序。 任务包括转换和清洗模型工具中的表格、记录、属性选择和数据。 18、3.2.2crisp-DM模型建立了模型选择和应用不同的模型技术,模型参数已调整到最佳数值。 通常,有些技术解决了同一数据挖掘问题。 有些技术对数据形成有特殊要求,因此需要频繁返回数据准备阶段。 19,3.2.2 crisp-DM模型,评价(Evaluation )已经从数据分析的角度建立了高质量显示的模型。 在最后部署模型之前,重要的是要彻底评估模型,检查建立模型的步骤,以确保模型能够实现业务目标。 这个阶段的重要目的是判断重要的业务问题是否没有被充分考虑。 这个阶段结束后,必须完成对一个数据挖掘结果使用的决定。 20、3.2.2crisp-DM模型,实施(Deployment )通常模型的创建不是项目的终止。 模型的作用是从数据中找出知识,得到的知识需要以用户易于使用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 皮革缝纫辊工艺考核试卷及答案
- 水产品干燥能耗评估工艺考核试卷及答案
- 景区运营管理师知识考核试卷及答案
- 陶瓷釉面涂层涂层镭射装饰技术考核试卷及答案
- 铁路机车车辆制动钳工前沿技术考核试卷及答案
- 肉品分级员职业考核试卷及答案
- 医疗技术考试题目及答案
- 心室相关电生理手术问题及心动过速诊断试卷
- 2025年XX学校会计学专业大学生生涯发展展示
- 公安学专业试题及答案
- 煤矿安全规程2025版解读
- 尿培养的采集
- 东航空乘英语考试题目及答案
- 2025绿植租赁协议(简易版)
- 《三级工学一体化师资培训》课件-第四课:教学活动策划
- 2025年中国物流集团国际物流事业部招聘面试经验及模拟题集
- 乡镇安全培训课件
- 2025年航空业面试者必看航空公司招聘笔试预测试题及答案
- 2025年全国企业员工全面质量管理知识竞赛题及参考答案
- 2025年秋季开学典礼诗歌朗诵稿:纪念抗战胜利八十周年
- 2025秋仁爱科普版(2024)七年级上册英语教学计划
评论
0/150
提交评论