数据挖掘研究综述.docx_第1页
数据挖掘研究综述.docx_第2页
数据挖掘研究综述.docx_第3页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘研究综述 摘要:从数据挖掘的概念出发,详细分析了数据挖掘的过程,包括业务识别、确保数据质量、选择挖掘算法、转换数据格式、进行知识解释和评价;并进一步讨论了数据挖掘的技术和工具以及各技术的适用领域。 关键词:数据挖掘;人工智能;挖掘技术 引言:近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是许多行业如商业、企业、科研机构和政府部门等都积累了大量数据,这些数据可以被广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。本文主要从数据挖掘的概念、过程以及技术来全面分析数据挖掘,并指出数据挖掘的应用功能。 一、 数据挖掘的概念 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先难以预计的但又是潜在有价值的知识的过程。数据挖掘发现的知识,并不是崭新的自然科学定理或者数学公式,不要求放之四海而皆准,而是大量数据所体现出来的、某些用户感兴趣的某种规律性知识。这种规律性知识对不同的人呈现出完全不同的价值,而且数据挖掘发现的知识都是基于现实当中产生的数据、在特定前提和约束条件下、面向特定领域的知识。用这样的知识可以指导一定范围内的业务活动。知识的表现也要求易于被用户理解,最好能用简洁的图表或自然语言进行表述,目标是及时准确把握顾客的消费倾向,跟踪客户需求并提高产品的市场份额和市场竞争力。 二、数据挖掘的过程 数据挖掘是一个复杂的过程,数据挖掘充分利用人工智能、机器学习、统计学等多学科的知识,并将它们与其他辅助技术结合在一起,从大量的数据中找出潜在的、有用的知识。具体过程包括: (一)识别业务问题,认清挖掘目标并据此有针对性地选择挖掘所需的目标数据是数据挖掘的第一步。虽然挖掘出来的知识是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而进行数据挖掘是带有一定盲目性的,也是不会成功的。 (二)数据的质量是数据挖掘成败的关键。为了能成功地进行数据挖掘,需要对数据进行预处理,消除数据中可能存在的噪声、不一致性和数据冗余,以提供高质量的数据挖掘源。 (三)不同的数据挖掘算法对数据有不同的格式要求,因此,在挖掘之前需要对数据进行格式转换以符合数据挖掘算法的要求。 (四)根据数据挖掘任务,如数据总结、分类、聚类关联规则发现、序列模式发现等,选择合适的数据挖掘算法,获取数据中隐藏的模式。数据挖掘算法不同,得到的知识可能就会有所不同。有些数据挖掘算法得到的是描述性的知识,而有的得到的则是预测性的知识。 (五)最后还要对挖掘出来的知识进行解释和评价,不但要为客户提供清晰、直观的结果描述,而且还要评价结果是否令决策者满意。 三、数据挖掘技术和工具 (一)统计分析 统计分析用于检查异常的数据模式,然后利用统计模型和数学模型解释这些数据模型。通常使用的模型有线性分析和非线性分析、连续回归分析和逻辑回归分析、单变量和多变量分析,以及时间序列分析。统计分析工具用于一系列的商业活动中,寻求最佳机会来增加市场份额和利润,提高产品和服务的质量来使顾客更满意,通过流水线产品制造和后勤来增加利润。 (二)知识发现 知识发现源于人工智能和机器学习,是用一种简捷的方式从数据中抽取信息。这种信息是隐含的、未知的,并且是潜在有用的,它不必像统计分析那样先假设或提出问题,但仍能找到那些非预期的但却令人关注的信息。知识发现技术不像传统的商业咨询技术和数据分析技术要求所问的问题时恰当的,它是自己来决定要问的问题,然后不断深入,做进一步探索,直到找到符合用户要求的新颖的知识,以便做出更好的商业决策。 (三)其他数据挖掘技术和工具 其他数据挖掘技术和工具包括可视化系统、地理信息系统、分形分析、查询和报表工具、智能代理等。可视化系统能给出带有多变量的图形化分析数据,帮助商业分析员进行发现,然后让商业分析员查看那些无论系统计算能力有多强,机器算法都极难确定的模式和关系。地理可视化系统中的不同物理位置直至地理表示都与仓库中的数据有关。商业分析员可以按地理环境来看待这些数据,并比较相同产品在不同地域的差异,或相同地域不同产品的差异,通过可视化一段时间内特定地理领域内销售情况的变化、产品售出服务等,也可以分析数据仓库中的临时数据。多维数据库提供了大量的分析信息并有较快的相应时间,但要储存整个数据仓库,则会受到空间的限制,此时就需要用到分形分析,它试图利用混淆科学来指明模式,然后用分形将其存储在数据仓库中,其目的是要为大型数据库提供诸如OLAP风格的响应。查询报表工具则是对数据仓库中的数据进行简单的查询并生成报表。智能代理应用各种人工智能形成OLAP中“信息发现”的基础,还可以将一些OLAP工具与模糊逻辑结合起来分析实时的技术处理过程。 四、结语 不管是研究领域还是商业应用,数据挖掘都是一个热门话题,正得到人们越来越多的关注,而且数据挖掘技术也正在逐渐地成熟。目前数据挖掘逐渐从高端的研究转向常用的数据分析,在国外像金融业、零售业等这样一些对数据分析需求比较大的领域已经成功地采用了数据挖掘技术来辅助决策 参考文献 邸凯昌.空间数据发掘与知识发现M.武汉:武汉大学出版社,2000. 孙增沂,张

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论