人工智能 数据挖掘_第1页
人工智能 数据挖掘_第2页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘技术综述摘要:随着信息技术的迅速发展,数据库的规模不断扩大,产生了大量的数据。询、报表工具无法满足挖掘这些信息的需求.因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由和未来发展所面临的一些问题。关键字:数据挖掘 数据挖掘工具 QUEST DBMiner 网站数据挖掘 研究方向 应用领域1 引言数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则.然而,由于知识工程师所拥有知识的有局

2、限性 ,所以对于获得知识的可信度就应该打个折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。2 数据挖掘技术2。1 数据挖掘的概念数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息

3、的表现形式为:规则、概念、规律及模式等 .它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。12.2 数据挖掘的过程2。3 数据挖掘的工具下面简单介绍两种种数据挖掘工具:1。QUESTQUEST 是 IBM 公司 Almaden 研究中心开发的一个多任务数据挖掘系统,2有如下特点:(1:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。(2)各种开采算法具有近似线性(O(n的数据库。)算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。(为各种发现功能设计了相应的并行算法.2.DBMine

4、rDBMiner是加拿大 SimonFraser 前身是 面向属性的多级概念为基础发现各种知识。DBMiner系统具有如下特色:)能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。)综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法.(实现了基于客户/服务器体系结构的 Unix 和 PC(Windows/NT)版本的系统.(提出了一种交互式的类 SQL语言数据开采查询语言 DMQL.2.4 数据挖掘技术的任务数据挖掘技术主要有四种开采任务:(数据总结是对数据进行浓缩,给出它的紧凑描述。数据挖掘是从数据泛化的角度来讨论数

5、据总结。分类发现这是一项非常重要的任务,分类是运用分类器把数据库中的数据项映射到给定类别中的某一个,用于对未来数据进行预测。(聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能的大。(4)关联规则是指事物之间的联系具有多大的支持度和可信度 .有意义的关联规则必须给定两个阈值:最小支持度和最小可信度。3 数据挖掘未来的研究方向和热点3.1 数据挖掘未来的研究方向在 70 年代所处的地位,迫切需要类似于关系模式、DBMS 系统和 SQL 查询语言等掘的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:(1)寻求数据挖

6、掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;会像 SQL 语言一样走向形式化和标准化;(3)研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立数据挖掘服务器,并且与数据库服务器配合,实现 WebMining;3或者是结构比较独特.为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件.文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;(6) 交互式发现和知识的维护更新.3.2 数据挖掘未来的热点sitedatami

7、ning)、生物信息或基因(Bioinformatics/genomics)的数据挖掘及其文本的数据挖掘(Textual mining)。下面就以网站数据挖掘(Web site data mining)简单介绍。3.2。1 分析随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、站,进而增加其竞

8、争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。3。2。2电子商务网站数据挖掘在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客表现数据中来推测客户的背景信息,进而再加以利用。有很大一部分来自于点击流,和传统的数据库格式有区别.因而对电子商务网站门用于网站挖掘的软件。4 数据挖掘的应用领域mining)都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如4超级市场)等商业领域。数据挖掘不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚

9、至利用已有的数据对未来的活动进行预测.4。1在科学研究中应用从科学研究方法学的角度看,科学研究可分为三类:理论科学、实验科学和使用,如观测卫星、遥感器、DNA分子技术等,数据量非常大,传统的数据分析工具无能为力,因此必须有强大的智能型自动数据分析工具才行。数据挖掘在天文学上有一个非常著名的应用系统:SKICAT (Sky ImageCatalogingandAnalysisTool).它是美国加州理工学院喷气推进实验室(即设计火星探测器漫游者号的实验室)与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,文学家已发现了16个新的极

10、其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的研究上。基因研究中,有一个著名的国际性研究课题人类基因组计划.据报仅仅是第一步,更重要的是对基因图进行解释从而发现各种蛋白质(有10,000多列分析方法,尤其是基因数据库搜索技术己在基因研究上作出了很多重大发现。4。2在商业上的应用数据量在不断激增。利用数据挖掘技术可以为经营管理人员提供正确的决策手段,这样对促进销售及提高竞争力是大有帮助的。4.3在金融上的应用在金融领域,数据量是非常巨大的,银行、证券公司等交易数据和存储量都挖掘对客户信誉进行分析。典型

11、的金融分析领域有投资评估和股票交易市场预测。4。4在医学上的应用据挖掘的手段来提高效率和效益。在药物合成方面,通过对药物分子化学结构的新药时,可根据新药的分子结构确定该药将有可能治疗哪一种病.数据挖掘还可用于工业、农业、交通、电信、军事、等其它行业。5系统(中。数据挖掘作为决策支持和分析的工具,可以用于构造知识库。在DBMS中,数据挖掘可以用于语义查询优化、完整性约束和不一致检验等.5 数据挖掘面临的问题和挑战二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。数据挖掘的分析算法主要来自于以下两个方面:统计分析和人工智能(机器学习、模式识别等)。数据挖掘研究人员和数据挖掘软件供应商,

12、在这一方面所何一种数据挖掘的算法,不管是统计分析方法、神经元网络、各种树分析方法,解决。即使对于同一个商业问题,可能有多种算法,这个时候,也需要评估对于这一特定问题和特定数据哪一种算法表现好。做数据挖掘研究的人,往往把主要的精力用于改进现有算法和研究新算法上。人们都知道数据准备是必不可少的一步,但很少有人去真正花时间和精力去要的作用.数据准备包含很多方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。人们通常把数据

13、挖掘工具看得过份神秘,认为只要有了一个数据挖掘工具,要对企业业务的深入了解和数据分析经验.一个企业要想在未来的市场中具有竞的意识,数据挖掘和数据分析就很难发挥应有的作用,很容易走向两个极端,一是认为数据挖掘没有用处,二是开始认为数据挖掘是万能的。如此得到的结果往往与初始期望相去太远。究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:的数据通常十分巨大。(2)数据丢失问题;因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。只能处理数值型的结构化数据。 KDD 各自独立处理分离数据库的工作方式应是可协作的。(5)个人隐私问题;(6)与其他系统的集成问题.66 结束语通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据掘领域的。在未来研究的焦点,主要介绍电子商务中网站数据挖掘,研究领域方面,主要集中科学研究、商业、金融、医学这几个领域的介绍.参考文献1王军。数据挖掘技术J .计算机世界, 19982朱延劭.科学研究的好帮手J .计算机世界, 19983何新贵。人工智能新进展M 。北京:清华大学出版社, 1994.4陈茵,程雁译MehmedKantardzic

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论