人工智能数据挖掘_第1页
人工智能数据挖掘_第2页
人工智能数据挖掘_第3页
人工智能数据挖掘_第4页
人工智能数据挖掘_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

叮叮小文库数据挖掘技术综述摘要:随着信息技术的迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。本文主要介绍了数据挖掘的基本概念、数据挖掘的过程、数据挖掘所需的工具、数据挖掘的任务、数据挖掘未来的研究方向、数据挖掘的应用领域和未来发展所面临的一些问题。关键字:数据挖掘 数据挖掘工具 QUEST DBMiner 网站数据挖掘 研究方向 应用领域 1引言数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由于知识工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。2数据挖掘技术2.1数据挖掘的概念数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。2.2数据挖掘的过程数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。数据挖掘技术是一个多步骤、可能需多次反复的处理过程。主要包括以下几步:准备、数据选择、数据预处理、数据缩减、确定数据挖掘的目标、确定知识发现算法、数据挖掘(Data Mining)、模式解释、知识评价,如图2所示。其中最重要的一个步骤是数据挖掘,它是利用某些特定的知识发现算法,在可接受的运算效率的限制下,从有效数据中发现有关的知识。图2 数据挖掘过程图2.3数据挖掘的工具在数据挖掘技术日益发展的同时,许多数据挖掘的商业软件工具也逐渐问世。数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案。在设计算法的时候,充分考虑到数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。例如,IBM公司的AdvancedScout系统针对NBA的数据,帮助教练优化战术组合;加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,帮助天文学家发现遥远的类星体;芬兰赫尔辛基大学计算机科学系开发的TASA,帮助预测网络通信中的警报。特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,一般提供六种模式。例如,IBM公司Almaden研究中心开发的QUEST系统,加拿大SimonFraser大学开发的DBMiner系统,SGI公司开发的MineSet系统。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。下面简单介绍两种种数据挖掘工具:1.QUESTQUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:(1)提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。(2)各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。(3)算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。(4)为各种发现功能设计了相应的并行算法。2.DBMinerDBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner系统具有如下特色:(1)能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。(2)综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。(3)实现了基于客户/服务器体系结构的Unix和PC(Windows/NT)版本的系统。(4)提出了一种交互式的类SQL语言数据开采查询语言DMQL。2.4数据挖掘技术的任务数据挖掘技术主要有四种开采任务:(1)数据总结是对数据进行浓缩,给出它的紧凑描述。数据挖掘是从数据泛化的角度来讨论数据总结。(2)分类发现这是一项非常重要的任务,分类是运用分类器把数据库中的数据项映射到给定类别中的某一个,用于对未来数据进行预测。(3)聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能的大。(4)关联规则是指事物之间的联系具有多大的支持度和可信度。有意义的关联规则必须给定两个阈值:最小支持度和最小可信度。3数据挖掘未来的研究方向和热点3.1数据挖掘未来的研究方向当前,数据挖掘研究方兴未艾,其研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使数据挖掘的应用得以普遍推广。预计在本世纪数据挖掘的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:(1)寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互; (2)发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化; (3)研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立数据挖掘服务器,并且与数据库服务器配合,实现WebMining; (4)处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。(5)加强对各种非结构化数据的开采(DataMiningforAudioVideo),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采; (6) 交互式发现和知识的维护更新。3.2数据挖掘未来的热点 就目前来看,数据挖掘未来的几个热点包括网站的数据挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的数据挖掘及其文本的数据挖掘(Textual mining)。下面就以网站数据挖掘(Web site data mining)简单介绍。3.2.1分析随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。3.2.2电子商务网站数据挖掘在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。4数据挖掘的应用领域数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘(data mining)都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。4.1在科学研究中应用从科学研究方法学的角度看,科学研究可分为三类:理论科学、实验科学和计算科学。计算科学是现代科学的一个重要标志。计算科学工作者主要和数据打交道,每天要分析各种大量的实验或观测数据。随着先进的科学数据收集工具的使用,如观测卫星、遥感器、DNA分子技术等,数据量非常大,传统的数据分析工具无能为力,因此必须有强大的智能型自动数据分析工具才行。数据挖掘在天文学上有一个非常著名的应用系统:SKICAT (Sky Image Cataloging and Analysis Tool)。它是美国加州理工学院喷气推进实验室(即设计火星探测器漫游者号的实验室)与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的研究上。基因研究中,有一个著名的国际性研究课题人类基因组计划。据报道,1997年3月,科学家宣布已完成第一步计划:绘制人类染色体基因图。然而这仅仅是第一步,更重要的是对基因图进行解释从而发现各种蛋白质(有10,000多种不同功能的蛋白质)和RNA分子的结构和功能。近几年,通过用计算生物分子系列分析方法,尤其是基因数据库搜索技术己在基因研究上作出了很多重大发现。4.2在商业上的应用在商业领域特别是零售业,数据挖掘的运用是比较成功的。由于MIS系统在商业的普遍使用,特别是码技术的使用,可以收集到大量关于购买情况的数据,并且数据量在不断激增。利用数据挖掘技术可以为经营管理人员提供正确的决策手段,这样对促进销售及提高竞争力是大有帮助的。4.3在金融上的应用在金融领域,数据量是非常巨大的,银行、证券公司等交易数据和存储量都是很大的。而对于信用卡欺诈行为,银行每年的损失非常大。因此,可以利用数据挖掘对客户信誉进行分析。典型的金融分析领域有投资评估和股票交易市场预测。4.4在医学上的应用数据挖掘在医学上的应用十分广泛,从分子制药到医疗诊断,都可以利用数据挖掘的手段来提高效率和效益。在药物合成方面,通过对药物分子化学结构的分析,可以确定药物中哪种原子或原子基因对什么病能够发挥作用,这样在合成新药时,可根据新药的分子结构确定该药将有可能治疗哪一种病。数据挖掘还可用于工业、农业、交通、电信、军事、Internet等其它行业。数据挖掘具有广泛的应用前景,它既可应用于决策支持,也可应用于数据库管理系统(DBMS)中。数据挖掘作为决策支持和分析的工具,可以用于构造知识库。在DBMS中,数据挖掘可以用于语义查询优化、完整性约束和不一致检验等。5数据挖掘面临的问题和挑战数据挖掘应从以下三方面加以考虑,一是用数据挖掘解决什么样的商业问题,二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。数据挖掘的分析算法主要来自于以下两个方面:统计分析和人工智能(机器学习、模式识别等)。数据挖掘研究人员和数据挖掘软件供应商,在这一方面所做的主要工作是优化现有的一些算法,以适应大数据量。另外需要强调的是,任何一种数据挖掘的算法,不管是统计分析方法、神经元网络、各种树分析方法,还是遗传算法,没有一种算法是万能的。不同的商业问题,需要用不同的方法去解决。即使对于同一个商业问题,可能有多种算法,这个时候,也需要评估对于这一特定问题和特定数据哪一种算法表现好。做数据挖掘研究的人,往往把主要的精力用于改进现有算法和研究新算法上。人们都知道数据准备是必不可少的一步,但很少有人去真正花时间和精力去研究。其实数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重要的作用。数据准备包含很多方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。人们通常把数据挖掘工具看得过份神秘,认为只要有了一个数据挖掘工具,就能自动挖掘出所需要的信息,就能更好地进行企业运作,这是认识上的一个误区。其实要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力,必须有一些数据挖掘方面的专家,专门从事数据分析和数据挖掘工作。再同其他部门协调,把挖掘出来的信息供管理者决策参考,最后把挖掘出的知识物化。在国内的企业中,还很少有决策人员认识到这一点。如果管理者没有这方面的意识,数据挖掘和数据分析就很难发挥应有的作用,很容易走向两个极端,一是认为数据挖掘没有用处,二是开始认为数据挖掘是万能的。如此得到的结果往往与初始期望相去太远。虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:(1)挖掘的对象;数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论