免费预览已结束,剩余5页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江理工大学经济管理学院学年论文数据挖掘技术的理论研究综述10信管1班 D10540126 周咸建摘要:随着计算机技术的飞速发展,各类信息的数据量迅速增长,要从这些海量的、以不同形式存储的数据资料中发现有价值的信息或知识已成为当前数据挖掘技术的一项艰巨任务。本文总结并评价了国内外数据挖掘技术的发展现状,对各个领域的数据挖掘技术应用进行了系统的评价与综述。关键词:数据挖掘 技术现状 方法过程 研究应用 未来发展1. 前言数据挖掘(Data Mining),又称为数据库中的知识发现,是从大量数据中获取有效、新颖、潜在有用且最终可理解的模式的非平凡过程。简单的说,数据挖掘是从大量历史数据中寻找其规律的技术,是统计学、数据库和人工智能技术的综合。2. 数据挖掘技术的由来以及研究的意义2.1 数据挖掘的背景2.1.1 数据挖掘的商业背景数据挖掘首先是需要商业环境中收集了大量数据并要求挖掘的知识是有价值的。对商业而言,有价值主要表现在三个方面:降低开销;提高收入;增加股票价格。在商业运营中,数据挖掘主要用作以下四种工具:1)数据挖掘作为研究工具(Research)2)数据挖掘提高过程控制(Process Improvement)3)数据挖掘作为市场营销工具(Marketing)4)数据挖掘作为客户关系管理CRM工具(Customer Relationship Management)2.1.2 数据挖掘的技术背景数据挖掘是八十年代,投资人工智能研究项目失败后,人工智能转入实际应用时提出的。它是一个新兴的,面向商业应用的人工智能研究。选择数据挖掘这一术语,表明了与统计、精算、长期从事预言模型的经济学家之间没有技术的重叠。数据挖掘技术包括三个主要部分:算法和技术;数据;建模能力。与数据挖掘密切相关的技术包括:1)机器学习机器学习是计算机科学和人工智能发展的产物,机器学习分为两种学习方式:自组织学习(如神经网络)和从例子中归纳出规则(如决策树)。2)统计统计本包括预言算法(回归)、抽样、基于经验的设计等,现在也开始支持数据挖掘。3)决策支持系统4)数据仓库5)OLAP(联机分析处理)、DataMart(数据集市)、多维数据库等将数据仓库、OLAP、数据挖掘等技术融合在一起,即构成企业决策分析环境。2.1.3 数据挖掘的社会背景数据挖掘与个人预言:数据挖掘号称能通过历史数据的分析,预测客户的行为,而事实上,客户自己可能都不明确自己下一步要作什么。所以,数据挖掘的结果,没有人们想象中神秘,它不可能是完全正确的。客户的行为是与社会环境相关联的,所以数据挖掘本身也受社会背景的影响。比如说,在美国对银行信用卡客户信用评级的模型运行得非常成功,但是,它可能不适合中国。2.2 数据挖掘的研究意义 数据挖掘就是从大量繁杂的数据中获取隐含中其中的信息,比如说对顾客分类,聚类,欺诈甄别,潜在顾客识别等,现在应用领域很广的,设计了,零售,金融,银行,医疗,政府决策,企业财务,商业决策。同时,数据挖掘结合OLAP的应用,以及和数据仓库的统一,发现的各种类型的知识越来越有价值,创造的财富以及无形价值越发让人们重视。3. 数据挖掘的发展现状以及发展趋势3.1 发展现状数据挖掘是适应信息社会从海量的数据库中提取信息的需要而产生的新学科。它是统计学、机器学习、数据库、模式识别、人工智能等学科的交叉。在中国各重点院校中都已经开了数据挖掘的课程或研究课题。比较著名的有中科院计算所、复旦大学、清华大学等。另外,政府机构和大型企业也开始重视这个领域。据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。 根据IDC(International Data Corporation)预测说2004年估计BI行业市场在140亿美元。现在,随着我国加入WTO,我国在许多领域,如金融、保险等领域将逐步对外开放,这就意味着许多企业将面临来自国际大型跨国公司的巨大竞争压力。国外发达国家各种企业采用商务智能的水平已经远远超过了我国。美国Palo Alto 管理集团公司1999年对欧洲、北美和日本375家大中型企业的商务智能技术的采用情况进行了调查。结果显示,在金融领域,商务智能技术的应用水平已经达到或接近70%,在营销领域也达到50%,并且在未来的3年中,各个应用领域对该技术的采纳水平都将提高约50%。 现在,许多企业都把数据看成宝贵的财富,纷纷利用商务智能发现其中隐藏的信息,借此获得巨额的回报。国内暂时还没有官方关于数据挖掘行业本身的市场统计分析报告,但是国内数据挖掘在各个行业都有一定的研究。据国外专家预测,在今后的510年内,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。 众所周知,IT就业市场竞争已经相当激烈,而数据处理的核心技术-数据挖掘更是得到了前所未有的重视。数据挖掘和商业智能技术位于整个企业IT-业务构架的金字塔塔尖,目前国内数据挖掘专业的人才培养体系尚不健全,人才市场上精通数据挖掘技术、商业智能的供应量极小,而另一方面企业、政府机构和和科研单位对此类人才的潜在需求量极大,供需缺口极大。因此这项技术的发展潜力十分巨大。3.2 发展趋势目前IBM打出了智慧地球的战略,其本质就是数据分析与数据挖掘。为了实现战略目标,IBM在近几年经济萧条期间通过大量的收购并购来构筑自己的软件和服务竞争力:2007年50亿刀收购cognos构筑自己的在线联机分析能力;2009年12亿刀收购统计分析软件SPSS(也就是数据挖掘软件);2010年17亿刀收购数据仓库集成平台Netezza;通过观察IBM,对该行业的发展趋势可见一斑,而数据挖掘作为数据的“终极”应用,也将会成为未来行业的新宠。4. 数据挖掘的技术概述、内容以及功能4.1 技术概述【2】广义上说,任何从数据库中挖掘信息的过程都叫做数据挖掘。从这点看来,数据挖掘就是BI(商业智能)。但从技术术语上说,数据挖掘(Data Mining)特指的是:源数据经过清洗和转换等成为适合于挖掘的数据集。数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适的知识模式用于进一步分析决策工作。从这种狭义的观点上,我们可以定义:数据挖掘是从特定形式的数据集中提炼知识的过程。数据挖掘往往针对特定的数据、特定的问题,选择一种或者多种挖掘算法,找到数据下面隐藏的规律,这些规律往往被用来预测、支持决策。4.2 技术内容 数据挖掘技术应用的主要知识模式有如下几类:4.2.1 广义知识(Generalization)广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。数据立方体还有其他一些别名,如“多维数据库”、“实现视图”、“OLAP等。该方法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在多维数据库中。既然很多聚集函数需经常重复计算,那么在多维数据立方体中存放预先计算好的结果将能保证快速响应,并可灵活地提供不同角度和不同抽象层次上的数据视图。另一种广义知识发现方法是加拿大SimonFraser大学提出的面向属性的归约方法。这种方法以类SQL语言表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。4.2.2 关联知识(Association)它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是R.Agrawal提出的Apriori算法。关联规则的发现可分为两步。第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。4.2.3 分类知识(ClassificationClustering)它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导的学习方法。该方法先根据训练子集(又称为窗口)形成决策树。如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的属性,该分枝对应该属性的某一可能值。最为典型的决策树学习系统是ID3,它采用自顶向下不回溯策略,能保证找到一个简单的树。算法C4.5和C5.0都是ID3的扩展,它们将分类领域从类别属性扩展到数值型属性。数据分类还有统计、粗糙集(RoughSet)等方法。线性回归和线性辨别分析是典型的统计模型。为降低决策树生成代价,人们还提出了一种区间分类器。最近也有人研究使用神经网络方法在数据库中进行分类和规则提取。4.2.4 预测型知识(Prediction)它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年Box和Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季节调整模型等,进行时间序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。4.2.5 偏差型知识(Deviation)此外,还可以发现其他类型的知识,如偏差型知识(Deviation),它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。4.3 主要功能4.3.1 自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。4.3.2 关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。4.3.3 聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。4.3.4 概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。4.3.5 偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。5. 数据挖掘的方法、过程和工具5.1 挖掘方法数据挖掘的方法一般有6种:1) 关联分析:在大型数据集中发现项之间的关联关系。2) 决策树方法:以树形结构表示分类或决策集合,产生规则和发现规律,寻找数据库中具有最大信息量的字段,建立决策树的一个人工智能和识别技术。3) 神经网路方法:由大量的简单神经元,通过极其丰富和完善的连接构成自适应非线性动态系统,具有分布存储、联想记忆、大规模并行处理、自组织、自学习、自适应等功能。4) 粗集方法:在数据库中视行为对象列为元素,定义等价关系R为不同对象在某个(或几个)属性上取值相同,满足R的对象组成的集合成为其等价类。5) 聚类方法:将数据对象分组成为多个簇,在同一个簇中的对象具有较高的相似度。6) 遗传算法:模拟生物进化过程,由繁殖、交叉、变异三个基本算子组成,可起到产生优良后代的作用,经过若干代的遗传,将得到满足要求的后代。5.2 挖掘过程1) 确定主题(定义问题):数据挖掘过程的第一步就是明确定义业务问题,并考虑解答该问题的方法。2) 准备数据:合并和清除定义问题步骤中标识的数据。3) 浏览数据:了解数据,以便在创建挖掘模型时作出正确的决策。4) 生成模型:使用从浏览数据步骤中获得的知识来帮助定义和创建模型。5) 浏览和验证模型:浏览已经生成的挖掘模型并测试其有效性。6) 部署和更新模型:将性能最佳的模型部署到生产环境。5.3 挖掘工具数据挖掘工具根据其适用的范围分为两类:专用挖掘工具和通用挖掘工具。1) 专用数据挖掘工具专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。例如,IBM公司的AdvancedScout系统针对NBA的数据,帮助教练优化战术组合。特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。2)通用数据挖掘工具通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。例如,IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。6. 数据挖掘各领域应用6.1 在农业上的应用5我国是一个农业大国,农业领域的数据库中含有海量的、不同来源的原始信息,其中包括大量模糊的、不完整的、带有噪声和冗余的信息。利用数据库挖掘技术对大量积累的农业数据进行挖掘,可有效地从这些浩瀚的数据中深入寻找各种因素的相互联系。发现一些随诸因素动态变化而产生的新的指导农业生产的规律,这对于作物的高产、优质具有十分重要的意义。同时数据挖掘在农业电子商务、农业系统工程、农业物流体系、农业市场信息、农业专家系统等方面都得到了有效的应用。6.2 在电信业的应用1在激烈的电信市场竞争和迅速的业务扩张中,可以利用数据挖掘技术的帮助来理解商业行为、确定电信模式、捕捉盗用行为、更好地利用资源和提高服务质量。6.3 在银行、金融、证券、保险业中的应用多数银行和金融机构产生的金融数据通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。在具体的应用中,采用多维数据分析来分析这些数据的一般特性,使用数据可视化、分类、聚类分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为。6.4 在零售、物流业中的应用3零售业是数据挖掘的主要应用领域。零售数据挖掘有助于划分顾客群体。使用分类技术和聚类技术,可以更精确地挑选出潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,进行关联分析。以便更好地进行货架摆设等等。交叉销售成为商业领域的一个研究热点,它在商业领域的应用很广泛,其中也包括零售业,沃尔玛连锁超市将啤酒和尿布摆在同一货架上就是一个典型的例子,原因是家里有婴儿的男性顾客通常会同时在超市购买这两种商品。将数据挖掘技术运用于物流业可以帮助解决客户关系管理的薄弱环节,帮企业提供决策支持。6.5 在科学研究及生物医学领域上的应用4数据挖掘还广泛应用于科学研究、生物、医学等领域。要对科研试验数据用先进科学的方法去发现有用的知识,将数据转换成有价值的信息,这就要求对科研试验数据进行挖掘。对数据挖掘而获得的信息,真实地反映出科研试验运作的本质及规律性,是支持正确科研试验决策的基础。近年数据挖掘技术被引入到医学研究中,以其从海量的医学信息和临床数据中提取有用的数据辅助疾病的诊断,了解各种疾病之间的相互关系、各种疾病的发展规律,各种药物之间的相互作用,总结各种治疗方案的治疗效果等,为医学研究的开
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2020-2025年材料员之材料员基础知识每日一练试卷A卷含答案
- 2025年二级注册建筑师之法律法规经济与施工押题练习试卷B卷附答案
- 《制造执行系统实施与应用》 课件 1.2 MES的定义与认知维度
- 大脑中动脉综合征的护理
- 雨课堂学堂在线学堂云《编译原理(西安科大 )》单元测试考核答案
- 2025吉林吉林市舒兰市总工会招聘工会社会工作者8人笔试模拟试卷带答案解析
- 2025广东河源连平县政务数据服务中心招聘就业见习人员2人备考题库带答案解析
- 2026年质量员之设备安装质量专业管理实务考试题库附参考答案【轻巧夺冠】
- 2025中核南方新材料有限公司社会招聘2人笔试模拟试卷带答案解析
- 2026年社会工作者职业水平《社会工作实务》考试题库附答案解析
- 2025年旅行社(旅游管理)职业技能资格考试题库含答案
- 直播挂靠公会合同协议
- 站前站后折返线课件
- 3D打印技术在制造业的应用案例
- 监管场所防艾宣传课件稿
- 上海市建设工程报建办事指南
- 肝衰竭诊治指南(2024年版)解读
- 污水处理设施运维服务投标方案(技术标)
- 《博斯腾湖景区SWOT探析及开发升级策略探究》7900字
- 深静脉血栓预防流程的教育培训方案
- 微波瓷介芯片电容器用陶瓷基片
评论
0/150
提交评论