浅谈数据挖掘及其应用_第1页
浅谈数据挖掘及其应用_第2页
浅谈数据挖掘及其应用_第3页
浅谈数据挖掘及其应用_第4页
浅谈数据挖掘及其应用_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、浅谈数据挖掘及其应用浅谈数据挖掘及其应用1.数据挖掘概述近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是存在可以广泛使用的大量数据,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括市场分析、欺诈检测、顾客保有、产品控制和科学探索等。数据挖掘是一门边缘学科,它汇集了各学科的成果。这一新学科已蓬勃发展,并具规模。尽管数据挖掘还是一个较新的研究课题,但它所拥有的为企业创造巨大经济效益的潜力,已使其有了许多成功的应用,譬如:美国钢铁公司和神户钢铁公司的ISPA系统,就是利用数据挖掘技术研究分析产品性能规律和进行质量控制,取得了显著效果;通用电器

2、公司与法国飞机发动机制造公司利用数据挖掘技术研制了质量控制系统,用于诊断和预测故障,带来可观的经济效益;英国广播公司也应用数据挖掘技术来预测电视收视率,以便合理安排电视节目时刻表等等。1.1 数据挖掘的定义数据挖掘(Data Mining,简称DM是目前IT业界的热点,其身影随处可见,但目前还没有一个完整的定义。人们根据各自的理解提出了多种数据挖掘的定义,例如:SAS研究所提出数据挖掘是“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”;Bhavani提出数据挖掘是“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。数据挖掘是指从大量数据中提取

3、或“挖掘”知识。是从大量的、不完全的、有噪声的、模糊的、随机的、原始数据中提取隐含在其中的事先未知的、但又是潜在有用的信息和知识的过程。即通过预测未来趋势及行为,做出前瞻性的、基于知识的决策,目标是从数据库中发现隐含的、有意义的知识,为人们的正确决策提供帮助。1.2 数据挖掘的功能数据挖掘功能用于指定数据挖掘任务要找的模式类型。一般而言,数据挖掘任务可以分为两类:描述和预测。描述性挖掘任务描述数据库中的数据的一般性质,预测性挖掘是对当前数据进行推断,以做出预测。(1自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息。以往需要进行大量手工分析的问题,如今可以迅速直接由数据本身得出结论。(

4、2关联分析目的是找出数据库中隐藏的关联网,生成的规则带有可信度。(3聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。(4概念描述对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。(5偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。1.3 数据挖掘的流程数据挖掘的使用过程比较复杂,必须遵循一定的流程

5、才能取得较好的效果,数据挖掘的流程如下:(1以准确的陈述定义业务需求;(2定义数据模型和数据需求;(3从所有可用的资料库中搜寻数据并准备数据,数据可以是相关的或存放在平面文件中、存储在数据仓库中、现场计算生成的或来自其他地方;(4评估数据质量;(5选择挖掘功能并确定挖掘方法;(6解释结果并检测新信息;(7在业务决策中运用所获结果和新知识。2.数据挖掘的应用随着大量算法的完善,挖掘过程的系统化、规范化,以及工具的不断推陈出新,数据挖掘技术已显现了它广泛的应用前景,数据挖掘在很多行业都可以有较好的应用。如在国外,数据挖掘已广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、

6、软件开发、运输等各个企事业单位。据报道,数据挖掘的投资回报率有达400%甚至10倍的事例。数据挖掘可分辨出成功的商店或分店的特性,并协助新开张的商店选择恰当的地理位置;能分析哪种产品是最受欢迎的,可为产品的推销、商店的布局或新产品的开发等制定新策略指明方向;能找出产品使用模式或协助了解客户行为,如正确时间销售就是基于顾客生活周期模型来实施的。数据挖掘一方面是将数据转化为信息和知识,在此基础上作出正确的决策;另一方面是提供一种机制,将知识融入到运营系统中,进行正确的运作。下面讨论几个典型的应用领域。2.1 数据挖掘在零售业中的应用基于数据挖掘的数据仓库的设计与构造。数据仓库的主要用途是支持数据分

7、析和数据挖掘,预先的一些数据挖掘例子的结果可作为设计和开发数据仓库结构的参考依据。其中涉及要决定包括哪些维和什么级别,以及为保证高质量和有效的数据挖掘应进行哪些预处理;促销活动的有效性分析。多维分析通过比较促销期间的销售量和交易数量与促销活动前后的有关情况来分析促销活动的有效性;顾客保持力顾客忠诚分析。由一个顾客在不同时期购买的商品可以分组为序列。序列模式挖掘可用于分析顾客的消费或忠诚的变化,据此对价格和商品的花样加以调整,以便留住老客户,吸引新顾客。沃尔玛公司“啤酒与尿布”是数据挖掘在此方面运用的一个成功案例。通过数据挖掘透过数据找出人与物之间规律的典型:该公司利用Teradata的数据仓库

8、系统对商品进行“购物篮分析”时发现了一个令人惊奇的现象,跟尿布一起购买最多的商品竟是啤酒!按常规思维,尿布与啤酒风马牛不相及,但数据挖掘的“集中统计、分析”功能却帮助沃尔玛找到了其中的联系:原来美国的太太们常常叮嘱丈夫下班后为小孩买尿布,而丈夫们买完尿布后往往会随手带回几瓶啤酒。明了这个道理的沃尔玛干脆把这两种商品并排摆放在一起,结果是尿布与啤酒的销售量双双增长。2.2 数据挖掘在电信业中的应用对于电信业来说,所积累的海量历史数据无疑是一笔宝贵的财富,而数据挖掘正是充分利用这些宝贵资源来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好地利用资源和提高服务质量。对电信数据进行多维分析。用OLA

9、P和可视化工具对电信数据进行多维分析,有助于识别和比较数据通信情况,系统负载,用户组行为,以及利润等等;盗用模式分析和异常模式识别。通过多维分析、聚类分析和孤立点分析可以发现异常模式,例如,总是占线无法接入、转换和路由阻塞等等。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早的发现盗用,为公司减少损失。2.3 数据挖掘在金融业中的应用为多维数据分析、数据挖掘设计和构造数据仓库。多维数据分析可以分析银行和金融数据仓库中数据的一般特性;贷款偿还预测和客户信用政策分析。将数据挖掘技术中的特征选择和属性相关性计算应用到贷款偿付

10、预测和客户信用政策,有助于识别重要因素,剔除非相关因素,使银行优化调整贷款发放政策;对目标市场客户的分类与聚类。分类和聚类的方法可用于用户群体的识别和目标市场分析。例如,通过多维聚类分析,可以将具有相同储蓄和贷款偿还行为的客户分为一组。数据挖掘技术在美国银行金融领域应用广泛。美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。该银行通过市场调查和相关数据库发现公共数据库中存储着关于每位消费者的大量信息,关键是要透彻分析消费者投入到新产品中的原因,在数据库中找到一种模式,从而能够为每种新产品找到最合适的消费者。数据挖掘系统根据消费者是否有家庭财产贷款、赊帐卡、存

11、款证或其它储蓄、投资产品,将它们分成若干组,然后使用数据挖掘工具预测何时向每位消费者提供哪种产品。2.4 数据挖掘在高校中的应用随着招生规模的扩大,高校的学生人数就达到上万人,甚至几万人,考试成绩达到几十万个数据,还有大量的学习成绩以外的影响因素,传统的学习成绩分析方法已不能完全满足需要,对此引入数据挖掘技术以找到影响学生成绩的真实原因,制定相应的措施,提高教育教学质量。将关联规则的方法运用到教学问题中,从教学评价数据中进行数据挖掘,找到课堂教学效果与教师状态的关系问题,在班级排课时,注意一个教学班中配备教师的年龄、职称、学历等的合理分配;把学生的学习特征存入模型库,教师可以通过它及时地了解学

12、生的需求、兴趣爱好、个性差异等信息,并以此为依据对不同学生提供动态的学习内容、推荐个性化的学习材料等服务,真正实现个性化教学;利用数据挖掘工具,对收集的信息进行如“去噪”等处理,对学生的学习成绩数据库、行为记录数据库、奖励处罚数据库等进行分析处理,及时得到学生的评价结果,对学生出现的不良学习行为进行及时指正;按照教学培养目标,利用粗糙集方法,对数据仓库资料进行归类。为了解学生的想象能力,可以把有关课程中的成绩以及这些课程中有关想象能力的考核成绩分离出来,单独分析渗透在不同领域的学生想象能力,从而对学生的想象能力进行科学评价和分析,发现其潜力。3.结语随着对数据挖掘技术在各领域日益广泛的应用,实

13、现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。21世纪是信息时代的社会,“信息不仅是资源,更是财富”,要实现经济的腾飞,需依赖高新尖科技的发展,利用提供的信息、充分进行数据挖掘,将为数据库的应用开辟了广阔的前景,也为人类的文明开辟了一个崭 新的时代。 现代的企业经常搜集市场信息、客户信息、供货商信息、竞争对手信息以及未来趋势 等信息,但是信息超载与无结构化,使得企业决策单位无法有效利用现存的信息而做出决 策。所以妥善的运用数据挖掘技术,从海量数据库中,发掘出有用的信息,作为决策支持 之用,必能产生企业的竞争优势。但是目前国内企业实现数据挖掘的困难在于缺少数据积 累、难于构建业务模型、各类人员之间的沟通存在障碍、缺少有经验的实施者、初期资金 投入较大等。数据挖掘主要在金融、证券、电信、零售业等数据密集型行业得到实施。 【参考文献】 1 Micheline Kamber, Jiawei Han. Data Mining: Concepts and Techniques, Second Edition M. Morgan Kaufmann, 2005. 2 黄添强. 数据挖掘算法与应用M.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论