



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江海洋学院学年论文浅谈数据挖掘一、前言对于数据挖掘这个名词,听起来好像只有少数专家才能了解的专业词汇,对于一般人,似乎有点望尘莫及,但其实,我们大多数人都和数据挖掘有很亲密的接触。相信很多人都用校内网吧,其中校内网中有一个功能:“你可能认识的人。”可以在你自己的网页上链接到这些人。它是怎么知道你认识这些人呢?这就是因为网站采用了新技术来推测你的人际关系。而这种新技术就是数据挖掘技术。不仅仅是校内网,就像我们经常购买书籍的亚马逊或当当网也一样,在浏览这类网页的时候会看到类似这样的提示:“欢迎您,下面是我们给您推荐的新书。”然后就可以在网页的某个位置看到几本新书的链接。它也是通过数据挖掘技术来了解顾客的潜在需求的。比如:从顾客买书的清单中发现与张三买过的书有几本相同的,但是还有些书张三已经买了,该顾客却还没买,就可以据此认为与该顾客有相近的阅读偏好的张三买了几本该顾客还没买的书,该顾客也会对这些书感兴趣。从上面的例子可以看出,数据挖掘是用于大规模数据处理的一种新的思维方法和技术手段,它是在现实生活中各种数据量呈指数级不断增长,以及数据库技术为核心的信息技术逐渐成熟的背景下产生的。随着信息技术的发展,特别是互联网的发展和信息量爆炸性增长,信息的重要性与日俱增。如何有效的获取有用的互联网信息与知识,是数据挖掘的目标所在;另一方面互联网为数据挖掘提供了良好的挖掘环境与挖掘对象,且其挖掘结果易于应用,获得直接的回报。在这种应用环境与应用需求的刺激下,数据挖掘越来越受到重视。目前尚无关于数据挖掘的精确学科划定,从广义上来讲,数据挖掘先从巨大的数据体系或数据库里提炼出我们感兴趣的东西,或者说,从庞大的观察数据集中提炼并分析出不能轻易觉察或断言的关系,最后给出一个有用的并可以理解的结论。简单的说,数据挖掘就是在数据中发现模式、知识,或数据间的关系。这里来看一个数据挖掘最有名的例子,即“尿布与啤酒”的故事,并以此来说明数据挖掘的几个特征。“尿布与啤酒”的故事是一个广为人知的有趣范例。为了分析哪些商品顾客最有可能一起购买,全球最大的零售商沃尔玛公司利用数据挖掘方法,对数据库中的大量数据进行分析后意外发现,跟尿布一起购买最多的商品竟然包括啤酒。为什么两件风马牛不相及的商品会被人一起购买?经过分析发现:原来,太太们常叮嘱他们的丈夫,下班后为小孩买尿布,而丈夫们在买尿布后又随手带回几瓶啤酒。既然尿布与啤酒一起购买的机会比较多,商店就将他们摆放在一起,结果尿布与啤酒的销售量双双增长。二、数据挖掘的技术支持1.决策树方法决策树是用二叉树形图来表示处理逻辑的一种工具。可以直观、清晰地表达加工的逻辑要求。特别适合于判断因素比较少、逻辑组合关系不复杂的情况。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断,图是为了解决这个问题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、分支和叶子。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷款风险)。常用的算法有CHAID、 CART、 Quest 和C5.0。2.人工神经网络方法一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。人工神经网络具有自学习和自适应的能力,可以通过预先提供的一批相互对应的输入输出数据,分析掌握两者之间潜在的规律,最终根据这些规律,用新的输入数据来推算输出结果,这种学习分析的过程被称为“训练”。由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。3.模糊集合方法用来表达模糊性概念的集合。 又称模糊集、模糊子集。普通的集合是指具有某种属性的对象的全体。这种属性所表达的概念应该是清晰的,界限分明的。因此每个对象对于集合的隶属关系也是明确的,非此即彼。但在人们的思维中还有着许多模糊的概念,例如年轻、很大、暖和、傍晚等,这些概念所描述的对象属性不能简单地用“是”或“否”来回答,模糊集合就是指具有某个模糊概念所描述的属性的对象的全体。由于概念本身不是清晰的、界限分明的,因而对象对集合的隶属关系也不是明确的、非此即彼的。这一概念是美国加利福尼亚大学控制论专家L.A.扎德于 1965 年首先提出的。模糊集合这一概念的出现使得数学的思维和方法可以用于处理模糊性现象,从而构成了模糊集合论。4.遗传算法遗传算法(Genetic Algorithm)是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,它是有美国Michigan大学J.Holland教授于1975年首先提出来的,并出版了颇有影响的专著Adaptation in Natural and Artificial Systems。遗传算法是一类可用于复杂系统优化的具有鲁棒性的搜索算法,数据挖掘不是遗传算法应用的主要领域,但是由于数据挖掘的任务经常要归结为寻找最优解,因此遗传算法也可以用来协助完成挖掘任务。三、数据挖掘的应用1数据挖掘在市场营销的应用 数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。 通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。基于数据挖掘的营销,常常可以向消费者发出与其以前的消费行为相关的推销材料。卡夫(Kraft)食品公司建立了一个拥有3000万客户资料的数据库,数据库是通过收集对公司发出的优惠券等其他促销手段作出积极反应的客户和销售记录而建立起来的,卡夫公司通过数据挖掘了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符合客户口味和健康状况的卡夫产品食谱。美国的读者文摘(Readers Digest)出版公司运行着一个积累了40年的业务数据库,其中容纳有遍布全球的一亿多个订户的资料,数据库每天24小时连续运行,保证数据不断得到实时的更新,正是基于对客户资料数据库进行数据挖掘的优势,使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版和发行业务,极大地扩展了自己的业务。2数据挖掘技术在商业银行中的应用数据挖掘技术在美国银行金融领域应用广泛。金融事务需要搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。商业银行业务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对帐户进行科学的分析和归类,并进行信用评估。Mellon银行使用Intelligent Agent数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。零售信贷客户主要有两类,一类很少使用信贷限额(低循环者),另一类能够保持较高的未清余额(高循环者)。每一类都代表着销售的挑战。低循环者代表缺省和支出注销费用的危险性较低,但会带来极少的净收入或负收入,因为他们的服务费用几乎与高循环者的相同。银行常常为他们提供项目,鼓励他们更多地使用信贷限额或找到交叉销售高利润产品的机会。高循环者由高和中等危险元件构成。高危险分段具有支付缺省和注销费用的潜力。对于中等危险分段,销售项目的重点是留住可获利的客户并争取能带来相同利润的新客户。但根据新观点,用户的行为会随时间而变化。分析客户整个生命周期的费用和收入就可以看出谁是最具创利潜能的。Mellon银行认为“根据市场的某一部分进行定制”能够发现最终用户并将市场定位于这些用户。但是,要这么做就必须了解关于最终用户特点的信息。数据挖掘工具为Mellon银行提供了获取此类信息的途径。Mellon银行销售部在先期数据挖掘项目上使用Intelligence Agent寻找信息,主要目的是确定现有Mellon用户购买特定附加产品:家庭普通信贷限额的倾向,利用该工具可生成用于检测的模型。据银行官员称:Intelligence Agent可帮助用户增强其商业智能,如交往、分类或回归分析,依赖这些能力,可对那些有较高倾向购买银行产品、服务产品和服务的客户进行有目的的推销。该官员认为,该软件可反馈用于分析和决策的高质量信息,然后将信息输入产品的算法。Intelligence Agent还有可定制能力。3 Internet应用Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富,Web上的数据信息不同于数据库。数据库有规范的结构,如关系数据库的二维表结构;毕竟数据库的创建是为了机器可读,因此有统一的格式,它是一种结构化的文件。Web上的信息则不然,主要是文档,它的初始创建目的是为了人类使用。文档结构性差,好者半结构化,坏者如纯自然语言文本则毫无结构。因此Web上的开采发现需要用到不同于常规数据库开采的很多技术。下面将从信息发现和用户访问模式发现两个不同的Web开采任务角度对这方面工作的研究现状进行评述。Web信息发现也称信息搜索或查询。它的一般过程是,用户向系统提出查询条件,系统调用搜索引擎开始工作,然后把搜索结果提交给用户。根据用户希望查找的对象可分为两种:资源发现和信息提取。前者目的在于根据用户要求找出有关的Web文档位置;后者则是能自动从有关文档中抽取出满足用户需要的信息。资源发现本质上是网上搜索,关键在于自动生成Web文档的索引。典型的索引生成系统有WebCrawler和AltaVista等等,它们能对上百万数量的Web文档进行索引,文档中的每个单词的倒排索引均保存起来,技术上类似全文检索。用户通过输入关键词就能对所有建了索引的文档进行检索。目前在用的索引系统有十几种,用户输入同样的关键词在不同的索引下可能会得到不同的返回结果。为了提高搜索的准确度,研究人员又开发了一种建立在上述索引系统之上的高层系统MetaCrawler,它能并行地把用户输入的关键词提交给9种不同的索引系统,然后把这9种系统的查询结果进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年行业前瞻性分析报告
- 文化创意产业园区建筑2025初步设计评估报告:文化创意产业园区建筑智能化技术应用案例
- 演出经纪人之《演出经纪实务》强化训练题型汇编及答案详解【真题汇编】
- 2025辅警招聘考试答案及答案解析
- 教师招聘之《幼儿教师招聘》考试押题卷附参考答案详解【巩固】
- 2025年甘肃省临夏市辅警招聘考试题库及答案
- 2025年辅警招聘考试(法律基础知识)综合能力测试题及答案
- 教师招聘之《幼儿教师招聘》题库含答案详解(综合题)
- 教师招聘之《幼儿教师招聘》考前冲刺练习题库提供答案解析含答案详解【综合题】
- 2025内蒙古呼伦贝尔林业集团有限公司招聘工作人员5人备考及答案详解(典优)
- 商丘市金马药业有限公司年产60万件中成药品生产项目环境影响报告
- 员工上下班交通安全培训
- PTN原理、PTN设备和工程维护
- 钢结构分包单位考察文件(项目考察表及生产厂考察内容提示要点)
- 船舶管理-船舶的发展与种类课件
- “条块结合”、创新学校管理的实践与思考
- 纯电动汽车整车控制器(VCU)策略
- 商会入会申请书
- 习作我的暑假生活公开课一等奖市优质课赛课获奖课件
- QCC报告参考模板
- 高中数学必修一全部课件-高中数学必修1
评论
0/150
提交评论