




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘技术随着信息时代的不断进步社会正处于数据技术飞速发展的良 好状态。但是在数据信息极度膨胀的同时并非所有的数据都可被利用 大量的数据浪费造成各种损失所以有必要将这些数据转化为有用的 信息。而传统的数据处理方法越来越不能满足使用要求迫切需要一种 从大量数据中搜索集中并去伪存真的技术。2020 世纪 8080 年代后期至今 高级数据分析一一数据挖掘 DataData MininMining g简称 DMDM 发展起来是开发信 息资源的一套科学方法、算法以及软件工具和环境是集统计学、 人工 智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个 交叉性的研究领域。1 1 数据挖
2、掘1.11.1 数据挖掘定义及实现过程数据挖掘就是用来发现隐含的、事先未知的、潜在的有用知识 提取的知识可以表示成概念、规律、模式等形式。其挖掘对象不仅可 以是数据库也可以是文件系统或组织在一起的数据集合更主要的是 数据仓库。简单的说数据挖掘是提取或“挖掘”知识。目前数据挖掘是 可以从统计学、数据库和机器学习等三个方面进行定义。 从统计学的 角度数据挖掘是指分析所观察的数据集以发现可信的数据间的未知 关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据。从数 据库的角度来看数据挖掘是指从存储在数据库、数据仓库或其他信息 仓库中的大量数据中发现有趣的知识的过程。 从机器学习的角度数据挖掘定义为
3、从数据中抽取隐含的、明显未知的和潜在的有用的信息。 可以理解为数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。表示的是典型的数据挖掘系统的结构。过程表述如下从数据库或数据仓库等资源库中收集数据并进行 信息的初步筛选根据用户对数据信息的要求由服务器提取并传输有 用的数据为了对已经采集到的数据进行更有效的分配数据挖掘引擎 对数据进行特征化、关联、分类等操作然后将精确划分的数据信息进 行模式评估从而使搜索仅限制在感兴趣的模式上通过图形用户界面 用户可以方便的与数据挖掘系统之间通信实现对数据的使用。1.21.2 数据挖掘分类数据挖掘是一个交叉性的学科领域涉及数据库技术、统计学理论、机器
4、学习技术、模式识别技术、克视化理论和技术等。由于所用 的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、 数据挖掘 应用的不同从而产生了大量的、 各种不同类型的数据挖掘系统。 掌握 数据挖掘系统的不同非类可以帮助用户确定最适合的数据挖掘系统。 典型的数据挖掘系统的结构 根据所挖掘数据库类型的不同来分类有 关系型数据挖掘系统、对象型数据挖掘系统、对象 -关系型数据挖掘 系统、事务型数据挖掘系统、数据仓库的数据挖掘系统等等。2 2 根据所挖掘的知识类型来分类分为特征化、区分、关联、分类、聚类、孤立点分析异常数据和演变分析、偏差分析、相似性分析 等分类。3 3 根据所采用技术的分类有白动数据挖掘系
5、统、证实驱动挖掘系统、发现挖掘系统和交互式数据挖掘系统。4 4 根据数据挖掘方法来分类如面向数据库的方法、 面向数据仓 库的方法、机器学习方法、统计学方法、模式识别方法、神经网络方 法等。5 5 根据数据挖掘应用的分类有金融数据的数据挖掘系统、电信行业的数据挖掘系统、DNADNA 序列数据挖掘系统、股票市场数据挖掘 系统、WWWWW W数据挖掘系统等等不同的应用通常需要集成对于该应用 特别有效果的方法。因此普通的、 全功能的数据挖掘系统并不一定适 合特定领域的数据挖掘任务。1.31.3 数据挖掘任务数据挖掘任务有 6 6 项关联分析、时序模式、聚类、分类、偏差 检测、预测 3 3。关联分析是从
6、数据库中发现知识的一类重要方法。 若两个或多个数据项的取值之间重复出现并且概率很高的时候就存 在某种管理可以建立起这些数据项的关联准则。通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。数据库中的数据可以划分为一系列有意义的子集即类。 在同一类别中个体之间 的距离较小而不同类别的个体之间的距离偏大。聚类增强了人们对客 观现实的认识即通过聚类建立宏观概念。分类是数据挖掘中应用最多的任务。分类是找出一个类别的概念描述它代表了这类信息的整体 即该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据 库中的元组影射到给定类别中的某一个。数据库中的数据存在很多异常情况。从数据分析中发
7、现这些异常情况也是很重要的应该引起足 够的重视。偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个领域的值或多个域值的总汇。参照是给定模型的预测、外界提供的标准或另一个观察。预测是利用历史数据找出变化规律建立模型并用此模型来预测未来数据的种类、特征等。近年来发 展起来的神经网络方法如 BPBP 模型实现了非线性样本的学习能进行非 线性函数的判别。分类也能进行预测但是分类一般用于离散数值回归 预测用于连续数值神经网络方法预测两者都可用。2 2 数据仓库概述数据仓库对不同的使用者、不同的操作范围它有不同的意义。被誉为数据仓库之父的 W.H.InmomW.H.Inmom 将数据仓库
8、DataData WarehouseWarehouse 定 义为 4 4是一个面向主题的、集成的、相对稳定的、反映历史变化的数 据集合用于支持管理决策。对于数据仓库的概念可以从两个层次予以 理解首先数据仓库用于支持决策面向分析型数据处理它不同于企业 现有的操作型数据库其次数据仓库是对多个异构的数据源有效集成 集成后按照主题进行了重组并包含历史数据而且存放在数据仓库中 的数据一般不再修改。数据仓库与数据挖掘在期货行业的应用为了解决期货公司数据收集难的问题,一些有能力的期货公司对 数据仓库进行建设非常有必要。数据仓库的概念起源于W.H.InmonW.H.Inmon的研究,他把数据仓库定义为面向主题
9、的、集成的、非易失的,随时 间变化的数据集合,而且可以支持各种投资管理决策的数据库系统。期货行业数据包括国内外期货品种历史数据、品种基本数据、期货公司营业部交易结算数据、客户交易数据、国内外宏观经济数据等, 数据仓库系统能帮助期货公司充分地利用这些信息资源。建立期货公 司数据仓库系统,主要实现以下功能和目标:第一,建立数据仓库系统的目标数据库,集成期货公司的相关数 据。对各个营业部交易数据、行情数据、其他业务系统数据进行定期 抽取,把异地系统的数据经过抽取转换, 集中到公司总部的数据仓库 中,为各种分析提供全局、一致的数据基础,从而提高决策信息的及 时性、准确性、全局性和一致性。第二,在数据仓
10、库数据的基础上,建立日常的投资决策支持查询 系统,包括报表查询和动态信息查询,解决现有 OLTPOLTP (联机事务处 理)系统中的投资决策支持查询和报表能力的不足。第三,实现重要专题分析。专题分析是针对特定范畴的决策支持 领域进行的分析,常见的专题分析包括客户关系管理分析、 账户分析、 交易数据分析、财务分析、经营状况分析、风险分析、利润 /成本分 析以及市场分析等。要求充分利用期货公司的丰富数据,能够从多个 角度动态分析这些专题。第四,以数据仓库数据和专题分析为基础, 把一些信息和分析结 果公布在网站上,为公司网站和 CALLCENTERCALLCENTER 提供信息服务,为客 户提供个性
11、化服务。第五,逐步实现深层次的数据挖掘和投资决策分析,研究品种、市场行情、客户、利润等数据中蕴含的内在关系。数据挖掘在期货业的技术应用方向主要有客户分析、品种分析、客户管理、交易数据分 析、风险分析、投资组合分析等。数据仓库与数据挖掘技术在金融业的应用我国经过近几年的信息化建设,各行各业已经积累了大量的数 据,但现有的数据中存在着一些不规范的数据和“垃圾”数据,如何在 海量的数据中寻找有用的数据,是我们现阶段计算智能面临的挑战。通过建立数据仓库和应用数据挖掘技术, 对银行的储蓄卡,信用 卡,存折,按揭,借贷信息的挖掘,可以发现以下重要信息,为银行 的发展提供重要的决策支持:1,1, 银行的优质
12、客户分析,可以对不同类型的客户提供针对性的服务2,2, 及时发现恶意客户的欺诈行为3,3, 发现客户的消费习惯,如消费时间、地点甚至商品类别4,4, 预测业务的发展趋势5,5, 客户关系,保证客户的忠诚度数据仓库与数据挖掘技术在客户关系管理(CRM)(CRM)系统中的应用1 1 数据仓库企业实施 CRMCRM 的基础数据仓库是企业 CRMCRM 的中央存储系统。数据仓库体系结构属于 基础设施的建设,只有稳固的数据仓库基础设施才能支撑灵活多样的 数据仓库应用。客户关系管理(CustomerCustomer RelationshipRelationship ManagementManagement
13、 , , CRMCRM ) ) 是指企业用 CRMCRM 软件提供的科学的分析工具和方法来分析企业销售 市场与客户之间的关系。CRMCRM 软件是选择在企业销售市场中有价值 客户及其关系的一种商业策略,分析这些客户的销售动态。 CRMCRM 要 求以“客户为中心。“一切为客户着想”的商业哲学和企业文化来支持有 效的市场营销与服务流程。如果企业拥有正确的领导、策略和企业文 化,CRMCRM 应用将为企业实现有效的客户关系管理。企业在长期的运营过程中,积累了大量的数据。但这些分散在 各个业务系统中的数据是面向业务的,不是面向决策的。因此,首先 必须对这些分散的数据进行抽取、清洁、转换和加载,形成企
14、业数据 仓库,并根据不同的主题,产生相应的数据集市,如一般客户分析数 据集市,大客户分析数据集市等,这种多数据集市的建设有利于分析 不同客户的行为特点。近年来,各企业客户需求逐渐趋向多元化,如 果不对客户信息进行收集、整理、分析和归类,客户经理就无法知道 谁是能为企业创造利润的高、中端优质客户,竞争的关键就在于怎样 发现优质客户和如何避免优质客户的流失;其次,通过OLAPOLAP、数据 挖掘方法对这些数据进行深入分析,并以企业管理人员容易理解的方 式展示出来。在 CRMCRM 系统中,系统结构采用 B/SB/S 框架结构,数据库集中, 客户端采用浏览器访问,访问的浏览器采用 IE6IE6 以上
15、。通过 CRMCRM 系 统将数据仓库中客户每天的销售记录作为数据源,运用科学的分析方法可以对客户进行分析。单体分析:分析某一客户的相关信息,分析 的内容为该客户的销售数量、金额、收益,并与企业的平均销售数量、 金额、收益作比较。群体分析:客户某一群体的销售数量、金额、收 益。市场分析;便于领导及时、直观、准确地了解市场的发展及变化 情况,以便宏观调控。通过将客户记录作为数据仓库中的数据源,经 营决策者利用 CRMCRM 提供的模块功能,就能够分析市场,以及抓住客 户销售心理,从而正确指导销售,提升企业市场竞争力,最终赢得客 户和市场,“与客户共创成2 2 数据挖掘企业 CRMCRM 系统的核
16、心随着市场体制改革的日益深入, 各企业为了保持较高的客户获 取和保持率,并维持可赢利性,需要经常扩展和现有客户的关系、降 低行销费用。这就需要对基于数据仓库的 CRMCRM 系统进行更深入的挖 掘,这时数据挖掘技术的使用便成为企业 CRMCRM 系统制胜的关键。以 下给出几种应用:(1)(1)客户获得对大多数行业来说,企业的增长需要不断地获得 新的客户。新的客户包括以前没有听说过企业产品的人、以前不需要产品的人和竞争对手的客户。数据挖掘能够辨别潜在客户群,并提高 市场活动的响应率。(2)(2)交叉销售现在企业和客户之间的关系是经常变动的, 一 旦一个人或者一个公司成为企业的客户,企业就要尽力保
17、持这种客户 关系。客户关系的最佳境界体现在 3 3 个方面:最长时间地保持这种 关系;最多次数地和客户交易;保证每次交易的利润最大化。因 此,企业需要对已有的客户进行交叉销售(Cross-sellingCross-selling )。交叉销 售是指企业向原有客户销售新的产品或服务的过程。 交叉销售是建立在双赢的基础之上的,客户因得到更多符合其需求的服务而获益, 企 业也因销售增长而获益。在企业所掌握的客户信息,尤其是以前购买 行为的信息中,可能正包含着这个客户决定下一次购买行为的关键因 素。数据挖掘可以帮助企业寻找影响客户购买行为的因素。(3)(3) 客户保持现在各个行业的竞争都越来越激烈,企业获得 新客户的成本正不断地上升,因此保持原有客户就显得越来越重要。客户分为 3 3 类:第一类是无价值或低价值的客户;第二类是 不会轻易走掉的有价值的客户;第三类是不断地寻找更优惠的价格和 更好服务的有价值的客户。传统的市场活动是针对前两类客户的, 而 现代客户关系管理认为,特别需要用市场手段来维护的客户是第三类 客户,这样做会降低企业运营成本。数据挖掘可以发现易流失的客户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第一次做家务的经历作文7篇范文
- 2025成长中的酸甜苦辣六年级作文500字13篇
- 2025庆祝建国71周年小学生作文500字(7篇)
- 文化活动突发事故应急处理措施
- 《高一化学元素化合物学习教案》
- 六年级数学寒假复习计划
- 文言文知识拓展:古代文学阅读指导方案
- 高压线附近重型机械作业措施
- 2025今冬火灾隐患整改落实总结范文
- 风景如画的桂林200字(10篇)
- GB/T 3091-2008低压流体输送用焊接钢管
- 和解协议书范本大全七篇
- 五年级下册道德与法治课件我们的公共生活人教部编版
- 新人教版八年级美术下册教案《情感的抒发与理念的表达》教学设计
- 小学数学北师大五年级上册数学好玩已修改《点阵中的规律》
- 社会过程研究方法(简版)课件
- 替莫唑胺与恶性胶质瘤课件
- 腹腔镜器械清洗流程图
- 学校食堂餐厅紫外线灯消毒记录表
- 工会文体活动管理制度范文
- 第6章_射线与物质的相互作用
评论
0/150
提交评论