




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主要内容主要内容1. 概述概述2. 数据仓库与数据仓库与OLAP技术技术3. 数据挖掘技术数据挖掘技术4. 数据挖掘应用数据挖掘应用5. 数据挖掘工具数据挖掘工具6. 数据挖掘实例数据挖掘实例1 概述概述1.1 背景背景1.2 数据挖掘定义数据挖掘定义1.3 基本概念基本概念1.4 主要功能主要功能1.5 数据挖掘模型数据挖掘模型1.6 实现流程实现流程1.7 数据挖掘的应用数据挖掘的应用1.8 未来趋势未来趋势1.1 背景背景 二十世纪末以来,全球信息量以惊人的速度急剧增长据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据(信息)。目前的数据库系统虽然可以高效地实现数据
2、的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。 1.1 背景背景 数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。(AI(Artificial Intelligence,人工智能) ) 1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(Knowledge Discovery in Database,KDD)这一术语。 随后,在1991年
3、、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。 1.1 背景背景 现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(Data Mining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(Data Mining),数据挖掘是KDD中一个非常重要的处理步骤。 数据挖掘是近年来出现的客户关系管理(Customer Relationship Management, CRM)、商业智能
4、(Business Intelligence, BI)等热点领域的核心技术之一。 1.2 数据挖掘定义数据挖掘定义 技术角度的定义技术角度的定义 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。 这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 1.2 数据挖掘定义数据挖掘定义 商业角度的定
5、义商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。 简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。 数据挖掘的演化数据挖掘的演化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是
6、多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBC Oracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、
7、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息数据挖掘与其他科学的关系数据挖掘与其他科学的关系Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization数据挖掘与其他科学的关系数据挖掘与其他科学的关系 数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。 此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关
8、系密切。 数据挖掘与统计学的关系数据挖掘与统计学的关系 近几年,人们逐渐发现数据挖掘中有许多工作都是由统计方法来完成的。甚至有些人(尤其是统计学家)认为数据挖掘是统计学的一个分支,当然大多数人(包括绝大多数数据挖掘研究人员)并不这么认为。 但是,统计学和数据挖掘的目标非常相似,而且数据挖掘中的许多算法也源于数理统计,统计学对数据挖掘发展的贡献功不可没。数据挖掘与传统数据分析方法区别数据挖掘与传统数据分析方法区别(1)数据挖掘的数据源与以前相比有了显著的改变; 数据是海量的; 数据有噪声; 数据可能是非结构化的; (2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设
9、驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来 。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”里面的数据几乎不再被访问。也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。 数据挖掘与传统数据分析方法区别数据挖掘与传统数据分析方法区别国外数据挖掘的现状国外数据挖掘的现状 I
10、EEE的Knowledge and Data Engineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。数据挖掘已经成了国际学术研究的重要热点之一。 此外,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威(http:/ subscribe.html)。在网上还有许多自由论坛,如DM Email Club等。 国外数据挖掘的现状国外数据挖掘的现状 自1989年KDD术语出现以来,由美国人工智能协会主办的KDD国际研讨会已经
11、召开了10次以上,规模由原来的专题讨论会发展到国际学术大会。而亚太地区也从1997开始举行PAKDD年会。 国内数据挖掘研究现状国内数据挖掘研究现状 与国外相比,国内对数据挖掘的研究起步稍晚,但发展势头强劲。 1993年,国家自然科学基金首次资助复旦大学对该领域的研究项目。 目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。数据挖掘的发展趋势数据挖掘的发展趋势 近年来,数据挖掘的研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。 例如,1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有30多
12、家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。 数据挖掘的本质数据挖掘的本质 一种深层次的数据分析方法。 数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当时计算能力的限制,很难实现大量数据的复杂分析。 现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自然产生的。实施数据挖掘的目的实施数据挖掘的目的 不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。 所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有
13、价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。1.3 基本概念基本概念 信息信息 是事物运动的状态和状态变化的方式。 数据数据 指一个有关事实F的集合(如学生档案数据库中有关学生基本情况的各条记录),用来描述事物有关方面的信息。一般而言,这些数据都是准确无误的。 数据可能存储在数据库、数据仓库和其他信息资料库中。1.3 基本概念基本概念 知识知识 人们实践经验的结晶且为新的实践所证实的;是关于事物运动的状态和状态变化的规律;是对信息加工提炼所获得的抽象化产物。 知识的形式可能是模式、关联、变化、异常以及其
14、他有意义的结构。1.3 基本概念基本概念 模式模式 对于集合F中的数据,我们可以用语言L来描述其中数据的特性,得出一个表达式E,E所描述的数据是集合F的一个子集FE。只有当表达式E比列举所有FE中元素的描述方法更为简单时,我们才可称之为模式。如:“如果成绩在81-90之间,则成绩优良”可称为一个模式,而“如果成绩为81、82、83、84、85、86、87、88、89或90,则成绩优良”则不能不能称之为一个模式。 1.4 主要功能主要功能1. 概念概念/类别描述类别描述(Concept/Class Description) 概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数
15、据集的差别。 例1:我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:3550岁,有工作,月收入5000元以上,拥有良好的信用度; 1.4 主要功能主要功能 例2:对比移动电话费月消费额超出1000元的客户群与移动电话费月消费额低于100元的客户群。 利用数据挖掘可作出如下描述:移动电话月消费额超出1000元的客户80以上年龄在3550岁之间,且月收入5000元以上;而移动电话月消费额低于100元的客户60以上要么年龄过大要么年龄过小,且月收入2000元以下。1.4 主要功能主要功能2. 关联分析关联分析(Association Analy
16、sis) 从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性值条件元组。 例如:关联规则X=Y所表达的含义是满足X的数据库元组很可能满足Y。关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。 1.4 主要功能主要功能3. 分类与估值分类与估值(Classification and Estimation) 分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式:分类规则(IF-THEN),决策树或者数学公式,乃至神经网络。 估值与分类类似,只不过它要预测的不是类别,而是一
17、个连续的数值。 1.4 主要功能主要功能4. 聚类分析聚类分析(Clustering Analysis) 聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。 好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。 1.4 主要功能主要功能5. 时间序列分析时间序列分析(Time-Series Analysis) 时间序列分析即预测(Prediction),是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序
18、列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。 1.4 主要功能主要功能6. 其它功能其它功能 包括:偏差分析(Deviation Analysis)、孤立点分析(Outlier Analysis)等。 随着数据挖掘技术的发展,可能还会继续出现新的数据挖掘功能。 1.5 数据挖掘模型数据挖掘模型 为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了CRISP-DM(Cross Industry Standard Process for Data Mining)模型,目的是把数据挖掘的过程标准化, 使数据挖掘项目的实施速度更快、成本更低、更可靠并且更
19、容易管理。 CRISP-DM模型最先在1996年被提出,当前的白皮书版本是1.0。CRISP-DM(Cross Industry Standard Process for Data Mining)模型 业务理解数据理解数据准备建立模型模型评估系统部署数据1.5 数据挖掘模型数据挖掘模型 CRISP-DM模型中,数据挖掘包括六个步骤: 1.1.业务理解(业务理解(Business UnderstandingBusiness Understanding)阶段)阶段 具体地,包括:I. 确定业务目标II. 项目可行性分析III.确定数据挖掘目标IV. 提出初步的项目计划1.5 数据挖掘模型数据挖掘模
20、型 确定业务目标:分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准; 项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计; 确定数据挖掘目标:明确确定数据挖掘的目标和成功标准,数据挖掘的目标和业务目标是不一样的,前者指技术上的,例如生成一棵决策树等; 提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术。 1.5 数据挖掘模型数据挖掘模型 2 2数据理解(数据理解(Data UnderstandingData Understanding)阶段)阶段 具体地,包括: 收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些
21、初步的数据集成的工作,生成相应报告; 描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告; 探索数据:对数据做简单的统计分析,例如关键属性的分布等; 检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。 1.5 数据挖掘模型数据挖掘模型3 3数据准备(数据准备(Data PreparationData Preparation)阶段)阶段 具体地,包括: 数据选择:根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择; 数据清洁:提高选择好的数据的质量,例如去除噪音,估计缺失值等; 数据创建:在原有数据的基础上是生成新的属性或记录;1.5 数
22、据挖掘模型数据挖掘模型 数据合并:利用表连接等方式将几个数据集合并在一起; 数据格式化:把数据转换成适合数据挖掘处理的格式。1.5 数据挖掘模型数据挖掘模型4 4建立模型(建立模型(ModelingModeling)阶段)阶段 具体地,包括: 选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法; 测试方案设计:设计某种测试模型的质量和有效性的机制; 模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型; 模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。 1.5 数据挖掘模型数据挖掘模型5模型评估(模型评估(EvaluationEvaluat
23、ion)阶段)阶段 具体地,包括: 结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果; 过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误; 确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段开始重新开始。 1.5 数据挖掘模型数据挖掘模型6 6部署(部署(DeploymentDeployment)阶段)阶段 具体地,包括: 部署计划:对在业务运作中部署模型作出计划; 监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型; 作出最终报告:项目总结,项目经验和项目结果; 项目回顾:回顾项目的实施过程,总结经验教训;对数据挖掘的运
24、行效果做一个预测。 1.5 数据挖掘模型数据挖掘模型 为保证项目的可靠性和可管理性,CRISP-DM规定一个数据挖掘项目应该产生11个报告: 业务理解报告业务理解报告 原始数据收集报告原始数据收集报告 数据描述报告数据描述报告 数据探索报告数据探索报告 数据质量报告数据质量报告 数据集描述报告数据集描述报告 模型训练报告模型训练报告 模型评估报告模型评估报告 部署计划部署计划 监控和维护计划监控和维护计划 总结报告总结报告 通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。 1.6 实现流程实现流程原始数据数据模式知识应用准备挖掘解释运用 各步骤之间互相影响、反复调整,形成一种螺旋式
25、上升过程。1.6 实现流程实现流程 数据准备数据准备 KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不合适直接在这些数据上进行知识挖掘,需要做一些准备工作,也就数据的预处理。数据预处理包括数据的选择(选择相关数据)、净化(消除噪音、冗余数据)、推测(推算缺值数据)、转换(离散型数据与连续型数据之间的转换)、数据缩减(减少数据量)等。 数据准备是KDD的第一个步骤,也是比较重要的一个步骤。数据准备得好坏将直接影响数据挖掘的效率和准确度以及最终模式的有效性。 1.6 实现流程实现流程 数据挖掘数据挖掘 数据挖掘是最为关键的步骤,它根据KDD的目标,选取相应算
26、法的参数,分析数据,得到可能形成知识的模式模型。目前采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。 1.6 实现流程实现流程 模式的评估、解释模式的评估、解释 通过上面步骤所得到的模式,有可能是没有意义或没有实用价值的,因此需要评估,确定那些是有效的、有用的模式。此外,大部分模式是用数学手段描述的表达式,很难被人理解,还需要将其解释成可理解的方式以呈现给用户。 1.6 实现流程实现流程 知识运用知识运用 发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求对新的数
27、据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。 KDD过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。1.6 实现流程实现流程 数据挖掘过程的分步实现,不同的步骤需要不同的专业人员参与完成,大体分为三类:1)业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。2)数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。3)数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。1.6 实现流程实现流程
28、 从上可见,数据挖掘是一个多领域专家合作的过程,也是一个在资金上和技术上高投入的过程。这一过程要反复进行,在反复过程中,不断地趋近事物的本质,不断地优先问题的解决方案。 1.7 数据挖掘的应用数据挖掘的应用 数据挖掘技术的产生本身就有其强烈的应用需求背景,它从一开始就是面向应用的。数据挖掘技术在市场分析、业务管理、决策支持等方面有广泛的应用,是实现CRM和BI的重要技术手段之一。具体涉及数据挖掘的商业问题有数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analy
29、sis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失分析(Churn Analysis)、客户信用评分(Credit Scoring)、欺诈甄别(Fraud Detection)等 。 当前数据挖掘应用主要集中在电信(客户分析),零售(销售预测),农业(行业数据预测),网络日志(网页定制),银行(客户欺诈),电力(客户呼叫),生物(基因),天体(星体分类),化工,医药等方面。当前它能解决的问题典 型在于:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、 背景分析(P
30、rofile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等, 在许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店(),会发现当你选中一本书后,会出现相关的推荐数目“Customers who bought this book also bought”,这背后就是数据挖掘技术在发挥作用。 1.7 数据挖掘的应用数据挖掘的应用1.7 数据挖掘的应用数据挖掘的应用 最近Gartner Group的一次高级技术调查将数据挖
31、掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近Gartner的HPC研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。 1.8 就业领域 数据挖掘的对象是某一专业领域中积累的数据;挖掘过程是一个人机交互、多次反 复的过程;挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“Business First, technique second”是数据挖掘的特点。因此
32、学习数据挖掘不意味着丢弃原有专业知识和经验。相反,有其它行业背景是从事数 据挖掘的一大优势。如有销售,财务,机械,制造,call center等工作经验的,通过学习数据挖掘,可以提升个人职业层次,在不改变原专业的情况下,从原来的事务型角色向分析型角色 转变。从80年代 末的初露头角到90年 代末的广泛应用,以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。数据挖掘就业的途径:A:做科研(在高校、科研单位以及大型企业,主要研究 算法、应用等) B:做程序开发设计(在企业做数据挖掘及其相关程序算法的实现等)C:数据分析师(在存在海 量数据的企事业单位做咨询、分析等)2.数据挖掘
33、从业人员切入点:C,数据分析师:需要有深 厚的数理统计基础,可以不知道人工智能和计算机编程等相关技术,但是需要熟练使用主流的数据挖掘(或统计分析)工具 。从这个方面切入数据挖掘领域需要学习数理统计、概率论、统计学习基础:数据挖掘、 推理与预测 、金融数据挖掘,业务建模与数据挖掘、数据挖掘实践 等,当然也少不了使用的工具的对应说明书了,如SPSS、SAS等厂商的SAS数据挖掘与分析、数据挖掘Clementine应用实务 、EXCEL 2007数据挖掘完全手册等。B,程序设计开发:主要是实现数据挖掘现有的算法和研发 新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色,你
34、不但需要熟悉至少一门编程语言如(C,C+,Java,Delphi等)和数据库原理和操作,对数据挖掘基础课程有所了 解,读过数据挖掘概念与技术(韩家炜著)、人工智能及其应用。可以寻找一些开源的数据挖掘 软件研究分析,也可以参考如数据挖掘:实用机器学习技术及Java实现等一些教程。A.做科研:这里的科研相 对来说比较概括,属于技术型的相对高级级别,也是B,C的归宿,那么相应的也就需要对B、C的必备基础知识了。数据采集分析专员职位介绍:数据采集分析专员的主要职责是把公司运营的数据收集起来,再从中挖 掘出规律性的信息来指导公司的战略方向。这个职位常被忽略,但相当重要。由于数据库技术最先出现于计算机领域
35、,同时计算机数据库具有海量存储、查找迅速、 分析半自动化等特点,数据采集分析专员最先出现于计算机行业,后来随着计算机应用的普及扩展到了各个行业。该职位一般提供给懂数据库应用和具有一定统计分 析能力的人。有计算机特长的统计专业人员,或学过数据挖掘的计算机专业人员都可以胜任此工作,不过最好能够对所在行业的市场情况具有一定的了解。求职建议:由于很多公司追求短期利益而不注重长期战略的现状,目前国内很多企 业对此职位的重视程度不够。但大型公司、外企对此职位的重视程度较高,随着时间的推移该职位会有升温的趋势。另外,数据采集分析专员很容易获得行业经验, 他们在分析过程中能够很轻易地把握该行业的市场情况、客户
36、习惯、渠道分布等关键情况,因此如果想在某行创业,从数据采集分析专员干起是一个不错的选择。市场/数据分析师1. 市场数据分析是现代市场营销科学必不可少的关键环节: Marketing/Data Analyst从业最多的行业: Direct Marketing (直接面向客户的市场营销) 吧,自90年代以来, Direct Marketing越来越成为公司推销其产品的主要手段。为什么Direct Marketing需要这么多Analyst呢? 举个例子, 随着商业竞争日益加剧,公司希望能最大限 度的从广告中得到销售回报, 他们希望能有更多的用户来响应他们的广告。所以他们就必需要在投放广告之前做大量
37、的市场分析工作。例如,根据自己的产品结合目标市场顾客的家 庭收入,教育背景和消费趋向分析出哪些地区的住户或居民最有可能响应公司的销售广告,购买自己的产品或成为客户,从而广告只针对这些特定的客户群。这样有 的放矢的筛选广告的投放市场既节省开销又提高了销售回报率。但是所有的这些分析都是基于数据库,通过数据处理,挖掘,建模得出的,其间,市场分析师的工作 是必不可少的。2. 行业适应性强: 几乎所有的行业都会应用到数据, 所以作为一名数据/市场分析师可以在政府,银行,零售,医药业,制造业和交通传输等领域服务。1.8 未来趋势未来趋势 未来的热点应用领域未来的热点应用领域 网站的数据挖掘(网站的数据挖掘
38、(Web site data miningWeb site data mining) 生物信息或基因的数据挖掘生物信息或基因的数据挖掘 文本挖掘(文本挖掘(Textual miningTextual mining) 多媒体挖掘多媒体挖掘 1.8 未来趋势未来趋势 网站的数据挖掘(网站的数据挖掘(Web site data miningWeb site data mining) 当前Internet上各类电子商务网站风起云涌,电子商务业务的竞争比传统的业务竞争更加激烈。客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可,电子商务环境下客户保持比传统商业更加困难。若想在竞争中生存进而获
39、胜,您必须比竞争对手更了解客户。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Log files)和登记表,如何对这些数据进行分析和挖掘,及时地了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加竞争力,几乎变得势在必行。1.8 未来趋势未来趋势 网站的数据挖掘(网站的数据挖掘(Web site data miningWeb site data mining) 就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数
40、据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。 1.8 未来趋势未来趋势 生物信息或基因的挖掘生物信息或基因的挖掘 生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。 对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法方面,都要复杂得多。从分析算法上讲,
41、更需要一些新的和高效的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。 1.8 未来趋势未来趋势 文本挖掘(文本挖掘(Textual miningTextual mining) 文本挖掘是人们关心的另外一个话题。例如,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。 无论是在数据结构还是在分析处理方法方面,文本数据挖掘和数据挖掘相差很大。文本挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移
42、去,或简单地计算一下某些词汇的出现频率,并没有真正实现语义上的分析功能。 1.8 未来趋势未来趋势 多媒体挖掘(多媒体挖掘(Multimeadia MiningMultimeadia Mining) 基于描述的检索系统基于图像的描述创建索引并实现对象检索,如关键字、标题、尺寸和创建时间等; 人工实现则极为费时、费力 ; 自动实现则往往结果不理想。 基于内容的检索系统支持基于图像内容的检索,例如颜色、质地、形状、对象及小波变换 主要内容主要内容1. 概述概述2. 数据仓库与数据仓库与OLAP技术技术3. 数据挖掘技术数据挖掘技术4. 数据挖掘在电信领域的应用数据挖掘在电信领域的应用5. 数据挖掘
43、工具数据挖掘工具6. 数据挖掘实例数据挖掘实例2 数据仓库与数据仓库与OLAP技术技术2.1 数据仓库数据仓库2.2 ETL过程过程2.3 电信领域数据仓库的设计与实现电信领域数据仓库的设计与实现2.4 数据仓库的应用数据仓库的应用OLAP2.1 数据仓库与数据库的关系数据仓库与数据库的关系 到目前为止,数据仓库在国外已经发展了十几年的时间。在国内,虽然起步较晚,但发展较为迅速。 目前有很多的大公司或企业正在建或计划建设不同规模的数据仓库和数据集市。 2.1 数据仓库与数据库的关系数据仓库与数据库的关系 数据仓库建立在传统事务型数据库的基础之上,为企业决策支持系统、OLAP及数据挖掘系统提供数
44、据源。2.1 数据仓库与数据库的关系数据仓库与数据库的关系 数据库的应用包括:事务型应用和分析型应用 物理数据库实际存储的数据包括: 事务型数据(或称操作数据)和分析型数据(也可称为汇总数据、信息数据)。 起初,两类数据放到一起,即分散存储在各底层的业务数据库中。 后来,随着企业规模的扩展、数据量的增加、以及希望在决策分析时得到更多支持需求的日益迫切,并且考虑保证原有事务数据库的高效性与安全性。因此将分析型数据与事务型数据相分离,单独存放,即形成了所谓的数据仓库。 2.1 数据仓库与数据库的关系数据仓库与数据库的关系 数据仓库只不过是因为用户需求增加而对某一类数据库应用的一个范围的界定。单就其
45、是数据的存储容器这一点而言,数据仓库与数据库并没有本质的区别。 而且在更多的时候,我们是将数据仓库作为一个数据库应用系统来看待的。 因此,不应该说数据库到数据仓库是技术的进步。 数据仓库与数据库的区别数据仓库与数据库的区别数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。 数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据
46、而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。数据库与数据仓库的区别数据库与数据仓库的区别 业务数据库数据仓库内容与业务相关的数据与决策相关的信息数据模型关系、层次结构的关系的/多维的访问经常是随机的读写操作经常是只读操作负载事务处理量大、但每个事务涉及的记录数较少查询量少,但每次要查询大量的记录事务输出量一般很少可能非常大停机时间可能意味着灾难性错误可能意味着延迟决策演变过程演变过程 60年代数据收集、数据库创建、信息管理系统( IMS )和网络数据库管理系统(Network DBMS) 70年代 关系数据模型以及关系型DBMS演变过程演变过程 80年代至今高级数据模
47、型 (具有扩充关系的, 面向对象的, 演绎的等等) 和 面向应用的 DBMS (空间的, 科学的, 工程的等等) 90年代至今数据挖掘和数据仓库,多媒体数据库和Web数据库。数据收集和数据库创建数据收集和数据库创建(20世纪60年代和更早)-原始文件处理数据库管理系统数据库管理系统(70年代)层次和网状数据库关系数据库系统数据建模工具:实体-关系模型索引和数据组织技术:B树,散列等查询语言:SQL等用户界面:表单、报告等查询处理和优化事务管理:恢复和并发控制等联机事务处理(OLTP)高级数据库系统高级数据库系统(80年代中期现在)高级数据模型: 扩充关系、面向对象、 对象关系、演绎面向应用:
48、空间的、时间的、多媒体 的、主动的、科学的、 知识库基于WEB的数据库系统基于WEB的数据库系统(90年代现在)基于XML的数据库系统Web挖掘数据仓库和数据挖掘数据仓库和数据挖掘(80年代后期现在)数据仓库和OLAP技术数据挖掘和知识发现新一代综合信息系统新一代综合信息系统(2000年)演变过程演变过程 在20世纪70年代之前,数据一般存储在文件中,由应用程序直接管理;之后有了简单的数据收集和数据库的构造;后来发展到对数据的管理,包括数据存储、检索以及数据库事务处理;再后来发展到对数据的分析和理解,这时候出现了数据仓库技术和数据挖掘技术。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对
49、过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,并且能够预测未来的数据。 数据库的局限性数据库的局限性 传统数据库所能做到的只是对已有的数据进行存取以及简单的查询统计,即使是一些流行的OLAP工具,也无非是另一种数据展示方式而已。人们仍然无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。这也直接导致了目前“数据爆炸但知识匮乏”的现状。 2.2 ETL过程过程2.2.1 ETL的概念2.2.2 ETL的功能2.2.3 ETL的目标2.2.4 ETL的流程2.2.5 ETL的框架2.2.6 ETL的组成2.2.7 ETL的相关技术2.2.8 ETL的实现方法2.2
50、.9 ETL的工具2.2.10 ETL的应用2.2.1 ETL的概念的概念 将原来业务系统的数据经过抽取、转换、加载到数据仓库所在的中心存储库的过程称为ETL (Extraction, Transformation and Loading)过程,制定这个过程的策略称之为ETL策略,而完成ETL过程的工具则是ETL工具。相对于数据仓库中的表而言,业务系统数据库中的表称为源表,业务系统数据库称为源数据库,数据仓库中所有的数据都来自于业务系统数据库。在打造一个数据仓库的过程中,ETL的实施是一项繁琐、冗长而艰巨的任务,因为它关系到数据仓库中数据的质量问题,如果导入的数据漏洞百出,对决策者来说无疑是个
51、噩耗。 ETL过程是搭建“数据仓库”时最重要的最重要的和最最易误解的易误解的步骤之一。2.2.1 ETL的概念的概念 ETL过程不仅仅是数据的迁移迁移(Migration)或净化净化(Cleansing),也应该是企业数据管理策略企业数据管理策略中不可缺少的一部分。 ETL过程的功能是:发现发现数据仓库需要的数据,将其从源系统中抽取抽取出来,并进行一定的处理处理,然后装载装载到数据仓库中去。 2.2.2 ETL的功能的功能 提高数据质量 搭建数据仓库 (Warehousing Processes)操作型活动 (Operational Activities)数据获取 (Data Acquisit
52、ion)仓库存储 (Warehouse Storage) EAI的数据集成ETL功能提高数据质量功能提高数据质量 数据清洁补充缺失值,平滑噪声数据,识别与删除异常数据以及有效解决数据的一致性问题 数据集成多个数据库、数据立方体或文件的数据整合 数据转换实现数据的归一化 数据简化在不影响分析结果的前提下,缩减数据量 数据离散化对于数值型数据可通过取样实现离散化以降低数据量2.2.3 ETL的目标的目标 提高数据质量 提供一种统一的、跨平台的存取数据方法 将数据“信息化”,为企业决策者的经营分析提供信息来源2.2.4 ETL的流程的流程 抽取 转换/清洁 装载数据仓库数据仓库临时存储区 数据源数据
53、源抽取抽取转换转换/清洁清洁装载装载 All driven by metadata2.3 电信领域数据仓库的设计与实现电信领域数据仓库的设计与实现2.3.1 电信领域数据仓库的设计电信领域数据仓库的设计2.3.2 电信领域数据仓库的实现电信领域数据仓库的实现2.3.1 电信领域数据仓库的设计电信领域数据仓库的设计(1 1)确定数据仓库的主题)确定数据仓库的主题 根据电信业务和电信运营的需求,电信公司涉及的最主要的三个主题是: 客户发展 收益分析 呼叫特性分析 2.3.1 电信领域数据仓库的设计电信领域数据仓库的设计 客户发展客户发展 主要是对客户群体进行分类后,从不同的角度展现电信公司提供服务
54、的客户数量情况。划分的角度可以按照客户本身的自然属性,例如客户本身的自然属性,例如客户性别、年龄、客户入网的时间、客户的类型(公费、私人等)、客户受教育的程度等。2.3.1 电信领域数据仓库的设计电信领域数据仓库的设计 收益分析收益分析 收益分析主要是通过不同的角度对电信企业的收益情况进行分析。收益分析的角度可以按照客户的自然属性和扩展属性划分;也可以按照电信公司的业务运(品牌、交费方式)进行划分;还可以按照机构设置、地理角度对收益进行划分。 2.3.1 电信领域数据仓库的设计电信领域数据仓库的设计 呼叫特性分析呼叫特性分析 呼叫特性分析即分析不同类型客户在呼叫上所具有的特性,特性可能包括下列
55、衡量指标:2.3.1 电信领域数据仓库的设计电信领域数据仓库的设计按照呼叫时间划分为:成长呼叫、中呼叫和短呼叫按照呼叫类型可划分为:本地通话、长途通话、漫游通话。(其中长途又可以划分成国际长途、国内长途;漫游通话可划分成省内、省际、国内漫游等等)按照呼叫金额可以划分为:高额呼叫和非高额呼叫按照呼叫所在地区域考察呼叫的热点区域2.3.1 电信领域数据仓库的设计电信领域数据仓库的设计(2 2)数据仓库模型的设计)数据仓库模型的设计可用的数据可用的数据 例如,要完成客户发展、收益分析、呼叫特性分析三个主题,下列三部分信息是必要的,即: 客户的基本信息表 客户的账单信息表 客户的呼叫信息表 客户基本信
56、息表的常见字段客户基本信息表的常见字段客户基本信息表字段客户识别码客户号码客户类别客户信用度客户姓名客户通信地址客户身份证号客户联系电话客户邮编客户归属局通信费支付方式开户日期客户帐单信息表的常见字段客户帐单信息表的常见字段客户账单字段 客户号码月租费附加功能费本地话费省内漫游费省际漫游费国际漫游费账单金额短信费滞纳金金额总话费付款方式呼叫信息表的常见字段呼叫信息表的常见字段客户呼叫信息表字段呼叫类型IMSI号主叫号码被叫号码通话开始时间通话时长基本通话费基本通话附加费长途费长度附加费通话位置漫游类型2.3.1 电信领域数据仓库的设计电信领域数据仓库的设计(2 2)数据仓库模型的设计)数据仓库
57、模型的设计粒度的确定粒度的确定 在数据仓库设计中,最重要的步骤是确定数据的粒度。 单一粒度单一粒度 对于客户基本信息表,由于它属于增长较为缓慢的信息(随着客户数量的增长,客户业务信息的变更表会增长),可以使用单一的数据粒度。 数据仓库模型的设计数据仓库模型的设计粒度的确定粒度的确定 如果客户数量很大,每个月生成一张客户信息表将浪费大量的空间,因为只有客户信息变化了或者新增加了客户,才需要修改原先的客户信息表。增加一个“当前标志”字段,用于表示客户的当前信息,并选择“数据变更日期”作为时间字段。 客户识别码客户号码客户类别客户信用度客户姓名客户通信地址客户身份证号客户联系电话客户邮编客户归属局通
58、信费支付方式开户日期客户识别码客户识别码数据变更日期数据变更日期当前标志当前标志客户号码客户类别客户信用度客户姓名客户通信地址客户身份证号客户联系电话客户邮编客户归属局通信费支付方式开户日期使用单一粒度的客户基本信息表使用单一粒度的客户基本信息表 数据仓库模型的设计数据仓库模型的设计粒度的确定粒度的确定 对于客户的账务信息表,每个月一个客户号码只在账务信息中对应一条记录,因此数据本身就带有一定的综合性,可以采用单一的数据粒度。 客户账单字段月份客户号码月租费附加功能费本地话费省内漫游费省际漫游费国际漫游费账单金额短信费滞纳金金额总话费付款方式客户账单字段月份月份客户号码月租费附加功能费本地话费
59、省内漫游费省际漫游费国际漫游费账单金额短信费滞纳金金额总话费付款方式使用单一粒度的客户帐务信息表使用单一粒度的客户帐务信息表 数据仓库模型的设计数据仓库模型的设计粒度的确定粒度的确定 双重粒度双重粒度 呼叫计费数据是电信公司中数据量最大的部分,对于一个客户的一次通话(无论是主叫还是被叫,因为一次通话实际上将生成主叫、被叫两条记录),在呼叫表中都将出现一个通话记录,因此对于一个大型电信公司,其呼叫计费数据的数据量非常大,所以采用双重粒度来记载呼叫计费数据。 对于近34个月的细节呼叫计费数据,保留在数据仓库中,并定期聚合成按月综合的数据,然后将细节数据导出,另外保存,为新的细节数据腾出足够的空间。
60、 呼叫类型IMSI号主叫号码被叫号码通话开始时间通话时长基本通话费基本通话附加费长途费长度附加费通话位置漫游类型IMSI号主叫号码被叫号码通话开始时间通话时长基本通话费基本通话附加费长途费长度附加费通话位置漫游类型客户呼叫信息表字段呼叫类型IMSI号主叫号码被叫号码通话开始时间通话时长基本通话费基本通话附加费长途费长度附加费通话位置漫游类型按月综合的数据按月综合的数据 最近最近3个月的细节数据个月的细节数据 3个月之前的细节数据个月之前的细节数据 其它空间其它空间 使用双重粒度的呼叫信息使用双重粒度的呼叫信息 2.3.1 电信领域数据仓库的设计电信领域数据仓库的设计(2 2)数据仓库模型的设计)数据仓库模型的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省南充市蓬安县2025年七年级数学第二学期期末学业水平测试模拟试题含解析
- 市场竞争压力下的战略调整机制研究试题及答案
- 2025年国际商业风险试题及答案
- 法学概论考试中易混淆的概念试题及答案
- 2025年软件设计师考试知识点复习及试题及答案
- 考试儿科试题及答案
- 田径运动期末考试试题及答案
- 药店药师职称考试试题及答案
- 2025年软考前沿技术应用的试题及答案
- 数电期考试试题及答案
- DB64∕T 802-2021 有限空间作业安全技术规范
- 维修记录表模板
- 继续教育学院经费支出管理办法
- 射线透照工艺(刘怿欢)
- 星际穿越PPT课件(PPT 13页)
- 天津农学院毕业论文答辩ppt模板_1975553754.ppt
- 2018年江苏省扬州市中考英语试题(含答案)
- 后张法预应力空心板梁施工方案
- 投标书(--总医院护理保障服务)
- 2019年上海市中考地理试题卷附答案详析
- 燃气公司绩效考核表格大全(共61页)
评论
0/150
提交评论