Web数据挖掘在商业智能中的应用.doc_第1页
Web数据挖掘在商业智能中的应用.doc_第2页
Web数据挖掘在商业智能中的应用.doc_第3页
Web数据挖掘在商业智能中的应用.doc_第4页
Web数据挖掘在商业智能中的应用.doc_第5页
免费预览已结束,剩余11页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Web数据挖掘在商业智能中的应用随着Internet和Intranet的飞速发展,Web为商家提供了丰富的数据资源,Web还包含了许多动态的超级链接信息,以及Web页面的访问和使用信息。很多商业商家已经从传统的客户接待室转移到了商业网站上虚拟的客户大厅,而客户开始认识一个商家、认识其产品的第一站也变成了商业的网站,所以,大量的客户信息在商业网站上堆积。在竞争日益激烈和多变的市场环境中,商家怎样利用Web上的数据揭示客户需求、预测客户行为,使商家和客户之间能够进行更好的互动,就得充分利用Web数据挖掘技术和商业智能技术,从Web上海量的商业数据及其他相关的数据中发现商机,搞高商家对市场的响应速度和竞争力。一、商业智能商业智能就是将智能计算技术应用于传统商业领域,将商家中现有的数据转化为知识,从而提高数据分析能力,优化业务过程,提高商家竞争力。为了将数据转化为知识,商业智能的关键是从不同商家运作系统的数据中,经过抽取、转换和装载等过程,提取出有用的数据,进行清理以保证数据的正确性,在此基础上利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术对其进行分析和处理,最后将知识呈现给管理者,为管理者的决策过程提供支持。以数据挖掘为核心的商业智能已得到广泛应用。一个商家要想在复杂多变的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商业智能,其目的是全面提升客户获取能力、客户保有能力和客户盈利能力。利用商业智能可以发现其中隐藏的信息,获得巨大的回报。据IDC对欧洲和北美62家采用了商业智能技术的商家进行调查分析并发现,这些商家的3年平均投资回报率为401%,其中25%的商家的投资回报率超过600%。二、Web数据挖掘Web数据挖掘是数据挖掘和Internet技术相结合的产物,是利用数据挖掘技术从Web文档和服务中自动发现和抽取信息。1数据挖掘数据挖掘(Data Mining),是一种新的商业信息处理技术,是采用记忆推理、聚类分析、关联分析、决策树、神经网络、基因算法、人工智力和数理统计等技术,从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。2Web数据挖掘Web数据挖掘一般分为三类:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘。通过Web挖掘可以实现对Web存取模式、Web结构和规则,以及动态内容的查询。Web挖掘的优点有:不需要用户提供主观的评价信息,可以处理大规模的数据量,用户访问模式动态获取,不会过时,使用方便。传统的数据库有一定的数据模型,可以根据模型来具体描述特定的数据,而Web上的数据多为半结构化或非完全结构化,半结构化和非结构化的数据没有特定的模型来描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因此基于Web的数据挖掘要比基于单个数据仓库的数据挖掘要复杂得多。而XML的出现为解决Web数据挖掘的难题带来了机会。3XML与Web数据挖掘以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。XML应用可分成以下四类:需要Web客户端在两个或更多异构数据库之间进行通信的应用;试图将大部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能Web代理根据个人用户的需要裁减信息内容的应用。基于Web的数据挖掘必须依靠它们来实现。随着XML作为在Web上交换数据的一种标准方式的出现,基于Web的数据挖掘将会变得非常轻松。三、Web数据挖掘在商业智能中的应用现在消费者的期望越来越高,Internet更加拥挤不堪,传统的商家也希望利用Internet便利扩展营销渠道。商家面临着了解客户需求的挑战,以实现自我更新,建立品牌知名度和持久的客户关系。Internet为采集访问者和消费者行为信息提供了空前的机会,但如何才能充分利用这些无尽的、有价值的网络数据资源呢?在消费者访问你的网站的时候,可以用Web数据挖掘对网站进行分析,识别用户的行为模式,留住客户,提供个性化服务,优化网站设计,预测他们的需求,并即时把最可能使他们满意的内容推到他们的桌面。1挖掘潜在的客户传统的获得客户的途径一般包括广泛的媒体广告、大量的电话行销、市中心及车站码头的广告牌等。做广告,大多选择读者群和直接目标客户群重叠最大的主流媒体。但数据挖掘可以帮助你改变这些。假设你是一家是生产婴儿尿布的商家的市场部经理,决定采用直邮的方式为产品进行宣传。最传统的做法是先选择一个比较感兴趣的地区,通过信息中介公司拿到这个地区的符合你的条件的商业数据,一般情况你要求的条件可能是:25-32岁的最近购买了婴儿车的人的名单和地址。然后你就会和他们联系,向他们邮寄资料。这是一种非常简单的直邮广告,虽然它比普通的广告经济有效得多,但我们认为这还是比较初级、不能完全令人满意的直邮广告。因为在这些2532岁最近购买了婴儿车的人当中,有很多其它的因素,比如很多人会在他们的小孩出世之前先准备好婴儿车,而他们还没有到决定使用哪一个牌子的尿布的时候。在采用了数据挖掘后,为客户提供的直邮广告的有效性和回应率都得到了大幅度的提高。通过数据挖掘可以发现买婴儿尿布的消费者是男性还是女性,学历、收入如何,有什么爱好,是什么职业等等。甚至我们可以发现不同的人会在购买婴儿车后多长时间开始买尿布,以及什么样的人(婴儿)会购买什么型号的尿布等等。也许很多因素表面上看起来和购买婴儿尿布不存在任何联系,但数据挖掘的结果却证明他们之间有联系。2提供个性化服务,留住客户各个行业的竞争都越来越激烈,商家获得新客户的成本正不断地上升,因此保持原有客户对所有商家来说就显得越来越重要。Web数据挖掘可以把Web上大量的客户分成不同的类,针对不同的类提供不同的个性化服务来提高客户的满意度,从而留住客户。个性化服务就是尽可能使得自己的每个客户在浏览商业网站时都有,他就是该网站的唯一用户的感觉;尽可能地迎合每个客户的浏览兴趣,并且不断调整自己来适应用户浏览兴趣的变化。个性化服务的表现形式有:推荐的超链接列表,推荐的商品列表,推荐的广告列表,经裁剪的文本或图像列表。(1)基于Web使用挖掘的个性化服务Web日志记录了用户访问本站点的信息,其中包括IP地址、请求时间、方法、被请求文件的URL、返回码、传输字节、引用页的URL和代理等信息。分析Web日志,利用Web数据挖掘方法可以发现用户的使用模式,从而向用户提高个性化服务。设Web集合P表示为:P=p1,p2,,pn,用户事务集合T表示为:T=t1,t2,tm,每一个事务tT均表示为为Web集合P的n维向量:t=,使用聚类算法得到不同的事务聚类,同一个事务聚类内用户之间的浏览模式尽可能相似,而不同事务聚类中用户之间的浏览模式尽可能不同,给定事务聚类c和显著性阈值m,事务聚类c的总体使用特征prc的计算方法如下:prc=|pP,weight(p,prc)m,其中weight(p,prc)=根据当前的用户会话产生实时的推荐集,用户当前会话S可以表示为:S =s1,s2,sn,总体使用特征C可以表示为:C=w1C,w2C, ,wnC其中使用余弦相似性函数来计算C和S之间的匹配系数:计算Web页p的推荐系数Rec(S,p):(2)基于Web内容挖掘的个性化服务在基于Web使用挖掘的基础上,根据Web内容之间的相似性为用户提供个性化服务。设Web页p表示为内容特征空间上的k维向量:p=,fw(p,fi)为Web页p在特征fi上的权重。Web内容特征矩阵的行列互换,每个内容特征看作Web空间上的n维向量,使用聚类算法对内容特征进行聚类,每一个内容特征聚类ci由一系列内容特征组成,给定内容特征聚类G和显著性阈值r,其内容特征CG的方法如下:CG=|pP,weight(p,CG)r其中weight(p,CG)=(3)基于Web结构挖掘的个性化服务如果有许多Web都同时链接到Web页A和Web页B,则可以认为Web页A和Web页B之间具有一定的相关性,如果一个用户访问了Web页A,则Web页B对该用户而言很可能是有价值的,从而可以在推荐列表中加上Web页B。每个Web页p可以表示为所有Web空间上的n维向量:p=,使用聚类算法对结构特征进行聚类,每一个结构特征聚类ci由一系列结构特征组成,给定结构聚类s和显著性阈值v,其结构特征prs的计算方法如下:prs=|pP,weight(p,prs)n,其中weight(p,prs)= 3快速发现关联购买需要,实施交叉网络营销交叉销售是指商家向原有客户销售新的产品或服务的过程。交叉网络营销就是指交叉营销思想在网络营销中的应用。由于网络营销的天然优势,开展交叉营销具有更大的发展空间,因为网站本身就是一个有效的营销工具,网站的注册用户资料也是非常有价值的营销资源。两个公司/网站之间可以通过网站交换广告、交换链接、内容共享、利用各自注册用户资料互为推广等来开展交叉营销。利用Web数据挖掘技术中的关联分析,可以快速发现客户的关联购买需要。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。例如,一个购买酒的男顾客经常同时购买香烟。利用这种知识可以采取交叉网络营销策略,扩展客户购买的产品范围,吸引更多的客户。通过调整商品的布局便于顾客买到经常同时购买的商品,或者通过降低一种商品的价格来促进另一种商品的销售等。3提高客户的忠诚度利用统计学的贝叶斯方法、神经网络方法、决策树方法等分类技术,可以将Web上大量的半结构化的文本数据,如WEB页面、电子邮件等进行分类。利用分类技术,可以根据顾客的消费水平和基本特征对顾客进行分类,找出对商家有较大利益贡献的重要客户的特征,通过对其进行个性化服务,提高他们的忠诚度。4.客户盈利能力分析和预测对于一个商家来讲,如果不知道客户的价值,就很难做出合适的市场策略。很显然,不同客户对于商家来讲,其价值是不同的。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,识别最有价值的客户、他们的购买偏好、以及这些客户过去的状态变迁,帮助商家制定适合的市场策略。(1)客户贡献度分析计算客户贡献度,考虑的因素包括:直接业务贡献、中间业务贡献、其他贡献,并对其贡献度按照业务种类进行结构分析,使得商家清楚了解能够帮助客户为商家创造效益的业务产品。(2)客户评级根据客户贡献度给客户评级,使得商家能够根据客户的不同级别提供差异化的服务和定价,并按照评估指标完成对重要客户(VIP客户)的识别与标识;同时,系统还将监控并显示级别发生变化的客户,帮助商家及早采取措施预防客户的流失,或提升客户忠诚度。(3)客户排名可以分别根据客户的现金消费、信用卡消费或透支状况单项进行排名,也可以根据贡献度指标进行综合排名。5客户信用风险控制国外银行市场多年发展的经验证明,信用记分卡技术Credit Scorecard是遏制个人信用风险的有力手段。信用计分卡实际上是一种用于个人信用风险控制的数学模型。它是利用数据挖掘技术对银行积累的大量客户历史数据进行分析,寻找出有关客户信用风险的特征值和规律,建立相应的数学模型,为新的贷款申请者或已有的客户评估风险。所以客户信用风险分析主要从预测模型和风险监控两个方面。预测模型包括,信用计分模型和欺诈检测模型;信用计分模型有三种类型:申请信用计分模型、行为信用计分模型和催收信用计分模型结合欺诈检测模型,实现对信用卡业务提供事前、事中和事后的信用风险控制。风险监控是从不同角度,通过监控当前客户的风险状况以及预测模型的策略执行的风险状况,实现辅助业务执行和风险决策的功能。3.3.1. 客户信用风险预测模型n 信用申请评分Application Scorecard申请计分模型专门用于对新申请客户的信用评估,它通过申请人填写的有关身份资料,即可以有效、快速地辨别和划分好/坏客户,帮助发卡行建立第一道事前的信用风险防火墙。n 行为评分Behavior Scorecard行为记分模型是通过对客户的行为进行监控和预测,从而达到评估客户信用风险的目的。行为计分模型可用于信用额度的自动监控和调整、授权以及对坏账的预测。例如,信用卡客户想增加信用卡的限额,那么这位客户的以前的消费及信用模式,就要通过使用行为记分模型进行分析以便获得认可。类似地,这个记分模型可被扩展到银行的其他个人信贷产品。n 坏账催收评分Collection Scorecard催收记分模型是申请记分和行为记分模型的补充,特别是在客户产生了逾期贷款或坏帐的情况下建立的。催收记分模型被用于预测和评估对某一笔坏账所采取的措施的有效性,诸如客户对警告信件反应的可能性。这样,银行就可以根据模型的预测,对不同状况的逾期贷款采取不同的有效措施进行处理。n 欺诈检测模型通过加载完整的源数据,然后依靠应用软件分析整理,追踪行为异常的用户,预测和发觉可能存在的欺诈账户,然后采取防范措施。在此过程中完成近实时侦测、客户特征分析、案例管理、OLAP报表、欺诈分析模型等功能等。3.3.2. 客户风险监控信用计分模型为银行信用风险,尤其是个人信用风险的控制提供了一个客观、准确的评估和控制机制。风险监控是从不同角度,通过监控当前客户的风险状况以及预测模型的策略执行的风险状况,结合信用风险模型,实现辅助业务执行和风险决策的功能。其中包括:客户风险-根据人口统计信息;客户风险-根据心理学信息;客户风险-根据收入分段;客户风险-信用申请评分风险模型监控;客户风险-信用行为评分风险模型监控;客户风险-信用坏账催收评分风险模型监控;客户风险-欺诈发现风险模型监控;4聚类分析 聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 仍以客户关系管理为例,利用聚类技术,根据客户的个人特征以及消费数据,可以将客户群体进行细分。例如,可以得到这样的一个消费群体:女性占91%,全部无子女、年龄在31到40岁占70%,高消费级别的占64%,买过针织品的占91%,买过厨房用品的占89%,买过园艺用品的占79%。针对不同的客户群,可以实施不同的营销和服务方式,从而提高客户的满意度。 对于空间数据,根据地理位置以及障碍物的存在情况可以自动进行区域划分。例如,根据分布在不同地理位置的ATM机的情况将居民进行区域划分,根据这一信息,可以有效地进行ATM机的设置规划,避免浪费,同时也避免失掉每一个商机。 对于文本数据,利用聚类技术可以根据文档的内容自动划分类别,从而便于文本的检索。5预测 预测与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。 时间序列分析 时间序列分析的是随时间而变化的事件序列,目的是预测未来发展趋势,或者寻找相似发展模式或者是发现周期性发展规律。(1) 商从顾客购买商品中发现一定的关系,提供打折购物券等,提高销售额(2) 保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高利润(3) 在制造业中,半导体的生产和测试中都产生大量的数据,就必须对这些数据进行分析,找出存在的问题,提高质量(4) 电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计一些公司运用数据挖掘的成功案例,显示了数据挖掘的强大生命力:美国AutoT是世界上对大的汽车销售站点,每天都会有大量的用户对网站上的信息点击,寻求信息,其运用了SAS软件进行数据挖掘,每天对数据进行分析,找出用户的访问模式,对产品的喜欢程度进行判断,并设特定服务娶,取得了成功。Reuteres是世界著名的金融信息服务公司,其利用的数据大都是外部的数据,这样数据的质量就是公司生存的关键所在,必须从数据中检测出错误的成分。Reuteres用SPSS的数据挖掘工具SPSS/Clementine,建立数据挖掘模型,极大地提高了错误的检测,保证了信息的正确和权威性。Bass Export是世界最大的啤酒进出口商之一,在海外80多个市场从事交易,每个星期传送23000份定单,这就需要了解每个客户的习惯,如品牌的喜好等,Bass Export用IBM的Ineelligent Miner很好的解决了上述问题。商业智能 商业智能 传统的业务系统是针对分离的事务处理设计的,不便于进行多层次的分析和统计,因此商业智能应用应运而生。商业智能通常是一个独立的系统,能够从传统业务系统中获取各类客户数据和业务数据,建立多层次的分析体系,并将其转化成有商业意义的信息。 数据仓库系统是商业智能应用的核心,也是系统存储和管理数据信息的地方。数据源包括了现有商家中所有的信息系统,以及根据决策分析需求可能涉及的其他外部数据资源。商业智能应用涉及数据和信息的展现部分,它是用户使用商业智能系统的界面,目前的商业智能系统一般提供以下的功能:查询和报表、联机分析处理(OLAP)、数据挖掘和数理统计以及商业应用。元数据是管理商业智能系统的数据,其主要部分类似于数据字典,内容贯穿商业智能应用的各阶段,记录着从ETL到分析展现各个阶段和各组成部分的管理信息。 商业智能的应用目前呈现出行业化和专业化的趋势。首先,商业智能系统将更具行业化的特点。笼统的商业智能系统渐渐成为概念,客户实际需要的系统则分为银行、保险、制造业、电信等各种领域。并且,每个行业有其关注的重点和分析的模型。其次,商业智能应用更加强调应用的集成。主要应用领域包括:分析型的CRM、服务于ERP系统的商业智能、与SCM集成的供应链管理优化。中国加入WTO后,金融商家需要发展面向未来的业务模式: 混业、跨国、多渠道、增值及联合经营。新的业务模式和市场环境需要一种新的管理方法,包括:管理集中、风险防范、客户至上、接轨国际和面向未来。无论是个 体银行还是投资银行,都必须找到快速应对不断变化的市场需求的方法;要在实现客户信息完全整合的同时,认识客户的差异;必须在控制成本、整合全球运营业务的同时,提供让客户满意的服务。 要实现这一切,就需要一个完整的、以客户为导向的解决方案,该方案必须提供一个开放的、跨金融客户的平台,从各种不同的系统中收集所有的客户资料,并把每一个客户资料转变成协调一致的信息; 以全面的分析工具为基础,增强目标市场营销的能力; 改善客户服务及对客户的回应,以满足客户日益增长的期望值。与数据挖掘相关的词汇有例如数据仓库,数据装载(ETL),数据挖掘(Data Mining),客户关系管理(CRM),SAS,PeopleSoft, SAP等。到上个世纪九十年代,以数据存储为目的的联机分析处理系统(OLTP)已经发展得相当成熟,关系型数据库的应用已经非常普及,大型商家或部门积累了大量原始数据。这些数据是按照关系型结构存储,在更新,删除,有效存储(少冗余数据)方面表现出色,但在复杂查询方面效率却十分低下。为充分利用已有数据,提供复杂查询,提供更好的决策支持,出现了数据仓库(Data Warehouse)。数据仓库与数据库(这里的数据库指关系型数据库)的区别在于,数据仓库以方便查询(称为主题)为目的,打破关系型数据库理论中标准泛式的约束,将数据库的数据重新组织和整理,为查询,报表,联机分析等提供数据支持。数据仓库建立起来后,定期的数据装载(ETL)成为数据仓库系统一个主要的日常工作。在数据仓库发展的同时,一项从大量数据中发现隐含知识的技术也在学术领域兴起,这就是数据挖掘。数据挖掘也称为数据库知识发现(Knowledge Discovery in Databases, KDD),就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的,有用的模式(也叫知识)。最初的数据挖掘应用一般需要从组织数据做起,经历算法设计(建模),挖掘,评价,改进等步骤。其中组织整理数据占据大部分时间,大约占到整个数据挖掘项目80%的时间。数据挖掘的真正普及是建立在数据仓库的成功应用之上。一个设计完善的数据仓库已经将原始数据经过了整理和变换,在此基础上再进行深入挖掘就是顺理成章的事情。数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的热门技术。传统的交易型系统,九十年代兴起的互连网技术及ERP系统在越来越廉价的存储设备配合下,产生了大量的数据。但与之相配合的数据分析和知识提取技术在相当长一段时间里没有大的进展,使得存储的大量原始数据没有被充分利用,转化成指导生产的知识,形成数据的海洋,知识的荒漠这样一种奇怪的现象。数据挖掘(Data Mining)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关,又称为数据库知识发现(Knowledge Discovery in Databases,KDD)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识;得到的知识是显式的,既能为人所理解,又便于存储和应用,因此一出现就得到各个领域的重视。从80年代末的初露头角到90年代末的广泛应用,以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。当前数据挖掘应用主要集中在电信(客户分析),零售(销售预测),农业(行业数据预测),网络日志(网页定制),银行(客户欺诈),电力(客户呼叫),生物(基因),天体(星体分类),化工,医药等方面。当前它能解决的问题典型在于:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等,在许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店(),会发现当你选中一本书后,会出现相关的推荐数目Customers who bought this book also bought,这背后就是数据挖掘技术在发挥作用。提到数据挖掘,就不能不提商业智能(Business Intelligence),简称BI,就是将智能计算技术应用于传统商业领域,从而提高数据分析能力,优化业务过程,提高商家竞争力。虽然商业智能的普及仅仅是最近几年的事情,但已经渗透到金融,电信,零售,医药,制造,政府等各个行业和领域,成为大中型商家经营决策的重要组成部分。数据挖掘是一项技术,由许许多多的算法构成,如决策树,聚类,关联算法,分类算法,神经网络等,这些算法可以有多种实现方式。数据挖掘渗透到某些行业,产生了一些特定的应用,比如现在经常会听到的客户关系管理(Customer Relationship Management, CRM)。客户关系管理的概念由来已久,但现代的客户关系管理一般指以客户数据为处理对象的一类商业智能应用。通过挖掘客户信息,发现潜在的消费趋势或动向。比如电信公司通过分析用户通话模式(通话时间,时段,通话量等),制订不同的计费方案,满足用户的同时也提高自己的利润。据IDC对欧洲和北美62家采用了商务智能技术的商家的调查分析发现,这些商家的3年平均投资回报率为401%,其中25%的商家的投资回报率超过600%。调查结果还显示,一个商家要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。数据挖掘和商业智能职业发展前景规划个人职业发展的时候,在众多考虑因素中有两个是非常重要的:所要投入的技术所处的发展阶段和能否结合已有专业知识。每种技术从提出到广泛应用(或失败被抛弃)有一定的发展周期,称为科学技术的生命周期(Technological life cycle)。该周期大致分为创新(Innovators),早期成长(Early adopters),分歧点(Chasm),早期流行(Early majority),晚期流行(Late majority)和衰退阶段(Laggards)。对于应用型技术人员来说,早期流行阶段是进入一个新技术领域的最佳时机,因为该技术已经通过分歧点的考验,又处于上升阶段,风险最小,竞争最少,更容易脱颖而出。数据挖掘技术现在就处在这样一个早期流行阶段。数据挖掘的对象是某一专业领域中积累的数据;挖掘过程是一个人机交互、多次反复的过程;挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。Business First, technique second是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反,有其它行业背景是从事数据挖掘的一大优势。如有销售,财务,机械,制造,call center等工作经验的,通过学习数据挖掘,可以提升个人职业层次,在不改变原专业的情况下,从原来的事务型角色向分析型角色转变。Gartner在2000年的报告中列举了在35年内对工业将产生重要影响的五项关键技术,其中KDD和人工智能排名第一。同时,这份报告将并行计算机体系结构研究和KDD列入今后5年内公司应该投资的10个新技术领域:宽带、无线、Linux、内容管理、实时分析、数据挖掘、安全、中间件、认证技能、商业智能以及知识管理。根据IDC(International Data Corporation)预测说2004年估计BI行业市场在140亿美元。现在,随着我国加入WTO,我国在许多领域,如金融、保险等领域将逐步对外开放,这就意味着许多商家将面临来自国际大型跨国公司的巨大竞争压力。国外发达国家各种商家采用商务智能的水平已经远远超过了我国。美国Palo Alto管理集团公司1999年对欧洲、北美和日本375家大中型商家的商务智能技术的采用情况进行了调查。结果显示,在金融领域,商务智能技术的应用水平已经达到或接近70%,在营销领域也达到50%,并且在未来的3年中,各个应用领域对该技术的采纳水平都将提高约50%。现在,许多商家都把数据看成宝贵的财富,纷纷利用商务智能发现其中隐藏的信息,借此获得巨额的回报。国内暂时还没有官方关于数据挖掘行业本身的市场统计分析报告,但是国内数据挖掘的在各个行业都有一定的研究。据国外专家预测,在今后的5-10年内,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。众所周知,IT就业市场竞争已经相当激烈,而上述数据处理系列的就业则一枝独秀,数据处理的核心技术-数据挖掘更是得到了前所未有的重视。数据挖掘和商业智能技术位于整个商家IT-业务构架的金字塔塔尖,目前国内数据挖掘专业的人才培养体系尚不健全,人才市场上精通数据挖掘技术、商业智能的供应量极小,而另一方面商家、政府机构和和科研单位对此类人才的潜在需求量极大,供需缺口极大。如果能将数据挖掘技术与个人已有专业知识相结合,您必将开辟职业生涯的新天地!获得SAS全球专业认证将帮助您SAS公司在全球设有269家办事处,SAS的客户遍布全球112个国家,包括2003年财富500强中的96%商家以及2003年福布斯100强中的98家商家,在世界范围内有四百万用户。根据IDC的统计数据,SAS已经在2001年统计分析和数据挖掘软件领域占有36.4%的市场份额。SAS被誉为全球数据分析专家,具有被广泛认知的权威性,多次赢得行业顶级大奖:SAS公司和其用户Bayer CorpScience共同获得2003年度DM Review(美国最具权威的数据挖掘领域的杂志)世界级解决方案奖;被orrest and Sullivance授予最佳商业智能厂商大奖;在财富杂志最愿意为之工作的百家商家排行榜2003年度评选中,SAS再次名列前十名;赢得Customer Interction Solutions杂志颁发的2003年度产品奖;Software Magazine 2003 500强软件榜上有名,并在数据仓库类名列第一;CIO杂志将SAS列为最高投资回报的商务智能解决方案提供商,成为此类调查中入围前十名的唯一商务智能软件供应商;在最新的Giga Research的评测报告中,SAS屡次获奖的SAS Enterprise Miner被评为市场上最全面的数据挖掘解决方案;在IDC“年度全球数据仓库工具预测与分析工具”评比中,SAS从2001至2004年连续四年稳居领先地位.一直被公认为是具有行业优势的、分析标准软件的首选。在过去的二十八年中,SAS公司始终保持着销售收入的两位数增长,SAS公司2003年全球收入13.4亿美元,占全球亿美元商业智能软件市场的,其数据仓库,数据挖掘软件产品具世界领先地位。SAS全球专业认证是数据仓库、数据挖掘、商业智能领域中的权威认证,目前全球仅有3000多人通过SAS全球专业认证,在欧美等发达国家,获得SAS认证并有丰富经验的人才在职场上供不应求,因此,在欧美等国的职场上流行一句话,“If you have a SAS certification, You will never lose your job”。有笑话讲甲乙两人共赴米国,乙怀揣某知名数据库认证,历经半年,寻寻觅觅,终觅到一年薪5万美刀的工作;而甲游山玩水一周即得到年薪12万的Offer,两人机遇何以如此不同?无他,皆因甲拿的是SAS的认证。虽然是笑话,不过可以从中看出SAS认证人员的薪情走向和职业发展空间。目前我国BI市场刚刚兴起,人才供需缺口极大,谁能抓住这个机会尽早考取SAS认证,积累起丰富的SAS应用经验,谁就能在未来的职场拼杀中独占鳌头,笑傲群雄分析:数据挖掘在CRM中的应用田同生 2002/07/26麻省理工学院的科技评论杂志提出未来5年对人类产生重大影响的10大新兴技术,“数据挖掘”位居第三。数据挖掘CRM可以帮助商家建立起庞大的数据仓库,但在数据仓库中进行数据挖掘正逐渐成为CRM中最核心的部分。数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识、模型或规则的过程。对于商家而言,数据挖掘可以有助于发现业务发展的趋势,揭示已知的事实,预测未知的结果,并帮助商家分析出完成任务所需的关键因素,以达到增加收入、降低成本,使商家处于更有利的竞争位置的目的。由于现在各行业业务操作流程的自动化,商家内产生了大量的业务数据,这些数据不是为了分析的目的而收集的,而是由于商业运作而产生。分析这些数据也不是为了研究的需要,而是为商业决策提供真正有价值的信息,进而获得利润。但所有商家面临的一个共同问题是:信息数据量非常大,而其中真正有价值的信息是哪些?这些信息之间有哪些关联?因此就需要从大量的数据中经过深层分析,从而获得有利于商业运作、提高竞争力的信息,数据挖掘就是从海量数据中挖掘出更有价值的信息。数据挖掘技术帮助商家管理客户生命周期的各个阶段,包括争取新的客户,让已有的客户创造更多的利润、保持住有价值的客户等等。它能够帮助商家确定客户的特点,使商家能够为客户提供有针对性的服务。客户获得传统的获得客户的途径一般包括广泛的媒体广告、大量的电话行销、市中心及车站码头的广告牌等。做广告,大多选择读者群和直接目标客户群重叠最大的主流媒体。但数据挖掘可以帮助你改变这些。假设你是一家是生产婴儿尿布的商家的市场部经理,决定采用直邮的方式为产品进行宣传。最传统的做法是先选择一个比较感兴趣的地区,通过信息中介公司拿到这个地区的符合你的条件的商业数据,一般情况你要求的条件可能是:25-32岁的最近购买了婴儿车的人的名单和地址。然后你就会和他们联系,向他们邮寄资料。这是一种非常简单的直邮广告,虽然它比普通的广告经济有效得多,但我们认为这还是比较初级、不能完全令人满意的直邮广告。因为在这些2532岁最近购买了婴儿车的人当中,有很多其它的因素,比如很多人会在他们的小孩出世之前先准备好婴儿车,而他们还没有到决定使用哪一个牌子的尿布的时候。在采用了数据挖掘后,为客户提供的直邮广告的有效性和回应率都得到了大幅度的提高。通过数据挖掘可以发现买婴儿尿布的消费者是男性还是女性,学历、收入如何,有什么爱好,是什么职业等等。甚至我们可以发现不同的人会在购买婴儿车后多长时间开始买尿布,以及什么样的人(婴儿)会购买什么型号的尿布等等。也许很多因素表面上看起来和购买婴儿尿布不存在任何联系,但数据挖掘的结果却证明他们之间有联系。交叉销售现在商家和客户之间的关系是经常变动的,一旦一个人或者一个公司成为你的客户,你就要尽力使这种客户关系对你趋于完美。一般来说你可以通过这三种方法:1、最长时间地保持这种关系;2、最多次数地和你的客户交易;3、最大数量地保证每次交易的利润。因此我们就需要对我们已有的客户进行交叉销售。交叉销售是指商家向原有客户销售新的产品或服务的过程。一个购买了婴儿车的客户很有可能对你们生产的婴儿尿布或其它婴儿产品感兴趣,这很容易理解。但对商家,真正关心的问题在于如何发现这其中内在的微妙关系。数据挖掘就能够帮助商家发现这其中的关系。交叉销售的好处在于,对于原有客户,商家可以比较容易地得到关于这个客户的比较丰富的信息,大量的数据对于数据挖掘的准确性来说是有很大帮助的。在商家所掌握的客户信息,尤其是以前购买行为的信息中,可能正包含着这个客户决定他下一个的购买行为的关键,甚至决定因素。这个时候数据挖掘的作用就会体现出来,它可以帮助商家寻找到这些影响他购买行为的因素。客户保持现在各个行业的竞争都越来越激烈,商家获得新客户的成本正不断地上升,因此保持原有客户对所有商家来说就显得越来越重要。比如在美国,移动通信公司每获得一个新用户的成本平均是300美元,而挽留住一个老客户的成本可能仅仅是通一个电话。成本上的差异在各行业可能会不同,在金融服务业、通讯业、高科技产品销售业,这个数字是非常惊人的,但无论什么行业,6-8倍以上的差距是业界公认的。而且往往失去的客户比新得到的客户要贡献更多的利润。近几年,国内一对一营销(One To One)正在被越来越多的商家和媒体宣传。一对一营销是指了解你的每一个客户,并和他建立起长期持久的关系。这个看似很新的概念却一直采用很陈旧的方法执行,甚至一些公司理解的一对一营销就是每逢客户生日或纪念日给他寄一张卡片。在科技发展的今天,的确每个人都可以有一些自己独特的商品或服务,比如按照自己的尺寸做一套很合身的衣服,但实际上营销不是裁衣服,你可以知道什么样的衣服合适你的顾客,但你永远不会知道什么股票适合你的顾客。一对一营销是一个很理想化概念,大多数行业在实际操作中是很难做到的。数据挖掘可以把你大量的客户分成不同的类,在每个类里的客户拥有相似的属性,而不同类里的客户的属性也不同。你完全可以做得到给这两类客户提供完全不同的服务来提高客户的满意度。客户分类的好处显而易见,既是很简单的分类也可以给商家带来一个令人满意的结果。比如说如果你知道你的客户有85%是老年人,或者只有20%是女性,相信你的市场策略都会随之而不同。数据挖掘同样也可以帮助你进行客户分类,细致而切实可行的客户分类对商家的经营策略有很大益处。 交叉营销的应用 2001年9月份,微软的MSN.com门户网站和迪士尼公司的ESPN.com体育网站签订交叉营销协议( /i/w/2001-09-08/83867.shtml),这一协议的主要内容为,MSN的免费邮件Hotmail 、搜索引擎、聊天和购物等各种网络服务的品牌和链接将出现在ESPN主页的上端,MSN在体育频道中独家使用ESPN的内容,并在其网页上提供优先的位置,以此来达到互为推广的目的。 同样在9月份,IBM和eBay也达成合作了一项合作协议:IBM计划通过eBay扩大自己的销售,eBay将成为IBM向用户及中小型商家进行销售的另一个新渠道,而在线零售商eBay将在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论