埃森哲如何利用大数据进行数据挖掘与分析_第1页
埃森哲如何利用大数据进行数据挖掘与分析_第2页
埃森哲如何利用大数据进行数据挖掘与分析_第3页
埃森哲如何利用大数据进行数据挖掘与分析_第4页
埃森哲如何利用大数据进行数据挖掘与分析_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

资料解读

在当今信息爆炸的时代,大数据已成为企业获取竞争优势的关健资源。《埃森哲如何利用大

数据进行数据挖掘与分析》为我们揭示了数据分析的深层逻辑与实践路径,提供了一套系统

的方法论来挖掘数据的潜在价值。详细资料请看本解读文章的最后内容。

数据分析概述

数据分析是将原始数据转化为有用信息,再进一步成为支持决贾的知识的过程。这一过程需

要数学理论、行业经验以及计算机工具的紧密结合。随着技术的发展,数据分析已经从传统

的结构分析、杜邦分析等模型.发展到数据挖掘、商务智能和大数据技术等更为先进的手段。

数据分析工具

数据分析工具的发展,使得非技术背景的人员也能够快速实现数学建模,响应分析需求。这

些工具将复杂的分析模型封装,简化了操作流程。

数据挖掘

数据挖掘作为数据分析的重要手段,利用统计学和人工智能技术,挖掘数据背后隐藏的模式

和规律。它与机器学习相结合,能够在大量数据中自动发现数据规律.但同时也需要对模型

的数学原理有深入理解,避免错误的分析结论。

数据分析方法

数据分析方法包括数据清洗、数据探索、数据转换等步骤,数据清洗涉及异常值判别和缺失

值处理,而数据探索则通过数据特征描述、相关性分析等手段,为数据建模提供依据。

数据分析框架

CRISP-DM作为业界广泛认可的数据分折流程,包括业务理解、数据理解、数据准备、建立

模型、模型评估和部署六个阶段。

数据清洗与数据探索

数据清洗是数据分析的关键步骤,包括对异常值的识别与处理、缺失值的填补等。数据探索

则通过数据特征描述、数据分布特征描述等手段,为后续建模提供输入依据。

数据转换

数据转换涉及数据泛化、标准化、属性构造等方法,目的是将数据转换成适合挖掘的形式。

分类与回归

分类是将数据根据属性特征归类的过程,而回归则关注一个或多个自变量与因变量之间的相

关关系。

聚类分析

聚类分析将数据分组,使得同一组内的数据尽可能相似,不同组之间的数据尽可能不同。

关联规则

关联规则挖掘数据项之间的有趣关系,如市场购物篮分析。

时间序列分析

时间序列分析关注数据随时间变化的规律,预测未来的趋势。

结构优化

结构优化通过遗传算法、灰色理论等方法,优化数据分析模型。

数据分析支撑工具

介绍了Eviews、SPSS、SAS、Stata.Matlab.R等多种数据分析工具的特点和应用领域,,

数据挖掘工具

详细讨论了SAS、SPSSClementine.R、Stata.MATLAB等数据挖掘工具的功能和应用。

数据分析发展历程

最后,文章概述了数据分析从原始的数据处理到现代的大数据吱术的发展历程。

通过这篇文章,我们不仅能够理解数据分析的理论基础,还能够掌握实际应用中的各种工具

和方法。数据分析已经成为企业决策、风险管理、市场洞察等领域不可或缺的一部分“

接下来请您阅读下面的详细资料吧。

埃森哲

如何利用大数据进行

数据挖掘与分析

风控在线整理发布

概述

❷数据分析框架

®数据分析方法

CONTENTS

Q数据分析支撑工具

概述

■数据分析

accenture

即从数据、信息到知识的过程,数据分析需要数学理论、行业经验以及计算机工具三者结合

忤MR

各裨厂商开发了蛔8分析的工II、模块.将分析数据分析的8«也柘整理'描

〜型封装,使不了螯校本的人也能笫快拙的实现述.预滞数宏的手段.遂祝抽

数学建模.快速响应分析需求.能为数学模型的逗论知识

•机器学习

不需要人过多干HI.通•传雄分析

过计算机自初学习,发

在败空宣较少时,传靖的

况数据睨律,但结论不

睢分析已能落发观教冗

氨控制.

中包含的知识,包括结内

分析.杜邦分析等模型.

数据挖史方法成为,应用广泛,本

数据电超是挖IE物E背后层文不展开介绍

*fi涧加诙要手段

•行业经验

•分析误区行业经验

行业收殓可在敷至分析前一定分析突

不了解分析横盟的数学原理,会6致悌求,分析中检验方法是否合理,以及

误的使用嚷里.而得出错误的分析ta论.分析后指导应用.自行业特征不同.

影响业务决策,因此在选用分析慢里时,

R应用也不同,因此本文不晨开介绍

费深入了解读镇里的原理和使用取(w

数据分析accenture

随着计算机技术发展和数据分析理论的更新,当前的数据分析逐步成为机器语言、统计知

识两个学科的交集

酸墀分析工H传统分析

各种厂商开发了数据分析在数袍・较少时,传统的

的工日.模块,将分析模数据分析已能够发现数据

型封装,使不了解技术的中包含的知识,包括结构

人也陋够快捷的实现数学分析,杜郎分析等模型,

建模.快速响应分析需求.方法应用广泛.本

文不展开介绍

•信息处理业务数据敷掘颈

信息处理基于查向,可以发就是充分利用了统计学和人工

现有用的信息.但是这冲逡W快技术的应用程序,并把这

询的回答反映的是直接与放些高深凝余的技术时我起米.

在数据库中的信息.它切不使人1]不用自己掌握这些技术

反映复杂的模式,或电戢在也能完成同样的功耗,并且更

数据库中的规ft.专注于自己所要解决的问题.

数据分析accenture

随着计算机科学的进步,数据挖掘、商务智能、大数据等概念的出现,数据分析的手段和

方法更加千富

常规分析数据挖掘商务智能大数据技术数据可视化

•图示<«之间的I肱关系•统计学和计■机技术等多•一的以人为支持,・“w埒Rsnnami.•大败黑示做

•分析过程滞后学科的结合磁鸟财术也快速佚取知定的瞬力X可以JBW脩助时

方法,曾用名包》专家R£.滴缉践况

・附敬卸货量要求高•播示数雄之间HNB的关系•哂组技术断在

系就.智施决贸等

结构分析•将IM8分析的砌从-B

HF丁雇到•未XT.从・Tfi由BQK仓库.联巩

分眼

分也分析过去.»R•格奈•ar

数据雷但2恢复等部分

»»分析3

杜邦分析•对数重分析的体系化管

理,物8分析的主体依

然是效粼范在

本文田联故再分析的流程后,叫介%通用的》用分析方法和球的应用口I.软件.

■的桢蛇大.数裁分析密6证处于飞速发第期.因此本文的方;〃Ml于“社

HIFWVM.

数据分析框架

■数据分析标准流程

accenture

CRISP-DM为90年代由SIG组织(当时)提出,已被业界广泛认可的数据分析流程.

1.业务91K(businessunderstanding)

确定目标、明确分析需求

2.数据3M(dataunderstanding)

收集原蛤数格.猫述数据、探索数岷怆蛇数娓质■

3.数据准备(datapreparation)

选择数JR.清洗数据.构造数58.整合数据.格式化数据

4.建12€(里(modeling)

选择it模技术.参数调优.生成测试计划.构it模型

5.评估横量(evaluation)

对模型进行较为全面的评价,评价结果、重审过程

6.8HI(deployment)

分析结聚应用

数据分析框架accenture

业务神数据准备模电福K->

理解业务88L数器收住1数抵媒案选择方法.工Jt横过积评估分析结果应用

那古分析需求教据清洗»E«»具,建立横生播型结果评估分析粮型改进

awiMH*:•tm收.•9#B«:・11立模9t・国懵过g评估:•结果成用:

数用分析的本钱他取BSCI第匕闻版计方;1M数疗合考虑业务需求对模型的理度.押1盥府用于

是■符于业务震够正•反lift业务需案迸行探案.发现H®情笈.«*n.处3a业务实践,才

«,SQJ电夕口业求.令划分析稿论数电以,.花费成本3阴臬.通J地进行部估.能女观的8分

会对业务将造成以选择■台卸油型.

务定■,或乏业析的*正价■:

务再寸,会导致号.•1MSK*在女残中对手一产生育亚价・

为了达到噢物部分析目的,往往通・横效8事海伍:和解决或务何

分析无法•忠

•ms清洗入就更要求MC用多个嗔空,然后阳A星否有道遍勤.

对款板逆行后族.

用隶।原建数JK中存在数词词后也柳•由厚的n名.模立抬

定找夫W邪11里.包括生成行生堂■、估,itt行优化调我是苦回答了刍•也笠也遇

划断分析需求是

B缨不处理会号依一致化.标灌化等.g.以寻求最合i2贿业务瓯对模也阴效

否可以将用为数

因比时的》祭.需要场合业务专果的出,即

■分析项目,MtWBN时讨过.去和版QB,以便

些常求及不“白山从而81取出杳后期的横里汹

效药模力微■分整和优化.

析理目的,比第

不符合◎业复..

致累不H.15索

陵量税差等.

数据分析框架accenture

业务理解>数据理解数据准备〉建立模理〉根型评1古

均方梯纵t

开始类KNM^

均方设龙

与SVMW;i

正闻联计

同贝

mwte;

待出设C45aM«

9*业务MILX

"।航间祭舟度

泮估分析需求弊

分桢性i।舒期用庾

分gM寇I[

业务符合度

培梅分析析।.।

关…*—।

FPgrowth■法!

a联

交精度

s分Aprkxi,法

■信度

a析

数叫换

时均方根索舞

覆1坪清

序支持宿■机均方误差

・正格聿皖计

£

构■灰色北论

优遗传.法

数据分析方法

数据清洗&数据探索accenture

数据收集的方法多种多样,本文不再详述.在对收集的数据进行分析前,要明确数据类型、规模,对数据有初步理解,

同时要对数据中的“喙声"进行处理,以支持后续数据建模.

的据探索

•特征搔述

•分布推新

•结构优化

•数据清洗和数据探索通常交互进行

•数据探索有助于选择数据清洗方法

•数据清洗后可以更有效的进行数据探索

数据清洗:1.异常值判别accenture

数更清洗的第一是识S!l会影响分析结果的“异籽数虹然后判断是否别院目前常用的识别异常数据的方法有物理

列别法碱计判别法

物理判另明去境计判甥去

•根据人们对客观事物.业务等已有的认蛤定一个■信概率,并确定一个■信限,凡超过

识,判别由于外界干扰、人为误差等原此限的误差.就认为它不属于SS机误差范星L将

因造成实测如S偏震正常结果,判断异其视为弁常值.

■僮.身用的方法(效去来舞于同一分布,且是正态的):

•比蛟困藕拉依达渣5!!!、肖维勒都叫、格拉拈斯港则.狄克

逊准则.t枪舱.

注意

•慎而对待删除异常值:为减少犯错误的概率,可多种统计判别法结合使用,并尽力寻

找异常值出现的原因;若有多个异常值,应逐个删除,即删除一个异常值后,需再行

检睑后方可再》!除另一个异常值

•检监方法以正态分布为前提,若数据偏离正态分布或样本较小时则桧喊结果未必可

靠,校幼是否正态分布可借助W检捡、D松蛤

13

常见统计判别法accenture

判别方法判别公式剔除范围如评价

大介+3。求均9、标准差,进行边界检绘.也除一适合用于n>185附的样本

拉依达准则J・・|■$OOM

小于丫・3。田常散跑.然后・短操作,逐一觐歌判定

(3。准则)

大于U♦Zc(n)。小于p求均值、标潴建,比对系JRUM?Zc(nMB,交际中Zc(n)<3,奥算合理,

岗雄勘准则(9|>4-1|>Zr{N)a

-Zc(n)o边界桧蛇,副妹一个异像数据,然15・一掇当啾于[25,185)时,判别

假率准眇作,逐一副联败颇

•1除水平逐T删旃除达冽瞬水平的计对达到T(ma)・与E8或次蜘)及

卜.-•]>/(•号常■唉出水平,但未及翻除水又的败况,应尽・伯亚率山钟1关.即怆严呢.

Ji,"«|>'(■•)0■峨W冢曝因,给以修正,若未椀修正,期比株率意义势丸当选F125.

格拉布斯准则异常怆出水平:

()较1嫌与不的统i怪论,反抵是否符8客观185]Ka=0.05,当3.

r•.«,«<|«->]慎如去留选播25]Wa.OO1,判较好

<r(».«,>r

10>«aa),说阚n)腐再的8由小耿排成酷1嗽计窗,求极总比对异常.只刊f«,效果好;

Wia.剜则定谖敷我为欢克切断去读取1(<\。)值,边界检蛭,删除一屈负两个岫技近,效祟不好

狄克进准剜个RMB®,然后・•HHT,逐一辎当碗于[3,2SJH,判别效

*(*>-«a»

最大.♦小数虢与均分别检物■大.ikJBS据.计H不含祓检验异第值只有f时,效果

T梏威|a.r|>£(«•»役要q偎大或最,」曲据时的均值及标催差,逐一利好;同《(两个极段数据增

大于断并*除异常值近时,效JB不好;因而有

口■(

4|«•£a•”•M3时通过中位JS代营平均致

的调整方法可以有效消除

向创异常值的影峋

数据清洗:2.缺失值处理accenture

在数据缺失严更时,会对分析结果造成较大影响,因此对副除的异觉值以及缺失值,要采用合理的方;去进行填补,常见

的方法有平均值填充、K最近距离法.回归法、极大似雌计;去等

徽大*台纣

先翻8次或距离或唱关鹏于完整的甥K集.建在培定完全赛度和前一由包含m个制Ml的向

象K有相同决戢♦性管分析.定卸I小数噩立回归方程(桢型).次送代所网到户•数估■代苫的一个》失值,

的对象)的平均0集编样本♦逅的K个锋本,对子包含交9的对做.计的情况下计■完全依烧后对新产生的田数

充该缺火的M件值将这K个值M权平均未将已为“任值代入力程BC对应的对皿1然由依史第使用相日的方;去处

<5计收失数却t来估计未知・住修,以的条竹期望(E步).»,将总收1理培果后,

此<A计值来遇行加充;后用极大化为数部耨的嫁母2累,最终将期

但当变量不是物性粗关数以•定餐0JML并目标交・£淞计

或网受相关时用于下步的送弋(M步)

会会估ItiW

随着数JB量的增大,异常苴和缺失值对整体分析结果的影响会逐渐变小,因此在“大数

据“模式下,数据清洗可忽略异常值和缺失值的影响,而侧重做据结构管理性的分析

数据探索accenture

通过数据探索,初步发现数据特征.规律,为后续数艇建模提供输入依据,常见的敌招探索方法有数据特征描述、相关

性分析.主成分分析等.

数据特征描述accenture

■中心位・

♦MB

中中位皿四分位12

o19a

■分散程度

。方维和标准*

❖tM.QStt*

<,标准分数z-score

❖国敬系效

数据概率分布accenture

概率分布可以表述随机变星取值的概率规律,是掌握数据变化趋势和范围的一个重要手段.

离敝虫灼为分布m—f离皿覆率分布,只中丽个数债所怕内的慑事

1.在电次试堆中只有期粗UI6的忸蟆,而对立的;

2国次交出困立的,与X它各次试的结果无关;

3站里事件发生的15率在解个系列H蛤中保挎不变.财这一系创弱蹄为M力区轴.

以下的特用敝叟概率分花中的一种:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论