《大数据分析与挖掘》第2章大数据挖掘的实施过程_第1页
《大数据分析与挖掘》第2章大数据挖掘的实施过程_第2页
《大数据分析与挖掘》第2章大数据挖掘的实施过程_第3页
《大数据分析与挖掘》第2章大数据挖掘的实施过程_第4页
《大数据分析与挖掘》第2章大数据挖掘的实施过程_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2022年-2023年最新

大数据技术在企业创新背景下高

校物流人才培养中的转化与应用

02大数据挖掘的实施过程

主讲;朱明

高级I:程师、高级技师、国家经济师

高皴国家职业技能签定考评员

高级技能专业教肺

朱明■■百度中大主页朱明工作室

□知足常乐,历经:兵农医工商学。

□历经:兵团开车,赤脚医生、教师、地方修车,

□企业管理:技术、运营、物流、安全、保卫,

□职任:客运站长、公司经理,集团技术总监,

□总经理及法人代表。

口学历:本科、MBA,

□专业:汽车维修与使用、企业管理、经济管理。

□职业资格与职称:高级工程师、高级技师、国家经济师、

高级技能专业教师、高级国家职业资格考评员。

管理科学研究院特约讲师、

口管理顾问有限公司高级讲师。

□客座任教:大学、技师学院、国家职业资格培训与考评及企

业内部职业培训。

2022年-2023年最新

l^arti.

数据挖掘5A过程模型

2022年-2023年最新

数据挖掘系统的典型结构

2022年2023年最新

数据挖掘过程

问题理解建立模型模型应用

・■

数据收集评价模型

数据挖掘是一个从大量数据中抽取出有价值的信息或知识以提供决策依据的过程。

2022年2023年最新

数据挖掘的过程模型

•SPSS5A标准模型

•AssessAccess>Analyze、Act、Automate

•强调的是支持数据挖掘过程的工具应具备的功能和能力

・SAS的SEMMA标准模型

•采样Sample,探索Explore,修正Modify,建模Model,评估Assess

・强调的是结合SAS公司的挖掘工具进行应用开发的方法

・数据挖掘特别兴趣小组的CRISP-DM

•Cross-IndustryStandardprocessforDataMining

•从进行数据挖掘方法学的角度强调实施数据挖掘项目的方法和步骤,并独立于每种

具体数据挖掘算法和数据挖掘系统。

2022年2023年最新

数据挖掘5A过程模型

•5A模型认为任何数据挖掘方法学都由5个基本元素组成

•Assess:正确、彻底的评价任务的需求及数据。

•Access:方便、快速的存取任务所涉及的数据。

•Analyze:适当、完备的分析技术和工具。

•Act:具有推荐性、有说服力的演示。

•Automate:为用户提供最易于使用、最方.便的自动

化软件。

2022年2023年最新

•Analyze:分析工具应该具备两类分析方法和工具

•发现型方法和工具包括基因遗传算法、规则推导、模糊逻辑、数据可视化、聚类算法、

因素分析、神经网络、决策树等。

•验证工具检验发现工具所产生的结果是否合理。验证方法和工具包括回归、逻辑回归、

判别分析、预测建模等°

2022年2023年最新

•理想的数据挖掘软件应该具备这两类分析方法和工具,同时应该包括下列分析特性。

•统计过程、范阳和深度较强,应包括预测、分段、分类等.

•集成商业和统计图形功能、具备多种可选的2D/3D图类,能用数据定点模式显示和跟踪等.

•辅助分析的模版、过程导引、示范、在线帮助等,能帮助分析员快速选择和获得结果。

•数据、文件、中间结果管理功能.能合并和分离文件、选择数据J'•集、处理数据缺值、净化、改善数据完整性、

支持IF-THEWELSE条件操作。

•数据转换功能。有一组完备的转换函数支持变量/特征和条件的计算,可以重复计算、编辑原来的变量/特征。

•可载流的工作环境.有脚本/宏语言支持的可重复任务的自动化、批处理及其菜单按钮功能,以支持一般用户快速

使用。

•灵活的动态输出。表结果可以转动和轮换,易于观察数据全貌和用鼠标重新组织表数据,以便于清晰的提交、观

察、探索数据结果并做进一步的特殊分析。

•基于线性回归和AN0VA的覆测性建模,具有相关性、分类分析、预测等基本分析功能.

•插件/模块功能。可以提供特殊的功能模块,以支持特定的分析。

2022年2023年最新

•Act:数据挖掘软件应该提供下面的演示特性。

♦I完好的集成图形功能,以提供专业级的演示。

・IOLE支持,以易于嵌入图表节省报告时间。

•INTERNET特性,以易于图表的网上传输和本地察看。

・I演示模版特性,以节省编辑时间。

♦I特殊查询功能,以利于快速提供附加的分析能力来响应用户的提问。

・I报告注解功能,以加入注解到报告中。

2022年2023年最新

•Automate:软件应提供以下自动化功能:

•OLE自动化开发者的机制,允许用户在通用代码级(VB、EXCEL、ACCESS、PB等)使用

软件。

♦I内建编程语言/脚木/宏,使用户可以方便的创建H己的应用。

♦I制作能力,能编写产生日常报告的命令行文件。

2022年2023年最新

Karta.

数据挖掘CRISP-DM过程模型

2022年2023年最新

数据挖掘CRISP-DM过程模型

・CRISP-DM模型是由数据仓库提供商NCR在丹麦的SEC公司,德国的汽车、航天航空、电信和

咨询业公司DAIMLER-BENZAG,英国的数据挖掘系统开发商ISL(CLEMENTINE的研发商,

1998年其成为SPSS的子公司)以及荷兰最大的银行、保险业公司0HRA等相关开发和应用行

业的跨国公司和集团所支持(并由欧洲委员会部分支持)的一个特别兴趣小组在1997年7月

到1999年4月间研究后提出的。

•由于其直接动机是将数据挖掘技术转化为商业应用,所提出的过程模型均在项目中进行实

际实践和验证,因此具有一定的代表性。

•CRISP-DM模型采用分层方法将数据挖掘生存周期分为顺序不严格及可循环的6个阶段

(PHASE)和4个层次(LEVEL)。

2022年2023年最新

•CRISP-DM模型6个阶段为:

•BUSINESSUNDERSTANDING(商业理解,从商业角度理解项目目标和需求、问题定义、设计初步计划)

•DATAUNDERSTANDING(数据理解,熟悉数据包括识别数据的质量问题、找到对数据的基本观察或假

设隐含的信息来检测出感兴趣的数据子集等各种活动。)

•DATAPREPARATION(数据预处理,覆盖了从数据构造到最终数据集合(将要输入建模工具的数据)的

所有活动,包括任务包括表、记录属性的选择以及为了适合建模1具的要求对数据进行的转换和净

化。)

•MODELING(建模阶段,选择和应用建模技术将参数校正到优化值)

•EVALUATION(评价模型、考察执行步骤并确信其正确地达到了商业目标)

•DEPLOYMENT(扩展阶段,可以简单到只生成一份报告,或复杂到实现一个可重复的数据挖掘过程)

2022年2023年最新

•CRISP-DM模型4个层次:

•阶段划分(PHASE)

•定义通用任务(GENERICTASK)

♦定义专用任务(SPECIALIZEDTASK)

•处理实例(PROCESSINSTANCE)

•每个PHASE由若干GENERICTASK组成,每个GENERICTASK又需要实施若干SPECIALIZEDTASK,

每个SPECIALIZEDTASK由若干PROCESSINSTANCE来完成。

•上两层独立于具体数据挖掘方法,即是一般数据挖掘项目均需实施的步骤(这解决了

“WHATTODO?”的问题),

•卜两层注重解决如何完成仔个阶段所要完成的任务和任务的输出所要求的必要映射活动

(这用于解决"HOWTODO”的问题)。

2022年2023年最新

数据挖掘基本步骤

2022年2023年最新

数据挖掘基本步骤

•TWOCROWS数据挖掘过程模型同CRISP-DM模型的基本数据挖掘步骤:

1.业劣理解(businessundtfstmding)

确定目标、明确分析需求

2效播理解(dataunderstanding)

收集原始数据、描述数据、探索教据、检脸数据质至

3.数据准备(datapreparation)

选择数据、清洗数据、构造数据、整合数据、格式化数据敷据准备

4度立模型(modeling)

选择建模技术、参数训优、生成测试计划、构建模型曜立模型

5.评估模型(evaluation)

对模型进行较为全面的评价,评价结果、重审过程

6.部界(deployment)

分析结果应用

2022年2023年最新

理解业务背景,数据收集数据探索选择方法、工隹评估分析结果应用

评估分析需求敷摘清洗数拼转换儿,爱立,曼分析梯曼改进

•救摘收集:•茂立模型:

•理斛立分皆激:•*<*#:•庵模过程评估:•结果及用:

抽取的我界必顼起综令考虑走多再求时模型的梢度、将模型应用于

数拱分析的求点运用统计方法的袤

够正确反映业务禽精度、敕据清人、浅稀枝、效率和业务实战,才

足服务于业务奇据进行探索,发现

求,番则分析*论花侪版本等目素,花实况戴措分

求,如果没有土栽措内斗规律.道用校遂行评

会对业务杼送礼法选排取今日埼堪型.折的真正价也:

等理斛,饿乏Jt住.,

导.在实践中*■一个产生商金价以

务摘不,会导致•«*#<:if

为了达到槎型的输分析日的,atti£,模型结杲升*:和解决*务司

分析无法落地.•敦/清洗:

人我拼妥•求,警安用多个犊塞,伏后评估是否有遗漏题.

原始型:揩中在在我的业务.标个跳

•评估业分善水:的就馆达行W装,通过后法栉美剪评

果是否凹备了当

撵皎失和坏敢讲,也标生版衍生变:J、估,进行优化、阳•模型改通:

科斯分析需求更

如果不处JI会导致一效化、林值化等.隹,以寻求我令过初付业备用建,时候型应用火

¥7以“排为我模型央it.25此计的排型.需叁妹令息**果的及时取绿

措分析项N,臬歙悄地过过史•去家送什评估.和反馈,以使

些常求足不能有喽“从而提取出有於期的镁曳书

效转换为敢拼分败数摘隹和优化.

析项目的,比为

不符令商业逐林、

忖拱不足.4tt*

盾攵板片.吊.

2022年2023年最新

数据麻析框耦解数据准备定立模型模型评估

场方横误屋

开始类KNN算法

奈再

与SVM算汰均才误W

枚条教品正战事统计

EJQ

神经同均

C45决袁树

JI解业务宵•景.浆

据间上导度

许估分析翕求臭

分蟀内相似及

析业务杼令度

是不明FPprowth算决

硝常求K

Apriori鼻决

敕据法析

教拼转换

“指戴平清

支科向玄机

是不满壑

足叁求

分析站

化果感用

图例流程概要方法分类处理方法模型检验

2022年2023年最新

•定义商业问题

•数据挖掘的最终目的是希望从技术和商业角度为公司建通•个能够理解和实施数据挖

掘的工作环境。

•数据挖掘的成功,并不在于特定工具和算法的选择,而是一个合适的环境。

♦企业所处的商业环境往往在战略上、顾客定位、数据仓库建立、市场定位、生命周期、

分析技术等方面各不相同,成功的基础必须是基干对数据挖掘与商业规律良好结合的

环境,建立自己的挖掘平台。

2022年2023年最新

语义层数据结构业务数据库

终・用户

鹿业元第

・终用户

信息系统人员

商业理解体系的核心'—语义层

2022年-2023年最新

建立数据挖掘库

•建立数据挖掘仓库、分析数据、选择变量构成数据预处理的核心,这三步比其它所有的步

骤加在一起所花的时间和精力还多。

•数据准备工作大概要花去整个数据挖掘项目的50犷90%的时间和精力。

•是否需要建立数据库管理系统要根据要挖掘的数据量的大小、数据的复杂程度、使用方式

的不同而确定

•构建独立数据挖掘库可以把挖掘结果回写进数据仓库,供OLAP工具展现使用。

2022年2023年最新

•数据挖掘系统可作为独立系统存在,也可收集到数据库或数据仓库中,一般不直接在公司

数据仓库进行数据挖掘的原因:

•1)数据仓库中数据量很大,包括许多不是目标任务相关。

•2)数据挖掘可能涉及数据仓库不同表,直接挖掘将影响数据访问性。

•3)数据挖掘需要反复进行对模型进行优化。

•4)数据挖掘可能需要对变量进行转化(如神经网络需要对非数值型变量进行转化),

而数据仓库不支持更新操作。

•5)多个同步进行的数据挖掘主题需要数据仓库增加相应控制机制。

•6)影响数据仓库系统定期地数据刷新、对OLAP系统的支持等其它工作

2022年2023年最新

•建立数据挖掘库的内容:

•数据收集(数据搜集报告(数据源属性报告))

♦数据描述(字段/列数目;空字段(缺值)数目/百分比;字段名)

•选择数据(把冗余或无关的数据除去或由于资源、费用、数据使用和质量问题等限制

而做出选择)

•数据质量评估和清理(确定数据性质影响最终模型的质量,保证数据值的正确性和•

致性,处理错误和空缺值)

♦数据合并和整合(不同源、冲突定义、重复字段进行整合和集成)

•构建元数据(利用元数据管理工具或自己设计元数据库为分析数据及建立模型提供辅

助信息)

•数据加载到数据挖掘库

♦维护数据挖掘库(定期进行数据备份:监视挖掘库的性能;维护元数据;调整硬件性

能)

2022年2023年最新

•错误与空缺值弥补方法:

♦a.根据其它字段来推测,如通过身份证计免出客户性别

-b.计算非空值后代替空值数据,如平均值替代。

・c.使用非空值统计特征来填充空值数据,如按非空字段35%男性和65%女性比例随机赋

♦d.以缺值字段为预测目标、用数据挖掘技术建立预测模型、按照模型预测结果添值。

•e.利用以往经验、行业规则或挖掘规则进行空值填充

2022年2023年最新

数幅清洗A娄t据探索

♦饮业此条。勺方法茎种方杵,衣丈不用讦■迷。在时出1维。勺故切进彳亍分析师,

-臭明确戏班英型、初L般,河i•数据有初步理解,问啊"妄对极据中的“噪:声”母行•

处理、以克才寺名■续挺赤叱球。

*见便京

•侪证将证,

•分布价,析

-站构牝化

1K

线

S

2022年2023年最新

数据清洗:1.异常伍判另H

敷上消■洗,g箓一步乱识洌会影响分析•共来g.井•常”锻,据,密后判断歪否别除•.

------堵打更2岁,J沙卜去统计¥,J刈】法

根据人仇*J存氾*如、业步了■,.九行"St一个宽估权小・开利)5t一个支估限.凡

。勺认虫(,-F-J刈山-「夕卜界干叔.、人为4a£1此JmMH奚AL.就"人为它不",-JI也△儿4更».

以及好腐固壮戊宾州桩小口离』不*他闺,忖共-机为井审他.

会占来,川防井有伏。疗用g方法<-«,4*4^iS»-TF]一分布.且足,■态

比丰交田对k的):好依.达治.如、闿,住物;住则、格拙布■所

>住>1"、枕光丑彳仁贝,】、i检淞。

•快空对祎删除异常企:为;成少犯铝t类妁树率,《r至什统计判刘法站合便用.

并尽力与■技,并花作L出现妁原闷;者有多个井常伯.,应逐个删除.即删除一个

异常做■后,为再行检核后方可再册】除■另一个笄常仗•

•检验方法以正右分布为时证,法或捱俱离年后分布或样本机,J、时,则检3**

呆呆必可作,极.我足行正本分布"偌助VT力位验、r>/金品t

12

2022年2023年最新

31才法打刈公大»'J喙旭国撵作少Mt评价

庆功伍、杨壮JL,比行边界检松.运令H]于nAis^X0勺

4t住达渔则-•:

p»1<“1a3b)SO.OO?小了卜4・3。«1像一个外审社拉.桃后£扎撵作.样本列比

(3。淞刚)连一削除

火,x9Zc(n)od«水功值.料;系做恢根京N六Zc(n)--3.»JX

育维初淮训|.v-x|>ZA*(/I)€TIt.4.HL-J

JMZc(ti)oZc(n)<fL,地外油仪.剃除一个》合中.*4n<J(2、1、对

(*收.・#则)力微妙.然QTTIL伸什,出一别峰Z•小)则此收”d

赊于干:逐一川刈汴则蛛达”物除小乎。9然评:TTn.co伍与安&M千次

|z.-W|Ay<o.»QTH,JS.H齐小便检if:,卜千,仁依次职欢n".就估E*〃小在大•

|v-v|a7<n.cxycr

除水手g侬怵,户归壮年阳在论尸嚼,金小宝更B

让不断在喇孙石准B:水干■:

H给以“"工,”不忙种工.则比栓.也除,■占n处尸【NLIMf]

-|■—«|

勺不叫除4。也”AiC.4K4X,2&W令<4=0.05,/c"J【,・

索・奥收词.04,・W・2",,。■!R温外

-3F*<«««1Ml,~一A]e|"l1.

枚”

、'•Q■

99>°***<I>roAfTg》.比5样做”舟小日尼知人・序iut什全.-K舟R他只力一个”•收

waM"达.Mi-rj«鼻.此对伙牝yj;如A1生JKf(da)m,册,r■:何便四心6*44*

•7—N,-Ni)

秋儿过沧则二坟以4麟为务若奴边外枪麻,切除一个畀••和械4肝,然右圮・力攵来不£

K

-«~,—141J«•豆烽昨.£一“除*n处于(3・25)».到

*1Ct采42也于

|,1.

|K…―■|>A'«,,,cr)0分划枪哈in太、n小M执■计序不畀*优只有一个时•

与gs.力佰令放怜的疑大八n小,攵1找“的功依址聚“;阳口|,巧个业

皿|・"T|-A*(n.

二1A"”.6》J雄41'X,嗅一仙・6X则15A*STMMM,&♦0・线T

不好:⑶向)#・49垃

十检极大验F功枇的

泅矮方法丁以有过前

峰向何**仇g盯f

2022年2023年最新

数相清洗:2.

/L微小力大失产不时,於利-分析钻票送成校大¥3,佝.IA]*匕走十«•]除的井田伸以及会夬

失它1,兴氽用合3里g方法进行填补,制池妁方法有平均仆L境充、K姓近N叵离法、3

后法、板大彳以线估计法等

权大XI归3

千功位从尢K收近*力0衣★杨,卜总

%WW2卬K

S-八•.-•:7**'*••J2乜A-m八机制TAS

n所仿时案《人与咨徒<

•大分忻定印会W.?・;tA2代州T4¥WJQ)?S*代"用•一个4<

~岐人力桁内决式&也

M4VH哽

台S

•极小,京<tfA»ma•工Ii\M-S・供总号・彳尸*乃

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论