matlab数据挖掘技术系列培训课件-版第2讲基础_第1页
matlab数据挖掘技术系列培训课件-版第2讲基础_第2页
matlab数据挖掘技术系列培训课件-版第2讲基础_第3页
matlab数据挖掘技术系列培训课件-版第2讲基础_第4页
matlab数据挖掘技术系列培训课件-版第2讲基础_第5页
免费预览已结束,剩余39页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

©

2016

TheMathWorks,

Inc.第2讲数据挖掘基础MathWorks

中国steven.

数据挖掘技术系列培训课程介绍快速入门第1讲:快速入门实例实用操作技巧数据类型程序结构编程模式学习理念数据挖掘基础第2讲:数据挖掘的过程数据的可视化数据的预处理数据的探索假设检验数据回归数据挖掘算法(上)第3讲:回归算法关联算法聚类算法数据挖掘算法(下)高级数据挖掘技术第4讲:分类算法算法异常

算法第5讲:分类学习机算法的高级使用方法综合使用实例数据挖掘项目实例第6讲:故障生物信息学研究量化投资2内容提要数据挖掘的过程数据的可视化数据的预处理数据的探索假设检验数据回归3数据源定义目标准备数据探索数据建立模型评估模型部署模型数据挖掘流程图(DM-flow)4准备数据探索数据建立模型评估模型部署模型确定商业目标形势评估确定数据挖掘目标制定项目计划背景商业目标成功标准拥有资源需求、假定

风险和和限制

偶然性

专业

成本和术语

收益数据挖掘

数据挖掘目标

成功标准项目计划工具和方法评估1定义目标234565DM-flow(1):目标定义商业问题:基金的回报率太低,如何提升投资收益?商业目标数据挖掘目标u

交叉投资u

向上投资u

目标投资关联规则分类目标分群如何将商业问题化为数据挖掘目标6准备数据探索数据建立模型评估模型部署模型1定义目标23456DM-flow(2):

准备数据收集数据质量分析数据预处理数据收集报告质量分析报告数据

数据集成

数据规约

数据变换7获取数据文件Excel,

text,

or

binaryMultimediaWeb应用程序和数据库C/C++,

Java,

FORTRANCOM,

.NET,

shared

librariesDatabases硬件信号和图像

硬件单机仪器8准备数据探索数据建立模型评估模型部署模型1定义目标23456DM-flow(3):

探索数据变量衍生衍生可能用到的变量数据集

数据集描述数据统计了解变量统计学特征了解变量可视化特征删除部分变量数据可视化样本选择数据降维选择合适的样本减少变量删除统计意义弱的变量9探索性数据分析通过可视化数据分析加深对数据的认识辨别趋势及相互影响Detect

patterns浓缩数据规模变量选择特征变形20MPG40

10

20AccelerationDisplacementWeight200 400

2000

4000 50100150200Horsepow

erMPGDisplacement

AccelerationWeightHorsepower20040002000200150100501040010202040准备数据探索数据建立模型评估模型部署模型1定义目标23456DM-flow(4):

建立模型选择建模技术产生检验设计建立模型评价模型模型技术模型假设检验设计参数设定

建模模型评价参数设定的修订模型描述11模型的训练Data回归分类聚类异常检测模型关联12准备数据探索数据建立模型评估模型部署模型1定义目标23456DM-flow(5):

评估模型结果评估数据挖掘过程回顾确定下一步的工作评估数据挖掘结果被认可的模型数据挖掘过程的回顾列出可能的行动

决策13评估模型14定义目标准备数据探索数据建立模型评估模型部署模型123456DM-flow(6):

部署模型发布结果计划监测和

模型计划生成最终数据挖掘报告项目回顾结果发布计划监测和

模型计划最终数据挖掘报告数据挖掘报告展现项目检验总结15JavaExcel.NETWeb部署程序将其他用户代码给将应用部署到不需要平台的终端用户单机库文件组件.exe.dll.libCompilerBuilder

NEBuilder

EXBuilder

JA16内容提要数据挖掘的过程数据的可视化数据的预处理数据的探索假设检验数据回归17Basic

Plotting050100150200250020406080100120140Weight

[kg]Number170Height[cm]22049462871

441842001801601404868912010051524Weight

[kg]100

200

300

0

200

40020

40

60

20

40

60

0

50

100

0

100

2003002020001004002000604020604020100500200100018数据可视化Basic

HistogramCustom

Number

of

BinsBy

GroupWith

a

Normal

Distribution

Fit3D

HistogramScatter

PlotPie

Chart>>

load

fisheririsBox

Plot19定制可视化0255075100Wind

speed

[mph]20内容提要数据挖掘的过程数据的可视化数据的预处理数据的探索假设检验数据回归21数据预处理的方法22数据缺失值处理1、删除法删除法是对缺失值进行处理的最原始方法,它将存在缺失值的记录删除。2、插补法思想来源是以最可能的值来插补缺失值。常用的有如下几种方法:(1)均值插补。(

2)回归插补。(

3)极大似然估计。23数据噪声过滤1、回归法:用一个函数拟合数据来光滑数据。2、均值平滑法:对于具有序列特征的变量用临近的若干数据的均值来替换原始数据的方法。-0.010500 1000

1500

2000

2500

3000

3500

4000时间(s)-0.00500.0050.010.0150.020.025Current

数据Current原始数据去噪后的数据020040060080010001200-1-0.500.511.52200

400

600

800

1000 1200

1400

1600去噪后的数据300200原始数据200

400

600

800

1000 1200

1400

1600噪声300200200

400

600

800

1000 1200

1400

16000-5-103、离群点分析:通过聚类等方法来检测离群点,并将其删除,从而实现去噪的方法。4、小波去噪:在由小波母函数伸缩和平移所展成的函数

空间中,根据

衡量准则,寻找对原信号的最佳

近,以完成原信号和噪声信号的区分。数据集成数据集成就是将若干个分散的数据源中的数据,逻辑地或物理地集成到一个

的数据集合中。实现数据集成的系统称作数据集成系统,它为用户提供的数据源

接口,执行用户对数据源的

请求。25数据归约数据归约的目的:得到能够与原始数据集近似等效甚至更好但数据量却较少的数据集。数据归约的策略属性选择是通过删除不相关或冗余的属性(或维)减少数据量。属性选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。26样本选择也就是数据抽样,所用的方法一致。在数据挖掘过程中,对样本的选择不是在收集阶段就确定的,而是有个逐渐筛选、逐级抽样的过程。数据变换数据变换是将数据从一种表示形式变为另一种表现形式的过程。标准化数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。其中最典型的是0-1标准化和Z-score标准化。离散化离散化指把连续型数据切分为若干“段”。在数据挖掘中,离散化得到普遍采用的原因有:①算法需要;②离散化可以有效地克服数据中隐藏的缺陷;③有利于对非线性关系进行

和描述。数据变换方式语义转换对于某些属性,其属性值是由字符型构成的,在数据挖掘过程中,非常不方便,且会占用

的计算机资源,所以通常用整型的数据来表示原始的属性值含义,如可以用{1、2、3、4、5}来同步替换原来的属性值,从而完成这个属性的语义转换。27内容提要数据挖掘的过程数据的可视化数据的预处理数据的探索假设检验数据回归28分布情况探索120130140150160170180190200210220010080604020120180160140>>

n

=

hist(data,bins)>>

n

=

histc(data,bins)>>

bar(n)>>hist(data,bins)29分布中心分析20406080100

120140160180200220020406080100120140meanmedianmodehist

+

maxgeomeanharmmeantrimmean306080100120140180160数据的伸展分析rangestdiqrmadminmaxvarmomentle31140150160170180190200210020406080100120608010012014016018020022001020403050607080数据的形状分析kurtosismoment?leprctileskewness1.1575skewness-0.027832关联分析201301406080100120140160180200220160

170

180Height[cm]Weight

[kg]49462871

44184515244868930020010040020006040206040201005002001000100

200

300

0

200

40020

40

60

20

40

60

0

50

100

0

100

2001.00000.44800.74420.79690.23930.17140.44801.00000.24560.59320.89300.88440.74420.24561.00000.60710.0995-0.04010.79690.59320.60711.00000.45580.40660.23930.89300.09950.45581.00000.81760.17140.8844-0.04010.40660.81761.0000>>

corr(X)scatterplotmatrixgname33数据的分组分析130140150160

170

180Height[cm]6040180160200220Weight

[kg]MF>>

gscatter(data.Height,data.Weight,data.Sex)Height

[cm]170160150140MexAm

Hispanic

White

Black

Other>>

boxplot(data.Height,data.Ethnicity)内容提要数据挖掘的过程数据的可视化数据的预处理数据的探索假设检验数据回归35假设检验的使用场景0.010.020.030.040.050.06Men

Women0.010.0150130140150160170180190200210020406080100

120

140160180200

220Height[cm]Weight

[kg]0.020.025Men

Women0.020.040.060.040.160.18Men

Women0-20-15-10-5051015200-20-15-10-5

05101520

weight

[kg]

height

[cm]0.020.040.060.040.160.18Men

WomenH0:

men

are

notaller/heavierthan

women361H

:

menaretaller/heavier0.005H0:

women

correctlyreport

their

weight1H

:

no

they

don’t假设检验1301401501601902002100170

180Height[cm]0.010.020.030.040.050.06Men

Womenttestttest2vartestvartest2vartestnztestttestttest2ztest>>

[h,p,ci,stats]

=

ttest2(hmen,hwomen,0.05,'right')ttestttest2normaldistributionstestingmeansunknownvariancecomparingtwo

samplesttest237内容提要数据挖掘的过程数据的可视化数据的预处理数据的探索假设检验数据回归3810203040506070800204060

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论