Clementine 第二讲_第1页
Clementine 第二讲_第2页
Clementine 第二讲_第3页
Clementine 第二讲_第4页
Clementine 第二讲_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、ClementineClementine的数据读入和集成的数据读入和集成主要内容n变量类型变量类型nClementineClementine数据的读入操作数据的读入操作nClementineClementine数据的集成操作数据的集成操作变量类型n从数据挖掘角度看变量类型:数值型变量、分类型变从数据挖掘角度看变量类型:数值型变量、分类型变量(定类型、定序型),量(定类型、定序型),ClementineClementine中的变量类型:中的变量类型:n连续数值型(连续数值型(RangeRange)n二分类型(二分类型(FlagFlag)n多分类型(多分类型(SetSet)n定序型(定序型(Ord

2、ered SetsOrdered Sets)n无类型(无类型(TypelessTypeless)n离散型(离散型(DiscreteDiscrete)n缺省型(缺省型(DefaultDefault)ClementineClementine变量状态:变量状态:非实例化:变量的存储非实例化:变量的存储类型和取值均未知时类型和取值均未知时半实例化:仅知道变量半实例化:仅知道变量的存储类型,但取值范的存储类型,但取值范围未知围未知实例化:变量的存储类实例化:变量的存储类型和取值均已确定型和取值均已确定变量类型n从计算机存储角度看变量类型从计算机存储角度看变量类型n整数型(整数型(IntergerInte

3、rger):存储整型数):存储整型数n实数型(实数型(RealReal):存储小数):存储小数n字符串型(字符串型(StringString):存储字符串型数据):存储字符串型数据n时间型(时间型(TimeTime):存储持续时间数据):存储持续时间数据n日期型(日期型(DateDate):存储日期数据):存储日期数据n时间戳型(时间戳型(Time StampTime Stamp):存储时间点数据):存储时间点数据n不同角度的变量类型之间是相关联的不同角度的变量类型之间是相关联的读入数据nClementineClementine支持的数据格式支持的数据格式n自由格式文本自由格式文本nExcel

4、Excel电子表格电子表格n数据库文件数据库文件nSPSSSPSS格式格式n以读自由格式文本为例(以读自由格式文本为例(Drgu.txtDrgu.txt)()(Var.FileVar.File节点节点) )nFileFile选项卡:指定所读入数据的基本格式选项卡:指定所读入数据的基本格式nDataData选项卡:指定所读变量的存储类型和输入格式选项卡:指定所读变量的存储类型和输入格式nFilterFilter选项卡:指定不读哪些变量或重命名变量名选项卡:指定不读哪些变量或重命名变量名nTypesTypes选项卡:指定变量的计量类型,对变量的缺失选项卡:指定变量的计量类型,对变量的缺失值和取值合

5、理性等进行检查值和取值合理性等进行检查数据集成n数据集成包括:数据集成包括:n第一,两份或多份数据的纵向合并第一,两份或多份数据的纵向合并n第二,两份或多份数据的横向合并第二,两份或多份数据的横向合并n数据的纵向合并数据的纵向合并( ( Append Append 节点节点) ):Student.xlsStudent.xls数据集成n数据的横向合并数据的横向合并(Merge(Merge节点节点) )n以客户浏览网页数据(以客户浏览网页数据(WebData.mdbWebData.mdb)为例)为例数据集成n数据的横向合并的联接方式:内连接(数据的横向合并的联接方式:内连接(inner joini

6、nner join)、)、全外连接(全外连接(full outer joinfull outer join)、局部外连接)、局部外连接(partial outer joinpartial outer join)和反连接()和反连接(anti-joinanti-join)ClementineClementine的数据理解的数据理解主要内容n变量说明变量说明n数据质量评估和调整数据质量评估和调整n数据的有序浏览数据的有序浏览n多维度汇总多维度汇总变量说明n变量说明是确保高质量数据的有效途径变量说明是确保高质量数据的有效途径n变量说明包括:变量说明包括:n第一,对数据流中变量取值的有效性进行第一,对

7、数据流中变量取值的有效性进行限定、检查和调整限定、检查和调整n第二,对各个变量在未来数据建模中的角第二,对各个变量在未来数据建模中的角色进行说明色进行说明变量说明(Type节点)n以以Students.xlsStudents.xls为例,数据存在的问题:为例,数据存在的问题:n家庭人均年收入变量,有部分样本取值家庭人均年收入变量,有部分样本取值$null$null$,表示空缺;有一个样本取值为,表示空缺;有一个样本取值为999999999999。n是否无偿献血变量值,填写不规范。规范是否无偿献血变量值,填写不规范。规范值应为值应为YesYes和和NoNo,但有些样本却取,但有些样本却取1 1(

8、表示(表示YesYes)和)和0 0(表示(表示NoNo)n重新实例化重新实例化n有效变量值和无效值调整有效变量值和无效值调整n有效变量值是变量正常取值范围内的值有效变量值是变量正常取值范围内的值n无效值,通常指缺失值。无效值,通常指缺失值。ClementineClementine中的中的缺失值通常包括两类:缺失值通常包括两类:n一类是系统缺值,用一类是系统缺值,用$null$null$表示,还包表示,还包括空串和空格等。括空串和空格等。n另一类是用户缺失值另一类是用户缺失值变量说明(Type节点)nMissingMissing列:列:nOn(On(* *) ):表示允许相应变量取用户缺失值和

9、系统缺失:表示允许相应变量取用户缺失值和系统缺失值,且不进行调整值,且不进行调整nOffOff:表示不允许相应变量取用户缺失值:表示不允许相应变量取用户缺失值nSpecifySpecify:说明变量的有效取值范围等,并指定数据:说明变量的有效取值范围等,并指定数据调整方法调整方法nCoerceCoerce:表示调整为指定值:表示调整为指定值nFlagFlag型变量调整为型变量调整为FalseFalse类对应的值类对应的值nSetSet型变量调整为第一个变量值型变量调整为第一个变量值n数值型变量,大于上限调整为上限值,小于下限调数值型变量,大于上限调整为上限值,小于下限调整为下限值,其余值调整为

10、(最大值整为下限值,其余值调整为(最大值+ +最小值)最小值)/2/2变量说明(Type节点)变量说明(Type节点)n变量角色变量角色nInIn:作为输入变量:作为输入变量nOutOut:作为输出变量:作为输出变量nBothBoth:即作为输入角色,也作为输出角色:即作为输入角色,也作为输出角色nPartitionPartition:样本集分割角色,是数据挖掘:样本集分割角色,是数据挖掘中的特有角色中的特有角色nNoneNone:不参与分析:不参与分析数据质量的评估和调整(Data Audit节点)n以以Telephone.savTelephone.sav为例为例nQualityQualit

11、y选项卡选项卡Missing valueMissing value框框nCount of records with valid valuesCount of records with valid values,计算各变量的有效样本量;计算各变量的有效样本量;nbreakdown counts of records with breakdown counts of records with invalid valuesinvalid values,计算各变量取,计算各变量取各种各种无效无效值的样本个数值的样本个数nQualityQuality选项卡选项卡Outliers & Extrem

12、e valuesOutliers & Extreme values框框n指定离群点和极端值的诊断标准指定离群点和极端值的诊断标准数据质量的评估和调整(Data Audit节点)n变量值的调整变量值的调整n离群点和极端值的调整离群点和极端值的调整(Action(Action列列) )nCoerceCoerce:调整为距其最近的正常值:调整为距其最近的正常值n缺失值的调整缺失值的调整(Impute Missing(Impute Missing列列) )n找出高质量的变量找出高质量的变量nGenerateGenerate下的下的Filter NodeFilter Node项项n筛掉无效样本(

13、指定变量上取无效值的样本)筛掉无效样本(指定变量上取无效值的样本)nGenerateGenerate下的下的Select NodeSelect Node项项数据理解的其他n数据的有序浏览(数据的有序浏览(SortSort节点)节点)n以以Telephone.savTelephone.sav为例,目标:为例,目标:n第一,按基本费用的降序排序数据;第一,按基本费用的降序排序数据;n第二,根据客户最终是否流失,将数据第二,根据客户最终是否流失,将数据按基本费用的降序排序按基本费用的降序排序数据理解的其他n数据的分类汇总数据的分类汇总(Aggregate(Aggregate节点节点) )n以以Tel

14、ephone.savTelephone.sav为例,目标:为例,目标:n第一,分别计算未流失客户和流失客户第一,分别计算未流失客户和流失客户的基本费用的平均值和标准差的基本费用的平均值和标准差n第二,分别针对未流失客户和流失客户第二,分别针对未流失客户和流失客户群,计算选用不同类套餐类型的客户,群,计算选用不同类套餐类型的客户,其基本费用的平均值和标准差其基本费用的平均值和标准差ClementineClementine的数据准备的数据准备主要内容n变量转换变量转换n变量派生变量派生n数据精简数据精简n数据筛选数据筛选变量转换n变量转换是对变量的原有取值进行转换处理,变量转换是对变量的原有取值进

15、行转换处理,覆盖变量的原来取值覆盖变量的原来取值n CLEMCLEM表达式:表达式:( (Clementine Language for Clementine Language for Expression Manipulation)Expression Manipulation)专门用于表述运算专门用于表述运算操作,描述算术表达式和条件表达式操作,描述算术表达式和条件表达式nCLEMCLEM的算术表达式是用于算术运算的式子,的算术表达式是用于算术运算的式子,由常量、变量、算术运算符和函数等组成由常量、变量、算术运算符和函数等组成n普通函数和专业函数(普通函数和专业函数( )nCLEMCLEM

16、的条件表达式是用于表述条件是否满的条件表达式是用于表述条件是否满足的式子,由常量、变量、条件运算符和足的式子,由常量、变量、条件运算符和函数等组成,且条件表达式的计算结果只函数等组成,且条件表达式的计算结果只有真和假两个取值有真和假两个取值变量转换n变量的重新计算变量的重新计算(Filler(Filler节点节点) )n以以Students.xlsStudents.xls为例,目标:对在校综合为例,目标:对在校综合评价指数进行标准化处理,使其能够直观评价指数进行标准化处理,使其能够直观反映学生在校综合的水平。反映学生在校综合的水平。n变量类别值的重新调整变量类别值的重新调整(Reclassif

17、y(Reclassify节点节点) )n以以Students.xlsStudents.xls为例,目标:是否无偿献为例,目标:是否无偿献血取值不规范,将取值血取值不规范,将取值1 1和和0 0应分别调整为应分别调整为YesYes和和No No 变量派生n生成新变量(生成新变量(DeriveDerive节点)节点)n以以ReportCard.xlsReportCard.xls为例,目标:为例,目标:n第一,计算每个学生的总成绩第一,计算每个学生的总成绩n第二,对每个学生的每门成绩进行两级第二,对每个学生的每门成绩进行两级评定计算,大于等于评定计算,大于等于6060分,则评定为合分,则评定为合格,

18、否则评定为不合格格,否则评定为不合格n第三,对每个学生的每门成绩按第三,对每个学生的每门成绩按A A、B B、C C、D D、E E进行多级评定计算进行多级评定计算n第四,根据思想品德课程的得分对每个第四,根据思想品德课程的得分对每个学生的总成绩进行调整学生的总成绩进行调整变量派生n生成服从正态分布的新变量生成服从正态分布的新变量(Transform(Transform节点节点) )n以以Telephone.savTelephone.sav为例,目标:分析客户的为例,目标:分析客户的收入、开通月数以及各种费用,应做怎样收入、开通月数以及各种费用,应做怎样的转换处理才接近正态分布的转换处理才接近

19、正态分布n派生哑变量派生哑变量(SetToFlag(SetToFlag节点节点) )n以以Telephone.savTelephone.sav为例,目标:将服务套餐为例,目标:将服务套餐类型转换成哑变量的形式类型转换成哑变量的形式数据精简n数据精简包括以下方面:数据精简包括以下方面:n第一,从压缩样本入手,通过减少样本量第一,从压缩样本入手,通过减少样本量,提高建模效率。主要有借助概率抽样随,提高建模效率。主要有借助概率抽样随机抽取样本,或选取特定样本。(本章)机抽取样本,或选取特定样本。(本章)n第二,从压缩变量取值入手,通过减少变第二,从压缩变量取值入手,通过减少变量取值个数,提高建模效率

20、。主要指变量量取值个数,提高建模效率。主要指变量值的分箱处理;值的分箱处理;n第三,从压缩变量个数入手,通过减少变第三,从压缩变量个数入手,通过减少变量维度,提高建模效率。主要借助统计方量维度,提高建模效率。主要借助统计方法降维,或依据相关性进行特征选择法降维,或依据相关性进行特征选择数据精简n随机抽样(随机抽样(SampleSample节点)节点)n以以Telephone.savTelephone.sav为例,目标:为例,目标:n第一,随机抽取第一,随机抽取70%70%的客户数据;的客户数据;n第二,对流失和未流失客户,分别抽取第二,对流失和未流失客户,分别抽取70%70%的样本的样本n根据

21、条件选取样本(根据条件选取样本(SelectSelect节点)节点)n以以ReportCard.xlsReportCard.xls为例,目标:筛选出总为例,目标:筛选出总成绩大于成绩大于500500分的所有男生(性别为分的所有男生(性别为1 1)样)样本本数据筛选:样本的平衡处理n数据筛选,是指为服务于后续建模所进行的样数据筛选,是指为服务于后续建模所进行的样本平衡处理和样本集划分本平衡处理和样本集划分n样本平衡处理的意义:一般用于非平衡数据集样本平衡处理的意义:一般用于非平衡数据集(imbalanced data set)的建模准备。的建模准备。n非平衡数据集,是指数据集中某一类或者非平衡数

22、据集,是指数据集中某一类或者某些类的样本数量远远大于其它类的样本某些类的样本数量远远大于其它类的样本数。通常样本数量多的一类或几类样本成数。通常样本数量多的一类或几类样本成为多数类,也称正类。样本数量较少的类为多数类,也称正类。样本数量较少的类称为少数类或稀有类,也称负类。称为少数类或稀有类,也称负类。数据筛选:样本的平衡处理n非平衡样本建模存在的问题非平衡样本建模存在的问题n传统的分类方法倾向于对多数类有较高的传统的分类方法倾向于对多数类有较高的识别率,对少数类的识别率较低,有时的识别率,对少数类的识别率较低,有时的模型是没有实用性的模型是没有实用性的82%82%总的正确率意义总的正确率意义

23、不大!不大!TPTP和和TNTN的占比都较的占比都较高才好!高才好!数据筛选:样本的平衡处理n非平衡样本的处理:再抽样(非平衡样本的处理:再抽样(Re-sampleingRe-sampleing)n过抽样过抽样( (Over-sampling):Over-sampling):增加负类样本数增加负类样本数量改变样本的分布量改变样本的分布n欠抽样欠抽样(Under-sampling):(Under-sampling):减少正类样本数减少正类样本数量改变数据的分布量改变数据的分布n样本的平衡处理样本的平衡处理(Balance(Balance节点节点) ),随机过抽样,随机过抽样和随机欠抽样和随机欠抽

24、样n以以Drug.txtDrug.txt为例,目标:对不同药物随机为例,目标:对不同药物随机再抽样再抽样数据筛选:样本子集的划分n样本子集划分的意义:便于得到相对准确的模样本子集划分的意义:便于得到相对准确的模型误差估计型误差估计n做法:做法:n将全部样本随机划分成两个或三个子集将全部样本随机划分成两个或三个子集n训练(训练(TrainingTraining)样本集:用于建立和)样本集:用于建立和训练模型训练模型n测试(测试(TestingTesting)样本集:用于模型的误)样本集:用于模型的误差估计差估计数据筛选:样本子集的划分n样本子集的常见划分方法:样本子集的常见划分方法:n旁置(旁置

25、(HoldOutHoldOut)法和反复旁置法)法和反复旁置法n交叉验证交叉验证( (Cross Validation) )法法n留一留一( (Leave-one-out)Leave-one-out)交叉验证法交叉验证法nN N折交叉验证法折交叉验证法( (N Cross-Validation) )n重抽样自举法(重抽样自举法(BootStrapBootStrap)ClementineClementine的基本分析的基本分析主要内容n数值型变量的基本分析数值型变量的基本分析n两分类型变量相关性的研究两分类型变量相关性的研究n两个总体的均值比较两个总体的均值比较nRFMRFM分析分析计算基本描述

26、统计量nStatisticsStatistics节点节点n以以Telephone.savTelephone.sav为例,目标:为例,目标:n计算基本服务累计开通月数、上月基本费计算基本服务累计开通月数、上月基本费用的基本描述统计量用的基本描述统计量n分析上述变量与年龄、家庭月收入(百元分析上述变量与年龄、家庭月收入(百元)、家庭人口之间,以及开通月数与基本)、家庭人口之间,以及开通月数与基本费用之间的相关性费用之间的相关性n筛选出相关程度较高的变量筛选出相关程度较高的变量绘制散点图nPlotPlot节点节点n以以Telephone.savTelephone.sav为例,目标:为例,目标:n展示

27、流失和保留客户,上月基本费用和开展示流失和保留客户,上月基本费用和开通月数情况通月数情况nJitterJitter选项:数据中存在大量重复值时,变量选项:数据中存在大量重复值时,变量值修正为临近实际值的随机值值修正为临近实际值的随机值nWhen number of records greater thanWhen number of records greater than:样本:样本量大于指定值时的处理策略量大于指定值时的处理策略nClementineClementine的图数交互、图数共享、图形编辑的图数交互、图数共享、图形编辑绘制线图n以以 ExportApple.savExportApple.sav为例,目标:为例,目标:n一般线图(一般线图(PlotPlot节点)节点)n鲜苹果出口量的时序线图、鲜苹果出口量的年鲜苹果出口量的时序线图、鲜苹果出口量的年度对比度对比n多线图(多线图( Time Plo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论