数据挖掘实验报告-数据挖掘的基本数据分析_第1页
数据挖掘实验报告-数据挖掘的基本数据分析_第2页
数据挖掘实验报告-数据挖掘的基本数据分析_第3页
数据挖掘实验报告-数据挖掘的基本数据分析_第4页
数据挖掘实验报告-数据挖掘的基本数据分析_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘与应用实验报告6到11章自动化专 业物联网工程年级班别2015物联网4班学 号 3115001492董延峰学生姓名张思明指导教师实验6数据挖掘的基本数据分析一、实验目的(1) 熟悉基本数据分析的处理流程(2) 进一步熟练掌握spss modeler工具的操作二、实验环境(1) 相关智能算法的基本原理(2) ibm spss modeler 软件三、实验内容及步骤1、数据的质量探索(1) 建立数据流a、创建"statistics” 节点,读入 telco.sav 数据。b、创建“类型”节点,说明各变量角色,其中“流失”为目标变量。c、创建“数据审核”节点并连接在适当的位置,进入

2、编辑界面,在“质量”选 项卡下,选择检测方法为平均值的标准差。(2) 结果输出雨核fit注解2£件(巳生 ir©号jll術多方式u*示采件缩112、基本描述分析(1) 建立数据流,创建“统计量"节点。(2) 设置相关参数a. 设置“统计量”节点,在“检查”屮添加开通月数、基本费用、免费部分和无线费用。b、在“相关”中添加年龄、收入和家庭人数。c、在“相关选择”中选择“按重要性定义相关强度”。(3)结果12sj3文件(e) l3偏辑(e)o生咸)绒计信息|注解g全fimfr愛(c) 全部展禾司日开通月教s statistics计数1000平均值35.526最小值1.

3、000最大值72.000范国71.000方差456.242标121.360平均值标淮误差0.675h pearson相关性0.4900.243城庭入埶0.0373基本费用e) statistics计敎1000平均值11.723最小佰0.900最大值99.950范遛99.050方差107.402标進差10.363平均值标淮误差0.328q pearson相天性0 401家庭人敎0.195 0.036诵走3、绘制散点图(1)构建数据流,创建“图”节点。(2)设置参数a、编辑“图”节点b、在“x字段”和“y字段”中分别选择“基木费用”和“年龄将“交叉字 段”中的“颜色”设置为“流失”,不同颜色表示流

4、失变量不同取值的样本点。(3)结果输出z 偏辑(fi) o 生咸(£) & ws(y)呈li xlojxj回s $»文件(e)图形注解4、两分类变量相关性的研究(1) 设置相关参数。创建“网络”节点,在“字段”中选择“套餐类型”和“流 失”,设置线值为“绝对值”。(2) 结果输!11刚首芽益夕:的网状图-x* £ 0/觀三0|屈»jolxjk1图形连解3.0000004 000000<2.000000*/jbi.oooooo0.0000001.000000o诫失务資贡勺1 £1 1 11 1 1 1 1 11 1 1 11 j02

5、04000 80 1001201401oo180200220240wmkzi1你乡1 *wnh?rr定5、变量重要性分析(1) 窗口设置。创建“特征选择”节点,编辑,将“流失”添加到目标选项中, 其他的全部作为输入。(2) 结果输出©舷x值序么 字段开通月数 2®戛本费用 年龄4 ®电子支付5 <&敎肓水平6®套餐类型7 ®无线服务8 <g>无线贵用 9®收入_10®免费部分 门®姐姻状;兄12®家庭人数13®居住地14®性别续续续义序义义续续续义续义义 连连

6、连名有名名连连连名连名名 z纟京夕纟夕玄选走审段数:10可用亨段总数:14总的图:sxnstatistics訓 要sb要 飪要要要要要要要要要要重1重羣1 ge ge uui 曾.hr be ge 亘 亘 f f f f a3 33 fl3 33 fl3 s3 a3 33 pv pv pv fv1.01.0 二1.0 二1.0 二1.0 二1.0 二1.0 二0.9980.9960.9960.7790.2440.1840.151e > 0.95 田 <=0.95 0<0.90筛选的字段测里原因telephone sav流失套餐类型x流尖15字段基本费用v.年龄实验7统计分析:

7、逻辑回归一、实验日的spss modeler 的 logistic 回归的方法。(1) 了解和熟悉spss modeler及其相关知识。(2) 掌握spss modeler工具建立多项logistic回归的方法。(3) 学会运用spss modeler进行多项logistic回归的内容。二、实验环境一台装有spss modeler软件系统的计算机。三、实验内容及步骤1、构建多项logistic回归数据流(1) 通过 ustatistics 文件”节点读入 brand.sav0(2) 数据流中添加“类型”节点。(3) 在"建模”模块下选择“logistic”节点连接在数据流中恰当的位置

8、。(4) 运行结果:0x3x文件(e) 3 w8(fi) q生咸(g)+播入(1) _)格式»槪邑i直&e/ '描要鬲级设贵注解:丄 &全部折挞© 隔全却展开(£)曰方程式用于10 2319 (x1=20.7474 *p(2=1* -0.656e方程式用于2-0.6556 (xu1 0.4755 (x1=2 0 7426 (x2=1j -06532曰方程式用于3 基灌类别 0 000000000000000000002、设置相关参数(1) 右击“类型”节点,将x3设置为目标,其他保持不变。(2) 设置“logistic”节点,在模型下,将使

9、用分区数据勾选为“无”,采用的 过程选择“多项式”,“多项式过程”中“方法”采用“进入法”,其他保持不变。3、结果运行"文件(d三o生欣(g)+播入q) 一格式 檢员曰|£abr t 弓 g q 出|9 nomnai regression4l cast processing summ hodtl fag information t studo r-square“ arametef eslmatei2 000filoflbs:d errorwak<fexp(8)95% confldenct intorvai tor eip(b)lower boundupptcbound

10、intercept 6562m4924i026(x1«1 000)1 31538411 72710012«9.127.570(xu2000)232.333486i4867934131.522(xu3000)ob0(x2»1 000).747.2827.02710082.1121-2153.670(x2-2000)0b0intercept6532934»861024(x1«1 0006563393 73010535192671 010(xu2000)-.475.3“1 9151666223171.219(x1s3000|0b0x2»1

11、000|.7432717 5331006210112373571x2=20000a the reference category ts 3.000.1 000总的图:iz类型x3实验8关联分析:关联规则一、实验目的(1) 了解和熟悉spss modeler及其相关知识。(2) 掌握spss modeler工具建立apriori关联规则的方法。(3) 学会运用spss modeler关联规则进行相关的内容分析。二、实验环境一台装有spss modeler软件系统的计算机。三、实验内容及步骤1、创建apriori算法数据流(1) 创建“可变文件”节点读入baskets.txt文件。(2) 在数据流

12、的适当位置创建"apriori"节点。(3) 运行结果文件(e)0生成9)技型设畫摘要注解3 r -一r“v l<411 j 的巴 i前项支持度百分比bffiss分比sexibeer frozenmealicann edveg14.696.5754ibeer frozenmeal sex14.895.27ibeer cannedveg sex15.094.0beerifrozenmeal can nedveg sex15.292.763sexibeericannedveg16.789.82(sexifrozenmeal lean nedveg17.387.861fro

13、ienmealbeer can nedveg16.787.425|sex|beer-17 nq7 20l排序依据左信度百分比2、设置相关参数(1) 在“字段”下,选择“使用定制设置”选项。在“后项”和“前项”中选 择关联规则的后项和前项的变量。此例中后项和前项均为所有商品。(2) 在“类型”下,指定当前前项最低条件支持度,默认值10%;最小规则置 信度,默认值为80%;最大前项数,默认为5;勾选“仅包含标志变量的真值”。(3) 在“专家”下,选择模式“专家”选项,并选择评价关联规则的度量指标, 这里选择默认选项“规则置信度”。3、结果运行g节点预览(27个孑段.10各.文件(e)弓编辑(e)o

14、生成(£)喪格注解cardidvaluepmethodsexhomeownincomeage fruitvegfreshmeatdai13980842.712 chequemno2700046 ftt26736225.357 cashf "no3000028 ftf31087220.618 cashmno1320036 fff42674823.688 cardfno1220026 fft-'59160918 813 cardmyes1100024 fff62663046 487 cardfno15000"3sftf76299514.047 cashfyes

15、2080030 tff33876522 203 cashmyes2440022 fff92893522.975 chequefno29500ff104179214.569 cashmno2960022 tff4、考察关联规律(1) 将apriori节点屮的模型计算的结果添加到数据流编辑区域的恰当位置。(2) 点击鼠标右键编辑。(3) “最大预测数”中输入数值。(4) 勾选“忽略不匹配篮项目”和“检测不在篮中”。通过“表”观察具体的结果如图:14字段文件(£) o生成© i 预览空|排序依据:贵信度百分比m | 的|前项sexbeer frozenmeal cannedveg

16、cannedvegbeer frozenmeal sexfrozenmealbeer cannedveg sexbeerfrozenme 合 i cannedveg sexsexibeerlean neetvegsexifrozenmealcan nedvegfrozenmealbeer cannedvegsexbeer frozenmealcannedvegbeer frozenmealbeerfrozenmeal cannedveg支持度百分比羞信度百分比14.696.575148952715.094015.29276316.7898217.387.86116.787.42517.087

17、05917.085.88217.384 393i确定i 取消应用®重養迟);总的图:14字段实验9分类分析:决策树一、实验日的spss modeler的决策树(1) 了解和熟悉spss modeler及其相关知识。(2) 掌握spss modeler工具建立chaid决策树的方法。(3) 学会运用spss modeler决策树进行相关的内容分析。二、实验环境-台装有spss modeler软件系统的计算机。三、实验内容及步骤1、构建chaid数据流(1) 通过"statistic文件”节点读入"telco.sav”文件。(2) 数据流中添加“分区”节点,将样本集划

18、分为训练集和测试集。(3) 选择建模屮的“chaid”节点,连接到数据流的恰当位置。2、设置相关参数(1) 在“构建选项”一一“基本(b)”,选择树的生长算法为穷举chaido自 定义最大树状图深度为5.(2) 其他相关参数的设置默认。3、结果运行b开月器v(2【式:11 01 电子 «tt«1 «rt: 11 c 1.0 afllt > 12ano<s 33 i«st: 0) <«60|«rt: 0)oj c o.oasa*s|hu線決hhsauttv实验10聚类分析:k-means一、实验目的spss model

19、er的聚类分析(1) 了解和熟悉spss modeler及其相关知识。(2) 掌握spss modeler工具建立apriori关联规则的方法。(3) 学会运用spss modeler关联规则进行相关的内容分析。二、实验环境一台装有spss modeler软件系统的计算机。三、实验内容及步骤1、创建k-means聚类数据流(1) 创建 “statistic 文件”节点导入 k-means.savo(2) 在“字段选项”一一“类型"节点屮,设置“地区”角色为“无”。(3) 创建“kmeans”节点,连接到恰当的位置。2、设置相关参数(1) 进入编辑界面。(2) 在“模型”模块下指定聚类

20、数目为4,勾选“生成距离字段”和“数值” 选项。(3)在“专家”模块下,勾选“模式”下的“专家”选项,其他默认。3、结果运行| 0 冷meg聚类大小聚类)0文件(e) o 生jr© "泗(¥) l h%(£)i aj 1叱口 a»謝9«qoo发食大小ta®q 从 k-mean$ 三日5生(14 个字歿.10 «h3ft ) «2 文件(£)3 wi(e) 0 生咸p1w7 即 xfi®10北天河山內辽icb:上江京潭北西»宁林x2x3x4x5|x6x71670 011848929821.19576.1 0.69926 909628021511140 248562 12057824174 9047314 84155728 0517100 4513619 2783481 28572 50 300447422799 4113470 01117599771709 921716.03716 79719996 2752459 52612609921198 53469 8.0 3337 054315681074395 4902207 7792187.71173 3-043110 588306258662791 8831412 28

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论