




免费预览已结束,剩余2页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘上机实验报告数据仓库与数据挖掘上机实验报告 软件学院 2005 级数据仓库与数据挖掘实习设计报告 2 目 录 实验一 基本算法原理及实现实验一 基本算法原理及实现 3 1 实验目的 3 2 实验任务 3 3 数据说明 3 4 算法过程与相关计算 3 4 1 分类算法 3 4 2 聚类算法 4 5 实验步骤 4 6 实验结果及分析 4 6 1 分类 4 6 2 聚类 5 总结总结 7 软件学院 2005 级数据仓库与数据挖掘实习设计报告 3 实验一 基本算法原理及实现实验一 基本算法原理及实现 1 实验目的实验目的 熟悉基本的聚类 Kmeans 和分类 决策树 Naivebayes 算法的基本原理及算法评价指标的基 本计算方法 2 实验任务实验任务 通过 weka 的 Explore 视图进行决策树和 Naivebayes Kmeans 算法的基本实验 并写出相 关计算公式和分类评价指标的相关计算方法 结果评价时通过调整参数得到不同的实验结 果 并通过曲线图显示出来 3 数据说明数据说明 实例总数 14 类别属性 play yes no 其他属性 outlook sunny overcast rainy temperature real humidity real windy TRUE FALSE 4 算法过程与相关计算算法过程与相关计算 4 1 分类算法分类算法 说明 决策树方法需要计算出每个属性的信息增益 Information Gain 朴素贝叶斯方 法需要估计概率 每个类的概率 每个属性值在每个类中的概率 P C P t C 4 1 1 决策树决策树 整个数据集的熵 5599 loglog0 283054 14141414 Entropy Set MERGEFORMAT 1 1 离散属性的信息增益 53322 loglog 145555 53322 loglog 145555 IG outlookEntropy SetExpectedEntropy outlook Entropy Set 软件学院 2005 级数据仓库与数据挖掘实习设计报告 4 MERGEFORMAT 1 2 计算出每个离散型属性的信息增益 可以不计算出最后结果 只给出计算过程 但是 要说明如何根据信息增益构造决策树 从数据集中选出一个数据 说明分类器的工作过程 给定实例 去掉类别属性 sunny 85 85 FALSE 分析实例被确定类别的过程 4 1 2 朴素贝叶斯朴素贝叶斯 假设类别属性是 play 类别概率 MERGEFORMAT 1 3 9 14 P playyes MERGEFORMAT 1 4 5 14 P playno 其他离散型属性的概率 各个属性在各类别下的条件概率 MERGEFORMAT 1 5 3 5 P outlooksunny playno MERGEFORMAT 1 6 0P outlookovercast playno MERGEFORMAT 1 7 2 5 P outlookrainy playno 给定实例 去掉类别属性 sunny 85 85 FALSE 从数据集中选取一个数据 说明朴素贝叶斯的工作过程 4 2 聚类算法聚类算法 4 2 1 Kmeans 需要自己手动画图说明 不能直接截图 计算类别中心 5 实验步骤实验步骤 说明自己每一步如何进行实验 进行适当地截图 6 实验结果及分析实验结果及分析 6 1 分类分类 算法名称 决策树 J48 需要记录的实验结果 实例总数 14 分类结果 play yes classify play no classify 软件学院 2005 级数据仓库与数据挖掘实习设计报告 5 play yes90 play no14 写出如下数据量的计算公式和结果 以及出现以下结果的参数情况 正确分类的实例数 13 百分比 13 92 8571 14 错误分类的实例数 1 百分比 1 7 1429 14 不同类别的评价结果 1 类 play yes 9 Precision0 9 9 1 9 Recall1 9 22 1 0 91 8 F Measure0 947 11 1 0 91 9 10 9 2 类 play no 4 Precision1 4 4 Recall0 8 4 1 22 1 0 8 F Measure0 889 11 1 0 8 10 8 通过对参数进行调整来观察实验结果 可调整的参数 Test options 用于选择进行测试的方式 对分类属性进行选择 对分类算法的参数进行调整 可进行的对比 决策树和朴素贝叶斯进行对比 不同参数之间的对比 对比的方式 记录下实验结果的数据量以及相应的参数 在 excel 中绘制成曲线图来表明实验的变 化情况 并附上相应的文字说明 6 2 聚类聚类 算法名称 Kmeans 实例总数 14 聚类中心 软件学院 2005 级数据仓库与数据挖掘实习设计报告 6 Cluster 0 sunny 75 8889 84 1111 FALSE Cluster 1 overcast 69 4 77 2 TRUE 聚类结果 0 cluster 1 cluster play yes6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025河北张家口市涿鹿县硕博人才引进9人备考考试题库附答案解析
- 2025上海师范大学附属嘉定高级中学编外教师招聘备考考试试题及答案解析
- 2025下半年新疆兵团招聘事业单位工作人员2398人考试参考题库及答案解析
- 2025汉中洋县妇幼保健计划生育服务中心招聘考试参考题库及答案解析
- 2025重庆市奉节县教育事业单位面向公费师范生招聘53人考试参考题库及答案解析
- 2025年徽商职业学院银龄教师招聘考试参考题库及答案解析
- 农户互助农田保护技术推广合同
- 小熊和森林精灵的童话作文(10篇)
- 离职人员守秘义务声明书3篇范文
- 办公楼装修设计施工合同
- 甬温线特大铁路事故
- 用户运营基础知识培训课件
- 边境电子围栏2025年行业应用前景报告中小企业安全市场拓展
- 【英语】江苏省苏锡常镇2025届高三下学期二模试题(解析版)
- 2024年德州禹城市事业单位引进青年人才真题
- DBJT15-110-2015 广东省建筑防火及消防设施检测技术规程
- 2025年环境保护法知识竞赛题库(附含答案)
- 2025至2030年中国海岛文化旅游行业市场运营现状及投资规划研究建议报告
- 四川信达饰品科技有限公司年产1亿包家居水晶饰品项目环评报告
- 4.2认识一次函数第1课时“均匀”变化的现象课件北师大版八年级数学上册
- 文物、古建筑、塔类、寺庙类施工方案、施工组织设计【高分可编辑】
评论
0/150
提交评论