版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘实验报告焦永赞数据仓库与数据挖掘实验报告焦永赞 编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(数据仓库与数据挖掘实验报告焦永赞)的内容能够给您的工作和学习带来便利。同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快 业绩进步,以下为数据仓库与数据挖掘实验报告焦永赞的全部内容。数据仓库与数据挖掘实验报告册2018 2018学年 第 一 学期班 级: t11538
2、 学 号: 20180530816 姓 名:焦永赞授课教师: 杨丽华 实验教师: 杨丽华 实验学时: 16 实验组号: 1 信息管理系目录实验一 microsoft sql server analysis services的使用3实验二使用weka进行分类与预测15实验三使用weka进行关联规则与聚类分析22实验四数据挖掘算法的程序实现28实验一 microsoft sql server analysis services的使用实验类型:验证性 实验学时:4实验目的:学习并掌握analysis services的操作,加深理解数据仓库中涉及的一些概念,如多维数据集,事实表,维表,星型模型,雪花
3、模型,联机分析处理等。实验内容:在实验之前,先通读自学sql server自带的analysis manager概念与教程.按照自学教程的步骤,完成对foodmart数据源的联机分析。建立、编辑多维数据集,进行olap操作,看懂olap的分析数据.实验步骤写主要步骤,可以打印):1、 启动联机分析管理器:开始程序microsoft sql serveranalysis manager。2、 按照 analysis service的自学教程完成对foodmart数据源的联机分析。3、 在开始设置-控制面板管理工具数据源odbc),数据源管理器中设置和源数据的连接,“数据源名”为你的班级+学号+姓
4、名,如t3730101张雨。1)打开管理工具中的数据源:添加,选择“microsoft access 驱动程序 (。mdb”,然后单击“完成”按钮5)选择数据库6)在“odbc microsoft access 安装”对话框中单击“确定”按钮。 在“odbc 数据源管理器”对话框中单击“确定”按钮.4、在开始-设置控制面板-管理工具-服务mssqlserverolapservice, 启动该项服务。在analysis manager中,单击服务器名称,即可建立与 analysis servers 的连接;否则,在analysis servers 上单击右键,注册服务器,在服务器名称中输入本地计
5、算机的名字,如pc56。本地计算机的名字可右击:我的电脑,选择属性,网络标志,里面有本地计算机的名字。建立新的数据库,数据库名与数据源名相同,如t3730101张雨.在你所建立的数据库中,单击“新数据源,和早期在 odbc 数据源管理器中建立的数据源连接.1)启动mssqlserverolapservice服务2)注册服务器3)建立名为“”的新数据库4)建立数据源5、假设你是 foodmart corporation 的数据库管理员。foodmart 是一家大型的连锁店,在美国、墨西哥和加拿大有销售业务。市场部想要按产品和顾客分析 1998 年进行的所有销售业务数据。要求建立sales多维数据
6、集,多维数据集是由维度和事实定义的.其维度有“time”维度、“product”维度、“customer”维度、“store”维度和“promotion” 维度,事实表为sales_fact_1998,事实表中的度量为:store_sales、store_cost、unit_sales。理解每个维度的级别.1) “time维度2)product维度3)“customer维度4)“store”维度5)“promotion” 维度6、可以使用多维数据集编辑器对现有多维数据集进行更改。在使用或浏览多维数据集中的数据之前,要求设计多维数据集中的数据和聚合的存储选项.即设计好 sales 多维数据集的结
7、构之后,需要选择要使用的存储模式并指定要存储的预先计算好的值的数量。完成此项操作之后,需要用数据填充多维数据集。这里选择 molap 作为存储模式,创建 sales 多维数据集的聚合设计,然后处理该多维数据集。处理 sales 多维数据集时将从 odbc 源中装载数据并按照聚合设计中的定义计算汇总值。7、使用多维数据集浏览器,可以用不同的方式查看数据:可以筛选出可见的维度数据量,可以深化以看到数据的细节,还可以浅化以看到较为概括的数据。这里可以使用多维数据集浏览器对 sales 数据进行切片和切块操作.要求理解olap操作下数据的含义,从而可以分析数据.8、人力资源部想按商店来分析雇员的工资.
8、本节将建立一个 hr人力资源)多维数据集,以进行雇员工资分析。将把 employee雇员)维度创建为父子维度。然后使用该维度以及常规维度来生成 hr 多维数据集。其中,事实数据表为salary工资), 维度为employee雇员)、store商店)、time时间)。了解如何建立父子维度.9、建立计算成员和成员属性。在sales 多维数据集中建立“average price” 计算成员,思考建立该计算成员的目的.市场部希望将 sales 多维数据集分析功能扩展到根据客户的下列特征分析客户销售数据:性别、婚姻状况、教育程度、年收入、在家子女数和会员卡。需要向 customer 维度添加以下六个成员
9、属性:gender性别)、marital status婚姻状况)、education教育程度)、yearly income年收入)、num children at home在家子女数)和 member card会员卡)。这些成员属性将限制 customer 维度中的每个成员。理解什么是计算成员和成员属性,为什么要建立?10、已经为客户维度添加了六个成员属性,可以创建一个带有 yearly income年收入)成员属性的虚拟维度,然后将这个新创建的维度添加到 sales 多维数据集中。使用虚拟维度,可以基于多维数据集中的维度成员的成员属性对多维数据集数据进行分析。 其优点是不占用磁盘空间或处理时
10、间。1)为客户维度添加属性2)创建yearly income虚拟维度11、理解多维数据集角色和数据库角色的联系和区别、建立角色的目的。1)在sales中创建marketing角色2)在hr中创建hr角色12、查看销售多维数据集的元数据和维度的元数据,加深对元数据概念和分类的理解。1)查看销售元数据2)查看customer元数据思考题要求手写)给出一个数据仓库成功应用的案例,包括所解决的问题,功能等。实验小结要求手写):实验中遇到的问题及解决办法、心得、体会等等。实验二使用weka进行分类与预测实验类型:综合性 实验学时:4实验目的:掌握数据挖掘平台weka的使用。综合运用数据预处理、分类与预测
11、的挖掘算法、结果的解释等知识进行数据挖掘。从而加深理解课程中的相关知识点。实验内容:阅读并理解weka的相关中英文资料,熟悉数据挖掘平台weka,针对实际数据,能够使用weka进行数据的预处理,能选择合适的分类与预测算法对数据进行分析,并能解释分析结果。实验步骤程序-启动weka,进入explorer界面,熟悉weka的界面功能。2、 选择数据集classifiertrees-j48 决策树算法,对泰坦尼克号数据集进行分析;如利用回归模型对连续数值进行预测。要求:对你选择的分类和预测算法思想分别进行介绍,熟悉classify界面的内容,对classifier中的参数含义分别进行介绍。思考:cl
12、assifier-treesj48算法与classifiertrees-id3算法的区别与联系。id3算法:j48算法:6、 对分析所获得的结果进行解释。如,根据决策树和分类规则尝试讨论泰坦尼克号幸存者的特征。理解评估分类和预测优劣的一些准则。思考题要求手写)给出数据挖掘中分类与预测成功应用的案例,并简要介绍。实验小结要求手写):实验中遇到的问题及解决办法、心得、体会等等。.实验三使用weka进行关联规则与聚类分析实验类型:综合性 实验学时:4实验目的:掌握数据挖掘平台weka的使用.综合运用数据预处理、关联规则与聚类的挖掘算法、结果的解释等知识进行数据挖掘。从而加深理解课程中的相关知识点。实
13、验内容:阅读并理解weka的相关中英文资料,熟悉数据挖掘平台weka,针对实际数据,能够使用weka进行数据的预处理,了解属性选择,能选择合适的关联规则与聚类算法对数据进行分析,并能解释分析结果。实验步骤启动weka,进入explorer界面,熟悉weka的界面功能。2、 选择数据集实验中的数据可以从网络获取),将要处理的数据集转换成weka能处理的格式,如 .arff格式。根据选择的数据挖掘算法,如果有必要,在weka explorer界面,preprocess选项中,进行相应的数据预处理。3、 在weka explorer界面,单击select attributes选项,进入weka 的属
14、性选择页面。要求: 了解该界面中主要功能选项的含义,理解该界面的功能.4、 在weka explorer界面,单击associate选项,进入weka 的关联规则页面。选择一个关联规则算法对数据集进行分析,进行算法参数的具体设置。要求:对你选择的关联规则算法思想进行介绍,熟悉associate界面的内容,对associate中的参数含义分别进行介绍.理解用来衡量规则的关联程度的几个度量指标。理解并解释分析所获得的结果。5、 在weka explorer界面,单击cluster选项,进入weka 的聚类页面。选择一个聚类算法如k均值)对数据集进行分析,进行算法参数的具体设置。要求:对你选择的聚类
15、算法思想进行介绍,熟悉cluster界面的内容,对cluster中的参数含义进行介绍。理解并解释分析所获得的结果。思考题要求手写)给出数据挖掘中关联规则与聚类成功应用的一些案例,并简要介绍。实验小结要求手写):实验中遇到的问题及解决办法、心得、体会等等.。实验四 数据挖掘算法的程序实现实验类型:设计性 实验学时:4实验目的:运用数据挖掘、程序设计等相关知识,选择一个数据挖掘的常用算法进行程序设计实现。加深对数据挖掘算法基本原理、详细执行过程和具体应用情况的理解。实验内容:采用任何一种自己熟悉的编程语言,完成算法的程序设计,并在每个程序设计语句后面进行详细的注释。能够运用实现的算法来解决某个具体
16、的问题,得到并解释程序运行的结果.推荐的算法: 1 关联规则:apriori算法2 分类与预测:id3, c4.5, knn, bp,3 聚类:kmeans实验步骤可以打印):1. 提前预习,选择算法,理解原理。2. 针对具体问题,选择熟悉的编程平台,进行算法的程序实现,尽量在每个程序语句后面进行详细注释。c+程序源代码:/* 这个程序是数据挖掘中的apriori算法*/#include /这里的a,b,c,d,e 分别代表着书上数据挖掘那章的i1,i2,i3,i4,i5 / char a1010=a,b,e,b,d,b,c,a,b,d,a,c,b,c,a,c,a,b,c,e,a,b,c. c
17、har b20,d100,t,b210010,b2110010. int i,j,k,x=0,flag=1,c20=0,x1=0,i1=0,j1,counter=0,c1100=0,flag1=1,j2,u=0,c2100=0,n20,v=1。int count100,temp。 for(i=0。id.i+ for(j=0.aij!=0。j+ /*这个循环是用来判断之前保存的是否和aij一样,不一样就保存,一样就不保存/ for(k=0.kx.k+ if(bk!=aij 。 else flag=0。break。 /这个if是用来判断是否相等*/ if(flag=1 bx=aij。 x+。 el
18、se flag=1。/这个不保存,那就跳到下一个数*/ /计算筛选出的元素的支持度计数*/ for(i=0。i for(k=0。kx。k+/这个x是上面b数组中元素个数,用b数组和aij数组中的每一行和每一列进行比较,用来记录b数组每一个元素的支持度计数/ if(aij=bk ck+。break. /对选出的项集进行筛选,选出支持度计数大于2的,并且保存到dx1数组中*/ for(k=0。kx。k+ if(ck=minsupcount dx1=bk。countx1=ck。 x1+。 /对选出的项集中的元素进行排序*/ for(i=0。ix11。i+ for(j=0。j if(djdj+1 t=
19、dj。dj=dj+1.dj+1=t。temp=countj。countj=countj+1。countj+1=temp. /*打印出l1/ printf(”l1 elements are:n. for(i=0。ix1。i+ printf(c = d ”,di,counti。if(0=(i+13 printf(”n。 printf(b n。/*计算每一行的元素个数,并且保存到n数组中*/ for(i=0。id。i+ for(j=0。aij!=0.j+. ni=j. /*对a数组的每一行进行排序/ for(i=0。id。i+ for(j=0.j for(k=0。k if(aikaik+1 t=aik。 aik=aik+1。 aik+1=t. /*把l1中的每一个元素都放在b2i0中*/ j1=x1。 for(i=0.ij1。i+ b2i0=di。 /把l1中的元素进行组合,k=2开始,表示x1个元素选k个元素的组合*/ for(k=2.b200!=0。k+ /*u是用来计数组合总数的*/ u=0。v=1。/v 是用来在进行输出各种组合的标识数 v=1 说明正在进行输出*/ for(i=0.i c2i=0。 for(i=0。i for(i1=i+1。i1 for(j=0。j if(b2ij!=b2i1j flag1=0.break。 /*进行组合的部分/ if(flag1=1b2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于人工智能的智慧校园智能学习环境中教育工具对学生学习效果的影响研究教学研究课题报告
- 北京体育大学北京兴奋剂检测实验室2025年专业技术检测人员公开招聘备考题库(非事业编)及参考答案详解一套
- 2025年汉中市新华书店招聘财务人员备考题库及参考答案详解1套
- 简约风工作计划模板
- 平凉市市直学校公开招聘2026届协议培养师范生23人备考题库(第二批)及一套完整答案详解
- 2025年山东外国语职业技术大学教师招聘105人备考题库完整答案详解
- 重庆市开州区事业单位2025年面向应届高校毕业生考核招聘工作人员备考题库及一套参考答案详解
- 2025年中国江西国际经济技术合作有限公司公开招聘44人备考题库及一套答案详解
- 2025年东电三公司社会招聘备考题库-工程管理部及1套参考答案详解
- 2025年国家空间科学中心空间环境探测重点实验室空间环境探测载荷工程技术人员招聘备考题库及参考答案详解1套
- 统编版五年级上册习作 我想对您说 教学课件
- 2025年度校长述职报告:守正中求变用心办好这所“小而美”的学校
- 2026陕西西安市延长石油(集团)有限责任公司高校毕业生招聘(公共基础知识)综合能力测试题附答案解析
- 国开电大《11192,11657高层建筑施工》期末答题库(机考字纸考)排序版
- 内蒙古自治区行政执法人员招聘笔试真题2024
- 2025年人社分局考试试题及答案
- 2025及未来5年中国草本植物染发剂市场调查、数据监测研究报告
- 2025年骨干教师考试试题(含答案)
- 营养健康知识讲座课件
- 《口腔颌面外科学》课程教学质量标准
- 苏少版(五线谱)(2024)八年级上册音乐全册教案
评论
0/150
提交评论