数据挖掘实验报告实验一i.docx_第1页
数据挖掘实验报告实验一i.docx_第2页
数据挖掘实验报告实验一i.docx_第3页
数据挖掘实验报告实验一i.docx_第4页
数据挖掘实验报告实验一i.docx_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘实验报告实验名称:_实验二 _ _实验环境:_ _RStudio _指导教师:_吴珏 _专业班级:_ _姓 名:_学 号:_ 实 验 日 期: 2016 年 10 月 14 日 实验报告日期: 2016 年 10 月 15 日成绩:_实验一一、实验目的1、 R语言初步认识(掌握R程序运行环境)2、 实验数据预处理。(掌握R语言中数据预处理的使用)对于给定的测试用例数据集,进行一下操作。1)、加载程序,熟悉各按钮的功能见下运行结果2)、熟悉各函数的功能,运行程序,并对程序进行分析。对餐饮销量数据进统计量分析,求销量数据均值、中位数、极差、标准差,变异系数和四分位数间距。实验代码:# 餐饮销量数据相关性分析#设置工作空间setwd(d:/dmex1/ex1/ex1/示例程序)# 读取数据cordata=read.csv(file=./data/catering_sale_all.csv,header=T)# 求出相关系数矩阵cor(cordata,2:11)实验结果:实验代码:#设置工作空间setwd(d:/dmex1/ex1/ex1/示例程序)#读入数据saledata=read.table(file=./data/catering_sale.csv,sep=,header=TRUE) sales=saledata,2# 统计量分析# 均值mean_ = mean(sales,na.rm=T)# 中位数median_ = median(sales,na.rm=T)# 极差range_ = max(sales,na.rm=T)-min(sales,na.rm=T)# 标准差std_ = sqrt(var(sales,na.rm=T)# 变异系数variation_ = std_/mean_# 四分位数间距q1 = quantile(sales,0.25,na.rm=T)q3 = quantile(sales,0.75,na.rm=T)distance = q3-q1a=matrix(c(mean_,median_,range_,std_,variation_,q1,q3,distance),1,byrow=T)colnames(a)=c(均值,中位数,极差,标准差,变异系数,1/4分位数,3/4分位数,四分位间距)print(a)实验结果:对餐饮企业菜品的盈利贡献度(即菜品盈利帕累托分析),画出帕累托图。实验代码:#设置工作空间setwd(d:/dmex1/ex1/ex1/示例程序)# 读取菜品数据,绘制帕累托图dishdata=read.csv(file=./data/catering_dish_profit.csv,header=TRUE)barplot(dishdata,3,col=blue1,names.arg=dishdata,2,width=1,space=0,ylim=c(0,10000),xlab=菜品,ylab=盈利:元)accratio=dishdata,3for ( i in 1:length(accratio) accratioi=sum(dishdata1:i,3)/sum(dishdata,3)par(new=T,mar=c(4,4,4,4)points(accratio*10000c(1:length(accratio)-0.5),new=FALSE,type=b,new=T)axis(4,col=red,col.axis=red,at=0:10000,label=c(0:10000/10000)mtext(累积百分比,4,2)points(6.5,accratio7*10000,col=red)text(7,accratio7*10000,paste(round(accratio7+0.00001,4)*100,%)实验结果: 3)、据预处理缺省值的处理:用均值替换、回归查补和多重查补对缺省值进行处理实验代码:#设置工作空间setwd(d:/dmex1/ex1/ex1/示例程序)#读入数据saledata=read.csv(file=./data/catering_sale.csv,header=TRUE) # 缺失值检测 并打印结果,由于R把TRUE和FALSE分别当作1、0,可以用sum()和mean()函数来分别获取缺失样本数、缺失比例sum(complete.cases(saledata)sum(!complete.cases(saledata)mean(!complete.cases(saledata)saledata!complete.cases(saledata),# 异常值检测箱线图sp=boxplot(saledata$销量,boxwex=0.7)title(销量异常值检测箱线图)xi=1.1sd.s=sd(saledatacomplete.cases(saledata),$销量)mn.s=mean(saledatacomplete.cases(saledata),$销量)points(xi,mn.s,col=red,pch=18)arrows(xi, mn.s - sd.s, xi, mn.s + sd.s, code = 3, col = pink, angle = 75, length = .1)text(rep(c(1.05,1.05,0.95,0.95),length=length(sp$out),labels=sp$outorder(sp$out), sp$outorder(sp$out)+rep(c(150,-150,150,-150),length=length(sp$out),col=red)实验结果:思考与分析1、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论