版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘实验报告院 (部): 管理工程学院专 业:信息管理与信息系统实验项目:班 级:信管112姓 名:学 号:02聚类分析实验指导书实验目的:1熟悉R语言的相关对象与函数的用法2掌握利用R进行聚类分析的基本步骤实验内容:说明:本实验采用iris数据集,下面中的数据集如无上下文说明,即是指irisiris以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据, 每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集、训练集。四个属性分别为:花萼长度、花萼宽带、花瓣长度、花瓣宽度三类分别为:setosa, versicolor, virginica(山鸢尾、变色鸢
2、尾和维吉尼亚鸢尾)1对数据集进行初步的统计与分析(1)数据集的维度-dim dirr. )1 1E0 S(2)数据集中的列名-names(Iris)1 Sepal.LEngtri Sepal .Widt?irr Petal. Lengt?irr rrPetal. WidtArr5 Species(3)数据集的内部结构-str(4)数据集的属性-attributes查看数据集的前五条数据情况12S13 二:,Sepal. Lezigt?!Sepal .Widtn Petal.LengtnPetal .WidtiiSpeeies15.13 . S1.40.2setosa4.93.01.40.2se
3、tosa34.73.21.30.2setosa44 .-63.11.50.2setosa55.03 M1.40.2setosa1查看数据集中属性前10行数据 i-isSepal.LerctnJ1 5.14.7 4.6 5.04.6 5.0(7 )显示数据集中每个变量的分布情况-summary suimaiy (iris)Sepal .Length.WidthPetal. LenathPetal ,Widt-hSpeciesMin.=4.300Min-:2.000Mir.1.0D0Min.010Dsetosa:501st Qu .:5.1001st Qu.:2.3001st Qu -1.6001
4、st Qu .0.30Dversicolor-: 50Median:5.800Median:3.000Median4.350Median1-30Dvirginica : 50Meazi:5.843Mean;3.057Mean3 . 758Mean1 1993rd Qu.= 6.4003rd Qu.:3.3003rd 01 5.1D03rd Q口.1.80Di-fax.:7.900Max:1 00Max.6.900Max.2 SOD数据集列Species中各个值出现频次 tatle (iristopecies)setosa versicolor virginica5050SO根据列Species
5、画出饼图-pie算出列的所有值的方差-varvar (Sepal. Lerct?:)1 D.6556335算出列iris$和iris$的协方差-covcov (z.rz.3S5epaL . Lect?firi3iFetaL.Lect?i)1 2.27431S算出列iris$和iris$的相关系数-cor cor (z.rz.3tBepaL. Lerctrir z.2sz.3tPetal. Lerctr:J 1 0.5717535(13)画出列iris$分布柱状图a1Histogram of iris$Sepal.Length56iri s$ Sep a I. Length(15)画出列iris
6、$和iris$的散点图回国叵食一s费舄M4.55.05.56.06.57.07.5 B.OirisSepal.Lngth!_l寸(16)绘出矩阵各列的散布图-plot2使用knn包进行Kmean聚类分析(1)将数据集进行备份newiris-iris,将列newiris$Species置为空newiris$Species (ktz = kma a nssr S)- JK-means clusterxno- with 3 clTjJtezs nE sizes 50. 38. 62Clojtcr rasm二:IClustrrinij sector:1 1111111137J 1111111173J
7、33333233|109| 2222233 215| 2 2 3 2 2 31111111111111111111111111332333333333333333333333333333332 22323232233222223 21111111113333333333232222 3 2Wirhiri cluster a al sqiares &y aluater s 1 15.15100 23.E7947 39.E2097(fceHeen_3S / total_55 = S8. %)Available canz-OBenca:1 clinscez*,-senteTa11p,cot9 2,r5 .wiLtiinssr, rrtecwean.33H, size9 *ifaultH,wi&hxnsa11n,lEerB,创建一个连续表,在三个聚类中分别统计各种花出现的次数-tabletable (irisSpaciesf kcjcluster)123setosa 50 0 Dversicolar 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校食堂早晚餐采购制度
- 上海闵行职业技术学院《中国古代文学史》2025-2026学年期末试卷
- 唐山幼儿师范高等专科学校《中医耳鼻喉》2025-2026学年期末试卷
- 上海工艺美术职业学院《能源经济学》2025-2026学年期末试卷
- 上海交通职业技术学院《语言学概论》2025-2026学年期末试卷
- 山西老区职业技术学院《金融学概论》2025-2026学年期末试卷
- 山西晋中理工学院《国际营销概论》2025-2026学年期末试卷
- 朔州职业技术学院《新中国史》2025-2026学年期末试卷
- 上海财经大学《商法》2025-2026学年期末试卷
- 山西电子科技学院《高等学校教师职业道德修养》2025-2026学年期末试卷
- 购物中心节能管理制度
- 《中国传统文化》课件:佛教思想及其人生模式
- 《AIGC应用实战:写作、绘图、视频制作、直播》全套教学课件
- (省统测)贵州省2025年4月高三年级适应性考试语文试卷(含答案解析)
- 汽修厂应急预案
- 公司绩效考核方案制度范本
- 人教版酸碱盐知识框架
- 2025年四川省对口招生(农林牧渔类)《植物生产与环境》考试复习题库(含答案)
- 2025年四川省成都市双流区招聘政府雇员3人高频重点提升(共500题)附带答案详解
- 《永辉超市S店库存管理问题及产生原因和优化建议》8700字(论文)
- 《对印自卫反击战》课件
评论
0/150
提交评论