




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、v1.0可编辑可修改数据挖掘实验报告院(部):专 业:信息管理与信息系统 实验项目: 聚类分析实验班 级:信管112姓 名:学号:_02iiv1.0可编辑可修改聚类分析实验指导书实验目的:1熟悉R语言的相关对象与函数的用法2掌握利用R进行聚类分析的基本步骤实验内容:说明:本实验采用iris 数据集,下面中的数据集如无上下文说明,即是指irisiris以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集、训练集。四个属性分别为:花萼长度、花萼宽带、花瓣长度、花瓣宽度三类分别为:setosa, versico
2、lor, virginica(山鸢尾、变色鸢尾和维吉尼亚鸢尾 )1对数据集进行初步的统计与分析(1) 数据集的维度-dim dnm (iris)(1 ISO (2) 数据集中的列名-names nairasII Sepal-Length Serai .Widrhrftai.al.5 nSpecies、I(3) 数据集的内部结构-str Str(LE13)-data.:150 mb of 5 variableg:$ 3epL. Leng匚h: Kum俎却W*7弓彩 5. i芟(5 5 勺曳却$ Sepal. Width : rum 3 星3取工合広4 3. 4 29 氛二S Fetal.Lena
3、ch:rum 1.4 1. 4 1.3 1.51.41.71.4I.=1. 41.5S Fetal.Width :Kum 0.2 3.2 0.2 0.20,20.30.20.20.1S Bp5i#js!Fazor w/ 9 levels- . !1 L1 1 1 1 1 1 I(4) 数据集的属性-attributes cribuie# lrib 轟黑SUM1 MS*pH.L.Ijen*tZi* * = spal-HldtJi PeBl -LezsgB1* Pet-Bl.TldtS* MSpeclts3叮1二5t?S.13n_x131上1526_7_L-20工丄c 二2224252t.2122
4、2?WJ祖31)43i73tJD1341421141q詹59弓menClE2EEE67G3E1叮71T314T57777E75SO81B2日aB*日5BSM69出91射的轉鹑笋対1妁Mi102ICA伽i站IOC010?13110ill112113口115iijg】me12112S1154U4ize131311匏11341351319139140141Ui144145(itci1WHr14013雲亡1曹0(I *dAa.frarheia(5) 查看数据集的前五条数据情况 ixis 1:5,Sep 注丄.匸电11时匸11 Sepal. WititliPetal.LengthPetal.WidrhS
5、pecies1.40.2aetataI. g0,2setDa1勺0*2setesal.E0.2setosa1.40.25etosa8(6) 查看数据集中属性前10行数据 rrisl;10f rt&pal.LenerhJfl S.l 4.9 4.? 4.6 5.0 5.4 4.5 5.0 4.4 4.9(7) 显示数据集中每个变量的分布情况-summaryMin.4.3001st Qu.S.100Median5 . BOJtfear.5 . E433rd Qu,6.03IfeX .9031 SLUHEflXy (izi3) ijepal - Lengtl.匕匸匕二.WidLii Mia. :2.
6、000 1st (Ju . :2 . SOO Median t3 x ODO Mean :3.057 3rd Ju. :3.300 Max, : 4 . lOQFetal. Lengt-tiMir.1.0001st Qu.i. eooMediaLTL.:35DMean3.7533ra Qti.5. IDOMax B心9DQE -1 aJL . Wzdt-z:Win. :0.1031st Qu.i 0.300Nedian :1L 3ODNear :1.199 3rd Qu.:1.8DD Hax- :2505setosa :50 vei3colcr:S0 vj.r-gz.Tiic a : 5 (8
7、) 数据集列Species中各个值出现频次 匸able(iTisSSp亡ci亡已)setesa versicolor virglnica 5050501(9) 根据列Species画出饼图-pieversicolor(10) 算出列的所有值的方差-var (ir3_2$Sepal.1 0.6056935i(11) 算出列iris$和iris$的协方差-cov eoviriB$Sepal .Lngi:iiriris$ Petal1 1.274315I(12) 算出列iris$和iris$的相关系数-cor cor (irisSSepal _ Length,irlsSFetal. Length)
8、1 0.8717536 I(13) 画出列iris$分布柱状图Histogram of iris$SepaLLength&uanb 心LF45678irisSSepal.Length(14)画出列iris$的密度函数图回回叵1(15) 画出列iris$和iris$的散点图O8_QO 0O 88 Qoo8 OB-8 ey &- o 8 - 08 0 o 8 O 严o8008 80 o-wooQII8UO8O 80 0 8o o _9.U54.irisSSepal I(16) 绘出矩阵各列的散布图-plot2.0304.0ssk a-JIJ l rPw1 jngp1357Q2使用knn包进行Kme
9、ari聚类分析(1) 将数据集进行备份newirisv-iris,将列newiris$Species置为空newiris$Species newiris=lris分 newi ri s Spe c re s=MULL(2) 在数据集newiris上运行Kmean聚类分析,将聚类结果保存在kc中。在kmean函数中,将需要生成聚类数设置为3(kmean(newiris ,3) (rc-kritfHns即3)K-nxanawith 3 Eluatexs o jiecs 50#2wiuir!aun: az1J 5,:510O 25,7=439,83097(isetveen / totaj 55 -21D3t-E nsaiL3 :5epl -匸壬ng匸II. jfi dLliFet = l -LangciiPeraJL. WidrEi1SiODCMO3.4200001-4620000.26000-50000弓 o-ass-fc暑.721-052 O1C 533s.soi-m2a71030799354 9433871wi-aiEiia*AvazL_豆 cazr men-3:11) *clujz-eT*aenzera15 ptDBwithln3sp bscweenss1*19) *ifaulf(3) 创建一个连续表,在三个聚类中分别统计各种花出现的次数-table1235000v
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江西管理职业学院《三维设计基础》2023-2024学年第二学期期末试卷
- 小学三年级上册语文按课文内容填空专项练习题含答案
- 2024年纺织职业素养试题及答案
- 刑法初级考试题及答案
- 超聚变考试题库及答案
- 精益求精纺织品设计师证书考试试题及答案
- 深入了解2024年纺织品设计师证书考试的内容试题及答案
- 人形机器人行业深度报告-AGI理想载体产业蝶变量产加速
- 广告设计师证书考试定位与目标考题及答案
- 2024年助理广告师广告实施策略试题及答案
- 2024年北京石景山区公开招聘社区工作者考试试题答案解析
- 2025年共青团入团积极分子考试测试试卷题库及答案
- 监控工程验收单-范本模板
- 维克多高中英语3500词汇
- 【高考真题】2022年新高考浙江语文高考真题试卷(Word版含答案)
- 铝镁料仓等施工方案精品
- 目前最准确的通达信缠论分笔公式
- 《丑小鸭》教学设计
- 绿化种植施工合同
- 停车场收费管理系统使用手册
- 脱硫计算软件
评论
0/150
提交评论