版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一实验目的通过对Irisdata采用Isodata算法进行聚类,掌握Isodata算法的原理以及具体实施步骤。二实验原理C均值算法比较简单,但它的自我调整能力也比较差。这主要表现在类别数不能改变,受代表点初始选择的影响也比较大。ISODATA算法的功能与C均值算法相比,在下列几方面有改进。1.考虑了类别的合并与分裂,因而有了自我调整类别数的能力。合并主要发生在某一类内样本个数太少的情况,或两类聚类中心之间距离太小的情况。为此设有最小类内样本数限制e,以及类间中心距离参数e。若出现两类聚类中心距离小于e的情况,可考虑将此NCC两类合并。分裂则主要发生在某一类别的某分量出现类内方差过大的现象,因而
2、宜分裂成两个类别,以维持合理的类内方差。给出一个对类内分量方差的限制参数e,用以决定是否需要S将某一类分裂成两类。2由于算法有自我调整的能力,因而需要设置若干个控制用参数,如聚类数期望值k,每次迭代允许合并的最大聚类对数L、及允许迭代次数I等。下面我们将ISODATA算法的步骤列出:步骤1(确定控制参数及设置代表点)需确定的控制参数为,聚类期望数k,一个聚类中的最少样本数e,标准偏差控制参N数,用于控制分裂e,类间距离控制参数,用于控制合并e,每次迭代允许合并的最大聚SC类对数L,允许迭代的次数I。设初始聚类数为c及聚类中心m,i二1,2.,c。i步骤2(分类)对所有样本,按给定的c个聚类中心
3、,以最小距离进行分类,即若步骤3(撤消类内样本数过小类别)若有任何一个类厂,其样本数n,则舍去r,令c=c-1,将r原样本分配jjNjj至其它类;步骤4(更新均值向量)按现有样本分类结果,调整均值参数步骤5(计算类内平均距离)每类中各样本离开均值的平均距离步骤6(计算整个样本集偏离均值的平均距离)步骤7(入口选择)如这是最后一次迭代(取决于迭代上限I),则转步骤11,并设置&C二0,防止合并发生。如果c2K,则转向步骤11,执行合并步骤。步骤8(求各类内各分类标准偏差)对每个聚类j,求其标准偏差是第j个聚类第iij式中y,.是j类中第k个样本的第i分量,m.是m的第i个分量,kijij个分量的
4、标准偏差,D是样本特征维数。步骤9(求每类具有最大标准偏差的分量)指每类具有最大标准偏差的分量。步骤10(分裂计算步骤)若任一个b,j二1,2,.,c有c0,并且有(a)DD且N2(9+1),或jmaxjmaxsjjN有(b)cK/2,则把.分裂成两个聚类,其中心相应为m+与m-,把原来的m取消,jjjj且令c=c+1,由于m+与m-值设置不当将会导致影响到其它类别,因此m+与m-可按以jjjj下步骤计算:给定一k值,0k2K,所以直接进入聚类中心合并过程,结果如下所示:A|亦衣迭恍追行合并她Ineurcerrtet-乩23446.35415.21334.695D5.53392.80B33.0
5、9193.65DO3.口死i2.67T44.81255.74051.51671.38004.0065L00632-03190.2?670.200D1.25L0cenier=6.23446.95416.21334.6505.阴鶴2,80633.0919II3.0950N6FM4,81255-74051.51671.380Dd.00651.6053.0519.27570.50001.251640-00DO32-QDOO23.OQDO22.O00D23.0000denier25256-91255.2d29L70455.53232.95503.10U03.65r93.122?2,03674a81505
6、-目g1.50DOL4L363.9S071.6250E.1312a.23210.20001.228640.00DO32.aooa23.OQDO22.OOQD23.oaflflV上图中,sortofdis矩阵为两两聚类中心之间的距离矩阵,并按从大到小排列。每一列代表2类之间的距离,第一行为距离,第2,3行为两类的类别。值得注意的是类别号即对应为聚类中心在聚类中心矩阵center中的列数。进入合并步骤不代表一定进行合并处理,当两类的距离小于合并阈值(thmerge=2.5)时,才进行合并处理。且每次迭代,最多进行2次合并(mergenum=2),且必须是不同的4类。由结果观察到,第3,4类进行合并
7、,第6,7类进行合并。合并后得到新的聚类中心矩阵newcenter,可看到,新的矩阵相对于之前的聚类中心矩阵,少了2列。按照得到的新聚类中心,重新对原始数据进行聚类,得到center矩阵,并检验是否有类内样本个数过少的聚类中心,若没有,对每类数据进行平均,得到更新后的聚类中心矩阵(即上图中最后一center矩阵),第一次迭代完成。在第2次迭代中(iterative=2),迭代次数为偶数,直接进入合并步骤。Tindlo-v六iterative=2.X.日口r七口fdu8.5497P.297B6-10664,8E464-63353.91622.66432,443L2.19041.2GL92.DOO
8、O2.Q00D1.00001.00DO2.DOQDluQDOO3.OQDO1.DOOOLQDOO3.00004a00003.Q00D.oooa300DO氐DOQD5.0D0Q5.oaao2.ooao5.aDOOdoaoo本次迭优雄行合并殛5.00605.95596.91253-42303.1000L46EU4.632fl.2460t.dfilB2.13L2由上图可看出,将3,4类进行了合并处理(3,4类仅代表其聚类中心在当前聚类中心矩阵第3,4列,与第一次迭代的3,4类不是一样的)。之后的处理步骤与之前一致,得到平均后的聚类中心矩阵。在第一次迭代中(iterative=3),迭代次数为奇数,当
9、前聚类个数Nc=32K,所以进入聚类中心分裂过程,结果如下所示:GQuandTiindgvXruewcenter二AE.006Q6.93233.42802.755J3.0836L4620l.-d2925.7914D.2460L3S52.1L?1center=5.0060593233.42802.75543.08861.46204.2925.7914a.24601.3552.1L?150.0D0062.000038.0000ceTYter=5J:iO0O5.9D166.35003.45EQ2.7454s.arir1.46204.3936E.7421a.24a1.4羽95.0711sajziDoo
10、02bQDOO3Bt0i:iiDV进入分裂步骤,但是否进行分裂处理还需判断每个聚类中样本到聚类中心的标准差,将每个聚类的标准差向量按列排列,即得到标准差矩阵stdofeach,其中列数代表聚类个数,每行代表聚类中心的一个分量。因为Iris数据为4维数据,则标准差矩阵即为4行。因为3个聚类的标准差向量中的每个分量都小于分裂阈值(thsplit=0.6),所以不进行分裂处理,进入合并过程。3个聚类中心的两两距离也都大于合并阈值,所以也不进行合并处理。该次迭代后,按相同的方法得到平均后的聚类中心矩阵。在第4次迭代中(iterative=4),迭代次数为偶数,直接进入合并步骤。进A.合并涉骡Eotrt
11、afdie=d.335d3.259E0D00LQDOO2.GOOD3.0D002.ODDO3.Q00DA可以看到,第4次迭代中没有进行合并处理,只是对数据按照第3次迭代得到的新聚类中心重新进行聚类,并对聚类后的每类样本进行平均,得到新的聚类中心矩阵。值得注意的是,在第4次迭代时,进行平均后的聚类中心与为平均之前完全一致,说明第3次聚类结果与第4次聚类结果是完全一致的。说明算法在第4次迭代时即已收敛,完成了分类。以后迭代次数结果如下:GoumidlTindiov进入分裂步骤sldofeach二0,34890.626DB760u37530-2935D.2B620.L7190-504BD.4B21f
12、l.L0430.2951D-2FS2Gouand.冒indo*进入合并卷骤Eartrfdie-?.594B4-33543-2594IJHOOD1JDOQD2JD0QD3.00QD2.00QD3.00QDneveenter二5-006D5.901G6.8500X-123D2a74343.0731.462D4-59355.7421CL346D1-43352-0711center5.00GO5.9Dlg二&5DO3-42E0T4E4工0757a46204,39355,施0.260L43392.071150-OODO62.OODO38-OODOcenter5.00605.901d.S5D03.42E0
13、2.2643a0757a46204,39355,M20.2601.4339mi50.OODO62.oaoo38.OODO*可以看到,第5次结果与第4次也完全一致,且不会再对现有类别进行分裂。之后迭代结果再无变化,就不将其贴出。最后得到的聚类中心如下所示:按照该聚类中心,对数据进行聚类,结果如下:j謐直rrayEditor3fileEditViewirr=iphicsIehugHesktopULirulowHelp田FJ切Stack:Basev田日冋|inpu*t:inX1234s615.13.61.40.211A24.931.40.2213473.21.30.23144.63.11.50.24
14、1553,e1.40.25165.43.9170.46174.63.41.40.371853.41.50.28194.42.91.40.291104.93.11.50.1101116.43.71.60.2111124.83.41.60.2121134.831.40.1131144.331.10.1U1155.841.20.2151I16574.41.50.4161175.43.91.30.4171185.13.51.40.318119573.81.70.3191205.13.81.50.3201216.43.4170.2211225.13.71.50.4221234.63.G10.223124
15、5.13.3170.5241254.83.41.90.225126531.60.22E12753.41.60.4271285.23.51.50.2281295.23.41.40.2291二30473.21.60.2301|1123456314.83.11.60.2311325.43.41.50.4321335.24.11.50.1331345.64.21.40.2341354.93.11.50.23513653.21.20.2361375.53.51.30.2371384.93.61.40.1331394.431.30.2391405.13.41.50.24014153.51.30.34114
16、24.62.31.30.3421434.43.21.30.24314453.51.60.6441455.13.81.90.4451464.831.40.3461475.13.81.60.2471484.63.21.40.2481495.3371.50.24915053.31.40.25015173.2471.4512526.43.24.616622536.93.14.915533545.52.341.3542556.52.84.61555256572.84.513562576.33.3471E6725S4.92.43.31582596.62.94.613592BO5.22.73.91.4602
17、諸ArrayEditor(五七111ewQriphiceIehugDesk七口pWindowHelp3田F1H奄s9Stack:ffimt5口inputX234567J61523.51612625.934.2156226362.241632646.12.94.71.4642ess.e2.93.61.3es266673.14.41.4662675.634.5156726B5.82.74.11682696.22.24.515692705.62.53.91.1702715.93.24.818712726.12.841.3722736.32.54.915732746.12.847122756.42.9
18、4.313752766.634.41.4762776.82.84.81.47727867351.77837962.94.51579280572.63.51BO2815.62.43.81.1812825.52.43.71B22635.S2.73.91.2S32646275.116842855.434.5158528663.44.5168626767332.34.413082895.634.113892905.52.541.39027U2:=ArrayEditorEileEditViewQr:phiceDehugDeslctoplindowHelp四歸爲电o切tack:|
19、Basev|田m日曰口inputEx2345Egi5.52.64.41.29124926.134.61.4922935.82.641.29329462.33.31942955.G2.74.21.3952965734.21.296297572.94.213972SB6.22.94.31.3902995.12.531.1992100672.84.11.310021016.33.362.510131025.S2.75.11.910221037.135.92.110331046.32.95.61.81043=10S6.535.82.2105310C7.636.62.110631074.92.54.51
20、.710721087.32.96.31.810S310S672.55.81.810931107.23.66.12.511031116.63.25.1211131126.4275.31.911231136.B35.52.11133114572.55211421156.82.8512.411621166.43.25.32.311G31176.535.51.81173118773.8672.21183119772.66.92.31193-12062.25151202希望得到的粪别數majstime=10;迭代最大次数thsplit=O.6;勰號號标准偏差控制娄数,托干控制的裂mergerLun=2;
21、mm迭代时合并过程中最李的合并次数tlwierge=2.5;滋觑號倉并时的娄间距离阈值initialnujn=1;初始漲类中心数目可以看到,第3个分量大于分裂阈值,所以进行分裂处理,分裂处理按照如下公式进行其中k选为0.4。注意,只对第3各分量进行修正。CoKAand.Tindov71Xiterartive二J进A分裂步骤stdofesch=0.61950.33630.31390.4693l.fbboU.50510.40940.227?本祝迄代边行乃裂处理n已vrcenter=6.3146631465-00562.89582.89583.34445.28024.667?1.59631.7031
22、1.7031n.3n37CoBMandTindovX4iterative二4进入合幷涉骡sortofdis二s7.13044.24422-88621.onno2J3DOOi.noonE.000J3.OOOC2.0030nevrcenter=6.67395.94625.00582.99132.78273.39045.62834.33431.52692.037J1.38030.2769CouajidTindoviterative二$进扎井製歩骡stdofeach二D.5059D.44B4D.54090.29300.2936.3753D.5118D.50D7D.1719Q.Z913d.zerzD.1
23、043进人合并歩骡sortofdis二M7024.25633.2139i.imn2.00001.oooo3.DODO3.DODO2.DODOGoBAiuidTindoviterative二6进入合幷涉骤sortofdis=T.55804.30553.25251.00002.OOOC1.0000E.000J3.OOOC2.00J0nevrcenter=6.85385.88365,00603.0769274103-42805.71544-58851.46202.05331.43440.2460可以看到,在迭代到第8次时,结果已收敛,聚类完成。最终的聚类中心矩阵为:对原始数据的分类结果如下:=s:A
24、rrayEditorIfXEileEdit血ewr:=Lp?LicsDetigQesktopj!lindowHelp:=s:ArrayEditorIfXEileEdit血ewr:=Lp?LicsDetigQesktopj!lindowHelpj謐ArrayEditornxEileEd.11Ifiewirr=iphiceDehugQesktojiJEithIswHelp四輛黑电s切Stack:|BmsE妒田m曰冋口input0 x23斗s615.13.61.40.213A24.931.40.2233473.21.30.23344.63.11.50.243553,e1.40.25365.43.91
25、70.46374.63.41.40.373853.41.50.28394.42.91.40.293104.93.11.50.1103115.43.71.50.2113124.83.41.60.2123134.831.40.1133144.331.10.1U3155.841.20.215316574.41.50.4163175.43.91.30.41731B6.13.51.40.318319573.8170.3193205.13.61.50.3203216.43.4170.2213225.13.71.50.4223234.63.e10.2233245.13.3170.523254.83.41.9
26、0.225326531.B0.22632753.41.60.4273285.23.51.50.2283295.23.41.40.229330473.21.60.23037砾川1冠黑龍ST.Stack:|Basev|田m日白口inputX12345E314.83.11.60.23134325.43.41.50.4323336.24.11.50.1333345.54.21.40.2343354.93.11.50.23533653.21.20.2363375.53.51.30.23733S4.93.61.40.13B3394.431.30.2393405.13.41.50.24034153.51.3
27、0.3413斗24.52.31.30.3423434.43.21.30.24334463.51.60.6443455.13.81.90.4453464.831.40.3463475.13.81.60.24734B4.63.21.40.2483495.33.71.50.24日35053.31.40.25035173.24.71.4511526.43.24.51.5522536.93.14.91.5531545.52.341.3542556.52.84.61.5552565.72.84.51.3562576.33.3471.6572584.92.43.31582596.62.94.61.3592C
28、Q5.22.73.91.4602V:iArrayEditorIIIIX輕直rrayEditorcDEE订乜Edit也艸r=iphicE3hjhugIitjEktc-i-WindowHtilp田pSH為著t佣Stack:Basev田m曰日口inputX12345e61523.51612A625.934.21.56:26362.2416Z2646.12.9471.4642655.62.93.613BE26&673.14.41.46E2675.634.515672B85.82.74.11BE2696.22.24.516更2705.62.53.91.17C2715.93.24.816712726.12.8413兀2736.32.54.9157E2746.12.64712742756.42.94.3137E27B6.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字化浪潮下中原银行信阳分行手机银行营销策略的多维剖析与创新路径
- 彩色纤维生产线项目初步设计
- 明晖安全管理培训课程
- 小学城区学校课后服务教师补贴-基于2023年财务发放银行流水
- (2025年)陆河县辅警考试题《公安基础知识》综合能力试题库附答案
- 河北省药品采购制度
- 洗煤厂采购制度模板
- 海沧区采购管理制度
- 消防工程采购制度
- 漳州市政府采购验收制度
- 2026年中国农业银行招聘考试笔试试题(含答案)
- 2025学年3 不懂就要问教案
- 中石化油品采购制度规定
- 2026年山东省新动能基金管理有限公司校园招聘笔试模拟试题及答案解析
- 2026江苏南通市苏锡通科技产业园区消防救援大队消防文员招录2人笔试模拟试题及答案解析
- 清醒俯卧位通气护理专家共识
- 中国艺术研究院社会招聘试题
- 糖蛋白与蛋白聚糖优秀课件
- 苏教版六年级科学下册单元测试卷及答案(全册)
- 火电工程项目建设程序和内容课件
- 桃树优质丰产栽培技术培训课件
评论
0/150
提交评论