数据挖掘实验报告_第1页
数据挖掘实验报告_第2页
数据挖掘实验报告_第3页
数据挖掘实验报告_第4页
数据挖掘实验报告_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、学生姓名:学号:6008专业:计算机科学与技术班级:计算机208班41实验内容()在算法中数据集大小与精度之间的关系()属性个数对该关系的影响实验思路实验要求探究数据集大小与精度的关系以及数据属性个数对这个关系的影响。对于第一个问题来说,影响算法精度的因素很多,数据集大小只是其中的一个。在研究训练集对算法精度影响实验中要求固定其他影响因素,即在实验中分析训练集大小与精度的关系时,对训练集进行多次不同随机采样,采用同样的测试集测试模型精度并记录每次测试的结果,最后分析比较得出结论。在研究测试集对算法精度影响时,采用同样的训练集对测试集进行不同的抽样得到不同的测试集,然后进行测试并记录结果,对结果

2、进行归纳总结得出结论。对于第二个问题,使用同一个数据集,采用带筛选器的分类器,对处理后的数据进行10重交叉验证,记录所得精度,修改筛选器的抽样比率,得到不同的数据集,重复实验,比较得最后的结论。此次试验要求采用多组数据进行相同的测试,最后分析归纳得出结论。3实验过程对实验数据进行预处理,将数据中的数值型数据转变为离散型数据。使用将数据集中的数据离散化。选中中的得到图的界面进行参数设置设置的是想要离散化属性的标号,设置将属性离散为几个离散值。这里设置的是将第1,5,个1属0性分别离散到三个数据段内。点击确定返回主页面并点击完成离散化。图数1据集大小与精度之间的关系3.1训.练1集大小与以训练集图

3、数1据集大小与精度之间的关系3.1训.练1集大小与以训练集()打开训练集算法精度之间的关系i实例个数,属性个数为例进行实验过程:选择筛选器,筛选器路径为对原训练集进行处理,对原训练数据集进行无监督的随机抽样,选中进行参数设置得到图2,将属性设置为0点击确定返回主页面并点击即抽取10个0数据作为新的训练数据集。SmmrarySmmrary图广鱼1TestInstance-5回图广鱼1TestInstance-5回R亡1比tioii;HohieAttributes;IToxi已Instuc亡旨;ITqjlsSumweights;UotleClas5IToclass分类器并选中2)切换到分类界面选择

4、分类器并选中选项,点击打开测试集进行测试如图Openfile.;OpenURL.Close(3)测试完成后得到图4的结果我们可以看到当训练集为10时0得到的精度为。这个结果相对来说比较低。SmmrarySmmraryCorr-sc-tlyClassifiedlustslices137274IncorrectlyClaasifisdInstances3372-%Kappastatisticu0702Kean,ahsoluteerroru29g3Hootmeansquarederroru44.33kelaciveahaoluceerror95.9012呂Rootrelative3!jusi:ede

5、rror113.121%Coverageofcases(0-95leve1)63.2%Heanrel.regionsiza(0.35leval)52.04%bC社_-bC社_-clajsllledas0L219a=classl15925131b=class223lfi2t15Iu=Cla.3331455C231=class4394243E=匚1匕口!54)重新加载训练集,修改抽样个数,重复试验得到如下=DetailedAccuracj/ByClass=TPRateFPRat-ePrecisionRecallF-lfeia3ureMCCROCAreaPRCAreaClassCL140,0940.

6、1220.140.130.0430T5fi30.10(classl0.2110,2070.1440.2110.1710.0030-5050.153class20.1B80.1280.2320.1880.2080m0650m&080170class3CL550.2760.3570.550.4330.240654O319CliB534l0.2080.2270.3f40.2080.265-0.0220532039Cli3335KEijiiL-ed.阳aO.Z740.207ozeaQ.2140.2670.0590.554O.Z63=CoutuslddMatrix=SmmrarySmmrarySmmra

7、rySmmrary数据:训练集抽样数1002003004005006007008009001100模型精度27.427.027.527.632.633.433.433.831.034.4对其他数据进行同样的实验得到下列数据数据集,实例个数,属性个数训练集抽样数10020050010002000500010000200003000045211模型精度87.1988.4788.8589.2189.2989.2989.4089.4189.6089.76数据集数据集,实例个数,属性个数数据集训练集抽样数1020304050607080100138模型精度74.0374.0374.0374.0374.0

8、374.0374.0374.0374.0374.03,实例个数,属性个数训练集抽样数306090120150180210240270310模型精度64666670707069707171由以上数据可以得出结论:算法精度随着数据集的增加而增大,当训练数据集规模增大到一定程度时,建立模型的精度不会再持续增大,且最大分类精度不会超过模型对训练数据的拟合度。测试集与算法精度之间的关系按照3.1实.验1中的方法把测试集进行随机抽样,并保存为新的测试集。修改随机抽样的数量得到不同的测试集,对不同的测试集选用相同的训练集进行分类,得到如下数据:训练集实例个数,属性测试集,实例个数0属性测试集抽样数50100

9、150200250300350400450500模型精度403638.738.536.83736.835.535.134.4训练集,实例个数,属性个数测试集,实例个数,属性个数测试集抽样数305010020050010001500200030004521模型精度989594909290.39090.888.789.7训练集,实例个数,属性个数测试集,实例个数,属性个数测试集抽样数102030405060708090100模型精度80657072.57473.372.872.571.171由以上数据我们可以得出结论:当数据集过小时精度的变化幅度较大因此没有代表性,当测试集的规模达到一定数量时,算

10、法的精度趋于稳定并在一个很小的范围内上下浮动。3.属2性个数对数据集大小与精度关系的影响以数据集为例讲解实验过程:()对数据不做预处理直接打开数据集,并进入分类器界面。(2选择分类器如图所示:ClbZiLfl*r&ClbZiLfl*r&孔di咤FLltereddasEifLerAtirisutESelsctEdClssELfi&rBi&ggi.咤CLselficatiDnhaCLxistaringCIaSIZL1CtlLDUCdsISeilsltiveClbssltierCVPorH141orblaciicm班籌in?BeccirsteEMi二|腎ska白口clBssiEiers卧己b町naw

11、ElJjtunclions旺门117日己neta-AdaBoDstHl()单击右边的白框,并选择的选项选出下面选项如图所示:OK0wekia.gui.GenericQbjectEdiOK0wekia.gui.GenericQbjectEditrAboutJ48一匚U.35-H2elaEsifii-匚hdesfi1RanloiTiSubet_NU.5_S1filterCanellClassforrunninganarbitraryclassifierondata.thathasbeenpassed!throughanarbitraryfilter.*eka.eLs-sslf1ers.即己七乞Fi

12、1tered-La-ssitierajabi1ities()单击边上的白框设置参数,将的值设置为即筛选器的抽样比率为点击确定。5)返回分类器界面点击5)返回分类器界面点击按钮开始对数据集进行处理,并得到图的结果:CoiiEctl/ClassifiedInatanceaL12fi4S.D4InaorreatlyClassifiedInatanaES13745496Ehppaazatistic0.D121MjeanELtaaluteerrar0.37SRo&tzeansquarederi&r0.5441Relaciveifca3Dluteezia-r99B73%RdoXrelativesqpiar

13、ederror124.9159咅CovEzzmgieofoases4tl9levelI71BS咅IEaxLrelregionsize(0level)61.4%TcitaiNuzcerafinstancea25C0detailedAccuracy3yC1E33IPRateEPRatePreaisi&n.ReohILF-feasureMCCROCAreaPRCAreaClass0.4390.4560-453o.ies0炕0.Q2L0.5070.4354classl0 x4S20*4740.4730.4520u47To.ooe0.1990 x47cla332O.C-110.0-150-0710.04

14、10.052-O.QOS0.50.079clasaWeighted0.4S0.4360-4370.4S0u4430.0120.503D.432=Confuaionfda.triK=abaciassiEledas55352751|1a=classl5555553|Ifc=Eilass2Ea102E|:=Ella333我们从上图可以看出这个模型的精度为6)设置不同的抽样比率对数据进行处理得到如下的数据:属性抽样数102030405060708090原属性模型精度45.0446.4047.2446.0044.2044.4445.2066.4066.2466.40(7)以同样的方法得到如下数据:数据集,实例个数,属性个数属性抽样数102030405060708090原属性模型精度49.2849.7258.0857.7656.3656.4455.3253.8060.2060.20数据集,实例个数,属性个数属性抽样数10203040506

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论