直方图进行数据离散化实验_第1页
直方图进行数据离散化实验_第2页
直方图进行数据离散化实验_第3页
直方图进行数据离散化实验_第4页
直方图进行数据离散化实验_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验题目: 直方方图进行数数据离散化化 1 实验目目的直方图使用用分箱来近近似数据分分布,是数数据规约的的一种形式式。通过本本实验,需需要掌握不不同直方图图的数学原原理和构造方法法。同时,掌掌握使用不不同直方图图对数据进进行离散化化的原理和和方法。最最后,利用用实验数据据实现一种种直方图并并进行评估估。2 实验步步骤2.1 算算法原理首先,假设设有N个自自然数的集集合U=x | xN,其中中最大值为为。(1)等宽宽度直方图图对数据进进行分箱。假设按等等宽度的方方法进行分分箱(宽度度w=1),则则对于N个个数据,按按其值分别别放入到相相应的箱中中,箱子的的数目。设每个箱箱中的统计计数据为,按按照

2、坐标值值/频率对对()表示在二二维坐标上上,则可以以得到该组组数据的单单桶直方图图。其中,。一般情况况下,为了了进一步压压缩数据,通通常进行数数据分箱时时,每一个个桶代表的的是连续的的属性值,即即取宽度。在这种分分箱方法下下,分箱数数目。则按照公公式,其中,令令所得到的值值/频率对对,的宽度为为q的直方方图,即为为常见的等等宽度直方方图。(2)等深深度直方图图与等宽度度直方图相相比,等深深度直方图图仅仅是在在创建数据据桶时与其其不同。等等深度直方方图的数据据桶的创建建思想是:使得每个个桶的频率率粗略的为为常数,即即每个桶中中包含大致致相当的样样本数据数数目。设分箱的的数目为KK,则对于于每一个

3、桶桶,有,其其中。只有在这这种情况下下,才满足足大致相当当。所要求求的是每一一个桶的边边界,。求边界的的过程:首首先对该集集合U进行行排序(由由小到大),由由于每桶的的数目相等等,所以每每间隔c个个数据,取取一次数据据值,即为一一个有效的的边界值。对于排序序后的序列列,有。所得到的的二维值对对,即是等等深度直方方图。2.2 算算法步骤用户输入数数据分桶的的数目K,然然后按如下下步骤计算算:(1)对样样本数据进进行排序(2)计算算宽度w和和c(2)对数数据进行扫扫描和计算算等宽度直直方图的数数目值和等等深度直方方图的边界界2.3 程程序流程图图开始获取分桶数目k读入文件数据计算桶宽度w逐个扫描数

4、据,统计数目结束图1 等宽宽度直方图图流程图在图1中中,数据的的分桶数目目是用户输输入的数据据,预先由由用户设定定。样本数数据存放在在文本文件件eggss.txtt中,由程程序运行时时读入。在在实验中,通通过对样本本数据的考考察,计算算桶宽度ww的方法是是。统计结果果存放在数数组中,返返回统计结结果。获取分桶数目k读入文件数据数据顺序排序计算桶的深度p,每个桶的数目c开始结束间隔c个数目在数据中一个值,作为边界值图2 等深深度直方图图流程图在图2中,数数据的分桶桶数目是用用户输入的的数据,预预先由用户户设定。样样本数据存存放在文本本文件egggs.ttxt中,由由程序运行行时读入。每个桶的数据

5、量c的计算算公式,NN表示原始始数据的数数据个数。边界计算算结果存放放在数组ee中,返回回边界数组组,计算过过程结束。3 实验结结果分析图3 等宽宽度直方图图(K=110)统计计结果图4 等宽宽度直方图图(K=220)统计计结果图5 等深深度直方图图(K=110)统计计结果图6 等深深度直方图图(K=220)统计计结果上面的图图分别表示示K=100和K=200的情况下下eggss.txtt中数据的的等宽度和和等深度直直方图的统统计结果。直方图的的使用是为为了离散化化数据。在在实验中,使使用每个桶桶的中值来来代表该桶桶中数据的的离散结果果。在K=10的情情况下:使用等宽宽度直方图图,样本数数据离

6、散值值为550,11650,22750,33850,44950,66050,77150,88250,99350,1104500;使用等等深度直方方图,样本本数据的离离散值为3,43,1882,4003,6443,9881,13378,11803,22365,6770。在K=20的情况下,使用等宽度直方图,样本数据离散值为275,825,1375,1650,1925,2475,3025,3575,4125,4675,5225,5775,6325,6875,7425,7975,8525,9075,9625,10175,10725;使用等深度直方图,样本数据的离散值为0,2,17,50,108,19

7、9,308,412,539,683,842,1051,1221,1368,1552,1776,2035,2338,2742,6915。实验表明:对于采用不同的直方图和不同的桶数目K,得到不同的离散化结果。4 实验结结论对于上述述的四种离离散化结果果,如何来来判定哪种种离散化数数据的效果果更好呢?一般的,离离散后的数数据越接近近样本原始始数据,则则效果越好好。数据离离散化后,与与原始数据据肯定存在在差异,一一般用误差差度量这种种差异大小小。在这里里,定义平平均相对误误差和最大大相对误差差来表示离离散数据逼逼近原始样样本数据的的程度,作作为离散化化的评判标标准。平均相对对误差E定定义如下:,其中,

8、和和分别表示示第i个值值的离散值值和真实值值,N表示示数据总量量。最大相对对误差M定定义如下:,其中,N的定定义和平均均相对误差差中的相同同。对于K=10,根根据等宽度度和等深度度的方法,可可以得到两两组不同的的离散值TT1和T22。对于这这两组离散散值,通过过计算,得得到平均相相对误差EE1=8.5384418,EE2=0.3997769,最最大相对误误差M1=549.00,MM2=2.00。由上述两两组比较可可得,在对对该样本数数据进行离离散化时,采采用等宽度度直方图的的方法,效效果更好。对于等宽宽度直方图图,当K=10和KK=20的的情况下,可可得到两组组不同的离离散值T11和T2。通过

9、上述述方法计算算可得,平均相对对误差E11=8.55384118,E22=4.22612110,最大大相对误差差M1=5549.000,M22=2744.00。对于上述述两组数据据,对于采采用直方图图进行数据据离散化,在在桶数目多多的情况下下,误差较较小。当KK=N时,数数据即为原原始数据,此此时,误差差E和M都都为0。但但是这样的的数据离散散化时无意意义的,在在比较K不不同时,还还需要考虑虑另一项指指标:数据据压缩比率率。在实验中中,对于每每个桶中的的数据,取取离散值的的方法是取取中值。如如果改变取取值方法,比比如用桶内内样本的平平均值来表表示离散值值,则会得得到不同的的E和M,但但是结论不

10、不会改变。5 实验心心得体会1、使用程程序读入文文本数据方方法读入数据据问题,使使用的数据据是从daat文件转转换过来的的txt文文件,每行行的数据都都是换行后后的,所以以可以直接接通过geetlinne函数获获取每行值值,然后使使用atooi函数转转换为整型型数据。2、为何在在实验结论论中的评价价标准不使使用绝对误误差?绝对误差差对于离群群点敏感,不不能代表整整体逼近效效果。3、对于一一簇样本数数据,应采采用何种直直方图划分分更为合理理?对于数数据的划分分,在实验验中是采用用用户的一一个预设值值,可以通通过数学的的方法获取取一个较为为良好的KK值吗? 参考文献 1 数据挖掘掘:概念与与技术/

11、(加加)韩家炜炜,(加)坎坎伯(Kaamberr,M.)著;范明明等译.-北京:机机械工业出出版社,22001.8附录(源代代码)/读入数数据BOOL CDraawHisstogrramDooc:RReadFFile(CStrring fileePathh)fstrream infiile(eggss.txtt);if(!infiile)retturn FALSSE;charr ch_num10;/innt i=0;/innfilee.seeekgwhille(!iinfille.eoof() )inffile.getlline(ch_nnum,ssizeoof(chh_numm);vt_da

12、taa_orgg.pussh_baack(aatoi(ch_nnum);infiile.cclosee();retuurn TTRUE;/等宽度度直方图统统计void CDraawHisstogrramDooc:WWidthhEquaalCatte(veectorr vtt,intt minn,intt maxx,intt numm)if(mmax=0 | numm=0)retturn;int inteervall=maxx/(innt)nuum;/申请请数组,初初始化为00int * arrray=new intnum;for(int pos=0;poosnuum;poos+)arrrayp

13、pos=0;for(int i=0;i(iint)vvt.siize();i+)if(vtii/inntervval vtt_datta_wiidth.assiign(aarrayy,arrray+nnum);deleete arrray;/等深度度直方图计计算边界void CDraawHisstogrramDooc:DDepthhEquaalCatte(veectorr vtt,intt minn,intt maxx,intt numm)if(mmax=0 | numm=0)retturn;/首先先排序,然然后查找值值,默认升升序sortt(vt.begiin(),vt.eend();int

14、 sizee=(innt)vtt.sizze();int inteervall=(innt)vtt.sizze()/num;int i=inntervval;for(int j=0;jvvt_daata_ddepthh.pussh_baack(vvti);i += inntervval;thiss-vtt_datta_deepth.pushh_bacck(vttsizze-1);/直方图图绘制void CDraawHisstogrramViiew:DrawwEquaalWiddthHiistoggram(int x_siize)/thhis-OnInnitiaalUpddate();/thhi

15、s-Invaalidaate();CDraawHisstogrramDooc* ppDoc = GeetDoccumennt();ASSEERT_VVALIDD(pDooc);CCliientDDC dcc(thiis);vecttor:iteeratoor pttr;int i=0;for(ptr=pDocc-vtt_datta_wiidth.begiin();ptr!=pDooc-vvt_daata_wwidthh.endd();pptr+)/计计算矩形区区域CReect rrect(thiss-orrgPoiint.xx + ii*x_ssize,thiss-orrgPoiint.yy-

16、(pDDoc-vt_ddata_widtthi)/thhis-y_raatio,thiss-orrgPoiint.xx+ (ii+1)*x_siize ,thiss-orrgPoiint.yy);CBrrush * myyBrussh=neew CBBrushh;myBBrushh-CrreateeSoliidBruush(RRGB(ii*45%255,i*755%2555,i*55);/填填充区域dc.FilllRectt(&reect,mmyBruush);i+;/显示示统计值CStrring str;for(int j=0;jvt_ddata_widtth.siize();j+)strr

17、.Forrmat(%d,pDooc-vvt_daata_wwidthhj);dc.TexttOut(orgPPointt.x+XX_LENNGTH,orgPPointt.y-YY_LENNGTH+20*jj,strr);void CDraawHisstogrramViiew:DrawwEquaalDeppthHiistoggram()/thhis-OnInnitiaalUpddate();CDraawHisstogrramDooc* ppDoc = GeetDoccumennt();ASSEERT_VVALIDD(pDooc);CCliientDDC dcc(thiis);vecttor:it

18、eeratoor pttr;int i=0;if(ppDoc-vt_dataa_deppthppDoc-vt_dataa_deppth.ssize()-1/thiis-xx_rattioXX_LENNGTH)thiis-IInvallidatte();MesssageeBox(坐标和和数据不符符合!,错误,MB_OK | MB_ICONNERROOR);retturn;/最后后一个数是是终点边界界for(ptr=pDocc-vtt_datta_deepth.begiin();ptr!=pDooc-vvt_daata_ddepthh.endd();pptr+)/绘绘制0-vvt_daata_ddepthh0if(i=00)CRRect rectt(thiis-oorgPooint.x,thhis-orgPPointt.y-2200,tthis-orggPoinnt.x + pDDoc-vt_ddata_deptth0/thiis-xx_rattio,tthis-orggPoinnt.y);CBBrushh * mmyBruush=nnew

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论