数据仓库与数据挖掘技术_第1页
数据仓库与数据挖掘技术_第2页
数据仓库与数据挖掘技术_第3页
数据仓库与数据挖掘技术_第4页
数据仓库与数据挖掘技术_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理?数据预处理主要包括哪些工作(需要对数据进行哪些方面预处理)?(1)现实世界的数据是杂乱的,数据多了什么问题会出现。数据库极易受到噪音数据(包含错误或孤立点)、遗漏数据(有些感兴趣的属性缺少属性值或仅包含聚集数据)和不一致数据在编码或者命名上存在差异)的侵扰因为数据库太大,常常多达几G或更多。进行数据预处理,提高数据质量,从而提高挖掘结果质量。(2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将数据由多个源合并成一致的数据存储,如数据仓库或数据方;数据交换:规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性;数据归约:通过聚集、删除冗余特征或聚类等方法来压缩数据。数据离散化:属于数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要。2.什么叫有监督学习?什么叫无监督学习?监督学习(Supervisedlearning)是通过发现数据属性和类别属性之间的关联模式,并通过利用这些模式来预测未知数据实例的类别属性。监督学习又称为分类Classificati(n或归纳学习InductiveLarning无监督学习(Unsupervisedlearnig)即聚类技术。在一些应用中,数据的类别属性是缺失的,用户希望通过浏览数据来发现其的某些内在结构。聚类就是发现这种内在结构的技术。3.什么是数据仓库的星形模式?它与雪花模式有何不同?雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。然而,与巨大的事实表相比,这种空间的节省可以忽略。此外,由于执行查询更多的连接操作,雪花结构可能降低浏览的性能。这样系统的性能可能受影响。因此,在数据仓库设计中,雪花模式不如星形模式流行。二、写出伪代码Inputs:I= ?zjt}(Lnstajicestobeclustered)n(NumberofclustersJOutputs:C={c1?…f%}(clustercentroids)m\IC(clustermemlDership)procedureI<MeansSetCtoiiLLtia.lvalue(e.g.randomselectionofI)FoxeadiijE/=aargminc/asiancefij,4E{1..71}End 'WhilemhaschangedForeachjG{1..n}RecomputeZja.sthecentroidof{21(2)=j}EkidForeachijEPdistance(if?Cf.)k日L.77}EndEndreturnCEnd3. (15分)一个数据库由下列5个事务(transaction)纟且成,假设用户指定的最小支持度为60滋,最小賈信度为80%.TIL>亍农i叩;tTlOOT20OTSOOTHX)T50OfA4,O,M,K.F,V;|I入O,NhK,EtY}{M,A,K,r|U,C,K.、\\Goack5tsr:基+Apriori算法产生所有的频繁项集;构造所有的强关联规则.答:(1)所有频繁项集为:[E,K,O] [K,M] [K,Y](2)关联规则:[o]->[e,K]01.0[E,0] —>[K]1.0[K,0]-〉[E] 1.0[M]-〉[K]1.0[Y] -〉 [K]1・04.HE分)Whyis.theDecisionTretIndtKtionalfontlm'iniarftnkedtoremunatRconsiderthefoUouiogdatatabk”describingpeople,inhere'class'(0or1)istheclassoftheexamples±frranmigaclassifier.1)Whichartnburewdlbeseleciedbycleci^iontreeimaucrioiia&rheiootoirhe(reelwtahattribiire.attnbutescanberemo\ped,and^hy9luiilomioiichildrenESCSIN也翦b]0窝HOttawa3bigp6507S^2Sr0iJondtoicnto3任記26为&1brownOTtawa3呃174328402170tiountOICJltOiJb里第42140加/0blO^TLOttawa3b毘%M329时atorento3entaili789032&13,1IJondOttawa3、mall(1217809157i 1IrouTitorento3big<643fl26437,0Woodoitawa3•mall1<54893l09S'PiblondOttawa3|伽8216Ti 1决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程以递归的方式对树进行修剪。当不能再分割时,递归完成。因此决策树不会无限循环。0sizeChildren,SIN,class5. (20分〉假定有如下的训练数据(类别属性>=1Class),保存在一•个名Train.txt的文件中,每一条训练样例列在一行上,不同属性之间用空格隔开QhankcMioncliddrecsizeSINbrownOttawa3'/ISq6507862Sr0lorouro3snail'56S326546'1brcwaonawarIbig74J2S4O21'0brownloronto3pipW140966'0brownOttawa3big1($7432928'0brownloiouro3smnll伽32643、1bkndOttawa31N7SO945J11brownloionro3big"64號?54$厂0blondOttawa3smfill548931098')blood3 |Mimll*4397&2167'1请用UC++或Java®计程序,利用上述训繚数据训练NaiveB^yes分类器,然后利用训练好的分类器对任意_个人(如cbrowmtoronto,3fbig,*455859595»进行分类■:PublicclassBayesClassifier{privateTrainingDataManagertdm;〃训练集管理器privateStringtrainnigDataPath;//训I练集路径privatestaticdoublezoomFactor=lO.Of;/**大默认的构造器,初始化训练集*/apublicBayesClassifier()a{atdm=newTrainingDataManager();}a/**a*计算给定的文本属性向量X在给定的分类Cj中的类条件概率a*<code>ClassConditionalProbability</code>连乘值a*@paramX给定的文本属性向量a*@paramCj给定的类另血大@return分类条件概率连乘值,即Vbr>A*/floatcalcProd(String[]X,StringCj){floatret=1.0F;//类条件概率连乘a for(inti=0;ivX.length;i++){StringXi=X[i];ret*=ClassConditionalProbability.calculatePxc(Xi,Cj)^zoomFactor;a}a//再乘以先验概率ret*=PriorProbability.calculatePc(Cj);returnret;}A/***去掉停用词*@paramtext给定的文本a*@return去停用词后结果*/publicString[]DropStopWords(String[]oldWords)

VectorvString>v1=newVectorVString>();for(inti=0;i<oldWords.length;++i)A {a if(StopWordsHandler.IsStopWord(oldWords[i])==fa1se){〃不是停用词vl.add(oldWords[i]);A }}String[]newWords=newString[v1.size()];avl.toArray(newWords);a returnnewWords;a/**a*对给定的文本进行分类@paramtext给定的文本a *@return分类结果/a@SuppressWarnings("unchecked")publicStringc1assify(Stringtext){a String]]terms=nu1l;terms=ChineseSp1iter.sp1it(text,"").split("");//中文分词处理(分词后结果可能还包含有停用词)terms=DropStopWords(terms);//去掉停用词,以免影响分类aString[]Classes=tdm.getTraningClassifications();〃分类floatprobility=0.0F;ListvClassifyResult>crs=newArrayListVC1assifyResu1t>();//分类结果a for(inti=0;i<Classes.length;i++)a{a StringCi=Classes[i];//第i个分类probi1ity=calcProd(terms,Ci);//计算给定的文本属性向量terms在给定的分类Ci中的分类条件概率a //保存分类结果aC1assifyResultcr=newClassifyResult();cr.classification=Ci;〃分类bility=probility;〃关键字在分类的条件概率System.out.println("Inprocess….");System.out.println(Ci+":"+probi1ity);A crs.add(cr);A }//对最后概率结果进行排序a java.util.Collections.sort(crs,newComparator(){apublicintcompare(finalObjecto1,fina1Objecto2)a {a finalC1assifyResu1tml=(ClassifyResu1t)ol;fina1C1assifyResultm2=(C1assifyResu1t)o2;finaldoubleret=ml.probility-bi1ity;if(retv0)a {return1;}e1se{return-1;});});}a〃返回概率最大的分势 returncrs.get(0).c1assification;A }氐(20分)为什么说KNN算法属于“懒惰”的机器学习算法?请给出KNN算法的伪代码。(1)最临近分类是基于要求的或懒散的学习法。因为它存放所有训练样本,并且直至新的样本需要分类时才建立分类。begin初始化nxn距离矩阵D,初始化混淆矩阵C,设置t=0,TotAcc=0,NumIterations为要迭代次数。计算所有输入样本和存储在D矩阵中的距离。Fort=ltoNumIterationsdoSetc=0 ,Ntotal=0将输入样本划分为k个同等大小的分组Forfold=ltokdo指定第f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论