数据预处理任务及方法_第1页
数据预处理任务及方法_第2页
数据预处理任务及方法_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

It■唯里任关及方法wIFee)UHl-rJ4!LDvwmtiAmdu:rlhcri:FlpsJjIhmu4x*mWSMOIFM>MrhrwlwnIJHttnzaW:Ugugi“iltwgxs!十・WI牝1.iiln^lr^k^^qN、浒耆上白和*fr*K:3M,Hi■g£KM»^W?ALSTMJbB iM.辩餐司imm:.环*ra&j-R%■i^HINNIkMrncH- ^U»^J39LS命ESi;«IiWfi-tea*MF^ga”由*W5FaE<™ft昌I uCBrfJqa,山H—1WS^WMhiWH-MCtlW—mnViHEI±*JdUt—7 Jhw=1»址[崛WE*n*MHHd3KLDIlSMIwLSiUriEFi&ruMwIra■---immWikh1^5H一imuiigg*HWM1!6«iXnmVh.f?l>twv+■wnw<WE•-—---.^EH-t-31闩*-tWE.EAgJtaSMR .MSRJP -MfW的殛■皓讶EM1?既岫的tE.JNAMm^iS.M叩口qnna^M^Bnwjm.成f霜FETfl-f .HHKL■lU^MS.KM4HHM.K■Ai■-Ft»I3HF-EAEKblfl-M>B.^*(血Iv 用工卑WE啧部:口rJU.—mmAu£iM&r>^];WE.VWEL-^■F«BEnil,PKKffH^EM.2T^lJF=WXW£WI4B%rwavB^—g・fVMpisaoTET.r.^:Mnmhr^pril KA|•电晦州:*iiW那E_ i-i.i .!?lMULEAH.:?iAE«r#KB±*I]ri(FUFilwqnuvBvn«mrFrihm«mn注予duLf1"fl-:Mi—尸上*+5:a-*-pc建心i倾或*.二抽作fEft^Sd^XrrWT况ITl码 虢TTV1S.己E.KwMiTnM£4£MlBLEEs,虹EtHdIM戏Ml.«niT由JILMIg^ii=1*!**皿SHSEE.F^WMIiEJIl.mnwmBUhtHiRTitai.wtmtm暮etefp.m^-^rwraju-mh.LErtnddjltuH.IMffMI.&m«rwian*6tji(UdBKtiDn)EiJlflWwhriLJTTHTflhr;ri^MEl*M^.H=—*>5WlRb£14“t¥EB#rE5笔驮■:™l*WXh」3W2!空渤谷十*feut.BE■皿勺i *—氓7由LmtTvHBR-<»rc-HV.gjcnFuwKW^^msiiuyRrwLThvCunaMDirrMnuamlifij*)立如M邮HEMflDE懦浒M,uf"fiJi.*5F叫.515、■岫叫即闵1忙m*.imriE=HnitamniiX/iRMAi"g.in由w^Kra-^Eratfjrrit.=.narftiss宛*EF1TFlftjgEEWvil:』即囱玷5.■nEWHMf!-ii^indMi:四琢In^kvri|#L!IH・*+T:^gWW女f-tmaiax.wif^bt^i n^-fs3-此MgL:biFfcwrlSi_|WE■睥欢grQ*—三e*时中—>utj^nHsg™F—『H.g」11HW1.*3*.■H/HWWTHE■ITWEHiLdt^..ihftIfiHBzrttBftHaw-T*.MBPIffi*心WR1土止nMi .Lm!i—」hzW:vui^r"j.VZJM^I IHtldllMflEDlIFEiT-H-.d."■.tlE^njaHJrlKU'^m-BKH^'TSIffEfBHiniir cask^r^iMS-vuAj..气-ta^Twr*UEHvn.i&t由印,生伊・是株摩电博'.锦・"hm*: -ff—ihKs恃叵学—迭柑的昼f9IAn-鼻皿吊1«也2farFviture&ubavt%«l■匚Hon|-KI策哪CTgEJfilEWW姑WiW-B事跛TW*・1«1^工TrWm*ML:-?IBL-XIT・dJieitE~Mb4gj明#*^4辎珂■冉f时jffl于・aiwg匕miuHjU甘胃 ciwKtiittcwnttWfv*a,trru曰三,•,回,yjfc-r .JtAM^L^-raidoAuKxgi“星雄・阳殉.・廿T+毒草片aEfl^WeflRWTs:^^-VfEt^riS.■#»UBOlUHUHFaBflll.ll->>:-*■=!»"引呻宜mMYFMamwnunH—MfHAS-J.X-biE-iWlfalI4E3TKW«Vl*J/'.—*fihETI厘:h凯JLwzy・nw*jhz旦*・E,Frru:JH^ai;^<Jr扎 Ml甲*蜓血/EMI—nHvqW4:lTBTF.H掉:i?U.蜘gi:WWWelghUnq|F・n>mwHpbq辨小戋喇仁・强?寻<.Lk»<£S-imStaFprw^taci心TUfiiM*wdM:fnwmQHhmN里向以白Wf事■口隹fgf^:虬PrailMH>"E・Mwa&H;aNILUf5BrqtE:・ 畔gU iHi百十/十戋梓,E"ruf^M-a^dhiiicdtjw耳―*24宙IfWMHiE恒"XWJIW!rHrtvriUViNvfIaakhmh-:,mixa/■而■-吓4弟■麦me?u4iile.m.jiskmswv:挛r,■诂率金,帮船衬害El.TaM拓於皿LW匚罕*遍aws>i=怡歪*nugtww,・FgfE.Fuwt砂1,wiiJten/wfl_n^ti3sr.f„m.■村.Inn>^LfIlnB^i&.&11F*TOR.”■鼻m.W曲Ig炒FWILEH■MtrnttasN■M4Ph|»s»#U照®iwWM*Ii-?^T 3口尊k=wwE;i¥«a皿UR别.闻舵gM心.JKWtI±K - 宜AG>rwflTM^Tanft##袖Wqu!PtrtniConiJfrwfthB^fIfKE—.EIFWT眠IS■上B-娜此虹逃桃-ttMKflaXAMlHkfiPl«HH-yi3i.»4!iii^^hril#l!"buix«iHrai.»Efln>U"VE1337■UZJ:VIVIII11bnavftRjmL魏代.1119■■甲i“L■足:i^UaYriKAiUliLHiH. iZhlKprriril«|>4^WW<W^・—・rta「ELF■,顽七炉h-H皿5L度帕 BHUIKMMB&M-,A■可3U・・>虬・3,•f2T*|l3gri■BiS;E*t4MrEy.In!<l-H咔MFI*.日ft职FA痴遍.ZHWfttfiiiuiriaionJE-rEBliEl^nni1:.QWfl-iaKFiF*.I.KKUW^■TV.KW翊膑址1乱Tgr炳,aHMEMsmii重E刈mllWl〒bFr-:fm 拓M*null非监督式的离散化(UnsupervisedDiscretization)分类中离散化方法的一个很大的区别是是否使用类别信息。使用了类别信息的成为监督式的离散化(supervised),没有使用类别信息的成为非监督式的方法(Unsupervised)。等宽方法(equalwidth)将范围内的属性划分成一个用户指定的区间数量,每个区间都有相同的宽度(width)。这样的方法受离群值影响很大。因此,等频方法(等深方法)(equalfrequency,equaldepth),是将相同数量的对象分到每个区间中,这也很常用。监督式的离散化(SupervisedDiscretization)使用额外的信息(类标签)通常会产生更好的结果。无类标签知识构造的区间通常会包含混合的类标签。从概念上讲,分割的简单的方法是最大化区间纯度(purity)。实际中,这样的方法需要人工选择区间的纯度和最小的区间大小。为了克服这样的困难,一些统计的方法被用来解决这些问题。先将每个类的值都作为单独的区间,再根据统计测试,合并临近的相似区间(adjacentintervals)获取更大的区间。基于熵(entropy)的方法是很好的。有太多值得类别属性(CategoricalAttributeswithTooManyValues)类别属性有时候会产生很多的值。如果类别属性的是顺序的,可以利用类似连续属性离散化的方法。如果类别属性是分类的,则要利用一些领域知识。如一个大学可以有很多学院。学院名称可能有很多的值,这种情况我们可以将很多的学院联合在一起组成更大的组,如工程类,社会科学类,生物科学类等。如果领域知识无法使用就要根据实际情况进行操作。只有在类别合并时会提高分类精确度时我们才可以合并。五、变量转换变量转换是将一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论