分类算法Java代码分析

上传人：m*** IP属地：河南上传时间：2020-03-31 格式：DOC 页数：51 大小：498KB 积分：15 举报 版权申诉

已阅读5页，还剩46页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Weak classifiers 包中含有用于分类和数值预测的大部分算法的实现这个包中最重要的是类是 Classifier 它定义了任何用于分类或数值预测的学习方案的通用结构 Classifier 含有三个方法 buildClassfier classifyInstance distributionForInstance 学习算法用 Classifier 的子类代表因此自动继承这三个方法每种方案都会根据构建分类器以及它对实例进行分类的具体方式对这三个方法进行重新定义首先先解释一下算法名字很多人很奇怪为什么叫 IB1 IBK IB Instance Based 的缩写但按 Jiawei Han 书上所写 KNN 其实是 Instance based learning 也被称为 Lazing learning 中一种他还讲解了基于案例的推理 Case based reasoning 算法其实是 KNN 但是作者论文的名字是 Instance based Learning Algorithms 我先介绍一下 IB1 IB1 就是只找一个邻居我们还是先看 buildClassifier public void buildClassifier Instances instances throws Exception if instances classAttribute isNumeric throw new Exception IB1 Class is numeric 类别属性是数值型的话报错 if instances checkForStringAttributes throw new UnsupportedAttributeTypeException IB1 Cannot handle string attributes 检查其他属性如果是字符串 String 类型报错不能处理 Throw away training instances with missing class 缺失类别属性的实例扔掉 m Train new Instances instances 0 instances numInstances m Train deleteWithMissingClass Instance 是一个类 Create empty instance with three attribute values m MinArray new double m Train numAttributes 定义一个数组 m MinArray 数据类型是 double 型共有 m Train numAttributes 个数据 m MaxArray new double m Train numAttributes for int i 0 i m Train numAttributes i m MinArray i m MaxArray i Double NaN 还没有将真正的实例的属性存放在这两个数组里 Enumeration enu m Train enumerateInstances 列举出每个实例的属性值 while enu hasMoreElements 以枚举的实例属性数量进行循环判断 updateMinMax Instance enu nextElement 更新属性的最大最小值是的 KNN 也有 buildClassifier 听起来蛮奇怪的第二个 if IB1 不能对字符串属性进行学习因为这种属性不好定义距离比如 a 和 ab 是 0 5 还是 1 呢然类别缺失的样本抛弃 m MinArray 和 m MaxArray 分别保存每一个属性的最小值和最大值最下面是对样本进行循环找出最大值最小值 updataMinMax 代码如下 private void updateMinMax Instance instance for int j 0 j m Train numAttributes j 有多少个属性就循环多少次 if m Train attribute j isNumeric value 是要返回实例的属性值 m MaxArray j instance value j else if instance value j m MaxArray j m MaxArray j instance value j 如果这个属性值大于之前定义的最大属性值将其值赋给最大属性值 Double isNaN m MinArray j 判断是不是 m MinArray 和 m MaxArray 已经赋值过了 else 如果可以更新 min 和更新 max 再看一下 classifyInstance 函数 public double classifyInstance Instance instance throws Exception 对待分类实例进行分类的过程 if m Train numInstances 0 throw new Exception No training instances 实例数量为 0 报错 double distance minDistance Double MAX VALUE 声明并且初始化 classValue 0 classValue 实例的类别属性 Returns an instance s class value in internal format updateMinMax instance Enumeration enu m Train enumerateInstances enumerateInstances Returns an enumeration 列举枚举 of all the attributes while enu hasMoreElements Instance trainInstance Instance enu nextElement if trainInstance classIsMissing distance distance instance trainInstance distance 方法在后面有说明 if distance minDistance minDistance distance classValue trainInstance classValue classValue Returns an instance s class value in internal format 返回这个实例的类别属性 return classValue 因为要进化归范化所以对这个待分类的样本再次调用 updateMinMax 然后对训练样本进行循环用 distance 计算与每一个训练样本和待分类样本的距离如果比前面的距离小则记录最后返回与测试样本距离最小的样本的类别值 private double distance Instance first Instance second double diff distance 0 声明并且初始化为 0 for int i 0 i m Train numAttributes i if i m Train classIndex classIndex Returns the class attribute s index continue if m Train attribute i isNominal If attribute is nominal if first isMissing i second isMissing i int first value i int second value i distance 1 else If attribute is numeric if first isMissing i second isMissing i if first isMissing i else if second isMissing i diff norm first value i i else diff norm second value i i if diff 0 Compute the number of attributes that contribute to each prediction m NumAttributesUsed 0 0 for int i 0 i 0 同样很简单 updateMinMax 如果超出窗口大小循环删除超过窗口大小的第一个样本这里注意 IBk 没有实现 classifyInstance 它只实现了 distributionForInstances public double distributionForInstance Instance instance throws Exception if m Train numInstances 0 throw new Exception No training instances if m WindowSize 0 boolean deletedInstance false while m Train numInstances m WindowSize m Train delete 0 rebuild datastructure KDTree currently can t delete if deletedInstance true m NNSearch setInstances m Train Select k by cross validation if m kNNValid m NNSearch addInstanceInfo instance Instances neighbours m NNSearch kNearestNeighbours instance m kNN double distances m NNSearch getDistances double distribution makeDistribution neighbours distances return distribution 前面两个判断不讲了 crossValidate 马上讲寻找 K 个邻居在我第 18 篇里已经讲过了现在我们看一下 makeDistribution 函数 protected double makeDistribution Instances neighbours double distances throws Exception double total 0 weight double distribution new double m NumClasses Set up a correction to the estimator if m ClassType Attribute NOMINAL for int i 0 i m NumClasses i distribution i 1 0 Math max 1 m Train numInstances total double m NumClasses Math max 1 m Train numInstances for int i 0 i 0 Utils normalize distribution total return distribution 第一行注释 Set up a correction 我感觉没什么必要又不是 Bayes 还有除 0 错误没什么可修正的这里可以看见它实现了三种距离权重计算方法倒数与 1 的差另外就是固定权重 1 然后如果类别是离散值把对应的类值加上权重如果是连续值就加上当前类别值剩权重 crossValidate 简单地说就是用蛮力找在到底用多少个邻居好它对 m Train 中的样本进行循环对每个样本找邻居然后统计看寻找多少个邻居时最好 protected void crossValidate double performanceStats new double m kNNUpper double performanceStatsSq new double m kNNUpper for int i 0 i m kNNUpper i performanceStats i 0 performanceStatsSq i 0 m kNN m kNNUpper Instance instance Instances neighbours double origDistances convertedDistances for int i 0 i 0 j Update the performance stats convertedDistances new double origDistances length System arraycopy origDistances 0 convertedDistances 0 origDistances length double distribution makeDistribution neighbours convertedDistances double thisPrediction Utils maxIndex distribution if m Train classAttribute isNumeric thisPrediction distribution 0 double err thisPrediction instance classValue performanceStatsSq j err err Squared error performanceStats j Math abs err Absolute error else if thisPrediction instance classValue performanceStats j Classification error if j 1 neighbours pruneToK neighbours convertedDistances j Check through the performance stats and select the best k value or the lowest k if more than one best double searchStats performanceStats if m Train classAttribute isNumeric double bestPerformance Double NaN int bestK 1 for int i 0 i searchStats i bestPerformance searchStats i bestK i 1 m kNN bestK m kNNValid true m kNNUpper 是另一个设置最多有多少样本的参数枚举每一个样本 instance 找它的邻居 neighbors 和距离 origDistances 接下来就是把从 0 到 m kNNUpper 个邻居的得到的方差 performanceStatsSq 和标准差 performanceStats 与以前得到的值累加 pruneToK 就是得到 j 个样本如果 j 1 的距离不等于第 j 个后面就比较好理解了 m MeanSquared 对连续类别是选择用方差还是标准差进行选择然后最出 m kNNUpper 看在多少邻居的时候分类误差最小就认为是最好的邻居数以前打算写一篇有关 OneR 的 weka 源代码介绍的但考虑知道这个算法的人太少不想今天有人问这个算法在这里我就把它补上 OneR 是一个很简单的算法出自论文 Very simple classification rules perform well on most commonly used datasets 由于论文的风格过于奔放并且很长所以我也就没怎么看基本思想就是对每一个属性都建一个单层的分类器对这些分类器进行比较谁分类效果好就作为最终的分类器下面还是看 buildClassifier 的代码删除了部分代码首先判断是不是就一个属性一个属性意味着只有一个类别特征如果是那就用 ZeroR 算法如果不知道为什么看我上一篇下面枚举每一个属性在每一个属性上产生一个 OneRRule 对象 r 下面判断这个 r 是比以前产生的正确的样本数多如果是则替换 public void buildClassifier Instances instances throws Exception boolean noRule true only class build ZeroR model if data numAttributes 1 m ZeroR new weka classifiers rules ZeroR m ZeroR buildClassifier data return else m ZeroR null for each attribute Enumeration enu instances enumerateAttributes while enu hasMoreElements try OneRRule r newRule Attribute enu nextElement data if this attribute is the best so far replace the rule if noRule r m correct m rule m correct bbs m rule r bbs noRule false catch Exception ex 下面看一下刚才的 newRule 函数初始化一个 missingValueCounts 数组数组大小为类别集合的大小如果当前这个类别是离散的调用 newNominalRule 如果是连续的调用 newNumericRule 下面的几行代码现在可能还有点难理解理解不了看完下面的再转回来看 missingValueCounts 保存的是对这个属性缺失值类别值的读数而 maxIndex 函数返回的就是这个属性缺失时最有时候的类别 Index 再下来 If 判断是否训练集中如果这个属性值缺失的样本那么 r m missingValueClass 1 如果有 r m correct 加上当这个属性缺失情况下最多出现的类别值的出现次数没办法就是这么难表达 public OneRRule newRule Attribute attr Instances data throws Exception OneRRule r create array to hold the missing value counts bbs int missingValueCounts new int data classAttribute numValues bbs if attr isNominal r newNominalRule attr data missingValueCounts bbs else bbs r newNumericRule attr data missingValueCounts r m missingValueClass Utils maxIndex missingValueCounts if missingValueCounts r m missingValueClass 0 r m missingValueClass 1 signal for no missing value class else r m correct missingValueCounts r m missingValueClass bbs return r 先看一下离散的情况初始化一个二维数组第一维属性的个数第二维类别值集合的大小下面对样本进行枚举如果当前样本该属性值是缺失的那么 missingValuleCounts 在相应的类别值下标上记数如果不是缺失的那种就在这个样本在该属性值的类别值下标上记数说起来很糊涂想通了很简单接下面这段代码刚开始看的时候我也糊涂了其实也很简单 best 就是当一个样本在该属性取值为 value 时最有可能的类别值 m correct 就是对这种情况的记数即在全部样本中当属性为 attr 时属性值为 value 类别值是 value 这种情况一共出现了多少次 public OneRRule newNominalRule Attribute attr Instances data int missingValueCounts throws Exception create arrays to hold the counts int counts new int attr numValues data classAttribute numValues calculate the counts Enumeration enu data enumerateInstances while enu hasMoreElements Instance i Instance enu nextElement if i isMissing attr missingValueCounts int i classValue else counts int i value attr int i classValue OneRRule r new OneRRule data attr create a new rule bbs for int value 0 value 0 missingValueCounts int data instance lastInstance classValue bbs int i 0 int cl 0 index of next bucket to create int it while i lastInstance start a new bucket bbs for int j 0 j counts length j counts j 0 do fill it until it has enough of the majority class it int data instance i classValue counts it while counts it m minBucketSize while class remains the same keep on filling while i lastInstance bbs i while i lastInstance for int j 0 j counts it bbs it j if cl 0 can we coalesce with previous class if counts classifications cl 1 counts it it classifications cl 1 bbs if it classifications cl 1 bbs cl yes correct counts it classifications cl it if i lastInstance breakpoints cl data instance i 1 value attr data instance i value attr 2 bbs cl bbs if cl 0 bbs throw new Exception Only missing values in the training data OneRRule r new OneRRule data attr cl new rule with cl branches bbs r m correct correct for int v 0 v cl v r m classifications v classifications v bbs if v cl 1 r m breakpoints v breakpoints v return r 下面的 if 是判断是否两个段的类别值相同如果相同就可以合并 coalesce 第一个 if 看起来比较怪它其实是想判断是不是这一段里有多个最大值而其中一个就是上次的最大值并且没有被认为是最大值如果是那么就用上次的最大值来代替下来的 correct 和 classification 没什么好讲的下来一个 if 为什么是两个样本值该属性值加起来除 2 是因为 i 已经加过了这时做的是这一段结束值与下一段的开始值以中间为界分开最后一个 for 就是复制一下不讲了最后一个函数 classifyInstance 如果是 m ZeroR 分类器说明只有一个类别属性下一个 if 如果是缺失值那么就是 m rule 的 m missingValueClass 当然也可能有学习时没有缺失值分类时有的情况那么返回 0 如果是离散值直接返回在属性 m attr 值的上的类别值如果是连续值看它在哪个段上返回该段上的类别值 public double classifyInstance Instance inst throws Exception bbs default model if m ZeroR null return m ZeroR classifyInstance inst bbs int v 0 if inst isMissing m rule m attr if m rule m missingValueClass 1 return m rule m missingValueClass else return 0 missing values occur in test but not training set bbs if m rule m attr isNominal bbs v int inst value m rule m attr else while v m rule m breakpoints v bbs bbs v return m rule m classifications v bbs 这次介绍一下 J48 的源码分析 J48 的源码似乎真还是有用的同学改造 J48 写过 VFDT 我自己用 J48 进行特征选择当然很失败 J48 的 buildClassfier 函数 public void buildClassifier Instances instances throws Exception ModelSelection modSelection if m binarySplits modSelection new BinC45ModelSelection m minNumObj instances bbs else modSelection new C45ModelSelection m minNumObj instances if m reducedErrorPruning m root new C45PruneableClassifierTree modSelection bbs m unpruned m CF m subtreeRaising m noCleanup else m root new PruneableClassifierTree modSelection m unpruned bbs m numFolds m noCleanup m Seed m root buildClassifier instances bbs if m binarySplits bbs BinC45ModelSelection modSelection cleanup else C45ModelSelection modSelection cleanup bbs 在 NBTree 中已经介绍过了 ModelSelection 是决定决策树的模型类前面两个 if 一个是判断连续属性是否只分出两个子结点另一个判断是否最后剪枝 m root 是一个 ClassifierTree 对象它调用 buildClassifier 函数这里列出这个函数 public void buildClassifier Instances data throws Exception bbs can classifier tree handle the data getCapabilities testWithFail data bbs remove instances with missing class data new Instances data data deleteWithMissingClass buildTree data false bbs 有注释也没什么好说的直接看最后一个函数 buildTree public void buildTree Instances data boolean keepData throws Exception Instances localInstances if keepData bbs m train data m test null m isLeaf false m isEmpty false m sons null m localModel m toSelectModel selectModel data if m localModel numSubsets 1 bbs localInstances m localModel split data data null m sons new ClassifierTree m localModel numSubsets for int i 0 i m sons length i m sons i getNewTree localInstances i localInstances i null else m isLeaf true if Utils eq data sumOfWeights 0 m isEmpty true data null bbs 这里的 selectModel 函数如果看过 NBTree 一篇的读者应该不会太陌生 selectModel 简单地说就是如果不符合分裂的条件就返回 NoSplit 如果符合分裂的条件则从 currentModel 数组中选出 bestModel 返回这最要注意的是 selectModel 也不只是决定哪个属性分裂其实到底如何分裂已经在这个函数里算里出来了我把 selectModel 拆开来讲解 bbs Check if all Instances belong to one class or if not bbs enough Instances to split bbs checkDistribution new Distribution data noSplitModel new NoSplit checkDistribution if Utils sm checkDistribution total 2 m minNoObj Utils eq checkDistribution total checkDistribution bbs perClass checkDistribution maxClass return noSplitModel bbs 2 m minNoObj 表示至有有这么多样本才可以分裂原因很简单因为一个结点至少分出两个子结点每个子结点至少有 m minNoObj 个样本第二个是或条件是表示是否这个结点上所有的样本都属于同一类别也就是这个结点总的权重是否等于这个最多类别的权重 Check if all attributes are nominal and have a lot of values if m allData null bbs Enumeration enu data enumerateAttributes bbs while enu hasMoreElements bbs attribute Attribute enu nextElement if attribute isNumeric Utils sm double attribute numValues 0 3 double m allData numInstances multiVal false bbs break 判断是否有很多不同的属性值标准就是如果有一个属性的属性值小多于总样本数 0 3 那么就是不是 multiVal currentModel new C45Split data numAttributes bbs sumOfWeights data sumOfWeights bbs For each attribute for i 0 i data numAttributes i Apart from class attribute bbs if i data classIndex Get models for current attribute currentModel i new C45Split i m minNoObj sumOfWeights bbs currentModel i buildClassifier data bbs Check if useful split for current attribute exists and check for enumerated attributes with a lot of values if currentModel i checkModel if m allData null if data attribute i isNumeric multiVal Utils sm double data attribute i numValues 0 3 double m allData numInstances averageInfoGain averageInfoGain currentModel i infoGain validModels else averageInfoGain averageInfoGain currentModel i infoGain validModels bbs else currentModel i null 里面重要的两句就是 Get models for current attribute currentModel i new C45Split i m minNoObj sumOfWeights currentModel i buildClassifier data bbs 其它的也没有什么求一下 averageInfoGain 和 validModels checkModel 如果可以分出子结点则为真这里是 C45Split 类的成员函数 buildClassfier 被调用列出它的代码 public void buildClassifier Instances trainInstances throws Exception Initialize the remaining instance variables m numSubsets 0 m splitPoint Double MAX VALUE m infoGain 0 bbs m gainRatio 0 Different treatment for enumerated and numeric attributes if trainInstances attribute m attIndex isNominal m complexityIndex trainInstances attribute m attIndex numValues m index m complexityIndex handleEnumeratedAttribute trainInstances else m complexityIndex 2 m index 0 bbs trainInstances sort trainInstances attribute m attIndex handleNumericAttribute trainInstances bbs bbs 这里 handleEnumerateAttribute 和 handleNumericAttribute 是决定到底是哪一个属性分裂 m attIndex 和分裂出几个子结点的函数 m numSubsets 这里的 m comlexity 就是指分可以分裂出多少子结点如果是连续属性就是 2 再看一下 handleEnumeratedAttribute 函数 private void handleEnumeratedAttribute Instances trainInstances throws Exception bbs bbs Instance instance m distribution new Distribution m complexityIndex trainInstances numClasses Only Instances with known values are relevant Enumeration enu trainInstances enumerateInstances while enu hasMoreElements instance Instance enu nextElement if instance isMissing m attIndex m distribution add int instance value m attIndex bbs instance bbs Check if minimum number of Instances in at least two subsets if m distribution check m minNoObj m numSubsets m complexityIndex bbs m infoGain infoGainCrit splitCritValue m distribution bbs m sumOfWeights m gainRatio gainRatioCrit splitCritValue m distribution m sumOfWeights m infoGain bbs Current attribute is a numeric attribute bbs m distribution new Distribution 2 trainInstances numClasses Only Instances with known values are relevant Enumeration enu trainInstances enumerateInstances i 0 while enu hasMoreElements instance Instance enu nextElement if instance isMissing m attIndex break m distribution add 1 instance bbs i firstMiss i bbs 已经讲过了如果是连续属性就分出两个子结点也就是 Distribution 的第一个参数枚举所有样本因为在调用 HandleNumericAttribute 之间已经对数据集根据 m attIndex 排序过所以缺失数据都在最后也就是 firstMiss 是在 m attIndex 上有确定值的样本个数 1 在 while 循环中把所有的样本都先放到 bag 1 中 add 1 instance 还是列出来一下吧 public final void add int bagIndex Instance instance throws Exception int classIndex double weight bbs classIndex int instance classValue weight instance weight m perClassPerBag bagIndex classIndex m perClassPerBag bagIndex classIndex weight m perBag bagIndex m perBag bagIndex weight bbs m perClass classIndex m perClass classIndex weight totaL totaL weight 也就这个函数也就是根据参数 bagIndex 和样本的类别值 classIndex 三个成员变量 m perBag m perClass m perClassPerBag 分别加上样本的权重 bbs Compute minimum number of Instances required in each subset minSplit 0 1 m distribution total double trainInstances numClasses bbs if Utils smOrEq minSplit m minNoObj minSplit m minNoObj else if Utils gr minSplit 25 bbs minSplit 25 bbs Enough Instances with known values if Utils sm double firstMiss 2 minSplit return 计算分最小分裂需要的样本数这些涉及的值在 Quinlan 的论文中没有提到可能也没有太多的道理就是如果样本数的 1 10 小于 m minNoObj 那么最小分裂样本数就是 m minNoObj 如果大于 25 最小分裂样本数就是 25 如果 firstMiss 小于 2 minSplit 表示已经不可以再分裂了为什么刚才已经讲过了 bbs Compute values of criteria for all possible split indices bbs defaultEnt infoGainCrit oldEnt m distribution while next firstMiss if trainInstances instance next 1 value m attIndex 1e 5 trainInstances instanc

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

分类算法Java代码分析

文档简介

温馨提示

最新文档

评论

分类算法Java代码分析

文档简介

温馨提示

最新文档

评论

相关文档