已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
nRainForest 雨林算法框架 大数据集决策树快速生成框架 报告人:李岱 2003.4.5 决策树简介 n略 Sprint算法的缺点 n为每个node都保存属性表,这个表的大 小有可能是数据库中原始数据大小的好 几倍。 n维护每个node属性表的hash表的开销很 大(该表的大小与该node所具有的纪录成 正比)。 雨林算法框架综述 过去的研究提出了多种决策树算法,但是到目前为止 并没有一种算法在任何数据集合下生成决策树的质量 方面超过所有其他的算法 雨林算法框架关注于提高决策树算法的伸缩性,该框 架可运用于大多数决策树算法(例如Sprint和SLIQ) , 使算法获得的结果与将全部的数据放置于内存所得到 的结果一致,但是在运行时可以使用较少的内存。而 在内存一定的情况下,也可以更好的满足算法的需求 。 生成的决策树的质量取决于具体的决策树算法,于本 框架无关。 雨林算法框架 n数据结构: AVC-set:节点n包含的所有纪录在某个属性 上的投影,其中该AVC-set包括了属性的不 同值在每个类别上的计数。 AVC-group:一个节点n上所有的AVC -set的 集合 AVC-set的所占内存的大小正比于对应属性 的不同值个数,AVC-group并不是数据库 信息的简单的压缩,它只是提供了建立决 策树需要的信息, AVC-group所占用的内 存空间远远小于数据库所实际占用的空间 。 设计方案: AVC_set /存储属性的各个值 DistinctValue /存储属性各个值在某个类上对应的计数 DistinctValueCountForClassA DistinctValueCountForClassB AVC_group /节点n中的每个属性的avc_set AVC_set 雨林算法框架 n自顶向下决策树算法 BuildTree(Node m,datapatition D,algorithm decisionTree) 对D使用决策树算法decisionTree得到分裂指标crit(n) 令k为节点n的子节点个数 if(k0) 建立n的k个子节点c1,ck 使用最佳分割将D分裂为D1,Dk for(i=1;i=k;i+) BuildTree(ci,Di) endfor endif RainForest 算法框架重新定义的部分: 1a) for 每一个属性的谓词p,寻找最佳的分割 1b) decisionTree.find_best_partitioning(AVC-set of p) 1c) endfor 2a) k= decisionTree.decide_splitting_criterion();/决定最终的分割 算法分析 n对于(1a)-(1c)所需要的内存为该谓词p所有的 avc-set中间占有的最大内存。 n在(2a)中,使用的输入是由(1a)-(1c)所计算出 来的结果,这里所占用的内存时很小的 v针对上述情况,我们假定现实运行的情况下 ,一个节点的整个avc-group都可以放在内存 中,或者至少一个节点的每一个独立的谓词 的avc-set可以放在内存中。 雨林算法的常规过程 n建立节点的AVC-group (通过读取整个原始数据库或者某个分支的数 据库表或文件) n选择分裂属性和分裂标准:取决于使用雨林 算法框架的具体算法,通过逐一检查AVC-set 来选择。 n将数据分解到各个子节点:必须读取整个数 据集(数据库或文件),将各条数据分解到各个 子节点中,此时如果有足够的内存,我们将 建立一个或多个子节点的AVC-group 算法综述 n算法RF-Write,RF-Read,RF-Hybrid适 用于整个根节点的AVC-group都可以放 置到内存中的情况,RF-Vertical用于根 节点(即一个节点)的AVC-group不能够 存放到内存中的情况。 n本文假定任何一个属性的AVC-set都可 以 放在内存中。 算法RF-Write n检索数据库,建立根节点的AVC-group n调用某个决策树算法以AVC-group为参数选择分裂标 准,建立根节点的k个子节点 n检索数据库(或文件),将每一条纪录t分配到各个分支 当中(纪录于数据库或文件) n将该算法递归的应用于每一个分支 v注:对于决策树的每一层,算法读取数据库两次,并 写数据库一次。 算法RF-Read n检索数据库,建立根节点的AVC-group n调用决策树算法以AVC-group为参数选择分裂标准, 建立根节点的k个子节点 n如果此时具有足够的内存容纳新的子节点的AVC - group,则此时对数据库进行一次检索,根据分裂标准 将子节点的AVC-group计算出来,并放置于内存中, 并调用决策树算法计算分裂标准。 n使用相同的方法处理树的每一层,只要有足够的内存 容纳新节点的AVC-group,就将所有子节点的AVC- group计算出来。 算法RF-Read(续) n假设在某一层所有新节点的AVC-group所占内存的大 小超过了可用内存,此时我们可将新节点集分成多个 子集,其中每个子集都可以放入内存之中。每个子集 被独立计算,每次计算时需要读取一次数据库从而建 立该子集的AVC-group。 n随着层数的增加,通常每层节点的AVC-group所占用 的内存也会增加。从而每层的节点子集个数也会相应 增加,所以随着树的层数增加,每层所需要访问数据 库的次数也是增加的。所以单独运行该算法是低效的 。 混合算法RF-Hybrid n大致流程:开始使用RF-Read的算法,直到到达某层L所有的新 节点AVC-group总和不适合在内存中,此时切换到RF-Write: 建 立m个分支,并检索m个分支的database D,递归应用于每个节点 ,直到算法完成。该算法比RF-Write效率高,而且比RF-Read使 用更少的数据库检索次数。 n算法改进:在使用RF-write时,此时系统中可能还有一部分内存 可以使用。为了尽量使用可用的内存,选择一个N的子集M,将 所有M中的节点的AVC-group计算出来并存放到内存中,对于该 子集m中的每一个节点,节省了写其分支的以及扫描该分支建立 AVC-group所需要的开销。 u选择子集的过程:取决于可用内存的大小和每个节点的AVC -group的大小。这是一个背包问题(NP问题)。在本算法中获 得近似最大受益,从而提高算法的效率。 算法RF-Vertical q用于根节点(或者某一个节点)的AVC_group不能够存放到内存, 但是每一个AVC-set可以放在内存中的情况。 n将属性值分为两个部分: u1.Plarge=a1,.,av,任何一个属性的AVC-set可以被 放入内存中,但是其中的任意两个属性的AVC-set 不能被同时放入内存中。 u2.Psmall=av+1,am n处理策略: u对于Psmall按照普通的方法进行处理, u对于Plarge建立一个临时文件Zn,其中包含有纪录在属性 a1,.,av的投影信息和类标记,对该临时文件进行v次遍历, 每次都检查一次最优分裂,当v次遍历进行完后,就选出了 最佳分裂方式,此时调用分裂函数,按照最佳分裂标准分裂 该节点。 估算Avc-Group的大小 n虽然节点的父节点包含的记录个数要远 大于该节点包含的记录个数,但是算法 采用保守的估计方法,认为子节点的 AVC-group的大小和它的父节点相同。( 在应用中证明效果较好) n与sprint算法的比较 v与sprint算法的比较:(产生较大决策树时的情形) n排序执行效率比较:排序对象不同 n分布执行效率比较:I/O执行次数不同 结论 n本算法框架主要是为了提高程序的可伸 缩性,其主要思想在于观察到各种已有 的决策树算法分裂节点的标准只是依赖 每个节点的AVC-group,它通常远小于 原始数据库的大小。使用AVC-group可 以大大提高算法的可伸缩性。 VnYq$t*x-A1D5G8JbNeQiTlWo#r%u(y+B3E6H9LcOfRjUmYp!s&w)z0C4F7JaMdPhSkVnZq$u*x-A2D5G8KbNeQiTlXo#r%v(y+B3E6I9LcOgRjUmYp!t&w)z1C4F7JaMePhSkWnZq$u*x+A2D5H8KbNfQiUlXo#s%v(y0B3F6I9LdOgRjVmYq!t&w-z1C4G7JaMePhTkWnZr$u*x+A2E5H8KcNfQiUlXp#s%v)y0B3F6IaLdOgSjVmYq!t*w-z1D4G7JbMeQhTkWoZr$u(x+B2E5H9KcNfRiUlXp#s&v)y0C3F6IaLdPgSjVnYq!t*w-A1D4G8JbMeQhTlWoZr%u(x+B2E6H9KcOfRiUmXp!s&v)z0C3F7IaMdPgSkVnYq$t*w- A1D5G8JbNeQhTlWo#r%u(y+B2E6H9LcOfRjUmXp!s&w)z0C4F7IaMdPhSkVnZq$t*x-A2D5G8KbNeQiTlXo#r%v(y+B3E6I9LcOgRjUmYp!s&w)z1C4F7JaMdPhSkWnZq$u*x-A2D5H8KbNfQiTlXo#s%v(y0B3E6I9LdOgRjVmYp!t&w-z1C4G7JaMePhTkWnZr$u*x+A2D5H8KcNfQiUlXo#s%v)y0B3F6I9LdOgSjVmYq!t&w-z1D4G7JbMePhTkWoZr$u(x+A2E5H9KcNfRiUlXp#s&v)y0C3F6IaLdPgSjVnYq!t*w-z1D4G8JbMeQhTkWoZr%u(x+B2E5H9KcOfRiUmXp#s&v)z0C3F7IaLdPgSkVnYq$t*w- A1D5G8JbNeQhTlWo#r%u(y+B2E6H9KcOfRjUmXp!s&v)z0C4F7IaMdPgSkVnZq$t*x-A1D5G8KbNeQiTlWo#r%v(y+B3E6H9LcOgRjUmYp!s&w)z1C4F7JaMdPhSkVnZq$u*x-A2D5G8KbNfQiTlXo#r%v(y0B3E6I9LcOgRjVmYp!t&w)z1C4G7JaMePhSkWnZr$u*x+A2D5H8KcNfQiUlXo#s%v)y0B3F6I9LdOgRjVmYq!t&w-z1C4G7JbMePhTkWnZr$u(x+A2E5H8KcNfRiUlXp#s%v)y0C3F6IaLdOgSjVnYq!t*w-z1D4G8JbMeQhTkWoZr$u(x+B2E5H9KcNfRiUmXp#s&v)y0C3F7IaLdPgSjVnYq$t*w- A1D4G8JbNeQhTlWoZr%u(y+B2E6H9KcOfRjUmXp!s&v)z0C4F7IaMdPgSkr$u(x+B2E5H9KcNfRiUmXp#s&v)y0C3F7IaLdPgSjVnYq$t*w-A1D4G8JbNeQhTlWoZr%u(y+B2E6H9KcOfRiUmXp!s&v)z0C3F7IaMdPgSkVnYq$t*x-A1D5G8JbNeQiTlWo#r%u(y+B3E6H9LcOfRjUmYp!s&w)z0C4F7JaMdPhSkVnZq$t*x-A2D5G8KbNeQiTlXo#r%v(y+B3E6I9LcOgRjUmYp!t&w)z1C4F7JaMePhSkWnZq$u*x+A2D5H8KbNfQiUlXo#s%v(y0B3F6I9LdOgRjVmYp!t&w-z1C4G7JaMePhTkWnZr$u*x+A2E5H8KcNfQiUlXp#s%v)y0B3F6IaLdOgSjVmYq!t*w- z1D4G7JbMeQhTkWoZr$u(x+A2E5H9KcNfRiUlXp#s&v)y0C3F6IaLdPgSjVnYq!t*w-A1D4G8JbMeQhTlWoZr%u(x+B2E6H9KcOfRiUmXp!s&v)z0C3F7IaMdPgSkVnYq$t*w-A1D5G8JbNeQhTlWo#r%u(y+B2E6H9LcOfRjUmXp!s&w)z0C4F7IaMdPhSkVnZq$t*x-A2D5G8KbNeQiTlXo#r%v(y+B3E6H9LcOgRjUmYp!s&w)z1C4F7JaMdPhSkWnZq$u*x-A2D5H8KbNfQiTlXo#s%v(y0B3E6I9LdOgRjVmYp!t&w-z1C4G7JaMePhSkWnZr$u*x+A2D5H8KcNfQiUlXo#s%v)y0B3F6I9LdOgSjVmYq!t&w- z1D4G7JbMePhTkWoZr$u(x+A2E5H9KcNfRiUlXp#s&v)y0C3F6IaLdOgSjVnYq!t*w-z1D4G8JbMeQhTkWoZr%u(x+B2E5H9KcOfRiUmXp#s&v)z0C3F7IaLdPgSkVnYq$t*w-A1D5G8JbNeQhTlWoZr%u(y+B2E6H9KcOfRjUmXp!s&v)z0C4F7IaMdPgSkVnZq$t*x-A1D5G8KbNeQiTlWo#r%v(y+B3E6H9LcOgRjUmYp!s&w1D4G8JbNeQhTlWoZr%u(y+B2E6H9KcOfRjUmXp!s&v)z0C4F7IaMdPgSkVnZq$t*x-A1D5G8KbNeQiTlWo#r%v(y+B3E6H9LcOfRjUmYp!s&w)z0C4F7JaMdPhSkVnZq$u*x- A2D5G8KbNfQiTlXo#r%v(y0B3E6I9LcOgRjVmYp!t&w)z1C4G7JaMePhSkWnZq$u*x+A2D5H8KbNfQiUlXo#s%v(y0B3F6I9LdOgRjVmYq!t&w-z1C4G7JbMePhTkWnZr$u(x+A2E5H8KcNfRiUlXp#s%v)y0C3F6IaLdOgSjVmYq!t*w-z1D4G7JbMeQhTkWoZr$u(x+B2E5H9KcNfRiUmXp#s&v)y0C3F7IaLdPgSjVnYq$t*w-A1D4G8JbNeQhTlWoZr%u(x+B2E6H9KcOfRiUmXp!s&v)z0C3F7IaMdPgSkVnYq$t*x-A1D5G8JbNeQiTlWo#r%u(y+B3E6H9LcOfRjUmYp!s&w)z0C4F7JaMdPhSkVnZq$t*x- A2D5G8KbNeQiTlXo#r%v(y+B3E6I9LcOgRjUmYp!t&w)z1C4F7JaMePhSkWnZq$u*x+A2D5H8KbNfQiUlXo#s%v(y0B3E6I9LdOgRjVmYp!t&w-z1C4G7JaMePhTkWnZr$u*x+A2E5H8KcNfQiUlXp#s%v)y0B3F6IaLdOgSjVmYq!t*w-z1D4G7JbMePhTkWoZr$u(x+A2E5H9KcNfRiUlXp#s&1C4G7JaMePhTkWnZr$u*x+A2E5H8KcNfQiUlXp#s%v)y0B3F6IaLdOgSjVmYq!t&w-z1D4G7JbMePhTkWoZr$u(x+A2E5H9KcNfRiUlXp#s&v)y0C3F6IaLdPgSjVnYq!t*w-A1D4G8JbMeQhTlWoZr%u(x+B2E5H9KcOfRiUmXp#s&v)z0C3F7IaLdPgSkVnYq$t*w- A1D5G8JbNeQhTlWo#r%u(y+B2E6H9LcOfRjUmXp!s&w)z0C4F7IaMdPhSkVnZq$t*x-A1D5G8KbNeQiTlWo#r%v(y+B3E6H9LcOgRjUmYp!s&w)z1C4F7JaMdPhSkWnZq$u*x-A2D5H8KbNfQiTlXo#s%v(y0B3E6I9LcOgRjVmYp!t&w)z1C4G7JaMePhSkWnZr$u*x+A2D5H8KcNfQiUlXo#s%v)y0B3F6I9LdOgSjVmYq!t&w-z1D4G7JbMePhTkWnZr$u(x+A2E5H8KcNfRiUlXp#s%v)y0C3F6IaLdOgSjVnYq!t*w-z1D4G8JbMeQhTkWoZr%u(x+B2E5H9KcOfRiUmXp#s&v)z0C3F7IaLdPgSjVnYq$t*w-A1D4G8JbNeQhTlWoZr%u(y+B2E6H9KcOfRjUmXp!s- z1D4G8JbMeQhTkWoZr%u(x+B2E5H9KcNfRiUmXp#s&v)y0C3F7IaLdPgSjVnYq$t*w-A1D4G8JbNeQhTlWoZr%u(y+B2E6H9KcOfRjUmXp!s&v)z0C4F7IaMdPgSkVnZq$t*x-A1D5G8JbNeQiTlWo#r%u(y+B3E6H9LcOfRjUmYp!s&w)z0C4F7JaMdPhSkVnZq$u*x-A2D5G8KbNfQiTlXo#r%v(y0B3E6I9LcOgRjUmYp!t&w)z1C4F7JaMePhSkWnZq$u*x+A2D5H8KbNfQiUlXo#s%v(y0B3F6I9LdOgRjVmYq!t&w-z1C4G7JbMePhTkWnZr$u*x+A2E5H8KcNfQiUlXp#s%v)y0B3F6IaLdOgSjVmYq!t*w- z1D4G7JbMeQhTkWoZr$u(x+B2E5H9KcNfRiUmXp#s&v)y0C3F7IaLdPgSjVnYq!t*w-A1D4G8JbMeQhTlWoZr%u(x+B2E6H9KcOfRiUmXp!s&v)z0C3F7IaMdPgSkVnYq$t*x-A1D5G8JbNeQiTlWo#r%u(y+B2E6H9LcOfRjUmXp!s&1D4G8JbMeQhTlWoZr%u(x+B2E6H9KcOfRiUmXp!s&v)z0C3F7IaMdPgSkVnYq$t*x-A1D5G8Jb
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年怀化职业技术学院单招职业倾向性测试必刷测试卷带答案解析
- 2026年朔州职业技术学院单招职业适应性考试必刷测试卷及答案解析(夺冠系列)
- 2026年九江职业技术学院单招职业适应性考试题库带答案解析
- 2026年咸阳职业技术学院单招职业适应性考试必刷测试卷附答案解析
- 2026年浙江旅游职业学院单招综合素质考试必刷测试卷及答案解析(名师系列)
- 2026年上饶幼儿师范高等专科学校单招职业技能考试题库带答案解析
- 房屋抵账转让协议书
- 房屋拖管公司协议书
- 房屋期权买卖协议书
- 房屋清洁赔偿协议书
- 小学生数独课件
- 《北京市住房租赁合同》示范文本(BF-2023-0603)
- 国开电大《工程数学(本)》形成性考核作业5答案
- 太钢(集团)矿业分公司峨口铁矿露天转地下开采项目环评报告
- 商业银行法课件
- GB/T 6183.2-20162型非金属嵌件六角法兰面锁紧螺母细牙
- GB/T 21198.1-2007贵金属合金首饰中贵金属含量的测定ICP光谱法第1部分:铂合金首饰铂含量的测定采用钇为内标
- 元胡栽培(张晓明)
- FZ/T 51006-2012膜级聚己内酰胺切片
- 中国戏曲史复习资料(考研)教学提纲
- 人音版小学五年级音乐课件《叮铃铃》课件
评论
0/150
提交评论