基于潜在语义的多类文本分类模型研究_第1页
基于潜在语义的多类文本分类模型研究_第2页
基于潜在语义的多类文本分类模型研究_第3页
基于潜在语义的多类文本分类模型研究_第4页
基于潜在语义的多类文本分类模型研究_第5页
已阅读5页,还剩16页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于随机森林的文本分类模型研究张华伟 王明文 江西师范大学计算机信息工程学院8/5/2022提纲 研究背景 相关工作 随机森林模型 实验 进一步工作研究背景泛化能力:设计分类器的中心目标是能够对新样本做出正确的分类,即“泛化能力”。目前,大多数分类器尽可能地降低同一算法在特定训练样本集上的经验风险 -经验风险最小化 。当前做的较好的方法:统计学习理论:vc维-svm 。随机森林:误差上界Decision Trees基本思想:Divide-and-Conquer基本算法(贪心算法)自上而下分而治之的方法开始时,所有的数据都在根节点所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者

2、一个统计的度量 (如, information gain)集成机器学习起源于Hebb 对于神经细胞工作方式的假设:信息加工是由神经集合体共同完成的.1990 年,Schapire 证明了一个关键定理:一个学习方法可以提升为强可学习的充要条件是其为弱可学习由此,派生了弱分类器的概念,即,比随机猜想稍好的分类器。它告诉我们:多个弱分类器可以集成为一个强分类器。集成机器学习几乎所有成功的决策树集成都用了随机模型应用随机的主要目的是离散化模型各模型结果的集成比单个模型的预测精度要好集成机器学习给定K个分类器 和随机向量x、y,定义边缘函数(mg)如下: 其中,I()是示性函数。该边缘函数刻画了对向量X

3、正确分类y的平均得票数超过其它任何类平均得票数的程度。可以看出,边际越大分类的置信度就越高。于是,分类器的泛化误差定义如下: 随机森林和其理论背景 将上面的结论推广到随机森林 。 边缘函数如下: 随着树的数目增加, 趋向于 分类器 的强度 假设 ,根据切比雪夫不等式,(1),(2)可以得到: 根据引文6可知: 于(4)、(5)我们可以得到以下结论:随机森林的泛化误差上界 集成学习的文本分类过程新文本预处理训练文本预处理特征项抽取训练文本再处理构造集成分类器训练过程分类过程分类结果同集成分类器权重组合成最终结果计算集成分类器权重集成学习的文本分类算法试验设计及初步结果文档集:Reuters-21578,共135类,保留训练集和测试集都有正例的90个类。文档类别分布不均匀,最多时一篇文档属于14个类。类别矩阵构造:特征提取: 统计。权重:LTC权重。性能指标:宏平均F1和微平均F1Reuters-21578上特征维数下的微平均和宏平均指标各模型在Reuters-21578上前

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论