基于信息提取的面向行业应用的文本分类算法.ppt_第1页
基于信息提取的面向行业应用的文本分类算法.ppt_第2页
基于信息提取的面向行业应用的文本分类算法.ppt_第3页
基于信息提取的面向行业应用的文本分类算法.ppt_第4页
基于信息提取的面向行业应用的文本分类算法.ppt_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于信息提取的行业应用文本分类算法,郭峰兰州大学信息科学工程学院,2005年8月,提纲,背景介绍课题源实现功能全过程CIETC算法概要相关数学定义算法过程说明总结, 背景介绍课题来源人名专用搜索引擎的需求比以往的搜索引擎无法解决的问题更方便的搜索结果的分类自然意义的提取要求产品化申请项目甘肃省自然科学基金,背景介绍,实现功能人名的按重要属性对搜索结果进行分类, 与北大名人系统的区别全过程元搜索引擎的实现分布式并行元搜索引擎的实现信息提取和自然语义理解CIETC算法前台显示, 补偿公式信息提取的主题文本分类算法(CIETC,compensatedinformationextractiontext

2、classification ) 文本分类算法,根据指导性的不需要制作训练集的信息提取和文本聚类循环的类数和类内项的聚类进行文本属性的补偿,CIETC算法概要,CIETC算法概要,相关数学定义I/P :区分P=A1,a1 a是属性的集合core(P ) :核知识,区分文件d不能省略:对于主题文件d,AD=A1,A2,Am是文件d所具有的属性集合,如果是core(P ) AD,文件d就能够区分。CIETC算法概要、算法流程说明1、选择主题属性行业知识选择通过信息熵、数据挖掘决策树算法、重要属性H=-ki=1、nPi2Pi、2,采取初步文本分类,对所有测试文档u,采用core(P )=) 在信息提

3、取过程中构建了人名core(P )属性提取的语法,采用中科院概率语法分析仪ICTPROP和中科院freeICTCLAS语法分析仪。 算法流程说明3,为每个文档和类创建空间向量模型,使用最近邻学习算法(nearest-neighborlearningalgorithm )将UND收集到UIND/core(P )中,CIETC算法概述类间最近邻算法提高文档属性度最近邻文本分类处理提高了一些UND文档,不处理其馀的UND,需要对其中能够提高信息度的文本补偿分类结果。 总之,本文采用信息提取的方法探讨了中文文本的分类。 实验结果表明,基于信息提取的面向行业应用的文本分类算法是非常有前途的分类器。 如果将其应用于各种行业,会带来很大的社会利益。 信息提取需要制作大量的句法模型和属性词典,句法模型不完整的话测试结果会有很大差异,这些问题还需要进一步探讨。 分类的速度需要提高,算法也可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论