非网页数字资源分类.ppt_第1页
非网页数字资源分类.ppt_第2页
非网页数字资源分类.ppt_第3页
非网页数字资源分类.ppt_第4页
非网页数字资源分类.ppt_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非网页数字资源分类,山东大学 邵海敏, 王川川, 陈军 报告人: 陈竹敏 2008.4,任务描述,给定资源实体,预测其内容类别。 方法: 利用资源中包含的文件、子目录的名字、大小、内部目录结构等信息,合理形成特征,找到适当的分类方法,预测资源的内容类别。,实现过程,cwt_cdal_train.9346,解压,预处理,特征选择,cwt_cdal_test.6223,分类模型,特征表示,分类结果,特征选择,原始特征: 文件格式 文件数量 文件名字 特征选择就是对这些原始特征进行处理, 选择, 扩展.,文件大小 资源名字,文件格式,从训练集中出现的所有文件格式中选择了100个构成格式特征空间 首先去掉出现频率很低的文件格式 合并语义相同的格式(如 .r01, .r02等, 只保留一个.r01) 格式特征提取 类别Ci(i=1 to 26), 格式Fj(j=1 to m),根据格式Fj的资源在类别Ci(i=1 to 26)的资源中所占的比例, 取出区分力度大的前100个格式,文件格式、文件大小和文件数量,两种方式 格式相关 文件格式,文件数量,文件大小,即Fj, N(r, Fj), AS(r, Fj) N(r, Fj)资源r中包含的格式为Fj的文件数量 AS(r,Fj)资源r中包含的格式为Fj的文件的平均大小 格式无关 资源r的总大小,即(j=1 to 100)(N(r, Fj)*AS(r, Fj),资源名字和文件名字(1),名字的特点 资源的名字都是专有的,资源名字,文件名字,路径名都太短,信息不足,难以利用 两个类别相同的资源, 其名字之间并没有太大的共性,但其上下文环境应该大体相似 名字上下文 获取上下文,分析同类资源的共性和不同类资源的差异,资源名字和文件名字(2),名字上下文的获取 名字上下文: 使用名字作为关键字在百度中搜索得到的一条结果称为一个名字上下文(只是利用了百度的搜索结果页面, 而没有去爬取结果对应的页面)。 关键字的选择 首选完整的资源名,若失败 则使用净化处理后的资源名(比如,存在书名号的,只保留书名号之内的文字;若名字中有中英文,则其中的英文字符去掉等), 若失败则使用随机的一个文件名, 若仍失败 打印错误报告,退出 99%以上的资源可以成功获取30个上下文,资源名字和文件名字(3),基于名字上下文的特征选择 首先,取资源r的上下文中出现频率2的词, 表示为FS1 然后, 取属于FS1, 且在某类的20%以上的上下文中出现的词, 表示为FS2 然后, 基于方差的方法, 从中选出对类区分度大的词构成特征空间(维数200),资源名字和文件名字(4),特征扩展 (应用在第3组结果) 取前100个特征词,添加到特征空间FS 使用FS对测试集进行分类 计算每个类别对的误判率ER(ci,cj) ,如果大于阈值10% 从ci和cj的特征词中选取N1*log2(ER(ci,cj)*N2+1)个词添加到FS 再次使用FS进行分类. 若总的误判率没有下降,则FS回滚一次, 算法结束; 否则跳转到3,资源名字和文件名字(5),特征词权重计算 对FS中的每个词t,计算t在资源r的上下文中出现的频率F(t, r) 权重w(t,r) Z=log2(F(t, r) + 1) w(t,r) = Z 4 ? 1 : Z/5,提交3组结果,从训练集中随机抽取1/3的样本,作为测试集,剩余2/3作为训练集,分别采用KNN和SVM构建分类器,利用测试集,逐步调整特征向量,对分类器进行优化. 提交3组结果 1. CWT_CDRC_IRSDU_TDS1.txt (KNN分类器) 2. CWT_CDRC_IRSDU_TDS2.txt (SVM分类器) 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论