 
         
         
         
         
        
            已阅读5页,还剩6页未读,            继续免费阅读
        
        
                版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
            1 分众分类中的网络资源分类的标签过滤技术评价 摘 要 社会化协作式标签系统是基于人类共同知识的新出现的网络分类方法 在 Del icio us Technorati 或者 Flickr 这类站点中 用户使用文本标签注解了许多资源 其中包括 网页 博客 图片 视频或者参考书目 潜在的协同式标签系统是三元数据结 构 即大众分类法的相关资源和用标签的用户 这些信息有助于促进访问和浏览大量网络 资源 人们以标签形式提供的共同注解也可用来以一种更正式的分类法来组织网络资源 比如层次结构和目录 通常需要网络目录系统来减轻人工分类的任务 论文中 我们提供 了一种决定资源分类的标签价值的经验研究方法 此外 分析了若干过滤器的使用和预处 理过程以减少标签的模糊性和噪音 以确定这些标签是否增加了资源分类的质量 关键词 网络资源分类 社会标签系统 分众分类法 1 引言 社会化标签系统是伴随 web2 0 出现的最流行的内容分享应用之一 由于其简明性 集 体创建和管理标签来标注和分类内容的实践已经取得巨大成功 在 Del icio us Technorati 或者 Flickr 这类站点中 用户自由选择一组关键词或者开放式 的标签来标注各种异构的资源 例如 网页 博客帖子 图片或者视频 潜在的协同标签系统的三元数据结构就是众所周知的分众分类法 它将资源 标签和 用户联系了起来 分众分类法提出的社会化分类体系与传统的预定义分类法或网络中的目 录法形成了对比 然而 在人类专家的帮助下普遍建立和推广的分类法提供了一个严格的 层次分类框架 分众分类法依赖于大量社区用户使用的频次最高的标签来分类系统 这样 就能有效的组织和导航大型信息空间 尽管有各种不同的概念 各种分类框架并存于互联网中 事实上 要将在线信息有效 的组织到不同类别中 分众分类法提供的分布式分类也许是最基本也是最有价值的方法 因此 社会化标签能自动化 地完成将资源手动地分类到预定义的类别中费时费力的工作 并减少时间浪费 此外 社会化标签能分类并不相关的文本内容 比如图片或者视频 Hammond Hannay Scott Guy 和 Tonkin 认为 标签系统很好地补充了其他一些正式的分类 法 如层次分类法 我们通过使用协作产生的开放式标签 比如网页 来分类资源的方法进行了一个经验 评价 实验是基于一系列由专家分类的来源于网站目录的网页和非专家用户给定的标签 Noll Guy Tonkin 2006 由两个以上单词组成的复合词并不总是分类的很好 通常 用户插入标点符号来 分隔单词 例如ancient egypt ancient egypt和ancientgypt 5 一些符号比如 经常频繁用在标签的前面来产生一些附带的影 6 响 比如促使界面在按字母顺序排列的列表顶部列出一些标签 语法形式的使用 单数或复数 和动词的时态 动名词 过去式和其他形式 例如 blog blogs and blogging 在标签处理过程中的印刷拼写错误 例如semntic Web和semntic Web 注释或标签中用到的同义词是用不同的词来表达一个相同的概念 这些语法标记差异的减少可能有助于提高分众分类的质量 反过来促进了资源的分类 由于标签是一个有价值的网页分类的信息源 本文考虑并对比了一些过滤技术 以确定其 是否有助于改善分类结果 实验评价是从一个广泛使用的分众分类 如Del icio us 中抽取的数据集 这个实验 评价是用来确定对标签的不同处理操作过程的影响 这种分类法可能使标签统一化及避免 上述问题的出现 首先 过滤掉标签以除去之前列举的符号 并加入复合词 然后 考虑 Fig 4 里描述的三种操作 改正拼写错误以修正打印的错误 考虑表示相同涵义的同义词 并且修正由语法单复数和时态形式引起的形态变化错误 这些用来改善网页分类的操作的能力是单独评价的 以Fig3所示的锚文本 标签表示的 资源的结果作为基准 然后 用每个预处理操作和分类结果来与基准进行对比 以下分节 说明了这些操作以及所取得的结果 4 1 术语词干 在大多数语言中 相似语义解释的词有很多形态变化 这在信息检索中被视为是相同 的 这和语言应用正好相反 例如像computer computers compute computes computed computational computationally和computable这些词都被缩减为单个词干 comput 因此 通过将形态上相似的词映射到其词干 就可以减少特征空间的维数 这项工作是通过词干和合并算法来完成的 词干和合并算法被定义为通过将词的形态 变化缩减为其词干的语言规范化的过程 Porter 1980 7 尽管词干提取算法有其好处 但词干会导致一系列错误 将有不同意思的单词合并到 相同的词干中的错误就是所谓的 过分词干化 错误 此外 将有相似意思的单词的分到 两个不同的词干中就是所谓的 词干分类不足 的错误 为了评估词干是否改善了基于标签的网页分类的结果 让使用词干的分类与没有使用 词干分类的相同数据做比较 上一节显示的结果是使用词干分类的结果 Fig 5是随着训练 数据集的扩大不使用词干分类的结果 显然 词干的使用显著提高了web资源分类的结果 4 2 包含同义词 除了同一个单词的句法变化 一些词的同义词可被不同的用户用来注释一个资源 WordNet10 Miller 1995 是一个大型的英语词法数据库 它被用来获取标签的同义词 在WordNet中 英文单词被分组到名为同义词集的同义词集合中去 这些词属于不同的类别 名词 动词 形容词和副词 并记录了这些同义词集之间的各种语义关系 对于每个标签 其同义词抽取自WordNet 并添加至web网页 这样就保证了标签的语 义得到了丰富 Fig 6显示了使用同义词的web页面分类结果与基准的对比结果 使用了同 义词的代表性例子将导致分类性能的退化 使用同义词的分类器性能较差的原因在于缺乏 语境以消除标签歧义和由此纳入噪音的标签 其他基于标签的语义操作应该在收集到更丰 富的语义资源的分类资源的环境下来分析 8 9 4 3 拼写错误 在这篇文章中 拼写检查使用三个基于不同算法和词典的库来进行 Tumba JaSpell 和 Hunspell 拼写检查器适用于每个标签 那些错别字将会被每个算法建议的拼写正确的 字所替换 如果没有建议的单词来替换拼写错误的标签 很可能是因为拼写检查字典中不 存在该标签 该标签将被丢弃 Fig 7显示了使用了拼写检查器的网页分类结果 显然 使用这三种算法中的任何一种 都会改进分类的精度 较之其他两个拼写检查程序 JaSpell在这一点上似乎有轻微的优势 前面提到的处理拼写错误的单词的方法暗含着信息的丢失 因为当没有建议单词来替 换拼写错误的标签时 这些标签将会被丢弃 然而 对这些标签更好的处理办法将会进一 步改善分类结果 我们发现 大部分被丢弃的标签对应于一种缩写或者一些非英文的单词 因此 这两种情况都被认为是校正拼写错误的好方法 Fig 8显示了优化了的拼写错误校正方法的结果 那些拼写检查器不提供任何建议的拼 写错误的标签首先与一个缩写表相对比 看其是否对应于某个缩写 该实验中使用牛津英 语词典的缩写14表 对那些在缩写表中没有找到的词 再去可用的翻译中去找 谷歌的API Translate Java可以用来完成这个任务 翻译的标签以及扩展的缩写是返回到前一步骤来 删除那些可能混入其中的字符和停用词的 如果没有找到相关翻译 这个标签将最终被丢 弃 Fig 9显示了使用增强的拼写错误校正方法的Web资源分类的结果 分类的精确性随着 缩写表的扩展和非英文单词的翻译而改善 因为有大约1 7 的词是使用这个方法重新获得 的 表2从标签的精度 recall和F估计三方面总结了过滤或预处理操作的标签评价 每一 行都显示了以第一行作为基线的对比结果 其中的粗体字是应用增强的拼写校正方法获得 的结果 值得注意的是 每个处理操作都是分开评价的 因此 如果将所有的方法一起用 的话 应该会得到更好的分类结果 10 5 结论 社会化标签是由存储在分众分类法协同标签系统的集体知识组成的 它主要是用来方 便访问和浏览共享资源的 然而 标签在分类资源中的使用也有助于缩小严格的分类结构 和完全开放的分类法 将在线资源组织到一个水平的或基于用户指定的标签分层分类的集 合中是一个减少专家创建目录 如 Web 目录 工作的好工具 此外 基于标签的分类在非 文本资源 例如图片或视频 的分类中发挥了至关重要的作用 因为基于内容的分类没有 作用 其他突出应用有个性化网页分类 可以用社会化标签来识别有趣 无趣的网页 在多元网络资源数据信息 例如查询条件 锚文本和标签 的条件下 本实验使用标 准化数据集而进行 首先 与单独使用上述提到的元数据所获得的分数和彼此结合使用上 述提到的元数据所获得的分数相比较获得基准结果 以代表资源和几个分类算法 其次 评估预处理操作以通过减少标        
    温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 持续深入推进污染防治攻坚和生态系统优化实施方案
- 客服代表笔试试题及答案
- 劳务派遣制度改革与监管研究
- 劳动合同解除补偿标准实证研究
- 生产线设备可靠性提升方案
- 淮安市中医院成人Still病诊断与鉴别考核
- 厦门市中医院肝外伤分级与急诊手术处理考核
- 新余市人民医院小儿血液净化考核
- 2025年淄博中考压题试卷及答案
- 无锡市人民医院护理科研人才培养考核
- 妨害公务违法犯罪知识讲座
- 10KV配电室倒闸操作票
- GB 7512-2023液化石油气瓶阀
- GB/T 20138-2023电器设备外壳对外界机械碰撞的防护等级(IK代码)
- 初中英语沪教版单词表(七年级至九年级全6册)
- 管道安装-焊接技术交底
- 数学教学软件与应用-几何画板能做什么
- 例谈初中道法学科指向核心素养课堂教学的达成 论文
- 危险化学品建设项目安全条件审查要点
- 北京2023年中国工商银行博士后科研工作站博士后研究人员招聘上岸提分题库3套【500题带答案含详解】
- GB/T 5226.1-2019机械电气安全机械电气设备第1部分:通用技术条件
 
            
评论
0/150
提交评论