分众分类中的网络资源分类的标签过滤技术评价.docx_第1页
分众分类中的网络资源分类的标签过滤技术评价.docx_第2页
分众分类中的网络资源分类的标签过滤技术评价.docx_第3页
分众分类中的网络资源分类的标签过滤技术评价.docx_第4页
分众分类中的网络资源分类的标签过滤技术评价.docx_第5页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分众分类中的网络资源分类的标签过滤技术评价摘 要社会化协作式标签系统是基于人类共同知识的新出现的网络分类方法。在Del.icio.us,Technorati或者Flickr这类站点中,用户使用文本标签注解了许多资源,其中包括:网页、博客、图片、视频或者参考书目。潜在的协同式标签系统是三元数据结构,即大众分类法的相关资源和用标签的用户,这些信息有助于促进访问和浏览大量网络资源。人们以标签形式提供的共同注解也可用来以一种更正式的分类法来组织网络资源,比如层次结构和目录,通常需要网络目录系统来减轻人工分类的任务。论文中,我们提供了一种决定资源分类的标签价值的经验研究方法。此外,分析了若干过滤器的使用和预处理过程以减少标签的模糊性和噪音,以确定这些标签是否增加了资源分类的质量。关键词:网络资源分类 社会标签系统 分众分类法1. 引言社会化标签系统是伴随web2.0出现的最流行的内容分享应用之一。由于其简明性,集体创建和管理标签来标注和分类内容的实践已经取得巨大成功。在Del.icio.us,Technorati或者Flickr这类站点中,用户自由选择一组关键词或者开放式的标签来标注各种异构的资源,例如:网页、博客帖子、图片或者视频。潜在的协同标签系统的三元数据结构就是众所周知的分众分类法,它将资源,标签和用户联系了起来。分众分类法提出的社会化分类体系与传统的预定义分类法或网络中的目录法形成了对比。然而,在人类专家的帮助下普遍建立和推广的分类法提供了一个严格的层次分类框架,分众分类法依赖于大量社区用户使用的频次最高的标签来分类系统,这样就能有效的组织和导航大型信息空间。尽管有各种不同的概念,各种分类框架并存于互联网中。事实上,要将在线信息有效的组织到不同类别中,分众分类法提供的分布式分类也许是最基本也是最有价值的方法。因此,社会化标签能自动化 地完成将资源手动地分类到预定义的类别中费时费力的工作,并减少时间浪费。此外,社会化标签能分类并不相关的文本内容,比如图片或者视频。Hammond,Hannay,Scott,Guy和Tonkin认为,标签系统很好地补充了其他一些正式的分类法(如层次分类法)。我们通过使用协作产生的开放式标签(比如网页)来分类资源的方法进行了一个经验评价。实验是基于一系列由专家分类的来源于网站目录的网页和非专家用户给定的标签(Noll & Meinel)。为了获取有代表性的资源并与不同的分类器比较,我们采用了大量的元数据来对比。分众分类法的一个主要问题在于完全没有管理的标签可能会导致一些问题,比如文本标签模糊或者有噪音等问题。因此,语法变化就很常见,并常被归因为如下原因:同义词的使用,印刷拼写错误和语法变化。标签变化的存在不仅会引起学习时要考虑的特点个数的增加,而且会降低将其作为有差别的、独立的标签的分类器的性能。因此,本论文的另一个目标就是,在提高资源分类质量的前提下,评价标签预处理作用以减小标签中的句法变化的影响。为了达到这个目的,本文用了一些过滤方法以评估标签,比如:词干、同义词和拼错矫正。论文的其他部分是这样组织的:第二部分介绍了基于社会化标签的网络资源分类的背景及相关作品;第三部分介绍了评价基于社会化标签的网络资源的经验分析;第四部分探索了用于标签的不同的处理操作过程,以确定其在改善分类结果上的作用;最后,第五部分总结了本文的发现。2. 背景及相关作品分众分类法是社会分类框架的基本结构,它依赖于大量社区用户使用的频次最高的标签来分类系统,这样就能有效的组织和导航大型信息空间。这个分类框架经常与预定义分类法的使用相比较。实际上,folksonomy这个词是由taxonomy和folk衍生而来,这代表了人们所创建的概念结构。从形式上看,一个分众分类可以定义为一个数组:=(U,T,R,),其意思是:用户U,资源R,以及标记其间的三元关系的用户指定的标签,例如,YU*T*R.在这个分众分类法中,是个用户指定的子标签。一个用户指定的标签的集合就组成了一个个人信息云。在社会化标签系统中,标签常用来组织信息,同时也被分享在个人信息空间中。因此,其他用户可以通过浏览和搜索整个可用标签的层次分类法来访问一个用户的个人信息云。此外,为了促进在分众分类中的搜索和浏览各种资源,标签可以提供有价值的信息以完成其他诸如分类,聚类和推荐资源等任务。特别是,我们将要解决用标签来确定分类资源属于哪个标准(平的或等级式的)分类框架的问题。近来很多著作都专注于一个问题:即封装在社会化标签里用来分类资源的公共知识转化到一般目录或分层分类加以利用的可能性到底如何。Noll和Meinel研究和比较了三种不同的注解,这三种注解是由读者提供的网络文档、社会化注解、超链接锚文本和用户力图查找网页的搜索查询。著作中用到的CABS120k08数据集是专门用来研究来源于AOL500k,开源目录工程,Del.icio.us和Google的资源的。研究结果表明,较之锚文本或者搜索关键字,标签是最适合用来分类网络文本文件的,然而,搜索关键字是最适合做信息检索的。在进一步研究中,作者分析了基于标签的分类器在何种层次结构深度能够预测使用了带有源于ODP和Del.icio.us的DMOZ100k06数据集的类别。其结论是,标签在广义文本分类上表现的更好。因此,层次不清的网页的分类还需要内容分析。Zubiaga,Martinez和Fresno探索了支持向量机在由Del.icio.us, StumbleUpon, ODP 和Web搜索得来的创建在Social-ODP-2k9数据集中的应用。在他的著作中,除了标签,其他的资源元数据(比如笔记和评论)也得到了评价。标签和评价在网站分类上取得了满意效果。此外,如果考虑到标记的动机,有发现表明用户将被分为分类者和描述者(Krner,Kern, Grahsl, & Strohmaier, 2010),因为将标签首次指定到某一类型的分类的用户会得到更大的效用(Zubiaga, Krner, and Strohmaier (2011)提到)。在Godoy和Amandi里,文章分析了多个分类器和一些预处理技术对标签的影响,在同一数据集上显示了支持向量机的优越性。Aliakbary, Abolhassani,Rahmani和 Nobakht (2009)提出了一种方法,用于说明相关标签的网页和类别,然后分配资源给最相似的标签空间来表示。一组计算机类的ODP网页实验表明,该方法比基于内容的分类表现得更好。这些研究表明,标签是一个重要的信息来源分类,其重要性超过了文本内容资源。其他作品解决了同样的问题,但是就我个人而言,我宁愿使用社会化标签来为个人用户分类资源,而不是用一般的分类法或目录来组织资源。Vatturi,Geyer,Dugan,Muller,和Brownholtz (2008年)为每个用户创建了基于标签的个性化推荐器,其中包括用于不同时间框架的两个朴素贝叶斯分类器。一个分类器预测了用户在一个短的时间间隔内用户当前的兴趣,另一个分类器根据书签预测了用户在较长时间间隔内的一般兴趣。如果有任何分类器预测的书签很有趣,它将被推荐。用户研究结果表明,使用源于企业社会书签系统的真实数据时,该基于标签的推荐系统运行良好。对于社会化标签对于一个给定用户在识别有趣资源的作用,Godoy (2010)也有研究,Godoy使用了一类支持向量机(因为在规定任务中,其性能优于其他分类器)。在上述所有文章中,基于标记的分类改善了基于内容分类的结果。3. 基于标签对Web资源进行分类本节介绍了评估基于标签分类资源的经验研究。第3.1节描述了用于实验的数据集,用来代表文本的不同信息资源的详细资料在第3.2节,第3.3节是使用不同分类器和Web资源的结果总结。3.1数据集的描述CABS120k08 (Noll & Meinel, 2008b)是来源于web2.0的用于研究的数据集,其中包括从多个来源收集而来的117434个相关元数据文本。元数据包括AOL搜索查询日志语料库AOL500k和开放式目录管理系统(ODP),是世界上最大最全面的人工编辑目录的Web自定义的交集。从不同元数据获得的文件相关元数据有助于他们获得更多的知识。尤其是,该数据集包括文件的若干意见:网站读者提供的社会注释,这些文件的作者所提供的超链接锚文本,以及用户试图在网络上查找的搜索查询。此外,文件已被分类在一个或多个类别的ODP,以提供在该目录中的层次路径。AOL500k语料库是当今全球最大的公共搜索查询集(Pass,Chowdhury,&Torgeson,2006)。它是于2006年由AOL搜索引擎的650000个用户超过三个月的20万个网页查询组成。CABS120k08是AOL500k和开放式目录的集合。因此,只有同时被检索到并随后访问已经分类过的文件才被包括在内。表1总结了CABS120k08的统计特性。可以看出,表中的所有文档都具有ODP类别,而在Del.icio.us中发现了50.3%的文档,还有一些文档没有分配标签。概括来说,本研究中使用的元数据是:l 标签:包含一个社会化书签的完整历史,对于每个数据集中的文件,它的完整的书签历史都抓取自Del.icio.us的HTML网页上。l 锚文本:定义为文本的范围内出现一个HTML标记。在数据集中,每个文件有多达100个的提交页面得到处理。l 查询:指所有用于AOL500k语料库在一个特定网页出现结果集的查询。3.2.Web资源表示三种不同的信息源被作为评价方法:代表文件都单独(标签,查询条件和锚文本),所有资源的组合(查询条件+锚文本+标签)和三种其他组合(查询+锚文本,查询+标签,锚文本+标签)。在结果数据集中,无用词被600多个英语单词所替换,词干分析算法(Porter,1980)得以应用(词干的应用将在第4部分讨论),并将二进制权重分配给词条。此外,此部分比较了两个分类器分类的性能,朴素贝叶斯和Weka9库的机器学习算法。SMO是一个序列最小优化算法,以用多项式内核(多核)或一个径向基函数内核来训练支持向量机分类器。为了评价分类器,我们使用了标准精度和回忆偏差,总结了F-估计和精度(Baeza-Yates & Ribeiro-Neto, 1999)。精度估计了由分类器做出的正确决策的比例。精度是由正确分类例子的数量除以分类到所属类的例子的数量。回忆偏差是由正确分类的例子除以属于这一类的例子的数量。在所有的实验中,交叉验证的10倍的结果被记录下来。3.3基于标签的分类结果Figs.1和2显示了使用上述web页面的代表和分类器的各自的精度和F-估计值所能达到的结果。相对于用来表示web页面的元数据,在两个图中可以观察到,基于标记的表示获得了更好的结果,而锚文本和查询的效果最差。因此,这些因素也对包括查询在内的组合的性能产生消极影响(查询+锚文本,查询+标签,查询+锚文本+标签)。在大多数情况下,锚文本和标签的组合优于其他的。其中,朴素贝叶斯分类器的表现逊色于二元支持向量机,其多核达到最高的精度和F-估计值。Fig.3描绘了随着训练规模的增加SMO分类器精确性的变化。确认之前的结果,使用锚文本和标签的是最好的结果,紧随其后的就是使用单独的标签。我们以由锚文本+标签代表的结果为基准来评价以下部分的标签处理过程。4. 评价标签处理方法在社会化分类体系中,由于标签并没有按照一个可控词表引进,因此其是嘈杂和不一致的。标签之前存在差异的原因是(Echarte,Astrain,Crdoba,&Villadangos,2008; Guy & Tonkin, 2006):l 由两个以上单词组成的复合词并不总是分类的很好。通常,用户插入标点符号来分隔单词,例如ancient-egypt,ancient_egypt和ancientgypt;l 一些符号比如#, , +, /,: _, & ,!经常频繁用在标签的前面来产生一些附带的影响,比如促使界面在按字母顺序排列的列表顶部列出一些标签;l 语法形式的使用(单数或复数)和动词的时态(动名词,过去式和其他形式),例如:blog, blogs and blogging;l 在标签处理过程中的印刷拼写错误,例如semntic Web和semntic Web;l 注释或标签中用到的同义词是用不同的词来表达一个相同的概念。这些语法标记差异的减少可能有助于提高分众分类的质量,反过来促进了资源的分类。由于标签是一个有价值的网页分类的信息源,本文考虑并对比了一些过滤技术,以确定其是否有助于改善分类结果。实验评价是从一个广泛使用的分众分类(如Del.icio.us)中抽取的数据集,这个实验评价是用来确定对标签的不同处理操作过程的影响,这种分类法可能使标签统一化及避免上述问题的出现。首先,过滤掉标签以除去之前列举的符号,并加入复合词。然后,考虑Fig.4.里描述的三种操作。改正拼写错误以修正打印的错误,考虑表示相同涵义的同义词,并且修正由语法单复数和时态形式引起的形态变化错误。这些用来改善网页分类的操作的能力是单独评价的,以Fig3所示的锚文本+标签表示的资源的结果作为基准。然后,用每个预处理操作和分类结果来与基准进行对比。以下分节说明了这些操作以及所取得的结果。4.1术语词干在大多数语言中,相似语义解释的词有很多形态变化,这在信息检索中被视为是相同的,这和语言应用正好相反。例如像computer, computers, compute, computes, computed, computational, computationally和computable这些词都被缩减为单个词干:comput。因此,通过将形态上相似的词映射到其词干,就可以减少特征空间的维数。这项工作是通过词干和合并算法来完成的,词干和合并算法被定义为通过将词的形态变化缩减为其词干的语言规范化的过程((Porter, 1980))。尽管词干提取算法有其好处,但词干会导致一系列错误。将有不同意思的单词合并到相同的词干中的错误就是所谓的“过分词干化”错误。此外,将有相似意思的单词的分到两个不同的词干中就是所谓的“词干分类不足”的错误。为了评估词干是否改善了基于标签的网页分类的结果,让使用词干的分类与没有使用词干分类的相同数据做比较。上一节显示的结果是使用词干分类的结果,Fig.5是随着训练数据集的扩大不使用词干分类的结果。显然,词干的使用显著提高了web资源分类的结果。4.2.包含同义词除了同一个单词的句法变化,一些词的同义词可被不同的用户用来注释一个资源。WordNet10 (Miller, 1995)是一个大型的英语词法数据库,它被用来获取标签的同义词。在WordNet中,英文单词被分组到名为同义词集的同义词集合中去,这些词属于不同的类别(名词,动词,形容词和副词),并记录了这些同义词集之间的各种语义关系。对于每个标签,其同义词抽取自WordNet,并添加至web网页,这样就保证了标签的语义得到了丰富。Fig.6显示了使用同义词的web页面分类结果与基准的对比结果。使用了同义词的代表性例子将导致分类性能的退化。使用同义词的分类器性能较差的原因在于缺乏语境以消除标签歧义和由此纳入噪音的标签。其他基于标签的语义操作应该在收集到更丰富的语义资源的分类资源的环境下来分析。4.3.拼写错误在这篇文章中,拼写检查使用三个基于不同算法和词典的库来进行:Tumba!,JaSpell!和 Hunspell.拼写检查器适用于每个标签,那些错别字将会被每个算法建议的拼写正确的字所替换。如果没有建议的单词来替换拼写错误的标签,很可能是因为拼写检查字典中不存在该标签,该标签将被丢弃。Fig.7显示了使用了拼写检查器的网页分类结果。显然,使用这三种算法中的任何一种都会改进分类的精度。较之其他两个拼写检查程序,JaSpell在这一点上似乎有轻微的优势。前面提到的处理拼写错误的单词的方法暗含着信息的丢失,因为当没有建议单词来替换拼写错误的标签时,这些标签将会被丢弃。然而,对这些标签更好的处理办法将会进一步改善分类结果。我们发现,大部分被丢弃的标签对应于一种缩写或者一些非英文的单词。因此,这两种情况都被认为是校正拼写错误的好方法。Fig.8显示了优化了的拼写错误校正方法的结果。那些拼写检查器不提供任何建议的拼写错误的标签首先与一个缩写表相对比,看其是否对应于某个缩写。该实验中使用牛津英语词典的缩写14表。对那些在缩写表中没有找到的词,再去可用的翻译中去找,谷歌的API Translate Java可以用来完成这个任务。翻译的标签以及扩展的缩写是返回到前一步骤来删除那些可能混入其中的字符和停用词的。如果没有找到相关翻译,这个标签将最终被丢弃。Fig.9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论