关于网络标注的主要方法概述网络_第1页
关于网络标注的主要方法概述网络_第2页
关于网络标注的主要方法概述网络_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于网络标注的主要方法概述网络     2013-07-29 01:07        导读:计算机网络论文论文,关于网络标注的主要方法概述网络毕业论论文样本,在线游览或下载,海量论文供你参考:     关键词大众标注语义标注本体 论         关键词大众标注语义标注本体 论文摘要认为标注对于检索至关重要,网络标注在网络资源海量的今天更是如此。介绍网络

2、中标注的方法:元数据标注、聚类标注和分类标注,并对大众标注和语义标注进行详细介绍。最后对这些标法方法进行比较分析及评价。 在网络信息爆炸的今天,让用户检索到需要的信息至关重要,因而网络中标注显得尤为重要。目前对于标注的定义大家没有统一的说法,但是本质上都是一致的。概括来说即通过对文献进行主题分析,识别其重要特征,赋予确切的检索标识(类号、标题词、叙词、关键词、人名、地名等),用以反映该文献内容的过程。标注的质量,对文献的检索效果有直接的决定性影响。标注的类型从不同的角度划分有无数据标注,聚类标注,传统网络的分类,Web2.0中的大众标注,语义标注等。 1几种主要网络标注方法导读:1.3 语义标

3、注 语义Web被称为Web3.0,是Web上数据的一种表示,它基于资源描述框架RDF来集成以XML为语法、统一资源标识符URI为命名机制的各种应用。语义Web是         1.3语义标注 语义Web被称为Web3.0,是Web上数据的一种表示,它基于资源描述框架RDF来集成以XML为语法、统一资源标识符URI为命名机制的各种应用。语义Web是对当前Web的一种扩充,并不是一个全新的Web,其研究重点就是如何将信息表示为能够理解和处理的形式,即带有语义,使计算机和人能协同工作。 实现语义web目标的一个重要前提

4、是利用本体词汇标注Web资源(如Web页、服务等)。本体在TimBemes-Lee提出的语义Web的七层体系结构中位于第四层,其目的是为捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并给出这些词汇(术语)和词汇间相互关系的明确定义,通过概念之间的关系来描述概念的语义。基于本体的语义标注利用由专家定义好的本体支持内容创建者在Web页中添加语义元数据,使其内容能被人和机器所理解,与大众标注相比较这是一种自顶向下的分类法。利用语义标注工具对现有的大量Web信息进行标注,将使得Web页的内容成为机器可识别的数据,从而构成语义Web的基础。 OgeMarques等认为语义网

5、的成功在于能够在Web页面及其构成上作语义标记,且是以低的、采用一致性结构和本体的方式。他们着力于图像语义标注的智能方式,并提出三层结构。底层组织是从原图像内容中抽取的信息,这些信息映射中间层有语义的关键词,而这些关键词又联系着顶层的结构和本体。他利用机器学习算法作用户自助的、半自动的图像标注,可以加快相同领域本体图像的标注,并且改善标注图像以后的查询和检索。 在Web服务方面,下一代网络语义标注下的软件代理能比目前的软件代理更快地抽取和Web内容。Web服务中的语义标注能够促进服务发现,也能够促进服务组合转化为工作流。但目前仅有少量的服务标注被广泛应用,这就使得这种语义标注仍然受限。Khal

6、id Belhajjame等基于操作参数之间的联系,在工作流中反复试验,推断关于操作参数的相关语义信息。虽在开放的上下文中只能推断参数语义的约束,但这些松散的标注在工作流、标注、本体中检测错误仍然有价值,在简化手工标注的任务中也很有价值。 2比较分析 专业人员创建元数据最主要的问题是内容扩展时的可扩性和可行性问题,尤其是在万维网中。并且专业的编目系绩工具对于没有专门培训和知识的人来说太复杂;作者创建元数据也有问题,经常出现不恰当、不准确的标注,或者完全是虚假标注。 采用聚类分析方法对用关键词或自由词标引的检索系统中的词表建立词间关系,可以形成语义网提高系统检索效率,达到语义控制的目的。但词条高

7、达数百万条使得待聚类的Web文档特征词条一权重矩阵的维数过高,增加了聚类算法的复杂度,因此空间维数较高或词与词间呈现较强的相关性时聚类质量和算法的性能会明显下降。目前有许多人从事该方面的研究,其中戚涌等人提出了基于潜在语义标注(LatentSemanticIndexingLSI)的Web文档自动分类,即对Web文档采用最优聚类准则进行聚类,使得获得的特征向量具有较低的维数和更好的分类特征。 亚当·马斯认为大众标注将取代以往由专家控制的元数据编辑。Marieke Guy认为大众标注指的就是关键词、标签、元数据,是由使用资源的社区创建的自然,术语间不存在层次结构,没有特定的父子与兄弟关系

8、,有反馈现象,是种类而非分类。 而在语义标注中人们将本体引入标注系统用于知识的组织。之所以将ontology引入网络信息资源组织领域,是因为ontology的研究着眼于更加宽泛的空间即为人类认识活动构建顶层概念框架;ontology更加突出知识共享的功能,更着眼于给出人类事物认识的知识(或领域知识)总框架,以期待将Internet上的信息资源组织成一个语义网、知识网,以最大程度实现Internet信息资源的有效利用。 3评价 正如David welnberger所述,大众标注法不同于传统分类法,最重要的地方表现在传统分类法是自顶向下的、有层次的,而大众标注法是自底向上的,没有层次的。如果说传统

9、的分类法所得的是棵分类树,那么大众标注法只是将由用户自创建的叶子堆到了一起。语义标注所依赖的本体也是一种自顶向下分类法,所以从这点来看,可以将语义标注与传统分类法归为一类,即都是使用受控词汇的分类法。但是语义标注不仅增加了可控性,更由于本体的介入获得了标注中使用语义的便捷性。 在大众标注法中可以考虑在用户添加标签后,利用人工智能和ontology的方法对标签进行分析定位,并向用户显示其所处的树状,甚至网状的知识体系结构,方便用户从整体上认识问题。这做到了大众标注自底向上与ontology自顶向下的结合。 4结语 标注对开发者而言可以更好地组织信息,对用户而言可以更好地检索信息。传统网络,Web2.0中的标注都需要ontol-ogy的引入,需要语义标注的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论