计算机类论文引言_第1页
计算机类论文引言_第2页
计算机类论文引言_第3页
计算机类论文引言_第4页
计算机类论文引言_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.1研究背景与意义在Internet得到普及发展的当今,网络已经成为推动人类社会科技进 步的主要支柱之一,促使社会进入信息化时代。Internet是一个非常巨 大的信息库,是人们日常生活和工作中不可缺少的重要工具,其发展趋 势迅猛,已经成为人类进行信息传播的主要渠道1。随着网络技术的 不断发展,人们利用多种文件协议和格式作为信息的载体,从不同角度 反映信息中所包含的内容,这就使得互联网成为一个巨大的数据容器, 各种文本文档、XML文档、音频文件、视频文件等等多媒体数据包括在 其中,对于如此庞大的信息数据,如何对其进行快速检索已经成为研究 互联网的一个热点方向2。搜索引擎的出现在一定程度上帮助

2、人们可 以快速、准确地找到所需的数据,但同时,对于基于内容的信息检索方 法也成为检索多媒体信息的主要研究方法。在相关领域中,语义Web是目前研究互联网信息检索的主要热点之一, 其中W3C组织在语义Web发展中起到非常重要的推动作用,对大量相关 技术进行了标准化。语义web被称为是“第三代web ” 3,是对WWW 功能的进一步扩展,使得网络信息成为可以被理解的形式,这有助于使 用智能分析工具对网路信息进行解读,并帮助人与计算机之间建立沟通 的渠道,利用计算机可理解的信息表达方式可以大大改善网络环境下的 智能水平,并不断推动计算机网络化的发展4。关联开放数据(Linked Open Data,L

3、OD) 5是在基于语义网和本体技 术的高质量信息表达方式,是关联语义数据的主要形式,其应用领域主 要集中在基于语义的搜索和智能化推荐方面。关联数据的结构基础是在 URL为核心数据的基础之上,利用RDF作为信息的描述结构,利用结构 化数据表达网络非结构化文件信息,使得机器和用户都可以读懂这些网 络数据,并建立协同工作的机制,是人们利用HTTP/URL机制的又一成 功应用6。由于关联数据是具有语义结构化的数据组织形式,因此可以方便地进行 共享和重构,在进行资源发布的之后可以被充分分析和利用,应用在课 程资源领域非常适合这类信息的组织和应用形式的要求7。同时,由 于关联数据可以实现跨平台和跨系统之间

4、传递信息,因此在分布式环境 下进行语义查询时可以借助分布式语义扩展进行本体推理和跨结构分 析等等。对关联数据建立语义索引结构,可以方便用户精确、快速地定 位自己所需要的知识资源,并利用推理机制进行语义关联化查询等等。 在语义研究领域,基于结构化的语义分析技术是各种先进信息技术的基 础,在此基础之上扩展到语义网和分布式语义分析也得以实现。国内外 许多学者在研究万维网语义数据时,涉足多个领域和学科,包括生物学、 信息学、哲学、地理、物理等等8,可以从不同粒度、不同层次、不 同角度对这些学科中的问题进行分析,并借助大数据进行规划化、异构 化语义数据处理。大量易购数据整合的方法往往使用诸如纠错、填补以

5、及格式转换等数据 清洗的方法,同时需要对大数据建立高效的访问机制,语义数据的分析 工具要借助数据仓库的配合,这得益于多维数据技术,才使得大量语义 数据的分析成为可能。目前,研究人员的研究方向主要集中在数据万维 网数据集成和数据存储及索引方面9-12。在网络资源语义分析方面,利用关联数据对课程数据进行数据分析和知 识管理对充分利用网络知识环境进行科学求解带来非常重要的理论意 义,其应用前景也非常广泛。Tim Bemers Lee13 提出语义web的主要思想就是利用本体与语义web 中的信息含义层进行组合,并通过语义web的特殊结构表现出来,进而 可以将网络信息更加智能化,对数据的访问更加自动化

6、。大部分语义web 的研究学者都是基于这一思想开展后续工作的,同时,将本体与语义web结合 在一起的研究也应运而生,其中一个重要的学术分支就是利用本体进行语义检索, 现在已经有越来越多的学者参与到这方面的研究上来。利用本体进行语义检索可 以克服传统检索的不足,将以关键字为信息查询的方法变为以语义条件的语法进 行信息匹配14,这大大增加了语义相关性的检索的智能型,并有效提高检索的 查全率和查准率。由于语义信息查询可以提供领域专家的信息比对和信息语义解读,因此基于语义 的信息查询可以向用户提供语义化查询功能之外,还可以提供语义查询引擎的功 能,使得用户更可以从语法层面进行信息传,将查询内容的相关内

7、容以语义资源 的形式呈献给用户,客服了传统关键词查询的缺陷,在一定程度上实现了智能检 索的功能,为信息检索的研究领域开辟了一个新思路15,其应用范围也将会进 一步扩展。对于目前信息检索领域的研究,大致可以分为三类,即全文检索、数据检索和知 识检索,其中知识检索就是利用语义检索来实现16。全文检索的方法比较简单, 利用词语的机械匹配进行检索,其查全率比较高,是目前绝大多数数据库所使用 的检索方式。数据检索在全文检索基础之上进行了扩展,利用特定格式和结构对 特定字段进行检索,往往应用在文献数据库中,进行关键词检索和信息标示方面。 这种方法的最大缺点就是需要利用人工的方式对所有资源进行标识,检索效果

8、的 优劣也受信息资源标识的质量所决定。在知识语义的基础之上,配合高效的检索 策略,使得语义检索成为可能,并不断改善各项性能。语义web中利用资源描述框架和本体17进行概念层面和逻辑层面的检索,因此 具有一定的智能,广泛应用于语义检索。RDF在W3C18的帮助下已经形成了较 为标准的模型体系。1.2国内外发展现状1.2.1关联数据研究Tim Bemers-Lee在其的著作关联数据19中首次提出关联数据的概 念,主要原理是利用分布式数据集和具有自主内容格式的标准知识表达 方式,配合统一的检索协议,将信息以动态关联的网络化知识表现出来, 并在此基础之上形成知识组织和知识发现。其中需要大量信息检索和知

9、 识发现方法作为支撑工具,例如数据挖掘、人工智能等等。维基百科是这样定义关联数据的:关联数据是一种推荐的最佳实践,用 来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识, 发布和部署实例数据和类数据20,从而可以通过HTTP协议揭示并获 取这些数据,同时强调数据的相互关联、相互联系以及有益于人机理解 的语境信息。关联数据是传统数据的一种表现形式,也可以说是一种向外发布的形式, 其关键因素是以URL为基础的数据对象,而不仅仅是一个文档类型,这 种数据对象使用RDF结构进行描述,RDF中充分标识了 URL所需要的所 有资源,只要需要访问这些资源的对象按照RDF的对外接口规范,就可

10、以获取资源列表。在关联数据的结构中,URI是关联数据的唯一标识,其决定了关联数据 的可关联性,而RDF是对数据进行语义描述的结构。RDF文件中所关联 的其他资源都是由URI所标识的,这种标识方法使得关联数据都比较“充 实”,放弃了大量“空资源” 21。同时,RDF文件均由URI所标识, 没有URI标识的RDF将会别视为“游离状态”,再结合关联数据的“垃 圾处理机制”可对这类RDF进行自动化处理。RDF表达的链接是基于语 义的,不仅是一个可用的链接,这种链接是当前资源与链接资源之间关 系的体现。关联数据是一种简单的标准化访问机制,它没有复杂的数据接口和庞大 的输出结构,而是轻量级的数据和其关联关

11、系的集中体现,其数据源往 往需要满足以下条件:首先是数据可以被搜索引擎所捕获,其次是可以 使用一般的数据浏览器访问这些数据,最后可以使用链接的方式标识不 同数据源之间的关系。关联数据是一种简单且内容标准化的数据组织形式,其数据发布能力较 传统的数据存储模式有了很大的提升。在进行信息组织的时候,可以根 据不同信息的需求划分为不同粒度、层次和角度,并将其进行语义化, 能够支持机器自动处理,利用同一的标准数据模型和存取过程等工具进 行跨平台的数据整合,使得信息以语义为基础进行重构,为用户提供更 加强大的数据应用空间22。1.2.2知识本体研究本体(Ontology)是利用特定的描述性语言对概念和知识

12、进行程序化, 这种技术被广泛应用于数字图书馆,并逐渐扩展到语义web方面。在这 方面可以发挥重要作用,可以处理信息组织、信息检索和信息系统的互 操作性等方面的问题。在数字图书馆和全文语义检索方面,本体作为一种语义词典,利用词库 对特定科学领域的话题进行表达,并通过各种显示系统之间的不同含义 的词汇接触形成领域内的语义词库23。在词库领域本体的基础上,结 合词库的优势,可以对语义进行注释,并从关系层次表达词与词之间的 关系,以领域本体概念属性的实例,创建线索和指令的关系,可以提供 域名本体,为开发人员节省了大量的时间和精力。本体使用一种明确的语义表达方式,对异构系统的交互进行共享式的描 述,在知

13、识扩展方面特点尤为突出。最早对本体定义是:“放弃词的基 本术语和关系,使用一些协议构成扩展规则定义” 24。以上定义将 本体在领域内的语义表达方式作为重点,可以看出,本体是目前基于知 识的语言描述方式,并可以在人工智能领域得到更深的发展,其中 Studer对本体的定义是:“本体是一种以共享概念为目标的形式化规范 模型”此定义包括四个含义25:概念化:摘要在客观世界中的一些现象和模型的相关概念,其含义是独 立的具体环境状况;清除:概念及使用这些概念的约束是清楚明确的定义;正式:本体是计算机可读;共享:反映的本体知识互认,被普遍认为是反映作为一套在相关领域的 概念,它的目的是群体而不是个人。本体的

14、作用是从相关知识领域中过 滤特定知识,并使用共享式的描述方式对其进行表达,为词汇和语义的 相互理解建立某种特定关系。目前,人工智能领域的本体研究,主要从以下三个方面:利用本体进行知识表达,首先要研究本体这一工具的自身方法和工具, 同时,还需要结合领域知识的特点研究本相关知识表达的方法。在本体 表达方面,利用知识库作为本体知识表达的主要支持工具,并为本体提 供相应的推测方法,从而实现基于本体的知识共享与管理。改造和整合不同的本体之间关系:主要提供不同的本体框架下改造和整 合不同的本体法,为不同的本体之间的互操作性提供了手段。利用概念化的建模方法进行本体知识库的创建,由于受到本体建模的特 殊性,使

15、得普通概念化建模方法不能完全符合本体系统的要求,需要根 据人工智能的方法对本体知识发现方法进行改进,使得概念化知识系统 更加稳定和高效。目前最为通用的本体模型是Perez16等人用分类法组织的本体,他归 纳出5个基本的建模元语(Modeling Primitives) : (1)类(class es)或概 念(concepts)、(2)关系(relations)、(3)函数(functions) 、(4)实例(instances)、 (5)公理(axioms)。在对本体进行建模的初级阶段,需要对本体模型进行详细定义,包括领域知识的 概念、应用实例以及实体之间的关系等等,这些描述需要借助本体描述

16、词汇的辅 助。1.2.3 RDF数据的研究语义Web是目前无法完全描述的一个巨大的知识来源。这需要适应的语义Web 数据从现有的数据源的系统自动生成,无论是否进行结构化的处理(如文本), 半结构化的(例如,嵌入的文本的形式或维基百科网站)或结构化的(例如,一 个电子表格和数据库)中的数据都可以成为语义Web的内容26。一些新的研究 项目集中在文本从互联网上提取更多的结构化数据。RDF格式的表单数据提取已经不是一个新的问题。这方面已经有大量学者做了相 关工作,主要集中在映射关系数据库到RDF进行各类手动和半自动的方法。同时, 在数据库到RDF和OWL之间的匹配关系,方面W3C RDB2RDF的已

17、成立了一个工作 组,于2010年6月8日发布第一个工作草案的关系型数据库27,可以用于匹 配到RDF收集用户的需求和web语义用例。其他的研究都集中在电子表格被映射到RDF方面。虽然现有的系统知识提取的形 式需要人为的干预,例如,要求用户选择一个合适的类的本体和属性,它主要是 用于标注相关特征,该系统不提供任何自动或半自动的机制与已知的类用于关联 的列或连接,链接数据称为实体的电子表格中的条目。虽然这些系统产生三元组, 但是因为列和实体并没有产生链接,所以三元组数据对于想开发这些数据的其他 应用程序并没有太大用处。虽然Han等人28专注于链接可能的类型到列头这个问题,它并没有重点关注一 个表的

18、完整的解释,也没有整合表到关联数据云图。Wang29解释以及其他相关制度,提出了形式确定与一个表相关联的概念。它已 经取得了根据表的列和列的“实体”。这些概念从他们的Probase知识库开始, 知识库是由万维网上的文字组成,与云中的数据的LOD概念相比,在知识库中的 数据混合和无序的,缺乏语义。与表中的列相关的概念对比,Venetis等人20 提供的证据是由给定列的字符串中,它们也可以用在“主体”和拣选其它列之间 的关系。但他们也依靠在isA数据库中创建的在Web文本中的语义结构。同样的,该数据库并没有LOD权威和优越。Limaye20提出了一种基于图模型标 识的概念,这一概念包括相关联的表的

19、列头的框架和链接单元格的值的实体,在 同一时间,以确定列之间的关系。该研究是以Yago作为知识数据集的。当前表解释系统可以通过推理的含义,或产生的任何形式的关联数据。目前缺乏 的关键部件是字面常量处理,因此工作中的操作是基于字符串表。据我们所知目 前还没有研究,也不能将这些文字作为表的解释框架中的证据。1.2.4语义数据存储与检索的研究由于叙词表和本体在表达的知识结构方面包括语义网和本体词库,在国内外学术 界已经开始使用现有的词库尝试建立本体,有十余词库以不同的方式转换为本体。 联合国粮食和农业组织(AFO )设立了农业本体服务(AOS )项目团队30, 为农业本体使用RDFS ( RDF S

20、ehema ) Agrovoe词库的。Syracuse 大学J. Qin 和S. Paling具体探讨了 GEM(教育资料网关)的切换成本框架的原理和原则。在 阿姆斯特丹大学的B. J. Wielinga等研究在艺术和建筑领域中的本体应用。SWAD . Europe专门成立了叙词研究小组,对各种词库进行分类,提出了基于RDFS 语言词库,用来描述组织本体系统SKOS(Simple Knowledge OgranizationSystem)。NKOS工作组将传统的知识组织系统,如分类词库知识描述成一种新形 式,如本体和主题地图(主题地图)和语义Web研究。英国CCLRC的BrianMatthew

21、s 等提出了语义Web的叙词表交换格式31。利用本体进行语义检索被应用于知识信息检索中,为传统的信息检索诸如一股新 的力量,但同时,由于继承了传统基于关系数据库的数据检索方式,使得本体语 义检索需要客服关键字检索的缺陷,通过属性与概念之间建立相互关系来实现语 义检索。本体信息资源检索的核心技术也是体现在利用现有语义描述进行知识推 理,并借助友好的用户界面实现结果展示。基于本体技术的语义检索,重点解决以下五个问题32:建立本体、本体存储、 索引和存储问题的信息资源,如RDF, RDFS和OWL的分析和推理,用户界面 问题有关文件。其中RDF, RDFS和OWL文件相关的分析和推理问题是关键的 一

22、步,可以实现语义检索。在这个步骤中的许多工具可以利用,包括Racer和 Jena 的研究。Racer 是 Ralf Moiler 和 VolkerHaarslev 从 1999 年开始开发的 系统。Jena是由HP开发语义Web应用程序,基于构建的Java框架,都具有推 理和查询的知识库功能,但Iker是简单推理机,在一定程度上不能充分考虑知 识的存储基础,相比较而言,Jena在这方面具有优势。RDF是一种资源描述的方 式,其核心内容是建立资源之间的相互关系,并利用描述语言对这些关系进行说 明,为用户提供简单的查询途径。Bemers在语义推理的研究中,基于XML和 RDF/RDFS构建了基于本

23、体的逻辑推理规则,这是本体语义研究的飞跃性标识, 使得语义知识表达和推理能够适应计算机数据处理的要求。RDF内含有不同的元 数据描述语言可以共享,尽可能在语言的描述,但RDF元素定义是更丰富的语言。1.3论文的研究内容本文在绪论部分,主要研究课题的研究背景与意义,并对关联数据、知识本体、 RDF数据的、语义数据存储与检索的研究的国内外研究现状进行分析。在课程关联数据的RDF数据表示部分,主要研究RDF数据模型、课程关联数据的 数据转换、课程关联数据的RDF表示。国内外相关学者在研究关联数据的基础之 上,充分扩展关联数据的发布工具,使得关联数据与语义网能够相互补充,大大 扩展了关联数据的用户接口

24、,并在知识发现领域给出了新的研究方向,即本体知 识模型。在此基础上构建关联数据的层次模型,从基础层、工具层和应用层三个 层次对关联数据进行系统深入的研究。研究关联数据的成功应用,以及关联数据 的前景和面临的挑战。提出方法将现有的多种类型的教学资源文档转换成RDF数据,为后续的课程关联 数据编织做基础。其中重点研究使用现存的关联数据的知识库解释表中的数据。 在此基础上可以自动的从表中生成RDF数据。在本体语义检索方面,大部分研究集中在利用本体叙词语义描述和语义空间的特 点,从而建立本体语义之间的相似度模型,并继续扩展本体语义的检索机制和存 储机制。进行本体的构建。目前通常都按照具体领域的应用需求,确定自己的原则、标准 和定义。现在较为流行的有两种主要的构建领域本体的方法:在领域专家的帮助下用本体描述语言将本体描述出来:从结构化的数据或文本中学习和抽取(发现)领域本体。对于一个特定的领域本体建设(本体网络课程)使用下列方法:首先采用手动的 方法从语料库中找到具体领域有关的词汇进行筛选,加上字代表语义的一部分, 然后建立逻辑关系的会话,最后得到本体模型的逻辑结构,逻辑结构的树状结构, 然后使用相关的Web

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论