知识服务论文整理.docx

上传人：n*** IP属地：河南上传时间：2020-02-18 格式：DOCX 页数：25 大小：1.77MB 积分：20 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一篇大数据知识服务的内涵、典型特征及概念模型本文概述：作者首先描述了大数据知识服务的内涵, 详细分析了大数据知识服务的典型特征, 并结合大数据知识服务模式下对各种类型大数据管理和处理需求, 给出了大数据知识服务概念模型, 最后指出大数据知识服务的实现需要解决大数据的可表示性、可处理性、可融合性及可靠性四个关键问题。大数据知识服务的内涵：大数据知识服务是为适应信息服务业智慧化、协作化、绿色化、先觉化和泛在化的发展趋势而衍生的一种基于网络(包括电信网、广播电视网、互联网、移动互联网等)的, 用以解决结构化、半结构化及非结构化数据多维度处理的信息服务新模式, 是嵌入式协作化知识服务模式的一种新发展, 是现代信息服务理念的具体体现。大数据知识服务模式强调知识、能力、资源和过程以服务的形式进行有机融合, 并基于网络自由流通, 对大数据获取、存储、组织、分析、决策和显示等按照“将计算推向数据, 而不是移动数据”的策略, 实现大数据知识服务体系中的知识动态协调构建、能力智慧管理、资源按需使用、过程智能控制。大数据知识服务的典型特征： (1)是面向智慧服务和自主需求的知识服务。(2)是不确定性服务。(3)是强调用户参与的知识服务。(4)是支持按需使用、按需付费的知识服务模式。(5)是共性技术目标与异性技术特征相辅相成的知识服务模式。(6)是基于知识、能力、资源、过程共享和交易的知识服务模式。(7)是基于群体创新的知识服务模式。(8)是更为绿色环保的知识服务模式。大数据知识服务概念模型：本文将大数据知识服务描述为:大数据知识服务是在大数据获取、存储、组织、分析和决策过程中产生, 体现了在大数据管理和处理过程中对知识、服务、资源和过程等的知识服务配置和整合的能力,反映了知识服务实体或机构完成相应行业、领域、任务及预期目标的服务水平, 包含了大数据知识服务全生命周期过程中所涉及的知识、服务、资源和过程等因素。大数据知识服务概念模型包括数据、知识、资源、能力、服务、过程和任务七个元素。大数据知识服务的四个关键问题： (1) 可表示性问题。(2) 可处理性问题(3) 可融合性问题。(4) 可靠性问题。第二篇语义网本体构建方式研究本文概述：作者分析和对比了几种重要的本体构建方式,总结了这些本体构建方式各自的特点并指出了他们的不足。之后作者对本体的概念作了更适合语义网的新的解读,提出了一种适于语义网环境的一种工程化的本体构建方式。这种本体构建方式支持群体参与构建,拥有良好的可扩展性和容错性。基本概念：语义网，本体，本体的描述语言，本体构建传统本体构建方法及其差别：MMOC本体构建方法：构建步骤：1.获取适用于目标领域的源本体并将该本体用分散的形式存储2.确定本体存储中核心知识,并在实践中应用这一本体存储3.在应用中由用户参与修正和升级本体存储4.对用户参与修改的本体进行验证,并根据验证结果保存修改5.用户参与本体评价6.根据评级应用本体,并回到第二步继续下一轮循环MMOC方法与现有技术的主要区别：本体是在检索时才临时生成的,系统中存储的仅仅是生成本体所需要的要素和这些要素在生成本体时应遵循的规则（即高扩展性和容错性）。本体中不仅包含大多数人达成的共识,也包含少数派意见。这些本体知识按照特定检索条件下的权值确定检索优先级（满足个性化需求）。MMOC方法的本体存储结构：法采用实时本体生成机制,其存储应采取相对离散的形式,仅以本体存储的形式出现,并非真正的本体。这些本体存储要素只在生成本体时进行整合,生成对应的本体。每一本体内对应的一组相对独立的类、类的属性、关系等也是相对独立的结构。这种相对独立是指这些成分在内部可以组合,但不能脱离其附属的类、本体。所谓的离散存储形式就是指这些共同构成一个本体的要素并非被作为一个基于语义网的支持群体参与的本体构建方式本体被整体存储的,而是根据创建时间、关注度或重要性被重新排列为一个个群组。例如将已经列出的信息作为核心知识被归为一个整体,如果在使用过程中被用户加入了其它的要素,那么这个新加入的要素与原核心知识之间就是离散的关系。在使用本体时,系统需要首先利用核心知识进行处理,之后再将这个新要素和原核心知识整合起来进行处理。如果另外一个用户又添加了另一个新要素,这两个新要素之间的关系也是离散的。MMOC方法的本体生成机制：首先根据共识最好的本体存储要素集生成一次本体,并返回检索结果然后,在一次本体检索结果的基础上,加入共识次之的本体存储要素集生成二次本体,并返回检索结果,并依次类推。第三篇中文本体构建及可视化研究本文概述：本文对现有本体构建工具进行了比较分析, 并对Protg 的中文本体构建能力进行评估, 深入探讨了其构建中文本体过程中遇到的可视化问题, 提出了可行性解决方案。全面讨论了中文本体构建工具现存的问题, 指出了未来的研究方向。中文本体构建环境：本体构建工具概述：常用本体构建工具，如Protg -2000、WebODE 、OilEd 、OntoEdit 、KAO等具有以下优点:提供了较为友好的图形化界面和一致性检查机制;这些工具独立于语言, 即用户不必了解本体描述语言的细节, 只需把精力集中在本体内容的组织上,避免了很多错误的发生,方便了本体的构建;提供了本体的编辑功能和推理功能, 用户可以输入和编辑每个概念的名字、约束、属性、实例等内容,Protg 中文本体构建能力评估：较之其他工具而言, Protg 在支持中文方面又具有如下的优势:基于UTF -8 编码。开源的特性良好的可扩展结构。对于中文本体的构建环境而言,文中认为Protg存在以下缺陷: 界面可读性差。辅助功能不完善性本体构建环境的中文可视化：中文构建环境汉化结果示例中文本体可视化：中文本体可视化存在的问题：OWLVizT ab 无法对中文本体图示进行布局, 生成的图形堆叠在左上角;TGVizTab 可以正确显示中文类,无法正确显示中文属性, 显示为乱码;OntoVizT ab 无法生成中文图示。这些问题究其本质原因, 在于Java 语言对中文处理存在的编码问题。作者通过修改和替换接口模块解决了中文本体可视化问题。问题解决：Java 中I/O 流分为字节流和字符流两种, 分别由四种抽象类表示:Input-Stream 、OutputStream 、Reader 和Writer 。具体实现时字节流的输入输出分别使用FileInputStream 和FileOutputSt ream , 字符流使用FileReader 和FileWriter 。字节流转换成字符流可以用InputSteamReader 和OutputStreamWriter 。通过对输入输出流的转换, 以及指定输入输出流的编码, 解决中文可视化问题。第四篇基于概念图匹配的语义相似性算法研究本文概述：本文提出一种基于概念图语义匹配的方法来计算两个本体中类之间的相似性,该模型首先将用户的查询信息转变为一个概念图, 然后和已有的资源概念图进行匹配计算语义的相似性以提高检索效率。基本概念：概念图，语义网，语义匹配基于概念图的语义匹配：概念图的语义相似性计算：文献中阐述了通过WorldNet 中两个概念的语义距离得到类之间的语义相似度, 然后将各个结点和关系的相似度按权值累加最后得出两个RDF 图之间的相似度。文献也用到了该方法来计算两个概念图之间的相似性。在这两篇文献中分别把本体看作一个RDF 图和一个概念图。为了避免计算时递归陷入无止尽的循环, 规定用户指定一个查询概念图的入口结点, 已有的被搜索的概念图也有一个入口结点, 仅仅比较在两个概念图中同等位置的概念的相似性。上图公式及文献中提到的计算概念图的语义相似度的方法, SoG(nQ,nR)用来计算两个图之间的相似性, 其中nQ 表示查询概念图的入口结点, nR 表示资源概念图的入口结点。Simn(nQ,nR)表示两结点之间的相似性, 计算从节点nQ 和nR 出发的第j 个弧线之间的相似性, 其中表示一个结点出发的各个弧线和该结点的权值和为1, 并且各个弧线和结点的权值是相等的。节点的相似性计算：在文献中计算结点的相似性时要通过查询WorldNet 中个本体结构包含的两个结点到它们共同的父母结点的距离来得到, 有时候一些词并不能在WorldNet 中找到, 比如一个类的特征这样的结点包含好多信息, 因此会导致本来相似性很高的两个概念图可能会得不到预期的结果。文献用概率论的思想来计算异构本体的实体类之间的相似性。它们将本体大概分为类、类的不同特征或类的功能以及类的不同组成部分, 而在这三种情况的类中都可能会包括部分的同义词, 所以通过计算各个部分的相似性最后按权值累加可以得到异构本体的类的相似性。a ,b 表示两个类, Simn(a,b)用来表示两个类a, b 之间的相似性, A 和B 表示两个结点a 和b 中包含的词的集合, |AB|表示两个集合中共同包含的词的数目, |A/B|表示集合A 中包含的而集合B 中没有包含的词的数目, |B/A|表示集合B 中包含的而集合A 中没有包含的词的数目。depth(aP) 表示类a 中包含的一个结点p 在其所在的概念图中的深度信息, 也就是结点p 到根结点的层次, 根结点的深度是0。弧线的相似性计算：概念图中的弧线既可以用来表示本体中的关系也可以表示本体的属性等, 所以为了减少递归计算过程的复杂度, 本文在此利用文献 4 中的弧线的相似性的计算方法, 定义两个弧线如果是相同的概念也即两个弧线如果是用同一个词表示的,那么它们的相似性就是1, 反之则为0。算法的实验验证：实例概念图上表为fire engine和fire truck中找到的节点的相似性。接下来计算两个概念图的相似性SoG(red, red)=1,对于两个概念图从各自的入口结点出发的分别有三个弧线, Sim r(color,color)=1, Sim r(part, part)=1, Sim r(memb, memb)=1。SoG(red, red)=1, SoG (fireman, fireman)=1, SoG (C, D)=0.45, SoG(equipment, equipment)=0.5*1+0.5*1*0.45=0.73。最终得到SoG (fire engine,fire truck)=0.25*0.33+0.25*1+0.25*0.73+0.25*1=0.765, 可以看出该算法计算出两个概念图的相似性是很高的。算法评价：本文的创新点是充分地利用了本体的资源, 并通过实例证明了该方法的可行性。这种方法不仅体现了两个概念之间的共同属性, 也体现了它们之间不同的特征, 因此可以有效地避免漏掉一些相关的信息, 同时也过滤了更多无关的信息, 对今后数据检索和信息合并中语义相似性的计算研究有重要的参考价值。随着数据量增大, 本文提出的算法计算复杂度会越来越大。为减小计算复杂度, 文中在计算相似性时仅仅考虑了在两个概念图中同等位置上的类的相似性, 并且规定了每个概念图的计算入口结点,这一方面仍需我们继续改进。第五篇基于概念图的汉语语义计算的研究与实现本文概述：本文提出了一种基于概念图的汉语语义计算方法。该方法以“知网”为语义知识资源，以概念图为知识表示方法，把自然语言文本转化为概念图，通过概念图的匹配实现语义计算，以改善语义计算的效果。基本概念：概念图，语义计算，语义匹配，相似度汉语文本到概念图的转换：汉语文本到概念图的转换算法的步骤为：（1）利用语言技术平台LPT2.01 对用户输入的文本进行分析，并生成相应的句法关系。（2）对生成的句法关系进行修正处理，主要包括三个方面：a.对句法关系中的不正确的分词结果进行处理；b.去掉分词结果中没有实际意义的词，比如语气词、助词和连词等；c.对句法关系中的句法不正确的修饰关系或依赖关系进行相应处理，（3）根据修正后的句法关系图，利用本文提出的句法关系到语义关系的转化规则，得到概念节点和关系节点，最后转化成相应的概念图。语义计算：概念相似度：对于两个概念c1和c2，首先计算出它们之间的距离，记为dist(c1，c2) ，然后它们之间的相似度sim(c，c2) 由它们之间的语义距离得到，按照如下公式推导得出：其中，是一个调节的参数，的定义是当相似度为0.5 时的概念的距离值。通过以上公式分析，两个概念之间的距离可以通过它们在概念层次中的相对位置来决定，但是上述方法没有考虑到不同层概念之间抽象跨度的不均匀性，因为路径长度相同的两个概念，如果位于概念层次的较高层，其语义距离比较大，如果位于概念层次的较低层，其语义距离比较小。因此，将公式（1）的计算方法进行改进，首先给概念层次中的每个节点都赋予一个计算距离用的值dw对于概念层次中的任意两个概念c1、c2，它们都有一个最近公共父类ccp(c1，c2) ，概念c1、c2之间的距离就由它们分别与最近公共父类的dw差值之和来确定。综上所述，来自概念图1 的概念c1与来自概念图2 的概念c2之间的相似度定义为：关系相似度：来自概念图1 的关系r1与来自概念图2 的关系r2之间的相似度可定义为：其中各个相关参数的定义都和讨论概念相似度时是类似的。概念图相似度：概念图的匹配算法由入口开始，然后沿着与入口相关联的关系而扩展。每一个与入相关联的关系都会导出一张子图。两张概念图之间的语义相似度是由两个入口之间的相似度以及每一个子图对之间的语义相似度所组成的。为了体现用户对不同部分的相似度值的不同的重视程度，为每一个入口和与之相连的关系引入了权值的概念10，权值的设置根据用户的选择，参照相关性设置。在整个匹配的过程中，概念和关系之间的相似度将受到它们各自所具有的权值的影响。两张子图之间的语义相似度也是由两张子图的入口以及它们的子图按照各自的权值所决定的。子图中与导出该子图的关系直接相连的概念将被作为该子图的入口。因此，两张概念图之间的语义相似度的定义是递归的。计算公式如下：第六篇规则引擎原理分析本文概述：本文主要对规则引擎的组成结构和工作流程进行了分析。关键内容：业务规则，规则引擎，BRMS规则引擎结构分析：匹配器工作存储器规则集容易执行器规则引擎工作流程：1.应用程序注册2.导入应用程序对象3.导入规则集4.规则匹配5.执行规则第七篇汉语复句关系词自动标识中规则引擎的研究本文概述：作者将规则引擎用于复句关系词自动标识中，设计了规则引擎的结构，提出了关系搭配集的模式匹配策略、消除冲突规则的“消除包含最大化策略”以及最终结果集的“正覆盖”策略。通过这种策略的应用，作者提高了提高了复句关系词在规则引擎中识别的效率与准确率。规则引擎：规则引擎的结构：规则引擎的执行过程：1.复句特征分析器获取关系词序列传输给模式匹配器，经模式匹配算法得到关系搭配集；2.关系搭配集传输给冲突消解器，判断关系搭配集中每个元素对应规则库中的规则是否存在冲突，若存在冲突则进行冲突消解，得到无冲突规则集；3.无冲突规则集传输给结果评估器，判断无冲突规则集中的每条规则，若规则约束条件满足，则规则保留，否则丢弃；4.若存在多条不同搭配的规则，按照规则表的优先顺序决定唯一搭配方案，最先调用的规则作为最终的解决方案，最终解决方案存在多条规则，采用正覆盖策略对复句的关系标记判定赋值。模式匹配算法：基于RETE网络的关系标记匹配算法如下：Step1：关系标记序列传递给结点（简称根节点），关系标记序列分别存储在下一结点（简称，分别以、等表示不同结点）。Step2：将（）与其余关系标记进行搭配，与规则表中的规则匹配，如果与连用，则存储，否则丢弃，继续与下一关系标记搭配然后再与规则匹配；同理，如果与连用，则存储，否则丢弃，直到与其他关系标记匹配完毕。Step3：如果与关系连用，则对与其后的关系标记进行搭配，再与规则表中的规则匹配，如果与连用，或者连用，则存储，否则丢弃，继续与下一关系标记搭配然后再与规则匹配。Step4：当关系标记序列都进行了搭配再匹配之后，最终得到一个关系标记搭配集。消除包含最大化策略：算法描述（最大化消解）算法实现如下：输入：规则冲突集输出：无冲突规则集方法：（）；规则中的约束条件个数（）（规则冲突集中所有元素）（）规则（）（，）；获取每个规则中的约束条件数（）（规则冲突集中所有元素）（）（规则冲突集中所有元素个数）（）；（）（为冲突集元素下标，为循环变量（）（前一规则的所有约束条件）（）（后一规则的所有约束条件）（）（与匹配）（）；（）（）前一规则的约束条件都包含在后一规则的约束条件中（）（，）删除前一规则（）（）（）（后一规则的约束条件个数）（）（前一规则的约束条件个数）（）（与匹配）（）；（）（）；正覆盖策略：算法实现如下：输入：结果规则集Result输出：最优结果规则集方法：（）（结果集中的元素）（）（；）；根据结果值对复句进行特征信息赋值；为关系标记搭配（）；设结果规则集中第一个规则的优先级最大并赋值给规则（）（结果集中的元素）集中元素以变量表示（）（的优先级小于的优先级）（）；优先级大的赋值给（）（；）；最优规则对复句特征赋值（）；（；）（）（）；提取规则的结果项（）（规则中结果项中元素）（）（）为关系标记的分词，（），表示标记为关系词（）（中关系标记为或）（）标记为；（）（）（）（中关系标记为）（）标记为；（）（）；第八篇 A big data acquisition engine based on rule engine(基于规则引擎的大数据采集引擎)本文概述：作者建立了一个将规则引擎和有限自动机结合的通用的数据采集引擎。该组合以灵活的方式描述了大数据采集流程及其规则，并有助于验证大数据采集流程的安全性和正确性。基于规则引擎的大数据采集引擎：本研究将大数据采集系统抽象为一组动作和状态，并进行自动机建模。采集流程是自动机状态的过渡。规则引擎推断过渡，并监测和警报错误状态。设计包含两个并发执行的自动化SCADA系统：设备交互自动机和采集服务器自动机。设备交互模块直接与底层设备通信。每一个设备对应一个设备交互自动机，每个设备的交互自动机对应于一个采集服务器自动机。采集服务器模块收集并发送从设备交互模块采集到的数据。设计结构如下图所示：设备交互模块屏蔽了系统的设备，这意味着它保护了主要的采集程序受到设备或网络故障的影响，并可以避免性能下降，。同时，该模块设备接口的数量可灵活配置并且不影响主程序，使系统具有良好的扩充性。在一定时间内，这2种自动机紧密结合，且状态应该是匹配的。为了保持两者之间的相互作用并验证采集流程是否执行，我们需要定义数据采集规则。这些规则的设置使复杂的设备交互过程标准化和自动化。规则引擎作为嵌入式组件，将提交的数据与规则进行比较，当规则满足时则激活：1）设备交互自动机。该模块与设备如PLC进行通信，控制采集期间严格保证实时性能。自动机描述为M1 = Q1，q，F 。一个确定的有限状态自动机可以表示为状态转换图。其状态转换图如下所示2）采集服务器自动机。采集服务器负责初始化地址，端口号和设备的命令，以及数据的收集和分配。其状态转移图如下所示规则引擎启动顺序：第九篇中文元数据标准框架及其应用本文概述：本文通过对北京大学数字图书馆中文元数据标准框架的主要内容及应用实例的介绍，阐述了中文元数据标准制定的原则、方法和工作流程。基本概念：元数据，元数据标准，元数据标准框架，中文元数据元数据的相关概念：元数据的定义：元数据是关于数据的数据。本文对元数据定义是：元数据是描述一个具体的资源对象，并能对这个对象进行定位、管理，且有助于它的发现与获取的数据。一个元数据由许多完成不同功能的具体数据描述项构成。具体的数据描述项又称元数据项、元素项或元素。元数据标准：是描述某类资源的具体对象时所有规则的集合。不同类型的资源可能会有不同的元数据标准。它一般包括了完整描述一个具体对象时所需要的数据项集合、各数据项语义定义、著录规则和计算机应用时的语法规定。元数据标准框架：是规范设计定制某类特定资源所用的元数据标准时，需要遵照的规则和方法，它是抽象化的元数据。它从更高层次上规定了元数据的功能、数据结构、格式、设计方法、语义语法规则等多方面的内容。元数据标准的设计原则： (1) 简单性与准确性原则。(2) 专指度与通用性原则。(3) 互操作性与易转换性原则。(4) 可扩展性原则。(5) 用户需求原则。元数据的功能：描述：对信息对象的内容、属性等的描述能力，是元数据最基本的功能，应当能比较完整地反映出信息对象的全貌。衡量描述能力最重要的一点是，它能否准确地区别不同的具体信息对象。这是元数据标准制订工作中最困难的一部分。针对每一类具体的资源对象需分别研制。检索：支持用户发现资源的能力，即利用元数据来更好地组织信息对象，建立它们之间的关系，为用户提供多层次、多途径的检索体系，从而有利于用户便捷、快速地发现其真正需要的信息资源。选择：支持用户在不必浏览信息对象本身的情况下，能够对信息对象有基本的了解和认识，从而决定对检出信息的取舍。定位：提供信息资源本身的位置方面的信息，由此可准确获知信息对象之所在，便于信息的获取。管理：保存信息资源的加工存档、结构、使用管理等方面的相关信息，以及权限管理（版权、所有权、使用权）、防伪措施（电子水印、电子签名）等。评估：保存资源被使用和被评价的相关信息。通过对这些信息的统计分析，方便资源的建立与管理者更好地组织资源，并在一定程度上帮助用户确定该信息资源在同类资源中的重要性。交互：有些信息资源的元素内容需经过专家考据才能确定，尤其是在描述比较复杂的对象（例如古籍）的时候。对使用元数据的专家学者提供专门的元素，允许他们对某些数据项的内容进行反馈，有利于

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

知识服务论文整理.docx

文档简介

温馨提示

最新文档

评论

知识服务论文整理.docx

文档简介

温馨提示

最新文档

评论

相关文档