专业出版领域知识服务系统设计_第1页
专业出版领域知识服务系统设计_第2页
专业出版领域知识服务系统设计_第3页
专业出版领域知识服务系统设计_第4页
专业出版领域知识服务系统设计_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专业出版领域学问效劳系统设计摘要:基于开放域的学问效劳系统已较为成熟,但是对于传统出版领域,尤其是专业出版领域而言,它还是一个特殊新颖的技术。在分析行业现状及需求的根底上,设计专业出版领域学问效劳系统,构建专业领域学问体系,对专业出版领域的资源进展学问化加工及标引,形成学问库,并基于学问库供应面对不同用户的特性化定制效劳。关键词:专业出版;学问效劳;学问标引;学问库构建;语义检索DOIDOI:10.11907/rjdk.161078中图分类号:TP319文献标识码:A文章编号:1672-7800〔2016〕005-0062-040引言20世纪80年头,信息效劳产生并在世界范围内广泛普及,成为社会信息化的重要标记之一。随着信息技术打破摩尔定律接着以超高速迅猛开展,信息给人们的科研和决策也带来了诸多麻烦。信息元作为信息传播的最小单位,可以不断地连接、组合形成新的构造。信息元的这种无穷组合实力促使新信息不断产生,导致信息爆炸,形成信息烟雾。在众多信息和数据库面前,科研工作者和决策者却感到获得有用信息变得更加困难。为了让人们从“信息超载”和“学问饥渴”的逆境中走出来,在学问密集型效劳行业中出现了一个新的效劳领域――学问效劳。学问效劳从各种显性和隐性学问资源中遵照人们的须要有针对性地提炼学问,是一种用来解决用户问题的高级阶段的信息效劳过程,它是一种面对学问内容和解决方案的效劳。区分于传统的信息效劳,学问效劳是用户目标驱动的效劳,面对学问内容的效劳,它特殊重视用户需求分析,依据问题和问题环境确定用户需求,通过信息的析取和重组来形成符合须要的学问产品,并能够对学问产品的质量进展评价。此外,学问效劳是面对解决方案的效劳,它关怀并致力于帮助用户找到或形成解决方案。同时,学问效劳是为用户解决问题工程的过程性效劳,帮助用户进展学问的捕获、分析、重组及应用,依据用户需求来动态和连续地组织效劳。1行业现状和需求在当前语境下,专业学问效劳[1]工作的开展,无论是对出版企业还是技术供应方都提出了较高要求,尤其是在专业学问领域[2],详细要求主要体此时此刻如下几个方面:一是对资源的要求,区分于无体系、无标准及无专业保证的互联网资源,出版社具备专业的编辑团队及学问来源,是开展学问效劳的最正确根底;二是对技术的要求,只有依托于先进的技术手段及产品设计理念,才能实现合理的学问呈现、供应良好的解决方案;三是对学问效劳的理解程度,在学问效劳开展过程中,学问效劳供应方要结合自身的资源优势及用户特点,基于对学问效劳内涵及外延的了解,建立行业及专业的学问谱系及效劳模型[3]。近年来,国外学界对学问效劳概念及范围的探究甚嚣尘上,和学问效劳概念探究热潮形成显明比照的是学问效劳实践开展却相对滞后,能真正系统开展学问效劳的机构很少。但是,众多数字出版企业并没有停下前进的脚步,国内外众多出版机构都开展了在该领域的探究,并在探究的根底之上依托多元化的产品形态及运营模式,为用户供应基于学问的效劳,为我国出版界开展学问效劳建立供应了宝贵经验[2]。本课题的主要探究目标是供应一套可行的解决方案,满足专业出版领域的学问体系构建、学问加工及标引、学问库构建以及对外供应学问效劳的需求。2系统架构设计2.1系统总体架构系统总体架构如图1所示。2.2资源采集及管理专业出版领域的资源是专业出版社最核心的资产,将这些资源进展数字化、构造化及学问化,结合构建的学问体系形成学问库,再对外供应学问效劳[3],这是本解决方案要实现的目标,也是整体框架设计的依据。存量资源以图书、期刊等出版物为主,这些资源由于出版时期不同,其存储介质也不尽一样。早期出版物以纸质为主,到了20世纪80~90年头,出现了排版软件,例如方正书版、InDesign等,这时资源存储的介质已经数字化,根本上以方正书版文件、PDF、WORD等形式出现。对于存量的纸质图书,可以通过扫描、OCR识别形成PDF文件实现其数字化。但是数字化只是第一步,想要获得到学问,还必需将资源进展构造化,本方案中构造化的数据接受XML来描述,XML的标准以国际通用标准配以国内标准的扩展。例如,国际通用的DOCBOOK5.0标准,并扩展中文图书特有的一些属性,从而形本钱方案的图书构造化标准。WORD构造化加工工具是基于微软Office供应的API接口开发的基于WORD的插件,安装后干脆在WORD面板中出现一个新的面板,其供应的功能可以对WORD文本进展自动化及人工加工。对于方正书版文件,接受方正经典可以干脆导出DOCBOOK标准的构造化资源包;对于PDF,可以通过集成业内成熟的数字加工技术来实现构造化。构造化的数据须要存储管理起来,对外供应阅读、下载、导出等效劳,也可以参和重新加工的业务流程,这也是目前专业出版社内资源管理系统的常见功能。2.3学问体系构建专业领域学问体系是学问的框架,它有效提示了学问的内在关联和组织方式。领域学问体系是学问资源构建的根底,是学问组织的核心框架,它将学问和资源通过各种方式关联在一起,形成浩大的学问网络,通过学问体系的作用实现领域内容基于学问主体的内在连接、关联和关系推理,从而为运用对象供应精准的学问效劳及学问延长效劳。学问体系构建[4]是一项根底性工作,对资源进展学问提取之前,学问体系就必需先建立起来。本系统中学问体系包含3种,包括多维度主题分类、领域主题词表以及领域本体。多维度主题分类目前已得到广泛应用,多个领域内也都有了比拟成熟的分类体系。领域主题词表是目前学问效劳应用的主要学问体系,也是目前出版单位正在或者准备构建的学问体系,由于词表中的词数量众多浩大,因而须要花费相当的人力物力来进展此项构建工作。领域本体在目前国内出版单位涉及得特殊少,它是最困难的一种学问体系,相比主题词表,它须要构建者对领域内的学问有更充分的理解,并且所须要构建的内容也更为多样。从分类体系到主题词表再到领域本体,可以接受按部就班的方式进展构建,主题词表可以基于资源管理系统的分类体系、关键词、概念等内容进展构建,而领域本体那么可以基于主题词表,将其关系扩展后得到。领域本体通过提取领域内的抽象实体以及实体之间的关系而形成,可以构建丰富的概念间的语义关系,其形成的学问图谱[4]是计算机智能技术最主要分支之一,这也是供应语义检索、智能问答的根底[3]。本系统供应的领域本体构建界面如图2所示。2.4学问加工对于学问效劳而言,构造化的内容资源一般不能算作是牢靠的学问点。例如拆分图书得到的章节片断,其内容一般和前后章节存在上下文关联,因而不能干脆作为一个独立的学问点存在,须要从中进展提炼,而有些内容并不包含任何学问点。另外,一些图书的插图及描述也可以作为独立的学问点存在。因此,须要对构造化数据进展学问加工和标引并形成学问。学问加工模块业务架构如图3所示。学问发觉指从构造化内容资源中依据预置的规那么和算法自动抽取出学问点的过程,规那么和算法都是为了实现自动提取这个动作。发觉规那么指系统预置的用于提取学问点的规那么。对于不同类型、不同领域、不同载体的内容资源,提取规那么可能存在根本性不同。本系统中,发布规那么模块接受组件模块方式实现,通过接口向外部供应规那么调用效劳。这种设计思路便利基于接口进展困难规那么的扩展。系统预置一些常用规那么如下:〔1〕末级章节规那么。将图书、期刊等构造化后的最深章节提取出来作为学问点。这种规那么是目前应用最广泛的规那么,适用于词典、论文集、科技期刊等专业出版领域常见的出版物类型。〔2〕图表提取规那么。将构造化后得到的图表、属性及其文字说明提取出来作为学问点。适用于人物、地点、事务等专业学问。〔3〕位置模板提取规那么。制定针对文本内容的位置模板,例如第一段或者某些固定的词语之后。数学中的“公理”之后一般紧跟着该公理的描述。通过这样的规那么就可以提取到某些固定格式的学问点。〔4〕摘要提取规那么。通过语义分析技术[5]及数据挖掘技术[5],可以从大段文本中提取出摘要信息作为学问点。发觉算法指将发布规那么、内容资源遵照必需的逻辑进展处理。每种算法都可以集成多个发觉规那么,例如将图书拆分的末级章节提取摘要后作为学问点,其中就集成了末级章节规那么和摘要提取规那么。也可以对多条内容资源进展一个学问点的提取,例如多个章节描述了一个学问点的多个属性,那么可以干脆将其内容资源合并之后进展提取。学问标引是将待标引的学问纳入到学问体系网络内,将其和学问体系关联。不同的学问体系对应有不同的标引方法,包括分类标引、主题词标引以及学问本体标引。由于学问标引的数据量浩大,因而一般接受自动标注结合人工干预的方式来实现。以主题词标引为例,进展标引分类后,基于分类进展主题词标引会更加简洁,自动化标引结果也会更加精确。主题词标引也分为手动标引、自动标引结合人工修正两种方式。〔1〕手动标引。先标引分类,然后点击该分类,在主题词区域显示出该分类下全部的主题词列表,选择一个或多个主题词后,点击“确定”,那么学问和选中的主题词之间建立了关联关系。选择主题词也可以通过检索主题词表来实现。〔2〕自动标引+人工修正。当学问进入待标引学问库后,系统自动调用自动化标引工具,将学问内容作为参数传入工具,工具经过处理后返回引荐的主题词。自动标引后的学问将进入待审核状态,专业人员可以点击审核按钮,进展审核,假如确认标引错误,可以进展人工调整,方法等同于手动标引。自动化标引工具是实现学问自动化标引的载体,通过供应接口来集成到系统中。该工具供应的功能也可以通过接口描述来表达,在本系统中包括学问体系同步接口、自动化标引接口以及反应修正信息接口。学问体系同步接口将分类体系、主题词表及本体导入并同步更新。自动化标引接口提取内容文本特征和关键词频率,综合内容特征和关键词频率并参照学问组织方案规那么实现内容自动分类和学问点标引。可接受如下内容特征方式实现自动化分类标引:〔1〕基于元数据属性特征。在进展资源加工时,对于每个资源都会标引比拟多的元数据,包括标题、作者、关键词、来源等。可以通过这些标引的元数据属性特征实现内容自动分类和学问点标引,例如一样来源的、一样作者的、关键词一样的。〔2〕基于文本内容特征。首先,对已经入库的文本内容提取其关键词作为其特征向量;然后,在获得到用户录入的检索内容时,自动提取该内容的关键词作为特征向量,在自动标引时,查询和其特征向量最接近的学问主题分类、主题词表等作为其标引项。〔3〕基于学问体系。在构建学问体系时,会构建学问体系之间的关联关系,作为学问体系下的内容会自动继承这种关联关系,在获得到一个资源时,将相关学问分类下的资源作为该资源的标引项。通过这种方式建立的关联关系,学问的相关性程度比拟高。反应修正信息接口主要用于机器学习方面。自动化标引结果存在必需的误差和谬误概率,须要人工修正。对于错误标引的处理结果,须要通过反应修正信息接口将其反应给自动化标引效劳,自动化标引效劳会据此对标引算法进展自我完善,进一步提高自动化标引的精确率。可以运用负面标引清单的方法来实现,将错误的学问提取放入负面标引清单,同时在效劳内置的学问关联表中,降低学问所标引的错误主题词和正确主题词之间的关联度。这样,下次进展学问标引时,同时出现错误主题词和正确主题词的概率就会降低,再结合其它正确主题词,便可提高自动化标引的正确率。对标引完成后的学问,须要专业数据人员介入,结合系统自动化功能,对学问进展再次验证、校对处理,保证学问化加工和标引的精确性和标准性。2.5学问管理和发布学问资源库[1]是基于内容资源库而构建的,专为学问效劳和学问内容产品化抽取整合的带有学问特征的学问化内容资源库,是具备学问效劳目标属性的内容资源库。基于内容资源库可以创立多个学问库,学问库自身特征确定了学问库和学问体系具有密不行分的关系。学问库创立时除了设置库的名称、库码、领域、类别等根本属性外,也须要选择一个或多个学问体系或其分支以建立关系。在系统数据构造设计上,学问库和学问体系并没有相互的附属关系。从理论上讲,一个学问体系或其分支可以属于多个学问库,一个学问库也可以拥有多个学问体系或分支。然而从实际运用的角度看,建议一个领域的学问体系对应一个领域的学问库,这样构造完整,也便于运用。内容资源经过学问化加工后,形成学问,经过加工系统中的流程审查后,最终进入学问库,学问在加工系统中,会被标注到某些学问体系下,因而在学问入库时,会自动进入学问体系关联的学问库内。学问库可以整体发布以供学问效劳系统来导入运用,这样可以将学问库构建和学问效劳分别开来,实现学问库的多元渠道发布应用。学问库导出支持多种格式,如在线导出、镜像导出和U盘导出等。运用在线导出时,学问库中被抽取的内容通过网络传输到运营平台,自动更新也在线上完成,具有时效性。假设运营平台用户由于某些缘由无法连接网络,也可通过镜像导出或U盘导出获得学问资源,在这两种导出方式中,自动更新需借助人工手动完成。2.6学问效劳学问效劳最主要的功能之一是供应检索,其它功能,例如学问引荐、学问问答等实质上都是检索功能的多种应用方式。学问效劳供应的检索功能包括简洁检索、高级组合检索、二次检索、相像检索、跨库统一检索以及语义检索等。其中,语义检索是表达学问效劳最优秀实力的功能之一。对用户提问的学问点进展语义检索,包括3步:①从学问图谱中遍历查询学问点;②依据预置的路径算法获得该学问点关联的其它学问点,默认算法是获得该学问点的相邻学问点及其之间的关系;③从资源关联装置中获得该学问点及其关联学问点关联的学问条目。以“小儿腹泻“为例,调用学问图谱管理装置供应的接口,在图数据库中运用图遍历方式查询该学问点。获得该学问点相邻的学问点及相互间的关系,如图4所示。获得“小儿腹泻“学问点以及相邻学问点下的关联学问条目。获得到资源后,生成解决方案,一个解决方法有多个方面的组成单

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论