传统出版社知识服务转型发展的实践与展望_第1页
传统出版社知识服务转型发展的实践与展望_第2页
传统出版社知识服务转型发展的实践与展望_第3页
传统出版社知识服务转型发展的实践与展望_第4页
传统出版社知识服务转型发展的实践与展望_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、传统出版社知识服务转型发展的实践与展望 当下,信息逐渐趋于泛在化, 互联网的发展给用户提供了方 便的信息获取途径,便携式终端设备性能提升、交互便捷,为用 户随时随地获取大量信息提供了保障。 基于此, 从海量信息当中 提取对自身有益的相关知识成为当务之急。 以往, 传统出版企业 必须借助物质载体开展精神活动,比如通过书报等载体传播信 息,这是单纯的信息资源传递模式,也是被动型信息服务方式。 但在当今社会, 这种方式无法有效切入用户知识应用和创新的核 心过程,因此,出版企业要转变思路,变被动为主动。在个性化 知识需求不断增加的新形势下, 出版企业应调整定位, 利用人工 智能等技术,从浩瀚的信息资源

2、中提取各种显性和隐形的知识, 以对信息知识的生产组织、搜寻、分析、重组为基础,根据用户 需求策划生产内容,并将其融入用户解决问题的过程和场景中, 进而提出能够有效解决问题的方案, 最终实现知识应用和知识创 新。由此可见, 人工智能技术的发展为信息传播领域的信息超载 提供了新的技术解决方式, 是出版企业开展知识服务的可行路径 1 。 本文以人民卫生出版社(以下简称人卫社)为例,探索出版 企业基于人工智能开展知识服务的可行路径。 对人卫社而言, 医 学领域知识复杂、 更新迅速, 单靠人力无法梳理各种知识之间的 关联,因此,需要借助人工智能技术,建立医学知识图谱,并将 其嵌入用户的工作流程中,提供即

3、时知识服务。 一、出版企业开展知识服务的路径 随着大数据时代的来临, 一方面, 医学领域面临大量分布式 的、异构的医学数据,医学领域专业分化越来越细,这给医学专 业从业人员理解医学知识造成困难; 另一方面, 医学专业从业人 员对于能体现自己个性、 具有整合性和知识性的服务需求日益增 多。因此,出版领域迫切需要做出改变,要结合各项人工智能技 术研究成果, 积极探索知识服务的转变方向。 作为我国医药领域 出版规模最大、产品质量高、综合实力强的出版社,人卫社拥有 医药教材、学术专著、科普图书、期刊、外文图书、数字新媒体 等出版资源, 也拥有医药卫生各专业领域的优质作者资源, 能够 组织专家撰写各方面

4、的相关内容, “人卫”品牌已深入全国广大 医药院校师生、医药工作者心中,拥有庞大的行业用户群。在这 样的背景和条件下,人卫社从 2008 年起开始探索如何利用已有 资源服务医药卫生专业人员, 从解决用户在工作中可能面临的问 题入手,借助知识组织技术、语义技术和用户行为分析技术,通 过建设人卫临床知识库向用户提供服务(见图 1)。 1. 转变策划观念,以用户需求为导向 2. 以医学本体为例构建基础数据 医学本体是一种描述医学领域知识的专用本体, 旨在对医学 的重要概念、 属性以及概念间的关系做出一种形式化的说明。 在 网络信息资源管理中,医学本体可起到语义导航、语义检索、语 义标注及术语服务等重

5、要作用。 人卫社医学本体参考了医学系统 命名法 临床术语(Snomed CT的架构,融合了中国分类 主题词表医学类、国际疾病伤害及死因分类标准第十版 ( ICD-10 )、手术与操作分类代码( ICD-9-CM-3 )、医学主题 词表(MeSH、解剖学治疗学及化学分类系统(ATQ等国内 外主题词表、术语表而形成。 人卫社医学本体按术语类型一一展开, 计划分多期进行。 其 中,医学核心术语共 13 类,通用术语共 9 类。第一期是构建疾 病本体。如图 2 所示,人卫社通过考察疾病的通用信息,拟从部 位、病因、病理、症状 / 体征、检查、检验、治疗手段、药物几 个维度以及上下位关系( IS A )

6、构建疾病本体。 图 2 疾病本体结构图 3. 构建专业领域的知识图谱 知识图谱最早由 Google 提出,是一种结构化的语义知识库, 其基本组成单位是“实体关系实体”三元组, 以及“实体 属性一属性值”。每个实体(概念)可以用一个全局唯一确定的 标识符来标识,关系则用来连接两个实体(概念),刻画它们之 间的关联, 每个属性值可用来刻画实体的内在特性。 知识图谱本 质上是一种语义网络,结点代表实 ?w (概念),边代表实体(概 念)之间的各种语义关系。实体(概念)之间通过语义关系相互 连接,构成网状的知识结构。 知识图谱构建的过程可分为知识抽 取、知识对齐和知识推理。知识抽取包括实体的提取和关系

7、 / 属 性的提取。知识对齐包括实体对齐和关系 / 属性对齐。实体对齐 也称为实体匹配( entity matching )或实体解析( entity resolution ),旨在发现表达不同但却代表医学领域同一对象的 实体,并将这些实体归纳为一个具有唯一标识的实体对象。 关系 / 属性对齐与实体对齐类似, 通过这个过程可形成高质量的知识。 知识推理用于发现隐含知识,一般通过可扩展的规则引擎来完 成。此外,知识推理还可以丰富知识网络结构。 人卫社 医学知识图谱数据主要源于人卫临床知识库资源, 结构分为数据 层和模式层两层。 数据层存储的主要是从文本中提取的“实体 关系实体”, 或“实体属性属

8、性值”, 例如流行性感冒 临床表现一发热、红细胞一正常值一(4-5.5 ) X1012/L。模式 层主要存储规则、 条件、公理和医学本体, 用于对数据层的管理。 构建流程既遵循构建过程的一般规律, 又结合医学资源和人卫社 资源的特点进行。鉴于实体和关系 /属性的提取难度大、准确性 难以保证, 以及实体之间较明确的关系, 人卫社将三元组提取的 过程简化,将实体的属性统一为关系,仅提取实体(概念),根 据预先设定的关系类型标注提取的实体 (概念) 之间可能存在的 关系,并且暂不进行知识推理,留待知识图谱完善后再进行。其 总体流程为:数据预处理f实体种类确定、关系/属性定义实 体(概念)抽取f实体(

9、概念)标准化f三元组审核知识图谱形 成。 4. 获取用户数据,构建个性化知识图谱 用户需求分析包括 4 个方面:静态属性分析、动态属性分析、 用户消费属性分析和用户心理属性分析。 静态属性指的是用户在 网页上填写的基本信息。 可获取的用户个人信息有以下几项: 用 户名、真实姓名、性别、出生年月、手机号、所在院校、从事专 业等。动态属性指的是用户使用互联网产生的数据信息。 比如想 了解用户的医学知识偏好和学习手段, 可获取的信息有用户的检 索历史、收藏记录、点击记录、浏览记录和时长、下载记录、阅 读笔记等。用户消费属性指的是用户的消费水平、消费心理、消 费嗜好等。可获取的信息有用户购买的图书名称

10、、 图书的价格等。 用户心理属性指的是用户的生活、工作、情感状态、社交等。可 获取的信息有用户上网时间、关注人群、交友圈等。比如依据用 户静态属性分析, 可先将人卫社用户分为专业用户和大众用户两 大类,其中主要为专业用户;专业用户又可再细分为医学生、教 师、医务人员(医师、护士、药师)、科研人员等类别。通过逐 级向下划分的方式, 便可形成用户分类树形结构, 这可为针对某 类用户的共同需求研发产品提供参考。此外,还可将用户性别、 年龄等静态属性与用户其他属性结合, 进行统计分析, 形成用户 群的多种分类。 人卫社通过实践证明, 综合分析用户属性, 形成用户多维度 需求情况分析结果, 在用户查询理

11、解信息、 检索结果排序和知识 推送方面可起到有效的优化作用。 5. 嵌入式的知识服务模式以医学领域用户为例 医学是一门覆盖面广、 内容精深复杂的自然科学。 随着研究 的不断深入, 医学专业分科越来越细, 研究和利用医学的临床医 生或者医学科研工作者不仅渴求信息,更渴求专业的知识内容。 临床医生没有大量的时间和精力获取知识,一旦脱离工作环境, 学习目标将不明确,效率比较低。因此,这个领域迫切需要建立 一种嵌入式的知识服务模式, 这种模式可帮助临床医生在繁忙的 临床工作或科研活动中补充知识, 及时解决遇到的问题, 且不需 要专门花费大量的时间和精力去学习。 图 3 临床诊疗过程中嵌入知识服务流程图

12、 临床诊疗极其复杂,它不是一个简单的线性处理过程。图 3 是在临床诊疗过程中嵌入知识服务的基本流程, 简单展示在不同 环节可能实现的知识服务。 知识服务是循环迭代知识获取、 知识 吸收、知识创新、知识应用这几个环节,不断调整和优化知识服 务产品和解决方案的过程。 在临床诊疗过程中嵌入知识服务是一 种主动的、 与用户交互的服务方式, 它可以随着用户需求的变化 调整服务方式、服务地点以及服务内容。 人卫社针对临床诊疗提供嵌入式知识服务, 建立了疾病知识 库、病例数据库、临床诊疗路径数据库、诊疗指南知识库和临床 用药参考知识库。 这些数据库的知识内容组织与临床诊疗体系一 致,如采用 ICD-10 和

13、 ICD-9-CM-3 组织内容、提供服务,具体的 服务方式是将知识服务部署到医院内部服务器, 门诊病房的计算 机通过医院局域网可以随时访问知识库, 医务人员还可以通过手 机应用连接局域网知识库。 后续人卫社会将知识库与医院信息系 统进行整合, 届时可实时获取医生输入的病患信息, 对信息进行 分析,结合人工智能技术, 可充分了解医生所面对病患的个体情 况,进而可结合知识图谱提供与之相关的知识内容。 除了辅助临 床诊疗,嵌入式知识服务还可以跟踪临床医生在诊疗过程中寻求 知识的行为, 通过采集积累, 了解临床医生关注的知识内容范围 和其研究的发展方向, 形成个性化知识图谱, 并与整体知识图谱 映射

14、,提供精准的知识服务。 6. 知识服务平台的研发思路一一以人卫临床知识库为例 内容是知识服务的基础,技术是知识服务的重要支撑和保 障。平台面向用户交互,通过本体管理内容,以大数据技术分析 用户需求,是为用户提供嵌入式、 个性化知识服务的场所和环境。 人卫临床知识库是在医学生有学习知识需求、 临床医生有诊 疗辅助需求的驱动下, 以资源的组织与整合为基础, 构建的包括 疾病知识库、病例数据库、临床诊疗路径数据库、诊疗指南知识 库、临床用药参考知识库、 影像图片数据库和视频数据库等在内 的具有中西医特色的知识服务平台。 从功能模块的角度来看, 这 个平台的应用主要包括基于本体和知识图谱的资源加工系统

15、、 基 于语义的全文检索系统、 基于共现分析的知识关联系统和基于用 户信息的个性化服务系统。 人卫临床知识库借助系统提供的各种 资源分析及检索工具,为用户提供信息浏览、相关文献推荐、知 识地图等各种知识服务。 (1)基于本体和知识图谱的资源加工系统 人卫社资源标引以本体和知识图谱为标准, 从整体和局部分 层次进行。标引图书时将标引层次分为图书整体、篇章、节、小 节、段落几个层面,标引结果区分主次。如“抗高血压药的合理 应用”,核心主题为“抗高血压药、 合理应用”, 次要主题为“高 血压”,可根据数据特征、用户关注点标引多个字段内容。 关于疾病的内容, 除标引疾病外, 还应标出疾病的易感人群、

16、所 ? 倭俅部剖业取V劣诩煅榈哪谌荩 ?则应标引标本名称。 (2)基于语义的全文检索系统 共现分析是将各种信息载体中的共现信息定量化的分析方 法,以揭示信息的内容关联和特征项所隐含的寓意。 在计算机技 术的辅助下,共现分析以其方法的简明性和分析结果的可靠性, 成为支撑信息内容分析的重要手段和工具。面对海量的信息资 源,如何从宏观层面上分析知识内容之间的关联, 把握信息资源 的核心主题, 为用户提供一个快速进入研究领域的知识入口, 对 知识服务而言有重要的意义。 我们在构建医学词表、 医学本体和 知识图谱的基础上, 对标引分类的结构化内容进行共现分析, 建 立医学概念之间的关联关系,一方面有助于

17、知识图谱的动态更 新,另一方面可以发现新知识。举例来说, A 表示一种物质的摄 入可能导致某生理改变 B,而B的生理变化又引发某一器官的疾 病C, D药物是治疗疾病C的非针对性药物,这样,可获得 A作 用于C和D并影响B的有用信息。这种隐含联系在单独一篇文献 中是发现不了的, 但通过关联关系的梳理, 我们能够把这种隐含 联系挖掘出来。 (4)基于用户信息的个性化服务系统 知识服务是面向个人问题提供解决方案的服务模式,需要 通?A多种方式获取用户信息,实现用户“画像”。只有充分理解 用户需求,才能提供精准的知识服务。知识服务的作用在于,进 行检索时,可通过语义分析,发掘检索的核心需求,与医学知识

18、 图谱映射,查找和推荐相关内容。 我们在用户注册和使用平台时, 会建议用户填写从事的专业和感兴趣的相关专业, 并在用户检索 和浏览内容时, 根据学科及疾病分类体系, 细化用户专注的领域, 根据用户专注领域的不同,对内容进行加权调整。此外,用户在 平台上发表的内容也是获取用户信息的重要来源, 我们可通过用 户与用户的互动发现、采集重要信息。 二、出版企业开展知识服务面临的问题与思考 2. 基础数据建设投入过大,应灵活变通 词表、分类体系、 本体和知识图谱等基础数据建设是一项非 常大的工程, 也是实现知识服务的基础条件。 如果没有成熟的资 源可以运用,出版企业自建平台是很难实现的。以MeSH司表为 例,美国国立医学图书馆历时 50 余年,投入大量人力、财力, 收集的主题词不到 3 万个, 这是因为概念的范围、 概念与概念之 间的关系、概念分类等是需要逐项界定的。因此,笔者建议出版 企业最好采用现有的基础数据,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论