下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 图书发行领域标准化知识服务研究与应用 田小福摘要:时代在发展,技术在完善,发展的同时,标准化也成为人们生产的一个衡量标准,图书发行标准修订数目逐渐增加,本文就图书发行领域标准化知识服务进行研究。关键词:知识服务;标准化;图书发行行业标准引言激烈的竞争带来巨大的变化。一方面,近幾年来,很大一部分图书市场被畅销书、网络文学、儿童文学和教辅读物占领,不同出版社和民营文化公司的销售收入差距越拉越大,行业分化趋势也日趋明显。另一方面,网络销售和数字出版的快速发展革命性地改变了发行手段和销售模式,图书市场的变化更加迅速。市场运作理念也更加成熟,对图书和
2、作家的运作与包装呈现立体化趋势,优秀图书和知名作家的收益更加丰厚。此外,以腾讯阅文集团等代表的民营文化公司正大规模地整合出版资源,图书出版发行龙头正在显现。一、知识服务应用现状在当今信息化及大数据背景下,以信息的采集、分析、加工、融合和创新为基础,将它们有效地、系统性地重组,就是概念上的知识服务。从形式上分析,知识服务是站在用户的具体问题和实际情况角度观察,向用户提供一种全新的、差异化的、有效的服务,且支持知识应用和知识创新。对比情报服务和信息服务,知识服务具有系统性、专业性、个性化的特点,将针对用户的具体问题采集与析取解决问题的方案为终极任务和目标,并以相关的调研报告、咨询报告、问题解决方案
3、等为形式,为用户提供深层次、多维度的动态性知识产品和技术支撑。在实施中,侧重提高对用户需求的系统分析和对知识再创新的能力,从而实现知识资源的应用与创新。二、图书发行行业标准特点国家标准和行业标准的编制要求很严苛,体例架构高度统一,言语文字精炼,具有准确性、可靠性、协调性、一致性、时效性的特点,是人们从事科研、生产、贸易来往等活动的权威依据。标准可按照使用范围分为国际标准、区域标准、国家标准、行业标准、企业标准和地方标准六类。标准是特殊文献中的一种,自成体系,有自己独特的风格和结构特点。标准按照要素的性质和在标准中的位置共分为四类:规范性一般要素、规范性技术要素、资料性概述要素和资料性补充要素。
4、三、图书发行标准化知识难点(一)难点1.图书发行行业标准众多,结构相似,但不同标准中的内容相差甚远;目前标准多为pdf和doc格式,没有结构化数据库,难以从非结构化的标准中获取知识。2.图书发行行业标准用词有鲜明的行业特征,一般的知识抽取方法不能保证获取知识的准确度和覆盖率,知识准确度和覆盖率低严重影响着知识的准确性和有效性,并对知识融合结果造成较大差异。3.标准文献体例结构的特殊性,图书发行的专业性,导致了需要研究适合图书发行领域的知识融合方法,以确保知识融合结果,从而准确的展现知识。(二)创新点1.设计标准结构化存储方案,将标准文本碎片化、结构化,并存储到关系数据库和xml文件中,建立出版
5、发行领域专业词库。2.为保证知识抽取的准确度和覆盖率,提出采用多策略的方法抽取标准中的知识,分别从结构化数据和文本数据中抽取知识,并构建知识本体库。3.将知识本体转化为向量表示,提出了图书发行领域知识融合方法,在知识服务平台构建过程屮,有利于知识消冗,提高了知识融合的准确度。四、图书发行领域标准化知识服务系统设计与实现(一)系统框架图书发行领域标准化知识服务系统分为四个层次:数据资源层、数据处理层、业务处理层和表现层。1.数据资源层:数据资源层是整个系统的基础层,包含图书发行行业的6大类标准文献以及出版物发行知识词典和图书发行词典中的领域词汇内容。在本层中进行数据的采集、整理和数据库构建等工作
6、。2.数据处理层:在本层中解析标准,分析图书发行行业标准特点,进行数据预处理、数据格式转化、和结构化存储工作。与此同时,完成领域词库的构建。3.业务处理层:在数据准备就绪、软件支撑服务搭建完成的基础上,用户完成对各项业务的处理,其中包括标准知识抽取、标准知识融合两部分,最终以知识库的形式呈现给用户。4.表现层:表现层是系统的顶层,在框架的最上面,为用户提供可视化界面。(二)系统设计1.标准数据预处理模块此部分主要对标准进行数据预处理,包括人工分词、词性标准、停用词过滤、人工修订分词结果和标准xml格式存储几部分。该模块完成了对doc、pdf格式的标准文档解析工作,提出标准中的知识,完成xml格
7、式的转换存储,并将其存入到数据库对应表中。此外,还设计人工修正模块,确保预处理结果的准确性。2.标准知识服务模块该模块可视化展现知识融合后的结果,包括知识抽取结果查看和关系图查看两部分。用户可利用知识服务进行知识库检索,系统提供简单检索和高级检索两种检索方式。3.标准库管理模块实现对图书发行行业标准的增、删、改、查功能。4.领域词库管理模块领域词库构建是图书发行领域标准化知识服务系统构建过程中重要的一环,该模块可实现用户对领域词库的管理,包括增加、删除、修改、查询四部分。5.系统流程设计(1)标准数据预处理:选择一篇图书发行行业标准解析,系统会对标准依次进行中文分词、词性标注、停用词过滤操作,
8、并创建领域词库。(2)标准知识存储:经过预处理后的标准知识会分别以数据库和xml文档两种形式存储,以便语义信息的提取和标准知识抽取。(3)标准知识抽取:根据上一步的标准存储方案,采用多策略的方法抽取知识,分别从结构化数据和文本数据中抽取,并将知识转化为rdf三元组模型。(4)标准知识融合:将得到的知识构建本体知识库,并将其表示为机器可读的向量模型,进行语义相似度计算,判断知识间的距离,从而完成知识聚类,以达到知识融合的目的。(5)知识服务:将经过图书发行领域标准化知识服务系统处理后的标准知识可视化展示给用户。结语随着先进技术的应用和人类社会文明程度的提高,人们对标准化的意识越来越强,标准在社会发展中作用越来越重要,已经成为规范人类生产、经营和生活等活动的重要依据,是经济发展、政治稳定、文化生活不可或缺的一部分。参考文献:1刘峤,李杨,段宏,等.知识图谱构建技术综述j.计算机研宄与发展,20
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年教师职称考试(特殊教育)历年参考题库含答案详解
- 2025康复医学科三基考试题库及答案
- 2025年安全生产事故案例分析及事故处理流程培训试卷及答案
- 消防安全工作自查报告
- 2025年安全生产月电气测试试题及答案
- 工业机器人系统操作员(三级)职业鉴定理论考试题及答案(新版)
- 2025年人工智能应用技术考试试卷及答案
- 建设工程施工合同纠纷要素式起诉状模板要素清晰无混淆
- 2026年动物园管理提升
- 2026 年无子女离婚协议书正规模板
- 上海建桥学院简介招生宣传
- 《智慧教育黑板技术规范》
- 《电力建设安全工作规程》-第1部分火力发电厂
- 歌曲《我会等》歌词
- 八年级物理上册期末测试试卷-附带答案
- 小学英语五年级上册Unit 5 Part B Let's talk 教学设计
- 老年痴呆科普课件整理
- 学生校服供应服务实施方案
- GB/T 22900-2022科学技术研究项目评价通则
- 自动控制系统的类型和组成
- GB/T 15171-1994软包装件密封性能试验方法
评论
0/150
提交评论