浅论我国年鉴全文数据库的现状和改进策略_第1页
浅论我国年鉴全文数据库的现状和改进策略_第2页
浅论我国年鉴全文数据库的现状和改进策略_第3页
浅论我国年鉴全文数据库的现状和改进策略_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、浅论我国年鉴全文数据库的现状和改良策略论文关键词:年鉴全文数据库;数字化年鉴;中国年鉴资源全文数据库;中国年鉴全文数据库论文摘要:年鉴全文数据库是新兴的数字资源,是教学、科研、消费、管理乃至决策中不可或缺的工具。本文总结了目前我国两个大规模年鉴全文数据库的收录情况、销售策略、检索性能、结果处理才能等现状,认为年鉴全文库尚存在的信息时滞较长、检索性能不能很好表达年鉴特点、检索结果后处理才能不强、个性化效劳欠缺、信息整合层次单一等问题,并提出了改良策略。1序言年鉴作为覆盖面广、信息密集、事实性强、连续更新的资料性工具书,有着其他工具书无法比较的优势,是重要的信息源之一。在我国,大规模的年鉴全文数据

2、库的开发走在了世界的前列,它多角度地提醒了年鉴内容,大幅提升了信息的序化程度和检索性能,实现了跨年鉴、跨年卷的整合检索,为用户查考年鉴信息带来了很大的便利。但是,从用户的需求出发,年鉴全文库在更新频率、检索性能、结果优化等方面都有待进一步进步。尤其在当前经济数据库、报纸全文库产品已占有市场,“搜数后来居上,第三代搜索引擎新功能叠出的形势下,年鉴全文库假如不做出自己的特色,将被湮没在重围之中。2我国年鉴全文数据库的概况2022年5月,北大方正(Apabi)公司与中国年鉴研究会合作,开发出我国首个大规模的年鉴全文数据库产品“中国年鉴资源全文数据库。随后,金报兴图的?年鉴全文数据库?和中国知网(NK

3、I)的?中国年鉴全文数据库?都相继推向市常2022年金报兴图的年鉴全文数据库被方正合并,因此,当前我国的大规模年鉴全文数据库仅Apabi和NKI两个。Apabi的年鉴全文库共收录年鉴近600种,5300多卷(截至202210);NKI的年鉴全文库目前提供检索的年鉴共1301种,约8000卷(截至20221121)t副。它们收录年鉴的类型分布如表1所示:两大数据库的销售方案也有所不同,Apabi可以按需选购年鉴品种,而NKI那么把所有年鉴打包销售。3年鉴全文数据库现有功能分析目前两大年鉴全文库都打破了印刷本年鉴的固有构造,打破了电子书传统的阅读形式,实现了跨年鉴、跨年卷、以条目为单位的整合检索,

4、一定程度表达了年鉴资源的特点,检索系统也更符合用户利用年鉴的特征。31年鉴整刊导航年鉴整刊导航应当完好、有序地提醒数据库收录的年鉴品种,并提供收录年鉴品种检索、选定年鉴中条目检索的功能。目前两大数据库的年鉴整刊导航功能如表2所示。Apabi特别列出了长三角、黄河流域等专题年鉴品种导航,并专列了“开展报告类。在整刊全文阅读功能中,Apabi除提供网页文本格式的原文外,还提供原书版式文件全文,以便读者核对重要信息,防止文本误录人造成的影响。32检索性能两大年鉴库都提供初级检索与高级检索途径,NKI还设置了专业检索。它们详细提供的检索字段、条目类型限定及可用检索技术如表3至表5所示。33结果处理功能

5、结果处理功能是系统检索功能的延伸和补充,强大的结果处理功能可以使用户快速挑选信息,便捷地扩展相关信息,有事半功倍之效。目前这两大数据库的结果处理功能如表6所示。转贴于论文联盟.ll.34全文显示格式NKI的年鉴文本、表格和图片均为PDF格式,不便于用户下载利用表格和图片。Apabi的年鉴文本都为纯文本格式,表格目前局部统计年鉴的表格为Exel格式,其他表格均为JPG格式,图片是具原图色彩的JPG格式。4年鉴全文数据库存在的问题与改良策略针对年鉴信息的特点,结合信息裣索技术,当前的年鉴全文库还有不少问题有待改良。41信息及时性有待加强信息的及时性是年鉴全文库在内容上保持吸引力的要素之一,包括年鉴

6、新品种的及时收录和年鉴信息的及时更新两方面。但遗憾的是,目前年鉴全文库通常信息时差总要在印刷版出版后半年以上。增强信息的及时性,一方面要把新出版的、质量较好的年鉴新品种及时增加到数据库中,如?中国企业文化年鉴?等;另一方面,对已收录的年鉴应及时更新信息,缩短信息时滞。数据库应与年鉴社充分沟通,最好在年鉴编纂完成、付印之前,就直接把数字化的新信息倒人数据库中。尤其是对一些数据、图表、事件、动态等时效性较强的内容,年鉴社可能每隔半年或一季度就会搜集新的数据,数据库应随时将这些新搜集齐但未正式出版的信息转人年鉴库,并通过设置“最新更新栏目、RSS订阅等功能,及时告知用户更新信息。这样就可以在第一时间

7、实现信息的动态更新,把年鉴信息的年度性提升到动态性。42检索性能应更契合年鉴的特点目前年鉴全文库的检索系统根本上是仿照全文检索系统开发的,只是增加了一些针对年鉴的字段和信息类型限制,这还缺乏以表达年鉴信息的特点,与读者的检索需求尚有一定的间隔 。近年来,包括自动摘要、自动分类、相似性检索乃至视频与图像内容检索的内容挖掘技术成为新的开展热点,年鉴数据库急待引人这些技术,而这些技术的根底那么是对数据特征的详尽标引。因此,数据库首当其冲的是应针对不同类型的信息作更为详尽的标引,设定不同的可检索字段,以便为进一步的内容挖掘打下基矗例如,对机构名录信息应根据其属性要素,对机构名、法人、 、 、地址、 、

8、eail、所属地域、机构性质、单位简介等进展标引;对人名录那么主要包含人名、性别、生卒日、籍贯、工作单位、部门、职务、职称、简历、人物类型(先进、指导、专业奖项获得者等)、从业类别等属性的标引;对大事记局部,现有的年鉴全文库都是不加分割地作为完好的文献单元处理,连最简单的检索某日各地发生的重大事件都不可能,因此应以独立的事件为单位,用数据库的构造提取时间、地点、所属地域、事件内容等相关信息提供检索,并按单独的事件为单位输出检索结果,而不是输出整篇大事记的全文;对法律法规类信息应提取其特有的法律法规的级别、公布部门、公布年、施行年、发文号等属性供用户检索;对图像应建立基于图像内容的索引库,提供图

9、片内容特征的搜索;对统计表应进展统计指标、表头的标引,甚至有才能的话,还可以加强对统计表的标准化处理,提供详细的数值检索,充分表达数字信息检索的优势,发挥年鉴统计数据的价值。同时,系统应在详尽标引的根底上,对以上信息类型设置专类信息检索功能,提供针对各类信息的检索字段,进步信息检索的精准度。43检索结果后处理才能不强(1)年鉴全文库现有的二次检索没有提供逻辑算符的选择,只能进展逻辑“与的二次检索,这不便于用户进一步调整检索策略。(2)对于年鉴全文库而言,由于条目数量宏大,检出记录数往往较多,因此特别需要对检索结果作进一步的分面和聚类。但目前的年鉴全文库都没有提供检索结果分面功能。所以,年鉴全文

10、库应当按结果的信息类型、所涉地域、条目年份、所属年鉴、行业、学科等维度进展分面,供用户选择适宜类别的结果阅读,这样既使大量检索结果序化,又可减少读者挑选结果的时问。(3)现有年鉴全文库的统计表根本都是格式或PDF格式,数据导出灵敏性不够,用户对统计表数据的再处理非常不便。数据库应对所有统计表格以Exel形式录入并提供导出接口,并可以进一步利用ASP、JsP等动态网页生成技术,根据用户需求,以交互互动的方式输出数据,实现统计表与统计图动态转换的数据可视化,为用户提供深加工的统计数据,简化用户后续处理的过程(这些功能在国外的Knvel工具书数据库中已经实现)。此外,在Exel表格显示地同时应提供原

11、表格的图片格式或PDF格式的链接,以供读者核对数据,保证准确性。(4)检索结果中条目所属栏目的注不够完好,仅标注了栏目,没有标注其上级类目,用户很难找到该条目在年鉴目录体系中的准确位置。因此必须完好标注出该条目在年鉴原有框架构造中所属的篇目类目分目栏目(如:上海文化年鉴教育艺术教育高等艺术教育),并分别对年鉴名称、篇目、类目、分目、栏目制作超链接,指向与纸本年鉴框架构造一致的年鉴目录导引下的全文阅读,便于用户利用年鉴目录体系调出相关内容阅读。44个性化效劳功能欠缺在个性化功能上年鉴全文库还很薄弱,NK1只提供了检索历史的阅读,Apabi那么只提供条目的收藏,尚缺乏其他效劳。由于年鉴资料连续性的

12、特点,用户往往需要对亲密关注领域的特定资料作跟踪搜集。这就需要数据库开发针对用户个体需求的个性化效劳,这些效劳包括特定年鉴品种、年鉴的栏目、检索策略的RSS订阅,定题跟踪,我的检索集设定等功能,这样用户就可以在第一时间获得由系统自动推送来的最新信息,而不必再每隔一段时间去查找一样主题的信息。45信息整合层次单一当前的文献数据库领域正在发生着重要的转型,许多数据库正从单一的信息检索工具,向广泛整合外部资源的、综合的信息资源与效劳体系转变,它是数字信息源开展到一定阶段的必然选择,封闭的“信息孤岛是难以充分满足用户需求的。然而,目前年鉴全文库对信息的整合尚停留于以条目为单位的跨年鉴文献层面,NKI也仅与自己的各类全文库做了相似文献的整合。年鉴全文库与其他全文数据库、工具书乃至互联网信息等外部资源的整合有待加强。在年鉴各类信息中,一些文章类信息的参考文献、二次文献信息等,可以与电子、电子图书等其他全文数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论