人文社科专题数据库建设的主题选择研究_第1页
人文社科专题数据库建设的主题选择研究_第2页
人文社科专题数据库建设的主题选择研究_第3页
人文社科专题数据库建设的主题选择研究_第4页
人文社科专题数据库建设的主题选择研究_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人文社科专题数据库建设的主题选择研究 基金项目国家社会科学基金重大项目“人文社科专题数据库建设规范化管理研究”(项目编号)。 作者简介刘雨农(),男,博士研究生,研究方向智慧城市、社会网络。 吴柯烨(),男,硕士研究生,研究方向自然语言处理。 权昭瑄(),男,硕士研究生,研究方向金融大数据。 专题人文社科专题数据库建设的主题选择研究刘雨农吴柯烨权昭瑄(南京大学信息管理学院,江苏南京)摘要目的意义探索一种融入数据驱动思维的人文社科专题数据库建设主题选择方法,为相关主体在建库主题的遴选、比较和确定等工作提供决策参考。 方法过程从政策、用户两个维度出发,提出基于政策文本与检索数据的人文社科专题数据库主题筛选框架。 以平台为例,基于政策文本主题分类建模和检索数据的词频统计归类,确定专题数据库建设备选主题,最后通过比对筛选将主题进行分类。 结果结论本文构建的主题选择框架,能够有效提升相关主题选择工作的全面性、准确性、科学性,为人文社科专题数据库建设的项目规划等提供了良好的思路。 关键词人文社科;专题数据库;主题选择;?()(,),?,;专题数据库是针对用户信息需求,对某一专题的信息进行收集、分析、处理、存储并按一定的标准和规范将其数字化的信息资源库。 在人文社科领域,专题数据库已成为各学科数字化转型的基础性工作,在数据资源开发、科研内容创新、科研方法支持等方面提供了有力支持。 近年来,在国家政策支持和现实需求的双重作用下,我国建成了一系列人文社科专题数据库,涉及哲学、历史、艺术、文化等众多科学领域,有力地促进了人文遗产和社会记录的保存与传播,也有效支持了相关学科的研究工作。 主题的选择与论证是专题数据库建设的起点和年月第卷第期现代情报,?开始,决定了专题数据库的建设方向和建设效果。 然而,过去人文社科专题数据库的主题选择方式主要依靠建库主体的资源优势和决策者的经验判断,难以全面回应多方面的需求,进而限制了专题数据库的功能实现以及进一步的服务延伸。 为此,本文提出了一种新的主题选择框架,通过对客观文本和行为数据的科学分析支持人文社科专题数据库建设,以期避免主观性、单一化决策带来的弊端,提高专题数据库主题选择的全面性、准确性与科学性。 文献综述随着数字人文和社会计算的推进,人文社科领域对信息资源保障提出了更高的要求,专题数据库建设的理论和方法成为信息管理及相关人文社科学科的重要研究话题。 目前,虽然针对主题选择的专门性研究仍不多见,但在数据库建设的综合性研究中已被大量提及,主要涉及以下个方面?专题数据库主题分布描述经过多年发展,国内外建立起大量人文社科专题数据库,主题涵盖了历史、经济、文化等众多学科。 部分学者对现有数据库主体分布进行了调查研究,如刘青等以州为单位,调查了美国特色数据库建设状况,并将其主题归纳为政治与政策、军事和战争、法律和法规、经济与就业等个方面,同时指出,文化娱乐类专题数据库在全美州立图书馆中占比最大。 何小月等将专题数据库主题内容划分为学科专业、地域特色、名人特藏等个方面,同时选择了中美所高校的自建数据库进行横向对比,指出guo内高校在学科专业和地域特色类数据库建设存在短板。 鄂丽君将调查样本扩展至我国所有“工程”高校后得出了相反结论,认为学科特色和学校特色资源项目占总数比超过。 此外,陈钦明等同样针对不同性质的专题数据库主题分布进行了归纳。 这些研究尽管在专题数据库主题划分视角和划分粒度上存在差别,但是有助于明确人文社科专题数据库的建设现状和定位,能够为其他专题数据库建设主题选择提供参考。 ?专题数据库主题选择基本原则对于人文社科专题数据库在实际建库过程中产生的各类问题,部分学者从建库流程的角度进行探讨,认为主题选择的不科学、不合理是这些问题产生的重要原因之一,并以此提出了一系列主题选择原则。 王昶认为,专题数据库建设是一项长期工作,主题选择应注重长期规划性和可持续性,以长远眼光和思路,根据现有条件选择符合实际状况的、成体系的特色主题。 刘青等提出主题内容广博化原则,认为专题数据库主题划分和内容深度上尽管存在差异,但应通过统一平台的整合,为用户提供全方位多系统的资源和信息服务。 徐大平等认为地方特色专题数据库的主题选择重点在于突出地方文化特色、体现地方文献特色,并提出了成系列小主题选择、科学性和实用性个原则。 总体来说,这些原则可归纳为点第一,以需求为导向,能够切实满足用户长时期的信息资源需求;第二,突出特色性,力求避免在内容上同其他数据库的交叉和重复;第三,具有可操作性,根据信息资源体量和人力、资金等实际情况确定主题选择粒度,保证数据库质量。 ?专题数据库主题选择方法与过程相对于专题数据库主题选择原则,已有研究很少涉及具体的主题选择方法。 王昶提出了专题数据库主题选择策划工作的步流程第一,开展广泛的调查研究,初定主题选择方向;第二,开展专家评议和读者调研,确定主题选择的可行性;第三,考察建库资源与技术水平,明确主题选择内容。 任航等对长春市若干高等院校的在校艺术生进行了问卷调查,通过需求情况确定数据库主题选择。 可以看到,当前专题数据库的主题选择方法依然以专家论证和问卷调查等方式为主,最终决策仍然依赖于决策者的经验判断。 综上所述,已有研究充分重视了主题选择对专题数据库建设的重要作用,为专题数据库主题选择明确了原则和方向,提供了良好的思路和方法。 然而,现有研究成果依然存在一定不足第一,研究大多集中于宏观层面的原则性方针,在数据库建设的实际过程中很难转化为直接的、具体的行动方案,可操作性存在一定限制;第二,方法上依然以用户调查和专家咨询为主,带有较强的主观性,难以保证决策的科学性;第三,并未考虑不同性质的主体在数据库建设中的动机差异。 在大数据、智慧年月第卷第期人文社科专题数据库建设的主题选择研究,?数据的背景下,面对高速增长的数据存量和复杂化的信息需求,应在原则性、经验性探索的基础上,充分发挥数据分析等技术和方法的重要作用,为数据库建设主体的建库决策提供支持和参考。 人文社科专题数据库建设主题选择模型构建本文通过前期多地、多主体访谈调研,确定了专题数据库国家需求和用户需求的主方向,并以客观数据为基础,构建人文社科专题数据库主题选择框架,以期为相关决策提供支持。 模型建构路线如图所示第一,从政务公开平台中,获取国家相关部门政策文本全文,并进行文本预处理。 同时从信息服务商检索系统后台获取特定时间段的用户检索数据,筛选有效检索语句;第二,提取政策文本中的实意性名词,并进行主题建模,形成若干备选主题;第三,将采集到的检索语句分别提取关键词,利用算法同机构已有文献资源进行匹配,通过排序和归纳筛选出备选主题词;第四,综合比对结果,对结果进行分类。 图人文社科专题数据库建设主题选择框架?需求调研与分析满足不同层面、不同对象的信息需求是数据库长期建设运营和持续发展的核心动力。 对于对象群体复杂、数据形式多样的人文社科领域,专题数据库的主题选择更应以需求为导向。 不同性质的建库主体由于机构职能、服务对象等方面存在差异,专题数据库产品的需求内容和重心也存在显著区分。 如公共机构建设的专题数据库普遍重视公共需求,为国家发展战略和公益事业提供支持;而商业性专题数据库则更加侧重于通过满足用户使用需求来扩大市场,实现自身盈利和发展。 对此,本文将人文社科专题数据库需求归纳为两个层面第一,宏观层面的国家社会需求。 人文社科专题数据库通常需要承担部分国家、社会层面的宏观需求,如为国家重大战略部署提供数据支撑、对非物质文化遗产进行保护与抢救、弘扬优秀历史文化传统、纪念特殊事件等。 尤其是对于公共性质的建库主体,更应在宏观战略需求的背景下,有针对性地规划专题数据库建设,为相关政策提供有效支持。 政策文本是政府相关部门为了实现特定要求,以权威形式颁布的文件,是国家、社会需求最直观的表达和体现。 在政府政务全面公开、自然语言处理技术快速发展的背景下,大批量政策文本的开放获取和深度挖掘已具备可行性。 对此,本文通过挖掘政策文本内容,实现宏观需求的分析。 第二,微观层面的用户使用需求。 作为人文社科专题数据库的直接使用者,用户的需求相对具体和明确。 如科研人员对特定专题领域资料的集中需求,公众对某一主题知识的学习兴趣等。 但由于不同用户使用动机、需求粒度、表达方式等存在差异,此类需求较为多元,调查和识别的难度较高。 对于用户使用需求,过去一般采取问卷、访谈等方式,在调查对象规模和代表性上存在一定限制。 当前,由于人文社科领域的信息爆炸式增长和碎片化分布加深了信息的获取难度,搜索引擎逐步成为用户对于信息搜寻的主要工具。 对此,本文以搜索引擎中的检索记录衡量用户的实际需求。 ?基于的政策主题生成(,隐含狄利克雷函数)模型是一种文档生成模型,即包含词、主题、文档三层结构的贝叶斯模型。 该模型通过将文档词汇矩阵转化为文档主题矩阵和主题词汇矩阵来实现主题的识别与生成。 作为一种非监督的机器学习方法,在大规模文档中能够有效实现主题识别任务。 简要来说,主题生年月第卷第期现代情报,?成过程可分为个步骤,首先对语料库中的每一篇文档,从主题分布中抽取一个主题,其次对所抽取主题中所对应的词分布中抽取一个词语,最后充分阐述过程直至实现所有文档和所有单词的遍历。 如图表示。 图模型示意图?基于算法的资源匹配特定主题的人文社科专题数据库建设必须以充足的信息资源作为基础保障。 尤其是对于检索关键词,必须同资源储备进行匹配,判断其是否具备专题开发条件。 本文基于算法,通过计算、排序每个检索词的得分,实现主题关键词进行二次筛选。 是二元独立模型的拓展形式之一。 作为一种相关性排序函数,模型根据计算给定检索词与文档的相关性得分并累加,进而对匹配文档进行排序。 该模型由于算法设计较为灵活,被广泛应用于搜索引擎当中。 范晨熙等通过将模型与开源搜索框架结合,建立了相关度搜索模型,何喜军等利用该模型,构建了专利转让索引库。 本文基于理论框架,对该模型进行了拓展与应用。 首先,对提取到的关键词进行语素解析,产生语素。 对于所有馆藏资源的摘要文档,计算每个语素与的相关性评分。 最后,将相对于的相关性得分加权并求和,最终得到与的相关性得分。 评分公式为(,)()()?其中,、为调节因子,是关键词中出现的次数,是的长度,是资源库中全部文档的平均长度。 此外,公式如下()()?()?其中,为贮藏文献的所有文档数量,()为包含了语素的文档数。 根据公式,包含的文档数越多,其权重越低。 实证研究?数据与实验环境本文从可测量角度出发,以福建省为例,通过政策文本衡量国家需求,通过检索数据反应用户需求。 由于国家各级政策发布机关单位数量庞大,内容宽泛,本文仅选取国家文化与旅游部、福建省文化与旅游厅近年发布的各类政策文本作为实证样本,通过爬虫工具获取原始文本后,手工剔除人事变动、财务审计等管理类文件,得到有效政策文本条。 检索数据从(福建省高校数字图书馆)平台后台获取,按照检索排行降序顺序,选择人文社科相关的检索条目,共计条,部分记录如表。 平台包含福建省所成员馆,拥有完善的在线系统和稳定的访问流量,检索数据能够反映出省域内用户的一般需求。 表部分检索词序号检索类型检索词匹配方式资料类型检索结果条数访问访问时间题名国际法中的历史性权利研究前向匹配全部?题名呐喊前向匹配全部?题名金融工程前向匹配全部?年月第卷第期人文社科专题数据库建设的主题选择研究,?表(续)序号检索类型检索词匹配方式资料类型检索结果条数访问访问时间题名自然保护地管理分类应用指南前向匹配全部?题名自然保护地管理分类应用指南前向匹配全部?题名英语口语前向匹配全部?题名国际工程投融资前向匹配全部?题名戚继光前向匹配全部?题名兰登模糊匹配全部?题名牛津阶模糊匹配全部?本文实验环境为、?、线程,内容容量的机,家用标准版位操作系统。 集成开发环境为,部分功能基于语言编程,所用工具包包括、等。 ?政策文本数据处理模型需要对分类数量进行预先设定。 该数值一般采用困惑度确定,计算公式如下()()()()其中、分别指训练过的主题和测试集的各篇文档。 分母是测试集中出现的所有词。 一般来说,困惑度随主题数增加而下降。 如图所示,通过计算,当值取时,困惑度曲线下降趋势趋近于稳定,此时的取值为最佳数量。 图困惑度曲线构建模型以分析每一篇文章的话题分布,利用训练完的模型将政策文本转化为话题分布函数,并将文本主题向量与原文本合并,部分结果如图所示。 最后,根据以上结果,输出每个主题的前若干关键词,并以窗口形式展示。 最终结果如图所示。 图文本话题概率分布(部分)年月第卷第期现代情报,?图主题分类输出结果图主题分类输出结果?检索记录数据处理通过后台,选择年检索记录,将输出结果按照词频排序,选择检索次数大于的关键词,并将非人文社科范畴的词语剔除。 最后,将检索词与资源库各类文本文档进行匹配,筛选出命中词汇。 部分结果如表所示。 年月第卷第期人文社科专题数据库建设的主题选择研究,?图主题分类输出结果图主题分类输出结果不同于文本语料,检索记录多以单个检索词的形式表示,缺乏上下文语境,难以利用技术进行主题识别。 由于数据总量相对较少,因此本文选择人工方式判断检索词语义,并进行主题归纳。 ?备选主题分类比对上述两类主题分类结果,进行汇总、比对年月第卷第期现代情报,?表上半年人文社科检索词排行(部分)排名检索词排名检索词排名检索词排名检索词信息检索百年孤独追风筝的人红楼梦平凡的世界微观经济学考研英语三体小王子张爱玲心理学英语口语经济学原理运筹学管理学活着牛津白夜行东野圭吾宏观经济学计量经济学雅思围城公务员大数据英语经济学挪威的森林和分类,最终形成类备选主题。 )理想型主题选择教育、互联网与大数据通过比对,此类主题选择内容同时出现在政策主题和检索主题分类中。 意味着在现有资源的基础上,能够同时响应国家和用户需求,建议优先作为专题数据库建设主题。 教育学与教育事业是人文社科领域的重要话题,大量职能部门均对教育事业发展进行了专门性部署,尤其是红色教育、传统文化教育、人文素养教育等方面近年来获得了极大关注。 在用户层面,由于以高校图书馆联盟为实证对象,用户以高校学生为主,因此,数据库建设主要回应以备考或个人发展为目的的需求。 显然,各类人文社科教育需要大量专门性文献资料为支撑,因此专门性数据库建设势在必行。 近年来,互联网与大数据为人文社科领域带来了巨大的变革,尤其是网络安全、电子政务、数据资产等议题正在引起相关部门的高度重视。 此外,大数据更是为人文社科领域的研究提供了新的契机和方法,从检索数据来看,人文社科对于数据科学、编程语言、计算工具等方面的资料存在大量需求。 )政策导向型非物质文化遗产、旅游此类主题选择通常侧重于公共性建库主体,能够有效回应国家政策要求,有助于发挥其公共文化服务等方面的职能。 非物质文化遗产和旅游是人文社科专题数据库的传统主题选择,从研究结果来看,非遗资源保护和旅游产业发展依然是当前文化及相关部门的工作重心,从中央到地方均有大量政策部署。 在数据库建设过程中,建库主体可围绕本地资源,进行针对性的数据采集与加工,着力打造出具有地方特色的文化品牌。 同时,不断拓展数据库的开放程度,并开展宣传推广工作,进而服务于地方旅游产业。 )用户导向型文学、经济学、语言此类主题选择能够反映用户的现实需求,具有良好的市场前景,一般来说更加符合商业性的建库主体性质,而对于高校、科研院所等实际科研需求也能做到有效回应。 与政策导向不同,用户需求更为多元,其影响因素也更加复杂。 在本文的实证研究中,用户需求更多地集中于在文学、经济学和语言类。 其中文学作品相对于其他人文社科学术性资源来说,学科门槛较低,受众面更广。 而经济学原理和方法对包括社会学、管理学、国际关系在内的多种学科同样实用,因此存在大量记录。 而语言方面的需求则以英语学习材料和工具书为主,这是由高校用户对于等级考试、外文学术资源等硬性需求决定的。 结语本文构建了一种人文社科专题数据库建设的主题选择模型,为专题数据库的主题选择提供了一种全新的思路和方法。 相较于以经验性判断为主的常见模式,本文通过对政策文本和用户访问记录进行深入挖掘和匹配,有助于进一步提(下转第页)年月第卷第期人文社科专题数据库建设的主题选择研究,?沈志宏,张晓林关联数据及其应用现状综述现代图书情报技术,()沈志宏,黎建辉,张晓林关联数据互联技术研究综述应用、方法与框架图书情报工作,()夏翠娟,刘炜,赵亮,等关联数据发布技术及其实现以为例中国图书馆学报,()欧石燕,唐振贵面向图书馆关联数据的自动问答技术研究中国图书馆学报,()陈涛,夏翠娟,刘炜,等关联数据的可视化技术研究与实现图书情报工作,()刘美杏,徐芳古道线性文化遗产信息资源关联数据模型构建及其实证研究图书馆学研究,()张乐,常娥基于的民国建筑知识库关联数据的组织与发布研究图书馆学研究,()董坤,谢守美基于关联数据的资源语义化组织与聚合研究情报杂志,()夏翠娟,刘炜,陈涛,等家谱关联数据服务平台的开发实践中国图书馆学报,()许鑫,张悦悦非遗数字资源的元数据规范与应用研究图书情报工作,(),刘炜,李大玲,夏翠娟元数据与知识本体图书馆杂志,(),()欧石燕面向关联数据的语义数字图书馆资源描述与组织框架设计与实现中国图书馆学报,()(陈媛)?(上接第页)高专题数据库建设决策的科学性、实时性和前瞻性。 需要注意的是,本模型面向人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论