【慕课领域知识图谱构建案例分析7700字】_第1页
【慕课领域知识图谱构建案例分析7700字】_第2页
【慕课领域知识图谱构建案例分析7700字】_第3页
【慕课领域知识图谱构建案例分析7700字】_第4页
【慕课领域知识图谱构建案例分析7700字】_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

--9-慕课领域知识图谱构建案例分析目录TOC\o"1-3"\h\u15394慕课领域知识图谱构建案例分析 125201.1慕课领域知识图谱分析 1246761.2慕课领域知识图谱本体库定义 285531.3慕课领域知识图谱知识抽取方法 3177441.1.1语料库构建 3178961.1.2数据处理 5234651.1.3实体识别 6323741.1.4关系抽取 10107061.4基于Neo4J的慕课领域知识图谱存储 11278141.5实验结果及分析 1253441.5.1评价方案 12193951.5.2实验结果 13本章提出了一种基于中国慕课平台的慕课领域知识图谱构建方法,技术路线图如图3-1所示。通过对慕课领域相关数据的分析与研究,本章提出了一种慕课知识图谱本体库定义方法。本章首先采用机器爬虫技术从多个慕课平台上爬取基础语料库。然后构建多种实体识别模型训练标注数据,通过实体识别模型间的对比实验,选择表现最佳的实体识别模型作为最终的实体识别模型,用于识别和抽取慕课领域实体。在此基础上,进一步分析并抽取实体关系,最后使用图数据库Neo4J存储并可视化慕课领域知识图谱。图3-1慕课领域知识图谱构建技术路线图1.1慕课领域知识图谱分析在教育领域中,知识图谱通常用于辅助学校进行学科教学。此外,Khan学院等慕课平台也将其用于概念可视化和学习资源推荐。此类知识图谱通常依靠领域专家以手动方式构建,需要花费大量时间和精力。由于在慕课平台上的课程数量庞大且正在急速增长,因此如何改进慕课知识图谱的构建方式成为了当前教育领域的一个新兴研究热点。自动化构建知识图谱可以极大幅度地提高构建知识图谱的效率,从而大幅降低构建时的时间成本和人力成本。一个知识准确、知识表达一致和领域知识覆盖完整的知识图谱可以有助于提升基于知识图谱的推荐模型的推荐结果精确性。本章通过对慕课领域相关情况进行分析和研究,提出了慕课领域知识框图。如图3-2所示,慕课领域知识主要包含了课程的基本信息、教师的基本信息和学科的基本信息。慕课领域知识要素的描述内容如表3-1所示。课程基本信息主要有课程名称、课程评分、课程发布日期、课程时长和课程简介,教师的基本信息有教师名称、教师的自我介绍和教师的追随学生数,学科的基本信息则有学科名称和学科简介。图3-2慕课领域知识框图表3-1慕课领域知识要素描述序号知识要素名称要素描述1课程基本信息课程基本信息提供了课程名称、课程评分、课程发布日期、课程时长、课程简介2教师基本信息教师的基本信息提供了教师名称、教师的自我介绍和教师的追随学生数3学科基本信息学科的基本信息包含学科名称、学科简介1.2慕课领域知识图谱本体库定义基于Khan等人提出的课程本体定义REF_Ref20414\r\h[66],本章提出了慕课领域知识本体图。如图3-3所示,该慕课领域知识本体图主要包含了课程实体、老师实体、知识点实体和知识面实体。本体库还明确定义了节点之间的关系:1)课程节点之间的前置关系和相似关系;2)课程节点和知识点节点之间的前置关系和包含关系;3)知识点节点之间的前置关系;4)知识面节点分别与课程节点和知识点节点之间的包含关系;5)教师实体和课程实体之间的教学关系。图3-3慕课领域知识本体图1.3慕课领域知识图谱知识抽取方法基于上文对慕课领域的分析,本章提出了一种慕课领域的知识图谱构建方法。本章提出的慕课领域知识图谱知识抽取方法研究框架图如图3-4所示。本章采用机器爬虫技术从多个慕课平台上爬取基础语料库,通过网站结构和人工规则对不同实体进行标注,构建慕课领域标注语料库,然后通过构建表现最佳的BILSTM-Transformer-CRF模型训练标注数据,识别并抽取慕课领域实体,并在此基础上,进一步分析并抽取实体关系。图3-4慕课领域知识图谱知识抽取方法研究框架图1.1.1语料库构建(1)数据来源知识图谱构建需要从多文本中抽取信息,因此依赖于自然语言处理。先前的知识图谱通常依靠领域专家以手动方式构建,需要花费大量时间和精力。而慕课平台上的课程数量庞大且在急速增长,因此需要改进构建知识图谱的方式。在慕课平台中,大部分的课程按照严谨的知识体系设计而成,每个知识模块根据从点到面和由浅入深的学习路径相互关联,学习者需要按照循序渐进的学习路线进行学习。慕课课程的网页信息本身就是一个很好的课程知识源,但是当前的慕课课程的网页信息是很复杂且知识内容零散。在慕课课程的目录大纲中不仅包含了很多课程的学术知识,而且知识结构清晰。这是因为慕课平台的运营人员在设计学习者学习路径时,会根据专家经验,由浅入深地将知识点设计得很合理,并且将这些知识点的逻辑顺序设计得非常符合学习者的进步路线。本章使用的数据来源于慕课网和中国大学MOOC。中国大学MOOC规模较大,用户人数众多。慕课网成立于2013年,不同于中国大学MOOC,其专注于IT在线教育。(2)数据爬取先前研究主要针对单一慕课平台进行研究,本章使用了多慕课平台的数据用于分析和研究。慕课领域知识图谱需要大量的数据用于构建,由于目前没有公开可用时效性高的中国慕课数据集,本章收集了2013年至2021年3月1日期间慕课网的所有慕课数据,以及2014年至2021年3月1日期间中国大学MOOC上与计算机科学相关的所有慕课数据。计算机科学本身包含了很多不同的分支,如机器学习、数据挖掘、Python等。同时,每个分支都可以拓展成不同的分支。例如,深度学习课程有前置学科:机器学习基础、微积分理论和矩阵理论等。慕课领域知识图谱的构建就是为了根据学习者的兴趣和学习路径推荐更多适合学习者的课程,所以本章基于计算机科学领域构建知识图谱,将其中心点拓展到不同的学科分支上,并且在分支上做出不同的延伸。本章采用Scrapy爬虫框架对慕课平台进行静态网页的保存,然后对大纲目录进行递增式地模拟点击,获取大纲的二级目录等信息作为慕课领域知识图谱的原始语料库。(3)数据存储本章使用关系数据库和关系表来存储慕课领域基础数据。基于上文对于慕课领域知识图谱的分析和梳理,数据库中关于各关系表的描述如表3-2所示。表3-2数据库中关系表的描述序号表描述信息1COURSE表描述课程的基本信息2LEARNER表描述学习者的基本信息3TEACHER表描述教师的基本信息4SUBJECT表描述学科的基本信息5COURSE_TO_TEACHER表描述教师与课程之间的开设关系,给出教师id和课程id对6COURSE_TO_SUBJECT表描述学科与课程之间的包含关系,给出学科id和课程id对7COURSE_TO_LEARNER表描述学习者和课程之间的学习关系,给出学习者id和课程id对1.1.2数据处理在爬取到慕课课程的信息后,本文使用了jieba分词工具对慕课课程的简介、课程内容和课程评价等课程信息进行了分词处理,作为基础语料库。本文使用的搜索模式,便于拓展切分词的范围。jieba分词工具的功能包括词性标注、关键提取、分词等。在分词的过程中,发现专业词汇的切分效果不太理想,例如:“LSTM循环神经网络”会被切分成“LSTM”、“循环”、“神经网络”。Jieba分词使用的算法主要是传统的分词算法,并不能有效地识别新词,因此效果不佳。为了解决新词的问题,本章对百度词典、哈工大词典、清华新词词典和一些收集到的其它词典进行汇总,构建了一个分词的大词典,其中包含了很多关于慕课课程信息的新词。在添加分词词典后,分词效果提升很明显,很多专业词汇都能成功识别。知识图谱由RDF格式组成,即(实体,关系,实体),因此实体在知识图谱当中是非常重要的。在本章中,实体的获取就是从文本数据中抽取到知识实体,抽取过程会保持层级之间关系的明确。在构建课程的知识图谱时,将实体以课程级别的层级进行划分,课程级别需要存在符合逻辑的学习路径。通过人工标注慕课知识的方式,使得实体间的学习路径关系符合教育体系和学生的兴趣。如图3-5所示,慕课课程设置可以分为四级目录。一级目录是知识面级别的,例如:“前端开发”就是一个属于知识面的实体,包含了相关学科下的具体知识面,如“Vue.js”、“Typescript”和“React.JS”。这些知识面都是一级目录下的二级目录,也就是学科中更加具体的知识面。三级目录是二级目录下的具体课程,如“当React遇上TypeScript开发Antd组件”。四级目录则是课程页面中的描述文本信息里蕴含的详细知识点,如“ReactHooks”“ReactRouterDom”和“Redux-Toolkit”等知识点。因此,根据知识点和知识面的相互关系,本章可以将数量庞大且分布稀疏的知识内容根据本身的特征和逻辑结构组织起来。图3-5慕课课程设置情况在网络爬虫爬取到的数据里获得的实体是有歧义的,有的可能是翻译错误的原因,有的可能是分词处理不正确的原因,因此需要找到经典的知识图谱来源将实体进行统一。本章使用的是基于维基百科的知识图谱进行对齐的方法。对于中英文的翻译问题,可以利用维基百科中文版本和维基百科英文版本的相互连接进行对齐。维基百科的一个特性便是英文页面下方有其他语言版本的链接,因此,可以直接在维基百科中文版进行实体的查询,然后通过维基百科中文页面的英文版本链接到维基百科英文版获得实体对应的英文翻译,从而将实体的中文翻译和实体的英文翻译进行对齐。同时可以通过维基百科的接口验证对齐后的名称。维基百科的对齐方式依赖于翻译的正确性,如果部分翻译不正确会导致实体无法对齐。针对实验中可能出现的翻译错误问题,本章采用了谷歌翻译的中译英功能,将中文的实体翻译为英文,获得候选实体集合。同时使用维基百科的接口查询候选的实体集合,如果实体能够在维基百科中查询到,则将其认为是可信实体,否则为不可信实体。最后再输出可信实体集合。1.1.3实体识别在爬取慕课平台的信息时,会将慕课平台的信息按照层级结构进行爬取和归纳。其中,一级目录会作为一级层级的实体代表知识面实体;因为不同慕课平台的称呼会有所不同,二级目录在爬取后需要进行实体消歧,归纳成统一的实体进行对齐后再作为知识面实体下的概要的知识点实体;三级目录一般是具体的课程名称,可以作为课程实体;四级目录是指课程描述信息里蕴含的具体的知识点,需要使用模型进一步地识别和抽取。为了更好地识别和抽取出具体的知识点实体,本章将构建多种实体识别模型用于训练数据,识别和抽取实体。本章构建的实体识别模型有BiLSTM-CRF模型、BiLSTM-Attention-CRF模型和Transformer-BiLSTM-CRF模型。为了测试实体识别模型的效果,本章会在确保其它变量都一致的情况下,对多种实体识别模型进行对比实验,并选择表现最佳的实体识别模型用于慕课领域知识图谱实体的识别与抽取。(1)BiLSTM-CRF模型LSTM对于文本上下文信息的捕捉和对于实体识别的任务都有很重要的意义。为了防止梯度在长文本出现消失的情况,研究者们提出了双向长短期记忆网络模型(Bi-directionalLongShort-TermMemory,BiLSTM)。BiLSTM是由两层LSTM层组成,每层LSTM层都会输出隐层的数据并均与输出层进行链接,这两层LSTM层分别用于训练前向和后向的序列结果。这种模型结果可以很好的保存上下文信息,解决了LSTM梯度消失的问题。由于实体识别处理的也是序列问题,因此借鉴于BiLSTM的模型可以有效地利用上下文的信息。研究者们提出了BiLSTM-CRF的模型,其模型结构图如图3-6所示,其核心思想是将输入的中文语料切分成单个字符,然后通过BiLSTM转化成中文序列,序列中的每个字经过CRF层进行分类。图3-6BiLSTM-CRF模型结构图CRF层会利用输入的BiLSTM层的向量结果,假设词向量特征f的权重是λ,那么CRF的得分如公式(3-1)所示,score(L(3-1)其中,S是输入的句子,i是词在句子的位置,l是标记,m是特征的数量,n是句子的长度,然后,通过计算公式能获得序列的分数。公式(3-2)中分子是每个标注序列的得分,分母是所有序列的得分之和,通过上述的概率值对比,找到概率值最大的序列。p(L(3-2)(2)BiLSTM-Attention-CRF模型注意力机制(Attention)在图像、自然语言处理、推荐系统等多个领域都能取得不错的效果,因此,也引起了多方学者的研究和关注。在本章中之所以要使用Attention机制,是因为网页的文本信息中存在了大量的冗余非关键信息,这些信息会影响实体识别的效果,同时,在考虑到实体和实体之间上下文的关系,Attention机制可以通过修改权重的方式来突显值得关注的信息,然后,通过CRF的分类得到最后的分类结果。如图3-7所示,h是语句,e是是实体信息的向量,通过h的语句和e的实体向量的结合计算得到注意力向量。每个输入的向量经过BiLSTM得到语义向量,然后经过Attention的向量对输入向量进行权重相乘。通过Attention机制可以改进字符串向量和词向量的融合,同时对于OOV和低频词有更好的处理。图3-7注意力模型通过不同时刻的输入经过LSTM得到了h的向量特征,如公式(3-3)所示:h(3-3)BiLSTM利用前向训练和后向训练的方式得到hr和,h=[(3-4)通过Wm权重和h向量结合并进行tanh函数的转化,可以学习h向量的信息,如公式(3-5)所示,m=tanh((3-5)将权重Wm向量和h向量融合,然后通过sigmoid函数得到每个字符的重要性z。计算公式如(3-6)所示。重要程度为0到1之间的小数值,越接近1,重要性越大。z=(3-6)最后,使用z把输入X和m向量进行有效聚合,从而从模型对关键部分的输入字符进行着重关注。聚合公式如公式(3-7)所示。x(3-7)在重新得到新的向量后,会对接CRF层,CRF层会对不同字符的路径重新打分,并且给每个字符进行分类。(3)Transformer-BiLSTM-CRF模型Transformer-BiLSTM-CRF模型是目前比较流行同时复杂度较高的实体识别模型,模型结构图如图3-8所示,该模型分为Transformer模块、BiLSTM模块和CRF模块。后两者已在前文介绍,本节主要介绍Transformer模块。图3-8Transformer-BiLSTM-CRF模型结构图Transformer模型是由两部分组成:编码器(encoder)和解码器(decoder)。输入的文本语料称为Xinput,d指的是字向量的维度。然后,根据利用sin函数和cos函数获取位置编码。每个编码器是由多头自注意力、前馈神经网络和标准化的层级结构组合而成。结合位置编码和字符嵌入向量可以得到Q,K和VQ(3-8)每次的字符输入都会和句子中的其他字符信息进行相关性计算,进行注意力计算,然后把结果进行拼接。计算公式如(3-9)所示。Attention(Q,K,V)=Softmax((3-9)多头注意力机制由多个注意力模块的结果拼接而成。head(3-10)MultiHead(Q,K,V)=(3-11)然后,通过多头注意力机制的结果与X的输入进行残差连接和归一化后连接解码模块。在联合模型构建中,编码器的结果会进行多次组合,每一层的输入均为上一层输出。Transformer-BiLSTM-CRF模型的处理流程如图3-9所示,在得到Transformer层的输出结果后,会直接连接BiLSTM-CRF模型,通过BiLSTM模型保存上下文的信息,然后经过CRF模块得到每个字符的分类结果。CRF模块将利用序列标签之间的相邻依赖关系,同时对标签序列进行最优化求解。图3-9Transformer-BiLSTM-CRF模型的实体识别处理流程图1.1.4关系抽取在本章,关系指的是实体之间的边关系,可以是前置学习的关系,或是后续进阶课程的关系,也可以是上下层级的关系。而关系抽取指的是在一定的结构内抽取实体与实体之间的关系,在慕课知识场景中主要指的是抽取知识点实体之间的关系。关系抽取可分为文本结构抽取方式、文本句法依存分析、基于模型的关系抽取。基于文本结构的抽取方式是指原文本结构就可以体现出实体和实体之间的关系,基于句法依存的分析是指根据语法结构的方式重新定义实体和实体之间的关系,基于模型的关系抽取指的是通过人工特征训练出一套可以自动抽取实体关系的方法。由于本章在爬取慕课课程信息的时候便已经将层级结构定义清楚,而且符合逻辑容易理解,格式统一,因此本章采用的是基于文本结构和文本语义抽取的方式。本章将慕课领域知识关系主要分为五类:包含关系、教学关系、前置关系、后置关系和相似关系。基于以上特点,本章对慕课领域知识关系类型进行定义,如表3-3所示。由于知识图谱结构中的边具有方向,所以不同方向的边关系具有不同的关系定义。包含关系指的是这个知识点实体或课程实体是属于某个课程实体或者某个知识面实体的关系。教学关系指的是某门课程实体由某个教师实体开展教学活动。前置关系指的是某个知识点实体和另外一个知识点是存在着必须提前学习掌握,才能进入下一个知识点的关系;或者是某个知识点实体和另外一门课程是存在着必须提前学习掌握,才能进入下一门课程的关系;或者是一门课程和另外一门课程是存在着必须提前学习掌握,才能进入下一门课程的关系。后置关系指的是在学习的路径上进发的关系,即某个知识点实体或这门课程实体是另外一个知识点或者另外一门课程学习完后,所需要学习的东西。表3-3慕课领域知识图谱关系类型预定义序号实体对关系类型1学科-课程包含关系2课程-知识点包含关系3学科-知识点包含关系4老师-课程教学关系5知识点-知识点前置关系/后置关系6课程-课程前置关系/后置关系/相似关系7知识点-课程前置关系/后置关系由此,本章整理并抽取出慕课领域课程实体关系。1.4基于Neo4J的慕课领域知识图谱存储知识图谱可表示为由实体和关系组成的RDF三元组。传统的关系型数据库无法满足这种数据结构的存储需求。因此本章选取图数据库来更加合适地进行知识图谱的存储。图数据库可以将网络结构数据化,适合将结构可视化,而且可以清晰地展示层级关系。Neo4J是一款用于存储图数据结构的NoSQL图数据库工具,主要的编程语言是Cypher,它利用图模型对数据进行了组织和存储。其数据模型是由知识实体和知识点之间的关系以及知识实体的属性构建而成。在Neo4J数据图中,圆圈指的是节点,关系箭头指的是关系。节点上面包含了节点属性,会有标签来标注节点的类别。关系会链接节点,也会有指向,可以代表关系信息的流动,包含了实体与实体之间的关系。Neo4J内置了很多有用的图算法功能,如计算最大链接节点、社区发现和节点最短路径等。Neo4J支持使用Cypher语句进行实体或者关系的查询。基于以上考虑,本章选择开源图形数据库Neo4J作为存储慕课课程知识图谱的数据库,保存了课程实体和课程知识之间的关系。知识实体会被抽取作为图数据库的节点,关系也会抽取作为节点的关系,以RDF三元组的形式存在Neo4J图数据库当中。依据上文中所述的关系抽取方法,本章基于原始语料库和实体识别结果抽取出慕课领域知识图谱的实体和实体间的关系,并采用图数据库Neo4J来进行数据存储和可视化知识图谱的图结构,慕课领域知识图谱构建的部分可视化结果如图3-10所示。图3-10部分慕课领域知识图谱以CCS3知识点实体相关联的实体与属性查询场景为例,使用cypher查询语言进行查询,得到该场景下的部分慕课领域知识图谱,查询结果如图3-11所示。图3-11CCS3知识点相关联的知识图谱1.5实验结果及分析1.5.1评价方案本章对实体识别模型性能的评价主要采用准确率(Precision)、召回率(Recall)以及F1值(F1-measure)三个参数来衡量,准确率代表模型识别结果中正确的比率,召回率代表模型正确识别结果与全部正确结果的比率,F1综合两者指标,用于反映整体情况。其计算方法分别如公式(3-12)、公式(3-13)和公式(3-14)所示。Precision=(3-12)Recall=(3-13)F1=2(3-14)公式中,NTP表示被正确分为实体的样本数量,NFP表示被错误的分成实体的样本数量,NFN表示原本属于实体的样本被分为其他的样本数量。1.5.2实验结果为了更好地对比不同的实体识别模型的效果,本文对四种实体识别方法进行对比,在同样的数据中使用了两种标注规

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论