版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
T/XXXX—XXXX
面向终身学习的知识图谱构建系统技术规范
1范围
本文件规定了面向终身学习的知识图谱构建系统的框架、技术要求、功能要求和非功能要求。
本文件适用于教育行业面向终身学习的知识图谱系统设计、开发与测试。
2规范性引用文件
GB/T5271.17-2010信息技术词汇第17部分数据库;
GB/T42131-2022人工智能知识图谱框架;
YD/T4044-2022基于人工智能的知识图谱构建技术要求。
3术语和定义
GB/T5271.17-2010界定的以及以下术语和定义适用于本文件。
3.1
终身学习lifelonglearning
终身学习是一种持续不断的学习过程,在人的整个生命周期中不断获取新知识、技能和经验,使个
体能够持续提升能力、拓展视野,并保持竞争力。
3.2
实体entity
存在或者可能存在的任何具体或抽象的事务,包括这些事物间的关联。
[来源:GB/T5271.17-2010,17.02.05]
3.3
实体类型entitytype
一组具有相同属性的实体集合的抽象。
[来源:GB/T42131-20223.3]
3.4
关系relation
具有相同属性的各实体值的集合以及这些属性。
[来源:GB/T5271.17-2010,17.04.01]
1
T/XXXX—XXXX
3.5
知识图谱knowledgegraph
一种以结构化的形式描述客观世界中概念、实体及其关系的方式。它将互联网的海量信息表达成更
接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
[来源:YD/T4044-2022,3.1]
3.6
精确率precision
评价机器学习模型效果的参数,反映的是在预测为正例的样本中,预测正确的比例。
注:计算公式为准确率=正确预测的正例样本数量/预测为正例的样本数量。
3.7
召回率recallrate
评价机器学习模型效果的参数,反映的是在所有正例样本中,能够正确地识别为正例的比例。
注:计算公式为召回率=正确预测的正例样本数量/(正确预测的正例样本数量+错误预测的负例样本数量)。
3.8
F1值F1-score
综合应用精确率和召回率,为二者的调和均值。
注:计算公式为F1值=2*精确率*召回率/(精确率+召回率)。
4缩略语
下列缩略语适用于本文件。
NLP自然语言处理(NaturalLanguageProcessing)
API应用编程接口(ApplicationProgrammingInterface)
RDF资源描述语言(ResourceDescriptionFramework)
OWL网络本体语言(WebOntologyLanguage)
SPARQL数据获取协议和查询语言(SPARQLProtocolandRDFQueryLanguage)
5构建框架
面向终身学习的知识图谱系统以底层技术基础作为支撑,其构建需经过数据获取、数据清洗和去重、
知识抽取、知识表示、实体链接、知识存储、知识更新等阶段,各阶段间的逻辑结构如图1所示。
2
T/XXXX—XXXX
图1面向终身学习的知识图谱构建系统结构图
标引序号说明:
1——数据获取。通过数据库、网络爬虫、API接口、第三方数据提供商等手段获取所需的数据。
2——数据清洗与去重。针对获取的数据集中的残缺数据、错误数据和重复数据进行清洗。
3——知识抽取。知识抽取是使用识别、理解、过滤和归纳的方法从不同来源的结构化、半结构
化和非结构化数据中将信息提取出来
4——知识表示。将知识图谱中的实体和它们之间的关系转换为数学表示,从而使得计算机可以
更加方便地处理和分析这些信息,能够将复杂的实体和关系映射到一个低维度向量空间中,从而能够有
效处理大规模的知识图谱。
5——实体链接。实体链接是一种确定两个实体是否指向现实世界中同一对象的过程,用于判断
不同数据集中的实体是否相同。
6——知识存储。知识存储是指将知识以某种结构化的形式存储在计算机系统或其他媒体中,以
便于组织、管理和检索,旨在有效地保存和利用知识资源。
7——知识更新。知识更新是指不断对知识库、知识图谱或其他知识存储结构中的信息进行修订、
添加、删除或修改,以确保其中所包含的知识与最新的实际情况和领域知识相符。
6技术要求
6.1知识获取
终身学习过程中涉及到多种知识获取途径,知识获取阶段应明确知识图谱构建的数据来源,针对不
同来源的数据定制不同的获取规则。
知识获取阶段的技术要求如下:
a)应明确数据获取的来源和途径。应明确数据获取的目标来源,包括但不限于数据库、网络爬虫、
API接口、第三方数据提供商等。对于每个来源,需要了解数据的结构、格式、访问方式等具
体信息;
b)应明确数据粒度和维度。应根据数据使用场景和需求,明确数据获取输出的粒度和维度,以满
足后续知识图谱构建的需求;
3
T/XXXX—XXXX
c)应确保数据输出的规范化和标准化,包括字段命名、数据编码、单位统一等,以便后续数据集
成和应用;
d)应确保数据获取的合法性和可靠性,避免侵犯他人隐私或知识产权。特别是在涉及第三方数据
提供商时,需要明确数据授权方式和使用条款;
e)应设置异常处理和改进机制。确保对数据获取过程中出现的问题和异常进行记录和分析,及时
纠正和改进数据获取的流程和方法;
f)应对采集到的数据进行存储,以便后续分析。
6.2数据清洗与去重
面向终身学习的知识图谱数据清洗与去重,应满足数据来源与途径明晰化、数据粒度和维度确认、
数据规范化与标准化以及合法性和可靠性保障等技术要求,以确保清洗与去重后的数据质量和可用性,
为知识图谱的构建和应用奠定基础。
数据清洗与去重阶段的技术要求如下:
a)数据来源与途径明晰化:应明确数据清洗与去重的目标数据来源,包括已有知识图谱、自然语
言文本、结构化数据库等。对于每个来源,需要了解数据的结构、格式、获取方式和访问权限
等具体信息。
b)数据粒度和维度确认:应根据知识图谱的应用场景和需求,明确数据清洗与去重输出的粒度(如
实体、关系等)和维度(如时间、地点、属性等),以满足后续知识图谱构建的需求。
c)数据规范化与标准化:应确保清洗与去重后的数据输出符合统一的规范和标准,包括字段命名
一致、数据编码统一、单位规范等,以便后续数据集成和应用。
d)合法性和可靠性保障:应确保数据清洗与去重过程中的合法性和可靠性,避免侵犯他人隐私或
知识产权。特别是在涉及第三方数据提供商时,需要明确数据授权方式、使用条款和合规性,
以保证数据的合法获取和使用。
e)缺失值填充:应对于存在缺失值的数据,需要进行适当的填充操作,以保持数据完整性。常见
的缺失值填充方法包括使用均值、中位数或众数进行填充,或者根据数据的特点和背景知识进
行合理推测和插补。
f)异常值处理:异常值会对后续分析和应用造成不利影响,因此需要识别和处理异常值。常见的
异常值处理方法包括使用统计学方法(如3σ原则、箱线图等)进行判断和剔除,或者根据领
域知识和实际情况进行异常值的修正或标记。
6.3知识抽取
6.3.1实体抽取
实体抽取是自然语言处理中的一项重要任务,其主要目标是从文本中识别和提取出具有特定意义的
实体,如人名、地名、组织名、时间、数量等。
实体抽取的技术要求如下:
a)实体抽取的结构和形式输出实体应包括类型、起始位置、结束位置等信息,以便于后续处理和
应用。实体抽取结果应采用统一的格式和标注规范,以支持不同系统间的交互和整合;
b)数据类型和规模。文本数据应涵盖多个领域和主题,包括但不限于新闻、社交媒体、学术文献
等,覆盖范围广泛。数据规模应确保充分覆盖各类实体,包括人物、地点、组织、时间等;
c)利用命名实体识别技术,从文本中识别出具体的实体,包括人名、地名、组织名等,以支持多
种实体类型的识别,满足不同场景下的实体抽取需求;
4
T/XXXX—XXXX
d)实体分类。对抽取出的实体进行分类,确定实体的具体类型,如人物、地点、时间等,以便后
续处理和应用;
e)实体抽取的准确性评估。建立实体抽取的精确率、召回率和F1值等指标,对实体抽取结果进行
全面评估和比对。
6.3.2关系抽取
在终身学习过程中,面对海量多领域知识,实体间的关联起到了重要的链接作用。关系抽取是自然
语言处理领域的重要任务之一,通过对应算法与模型自动识别和提取文本中的实体之间的关系,以构建
结构化的知识表示,进而支持信息检索、问答系统、知识图谱构建等应用。
关系抽取的技术要求如下:
a)关系抽取的结构和形式。输出关系应包括关系类型、关系持有实体(实体对)、关系置信度等
信息,以便于后续处理和应用;
b)关系抽取结果应采用统一的格式和标注规范,以支持不同系统间的交互和整合;
c)关系类型的定义。定义一套完整的关系类型体系,涵盖常见的关系类型,同时支持自定义扩展,
以应对不同领域和应用场景的需求;
d)上下文信息的利用。应利用关系在上下文中的语境和逻辑,通过利用句法结构、语义信息等,
提高关系抽取的准确性和连贯性;
e)应进行关系分类器设计。构建关系分类器,用于将抽取出的关系进行进一步分类和验证。应关
注特征选择、模型训练和评估等环节,确保分类器的准确性和泛化能力;
f)应进行可信度计算。对于抽取出的关系,应引入可信度计算模型,评估关系的真实性和可靠性,
排除噪声和错误信息;
g)交叉验证和测试。利用交叉验证或者留出测试集的方式,对关系抽取系统进行全面的性能评估,
包括精确率、召回率、F1值等指标。
6.4知识表示
知识表示是指将自然语言中的信息、概念和关系以一种计算机可理解的形式进行表达和存储的过程。
在NLP任务中,知识表示起着至关重要的作用,它直接影响到文本理解、推理和应用的效果。
知识表示阶段的技术要求如下:
a)应明确知识表示的结构和形式。知识表示应采用统一的格式和结构,如图谱、知识库、向量空
间模型等,以便于计算机进行有效的理解和处理。应采用语义网络、本体、三元组等形式对知
识进行表达,以支持语义推理和信息检索;
b)应对多模态信息的整合。融合文本、图像、语音等多模态信息,构建跨模态的知识表示,以满
足不同应用场景下的需求。应关注多模态信息之间的关联和交互,提高知识表示的丰富度和复
杂性;
c)应明确语义和关系的表达。确保知识表示能够准确表达实体之间的语义关系和属性,包括同义
关系、层次关系、关联关系等,以支持语义推理和信息抽取;
d)知识表示建模。应利用自然语言处理技术对原始数据进行建模,形成结构化的知识表示;
e)应进行知识的补充和更新。不断更新和补充知识表示,及时引入新的知识和信息,确保知识表
示的时效性和全面性。结合领域专家的知识和经验,对知识表示进行修正和完善,提高知识表
示的准确性和有效性;
f)确保对知识表示中出现的问题和异常进行记录和分析,及时纠正和改进知识表示的方法和模型。
6.5实体链接
5
T/XXXX—XXXX
实体链接是自然语言处理中的一项任务,旨在将文本中提及的实体链接到知识库中相应的实体。在
文本中,实体可以是具体的人、地点、组织、时间等事物的提及,而知识库中存储了这些实体的结构化
信息,如实体的属性、关系、分类等。实体链接的目标是将文本中的实体与知识库中的实体进行对应,
从而丰富文本的语义表达,帮助计算机理解和推理文本内容。
实体链接的技术要求如下:
a)应了解系统是否需要额外的上下文信息,如句子级别的上下文、语义信息等,以提高实体链
接的准确性;
b)应确定实体链接系统的输出格式,如实体标识符、实体类型、链接的知识库实体等;
c)应关注到对未链接实体进行处理,系统对于无法链接的实体应当给出相应的处理方式,如标
记为未知实体、进行后续人工处理等;
d)候选实体生成模块应确定实体链接系统如何生成候选实体集合,可以是基于文本上下文的实
体候选集合或者利用外部知识库进行实体匹配;
e)系统应当包括实体消歧模块,用于在候选实体集合中识别出正确的链接实体,应关注上下文
语境、实体描述信息等;
f)确保有合适的标注数据集用于对实体链接系统进行训练和评估。
g)确定实体链接系统的评估指标,如精确率、召回率、F1值等,以及如何计算这些指标。
6.6知识存储
知识存储是支撑终身学习知识长久保存与维护的关键技术。知识图谱是一种用于表示实体之间关系
的知识存储结构,以三元组(subject,predicate,object)的形式来表示事实或关系,其中主语和宾
语表示实体,谓语表示它们之间的关系。知识图谱中的实体和关系可以通过唯一的标识符链接到外部的
知识库或数据源,从而构成了一个具有丰富语义信息的知识存储结构。
知识存储的技术要求如下:
a)采用图结构和本体表示等合适的数据结构和语义模型,以清晰地表达实体之间的关系和语义信
息;
b)应满足丰富的语义信息,如存储实体的属性、关系的类型、层次结构等,提供清晰的语义表示,
以支持多样化的知识图谱任务需求;
c)应支持多种查询和推理操作。提供适当的API或查询接口,支持复杂的语义查询和推理操作,
例如基于SPARQL的查询语言;
d)结构化数据。采用RDF或OWL等标准化格式,以便进行统一的存储和查询。
e)应关注到知识存储的准确性。采用人工审核、自动校对等手段,确保知识图谱中的信息准确无
误;
f)应考虑到知识存储的完整性。通过与已知领域知识库对比、自动生成的知识验证等方式,评估
知识图谱的信息完整性;
g)应关注到知识存储的一致性。建立严格的逻辑规则和一致性检查机制,确保知识图谱中的信息
不会相互矛盾或冲突;
h)应关注到知识存储的更新性。建立自动化的更新机制,定期对知识图谱进行更新和维护;
i)应关注到知识存储的可信度。评估知识来源的可信度,并设立权威信息标识机制,以提高知识
图谱的可信度和权威性。
6.7知识更新
6
T/XXXX—XXXX
在终身学习过程中,海量的领域知识具有一定的时效性,因此知识的增量更新对终身学习知识图谱
的构建至关重要。知识更新是指不断对知识库、知识图谱或其他知识存储结构中的信息进行修订、添加、
删除或修改,以确保其中所包含的知识与最新的实际情况和领域知识相符。更新知识的目的是保持知识
库的准确性、完整性和时效性,以满足学习者的终身学习需求并反映最新的知识和信息。
知识更新技术要求如下:
a)采用人工审核、自动校对等手段,应确保知识图谱中的信息准确无误。人工审核可以通过专家
审查、领域知识验证等手段进行,以确保添加到知识图谱中的信息符合专业标准和事实真相。
自动校对技术如数据一致性检查、逻辑推理等,以发现潜在的错误或冲突信息,并及时予以修
正。
b)评估知识图谱的信息完整性,应采用知识补全技术,通过分析知识图谱中的结构和内容,发现
缺失的实体、关系或属性,并利用各种技术手段从外部文本、数据库等来源中提取相关信息,
使知识图谱更加完备和全面。
c)应建立严格的逻辑规则和一致性检查机制,定义实体之间的合法关系和属性取值范围,确保知
识图谱在补全和更新中信息不会相互矛盾或冲突,保持数据一致性。
d)应建立自动化的更新机制,定期对知识图谱进行更新和维护。通过自动化更新技术,以实现知
识的增量更新、错误修正、新知识的添加等操作,保证知识图谱与实际领域知识的同步。
e)评估知识来源的可信度,并设立权威信息标识机制,标记来源于可靠渠道和权威机构的知识信
息,以提高知识图谱的可信度和权威性。
7基本功能要求
面向终身学习的知识图谱交互系统的基本功能如下:
a)应支持知识图谱的可视化展示;
b)应支持对知识的管理功能,包括知识查询、知识增添、知识更新、知识删除等;
c)应支持模型训练优化,包括支持模型组合和调参,提高模型性能和泛化能力。在评测知识图谱
模型时,可以结合精确值(Precision)、召回值(Recall)和F1值来进行综合评估;
d)应保证模型的可用性,即无论输入什么样的数据,模型都能返回一个结果,供系统进行决策处
理;
e)应支持对机器学习服务模块的管理,保证据传输过程安全、开发框架安全,支持权限管理和服
务接口规范制定等。
8基本非功能要求
8.1可扩展性要求
8.1.1应具备良好的可扩展性,根据需求随时进行扩展和收缩。
8.1.2应支持横向扩展,用户通过API可以直接接入。
8.2可靠性要求
8.2.1应确保数据只能按约定好的行为进行使用,避免数据滥用。
7
T/XXXX—XXXX
8.2.2应具备在出现故障(比如服务器故障、硬盘故障、网络故障、关机、重启等)后系统进行自动容灾
恢复的能力,包括数据备份和恢复等。
8.3兼容性要求
8.3.1应能在业界主流硬件上正常运行。
8.3.2应支持多数据源的批量数据导入与更新。
8.3.3应兼容主流商业及开源社区版操作系统。
8.4性能要求
8.4.1应支持通过集群化方案解决在线服务的负载均衡、故障转移、动态扩缩容等问题。
8.4.2可支持亿级或者以上规模数据的秒级查询。
8.5易用性要求
8.5.1可提供API及算法封装,如知识查询、知识增添、知识更新、知识删除等。
8.5.2应提供应用运行时动态修改配置的服务,并提供图形化的集中化管理界面。
8.5.3可支持数据并行加载及增量加载。
8.6安全性要求
8.6.1应支持将知识图谱中数据的传输限制在特定授权实体间。
8.6.2应确保知识图谱数据的完整性和可用性。
8.6.3应保证知识图谱输入数据及输出返回结果的保密性和完整性,确保不被未授权用户非法获取。
8
团体标准《面向终身学习的知识图谱构建系统规范》
编制说明
一、工作简况
一)项目背景
知识图谱作为机器认知智能实现的基础之一,是人工智能的重要
组成部分,有助于实现知识的自动化和智能化获取、挖掘和应用。知
识图谱是以结构化的形式描述客观世界中的概念、实体及其关系的大
型知识网络,将信息表达成更接近人类认知的形式,提供了一种更好
地组织、管理和理解海量信息的能力。在教育信息化的时代,将知识
图谱运用在教育领域显得尤为重要。
2019年2月23日,中共中央国务院印发《中国教育现代化2035》,
提出了推进教育现代化的八大基本理念:更加注重以德为先,更加注
重全面发展,更加注重面向人人,更加注重终身学习,更加注重因材
施教,更加注重知行合一,更加注重融合发展,更加注重共建共享。
到2035年建成服务全民终身学习的现代教育体系、普及有质量的学
前教育、实现优质均衡的义务教育、全面普及高中阶段教育、职业教
育服务能力显著提升、高等教育竞争力明显提升、残疾儿童少年享有
适合的教育、形成全社会共同参与的教育治理新格局。
2022年10月16日,习近平总书记在党的二十大报告中提出,
推进教育数字化,建设全民终身学习的学习型社会、学习型大国。终
身学习理念是指让学习贯穿于人的一生,在更好适应经济社会全面发
展的基础上不断学习。当前,我国已经构建起完整的教育体系,包括
学前教育、义务教育、高中教育、高等教育、职业教育、继续教育等,
对培养劳动者的劳动技能、全面素质、终身学习习惯等,具有重要作
用。
2019年9月11日,中国电子技术标准化研究院正式发布了《知
识图谱标准化白皮书》(2019版),根据当前知识图谱技术发展情况
及在多个领域的成功实践,从哲学层面、政策层面、产业层面、行业
层面、技术层面、工具层面、支撑技术等多个层面对知识图谱的实际
需求、关键技术、面临的问题与挑战、标准化需求、展望与建议等进
行了梳理,涉及智慧金融、智慧医疗、智能制造、智慧教育、智慧政
务、智慧司法、智慧交通等十五个领域,并初步提出了知识图谱技术
架构和标准体系框架等,对未来知识图谱在更多行业的推广应用及标
准研制提供支撑。
2021年12月10日,中国电子技术标准化研究院依托全国信标
委人工智能分委会知识图谱工作组联合东软集团股份有限公司、北京
华宇元典信息服务有限公司、华为云计算技术有限公司、浙商银行股
份有限公司等49家企事业单位、高校和研究院所共同编制《知识图
谱选型与实施指南》(2021年版)。紧密围绕知识图谱应用企业面临
的概念模糊、基础薄弱、需求不清、选型困难、评估缺失、管理困难
等问题,从知识图谱应用现状与可能存在的挑战、知识图谱应用系统
构建、建设基础能力评估、选型准则与关键性能指标、建设与管理过
程、建设服务方选择等方面进行了阐述。同时,从国家支持、行业部
署、产学研协同等层面给出了建议,对未来知识图谱的产业化、工程
化和标准化提供支撑。
目前,面向终身学习的知识图谱构建系统存在如下问题:
1.数据质量参差不齐。在数据采集、存储、处理等环节存在不科
学、不规范等问题,导致错误数据、异常数据、缺失数据等脏数据,
由于知识图谱构建流程繁杂,数据存在准确性和一致性问题。
2.知识抽取技术多样。知识抽取包括实体抽取和关系抽取两个子
任务,现有的抽取技术路线繁多,但如何在深度学习时代与神经网络
模型优势相结合,有力拓展神经网络知识抽取模型的泛化能力,值得
更多深入探索。
3.多源异构数据处理复杂。知识融合是解决异构问题的主要途径,
对多源知识库中的实体进行比较和关系匹配,并将知识进行有机结合,
将异构的知识进行消歧、对齐、整合等。通过知识融合进一步提高数
据间的结构性,减少数据的冗余。
4.数据质量评估标准多样。评估时选择的维度更多,就更能全面
地评价数据的质量,然而太多的标准会给实际操作带来困难,比如合
理性、适用性等维度无法通过计算来客观分析,缺乏可操作性。因此
应当将评估手段或方法类似的维度进行合并,在满足要求的前提下,
尽可能地减少非必要的评估维度。
5.缺乏知识图谱生命周期管理功能。伴随着互联网资源以及教学
知识的复杂多变,流程化构建后的知识图谱需要不断更新知识体系。
完备的知识图谱生命周期管理方法可以实现知识动态补全以及关系
动态补全操作,达到知识图谱对实时性的要求。
二)任务来源
为规范面向终身学习的知识图谱构建系统的实施,西安电子科技
大学牵头发起了《面向终身学习的知识图谱构建系统规范》团体标准,
并邀请湖南大学共同参与编制。
1.3、主要起草单位
本标准主要起草单位:西安电子科技大学、湖南大学。
1.4、主要工作过程
2023年11月6日,西安电子科技大学组织团体标准委员会召开
会议,确定《面向终身学习的知识图谱构建系统规范》提案和立项。
2023年11月7日,西安电子科技大学标准编制组成立。
2023年11月8日,编制组集中召开编制会议,讨论确定标准总
体框架和内容,分工开展编制初稿工作,每周进行编制内容讨论。
2023年12月8日,标准编制组在西安电子科技大学网安大楼
A614室组织标准讨论会。
2023年12月15日,标准编制组根据讨论会修改意见完成标准
初稿编制,提交安徽省人工智能协会,协会组织相关专家评审。
2024年1月10日,协会在西安电子科技大学网安大楼A614室
组织召开标准编制组第一次会议,按专家意见进一步修改。
2024年1月26日,在西安电子科技大学网安大楼A614室召开
标准编制组第二次会议,对标准评审修改稿进行再次讨论修改,并形
成征求意见稿。
二、标准编制原则和主要内容的论据及解决的主要问题
2.1、编制原则
a)全面性原则:本标准在编制过程中充分考虑了标准的全面性,
保证能够覆盖到面向终身学习的知识图谱构建系统涉及的各个方面,
保证内容的完备性。
b)实用性原则:本标准充分考虑了面向终身学习的知识图谱构
建系统的实际需求进行标准内容编制,保证面向终身学习的知识图谱
构建系统规范的实用性。
2.2、文档结构
本标准提出了面向终身学习的知识图谱构建系统规范中数据获
取、知识抽取、知识表示、实体对齐、知识存储等阶段的通用要求。
2.3、整体格式
整体格式根据GB/T1.1-2020《标准化工作导则第1部分:标
准化文件的结构和起草规则》的相关要求,对本标准的各要素进行编
写和排版。
2.4、标准名称英文翻译
TechnicalSpecificationofKnowledgeGraphConstruction
SystemforLifelongLearning
2.5、术语和定义
术语和定义中所列的术语的英文翻译,根据团体标准编写规范对
术语的要求,如有类似术语的标准,参考了其翻译,没有类似术语标
准翻译的,通过百度翻译和谷歌翻译后进行对比,并参考网络相关翻
译后进行确定。
2.6、主要内容
通过标准草案稿、讨论稿的修改完善,本标准的主要技术内容确
定为:
第一部分提出了本标准涵盖的内容和适用范围。
第二部分提出了本标准所采用的规范性引用文件。
第三部分给出了本标准中用到的术语。
第四部分给出了本标准中用到的相关缩略语。
第五部分面向终身学习的知识图谱构建框架,以底层技术基础
作为支撑,包括数据获取、知识抽取、知识表示、实体对齐、知识存
储等阶段。
第六部分面向终身学习的知识图谱构建技术要求,包括数据获
取、知识抽取、知识表示、实体对齐、知识存储等。
第七部分面向终身学习的知识图谱交互系统基本功能要求。
第八部分面向终身学习的知识图谱交互系统基本非功能要求,
包括扩展性要求、可靠性要求、兼容性要求等。
2.7、解决问题
通过对本标准的制定,提出了面向终身学习的知识图谱构建系统
规范。具体内容包括:
(1)解决数据质量参差不齐问题;
(2)解决面向终身学习的知识抽取问题;
(3)解决多源异构数据处理问题;
(4)解决面向终身学习的知识图谱生命周期管理功能的缺失。
三、知识产权情况说明
无。
四、采用国际标准和国外先进标准情况
无。
五、与现行相关法律、法规、规章及相关标准的协调性
符合我国有关的现行法律、法规。
六、重大分歧意见的处理经过及依据
无重大分歧意见。
七、标准性质的建议
建议《面向终身学习的知识图谱构建系统技术规范》作为推荐性
团体标准发布实施。
八、贯彻标准的要求和措施建议
鉴于本标准是面向终身学习的知识图谱构建系统技术的标准,建
议在标准贯彻执行过程中,各单位应当起到协调以及推广的作用,召
开研讨会、协调会,在建设本单位的面向终身学习的知识图谱系统时
参照通用要求。
九、代替或废止现行有关标准的建议
无。
十、其他应予以说明的事项
无。
《面向终身学习的知识图谱构建系统规范》
团体标准编制组
2024年8月28日
ICS17.140.99
CCSL70
T/AHAI
安徽省人工智能协会团体标准
T/XXXX—XXXX
面向终身学习的知识图谱构建系统
技术规范
Technicalspecificationforknowledgegraphconstructionsystemoflifelonglearning
(征求意见稿)
在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。
XXXX-XX-XX发布XXXX-XX-XX实施
安徽省人工智能协会 发布
T/XXXX—XXXX
面向终身学习的知识图谱构建系统技术规范
1范围
本文件规定了面向终身学习的知识图谱构建系统的框架、技术要求、功能要求和非功能要求。
本文件适用于教育行业面向终身学习的知识图谱系统设计、开发与测试。
2规范性引用文件
GB/T5271.17-2010信息技术词汇第17部分数据库;
GB/T42131-2022人工智能知识图谱框架;
YD/T4044-2022基于人工智能的知识图谱构建技术要求。
3术语和定义
GB/T5271.17-2010界定的以及以下术语和定义适用于本文件。
3.1
终身学习lifelonglearning
终身学习是一种持续不断的学习过程,在人的整个生命周期中不断获取新知识、技能和经验,使个
体能够持续提升能力、拓展视野,并保持竞争力。
3.2
实体entity
存在或者可能存在的任何具体或抽象的事务,包括这些事物间的关联。
[来源:GB/T5271.17-2010,17.02.05]
3.3
实体类型entitytype
一组具有相同属性的实体集合的抽象。
[来源:GB/T42131-20223.3]
3.4
关系relation
具有相同属性的各实体值的集合以及这些属性。
[来源:GB/T5271.17-2010,17.04.01]
1
T/XXXX—XXXX
3.5
知识图谱knowledgegraph
一种以结构化的形式描述客观世界中概念、实体及其关系的方式。它将互联网的海量信息表达成更
接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
[来源:YD/T4044-2022,3.1]
3.6
精确率precision
评价机器学习模型效果的参数,反映的是在预测为正例的样本中,预测正确的比例。
注:计算公式为准确率=正确预测的正例样本数量/预测为正例的样本数量。
3.7
召回率recallrate
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年化学实验操作与原理认证试题集及答案
- 2026年注册心理咨询师专业发展题库及解析
- 2026年建筑结构与施工工艺理解试题
- 2026年市场营销策略产品推广方法练习题及答案解析
- 2026上半年云南事业单位联考曲靖市马龙区遴选3人 (含遴选计划)考试重点题库及答案解析
- 2026福建厦门港务物流有限公司社会招1人聘参考考试题库及答案解析
- 2026年金华职业技术学院单招综合素质考试备考题库含详细答案解析
- 2026年河源职业技术学院单招综合素质考试模拟试题含详细答案解析
- 2026年石家庄城市经济职业学院单招综合素质考试参考题库含详细答案解析
- 2026年黑龙江农垦科技职业学院单招职业技能考试模拟试题含详细答案解析
- 2025年华润守正评标专家考试题库及答案
- 高血压急症的快速评估与护理
- JJG 264-2025 谷物容重器检定规程
- 养老院设施审批流程
- 【9英一模】芜湖市2024-2025学年中考第一次模拟考试英语试卷
- 公司股东入股合作协议书
- 中国糖尿病防治指南(2024版)解读
- 2024年劳动保障监察和调解仲裁股年终总结
- 物业工程管理中的成本控制方法
- 2023年四川省绵阳市中考数学试卷
- 安徽省合肥市包河区2023-2024学年七年级下学期期中数学试卷
评论
0/150
提交评论