《数据标注实训(中级)》 教案ch06 关系标注实训_第1页
《数据标注实训(中级)》 教案ch06 关系标注实训_第2页
《数据标注实训(中级)》 教案ch06 关系标注实训_第3页
《数据标注实训(中级)》 教案ch06 关系标注实训_第4页
《数据标注实训(中级)》 教案ch06 关系标注实训_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据标注实训(中级)》课程教案课题:关系标注实训教学目的:识别实体间的逻辑关系类型(如抑制/促进);标注生物文本中的复杂关系网络;构建结构化知识图谱支持科研分析。课型:新授课课时:本章安排8个课时。教学重点:重点:标注生物文本中的复杂关系网络。教学难点:难点:构建结构化知识图谱支持科研分析。教学过程:教学形式:讲授课,教学组织采用课堂整体讲授和分组演示。教学媒体:采用启发式教学、案例教学等教学方法。教学手段采用多媒体课件、视频等媒体技术。板书设计:本课标题关系标注实训课次4授课方式理论课□讨论课□习题课□其他□课时安排8学分共2分授课对象普通高等院校学生任课教师教材及参考资料1.《数据标注实训(中级)》;电子工业出版社。2.本教材配套视频教程及学习检查等资源。3.与本课程相关的其他资源。教学基本内容教学方法及教学手段课程引入药物研发中"蛋白质如何相互作用"?关系标注揭示隐藏逻辑!本章以生物关系为例,学习实体间逻辑关联的标注方法,通过构建知识图谱,助力医疗AI发现潜在规律。参考以下形式:1.衔接导入2.悬念导入3.情景导入4.激疑导入5.演示导入6.实例导入7.其他形式6.1认识关系标注关系标注是NLP(自然语言处理技术)中一个较为常见的任务,它常用于关系抽取技术,也可称之为关系抽取标注。其主要目的是标注句子中实体对之间所隐含的语义关系,即在实体识别的基础上来确定文本中实体对之间的关系类别,并做成结构化的数据。例如,郭子仪,字子仪,华州郑县人。从这句话中,我们可以判断出人物郭子仪的出生地是华州郑县,因此可以标注为“郭子仪(出生地)华州郑县”,这便是一条完整的关系。在关系标注中,我们首先需要明确一个概念,三元组。三元组是知识图谱中知识表示的基本单位。就关系标注而言,一条关系便是一个三元组。三元组中包括三个要素,即头实体、尾实体、关系,也有人称为主体、客体、关系。例如在上一段的例子中,“郭子仪(出生地)华州郑县”便是一个三元组,其中“郭子仪”是头实体,“华州郑县”是尾实体,“出生地”便是头实体与尾实体之间的关系。当然,三元组的呈现形式不仅仅是举例的这一种,还可以有很多种形式,例如json格式。甚至是我们日常使用的Excel表格中三个相关联的字段也可以被视为一个三元组。此外,特别需要了解的是,关系的表示是有固定方向的。通常情况下,我们对于一个三元组的理解可以是“头实体是尾实体的关系”,也可以理解为“头实体的关系是尾实体”。例如,上文提到的三元组“郭子仪(出生地)华州郑县”的表示方向即为“头实体郭子仪的出生地是尾实体。”在实际标注过程中,要确保同一类关系用相同的方向来表示,从而确保数据表示的一致性,以免因此给模型训练带来麻烦。6.2关系标注应用场景关系标注的应用场景比较广泛,比较常见的有智慧金融、知识图等。1.智慧金融2.智慧司法3.智慧医疗4.智能教育5.智能制造6.3生物关系标注规范(一)任务目标本次标注的任务目标为:依据所给文本的意思来分析文本中是否蕴含指定的关系,并标出关系所涉及的三元组,即头实体、尾实体及两实体之间的关系类别。实体是指实际存在的物体,在数据标注中,实体必须是明确的、已经存在的物体。(二)背景知识生物分类法:生物分类法是用生物分类学方法来对生物的物种分组和归类的方法。如表6-1所示,名称代表的范围是从上到下、从左到右依次变小。其中同一层分级的亚类、下类的范围比下一层级的一般类的范围大。(三)基本标注原则本次标注任务应该按照下列基本标注原则来实施。(1)只能根据所给句子表达的信息来判断给定实体对之间的关系,如果句子中没有明确表达,则不需要根据常识或背景去多加判断,直接确认提交即可。例如,黄花风铃木为巴西国花。不用标注巴西为分布区域,但是只要说明了其在哪里被发现或是哪里特有的物种,就可以标注。(2)在标注过程中所标注的实体必须是明确的,不能是泛指的。例如,“哺乳动物都是脊索动物门”。句子中没有说明该哺乳动物是哪一个或哪一小类确定的动物,所以不需要标注。例如,猴类、犬类、虎类等需要标注,哺乳动物、卵生动物等不需要标注。(3)未实际断定的关系不需要标注,如“据说”或“推测”出的结论。(4)如果有多个有范围联系的实体,则按照由大到小的顺序出现,需要整体标注到范围最小处,如“蓝猫属于哺乳纲猫科猫属”。此时关系需要标注,“蓝猫”生物分类-分类“哺乳纲猫科猫属”,“哺乳纲”生物分类包含“猫科”,“哺乳纲”生物分类包含“猫属”,“猫科”生物分类包含“猫属”。如果分开出现或有标点符号隔开,则只选择范围最小的实体,如“家猫属于哺乳纲、猫科”,此时关系只需要标注“家猫”生物分类-分类“猫科”,“哺乳纲”生物分类包含“猫科”。(5)关于杂交标签,子标签范围依次是杂交亲本>杂交父本=杂交母本。在标注时,我们要注意当3个要素同时出现时,以杂交父本和杂交母本为主标注,不用标注杂交亲本。其中需要分别标注杂交父本及杂交母本。如“西门塔尔杂交牛的杂交亲本是西门塔尔公牛和母黄牛。”从文本可知,西门塔尔公牛是西门塔尔杂交牛的父系,也就是杂交父本,母黄牛是西门塔尔杂交牛的母系,也就是杂交母本,句中也出现了杂交亲本,等于三个要素同时出现,不标注杂交亲本的关系,只标注“西门塔尔公牛杂交-杂交父本西门塔尔杂交牛”、“母黄牛杂交-杂交母本母黄牛”两个关系。(四)具体说明(五)注意事项在任务实施中,需要注意以下事项。(1)如果文中说明是古文献的分类方法,则不需要标注。例如,“《说文解字》中记载:茱萸为茮(按:同“椒”)属”,这里的茮属不需要标注。但是古老物种的现代分类方法需要标注。例如,驴是6000年前古埃及人由非洲野驴(E.africanus)驯化而来的。这里的非洲野驴及学名都是现代说法。 (2)标注时,实体只标注现实存在过的动植物;如出现“龙”则不标注;出现“恐龙”则标注。(3)如果题目中同时出现了古代地名和注释的现代地名,则只需要标注现代地名。例如,中国四川省万县(今重庆市万州县),只需要标“重庆市万州县”。如果文本中出现多个分布区域但他们之间有大小关系,只需要标注范围最精确的一级,如遇到音译地名如有注释则标注注释。(4)在标注时只需要标注实体核心词,不需要标注不相干的其他词。例如,狸花猫原产于中国地区。此处原产地应为“中国”,不要标注为“中国地区”。如果是中国大陆、黄河流域等,就需要整体标注。(5)不需要标注方位词,如北方、华中、东北等,如果前面有确定的城市、国家限定,则标注该城市、国家即可。如出现“西藏南部喜马拉雅山”这种由大到小,但是中间夹杂方位词的,需要整体标注。(6)需要整体标注“小狗”与“小花豹”等说法。如果文中同时出现同一物种的不同说法,如同时出现“大雁”与“大雁鸟”,则标注描述最详细的“大雁鸟”。(7)如果“濒危”及其他保护等级在文中表达为“濒危状态”,则仅需要标注“濒危”字样。(8)法规、通知、名录、论文等文章形式不算作相关作品,相关作品主要范围为艺术文学、期刊类作品,不需要标注书名号。(9)“原种角堇”中仅标注角堇。(10)不要将学名及别名的第一层的括号标注进来,但可以标准学名本身自带的标点符号,如香堇菜(ViolaOdorataL.)可以标注学名为“ViolaOdorataL.”。(11)别名只标注中文别名。(12)如果语句中交代了该物种取自、栽种在哪个明确区域,则标注该物种和区域为分布区域关系,全球分布则标注全球。说明哪个国家特有即可标注原产地关系,注意“我国”不标注。(13)当文本中的某一实体多次出现时,仅标注第一次出现的。(14)当出现××科××属这样的结构,默认为文中交代了包含的关系,需要标注。(15)对于杂交父本、杂交亲本等,如果动植物名称前有形状限制(如“深紫色小花三色堇”),则需整体标注。(16)如文本中,交代两种生物名称,未交代是否是生物范围,按“生物分类—分类”标注,标注方向为,小范围—大范围。例如,东北虎是虎的一员。标注为,东北虎虎。(17)动物的停留地、栖息地通常被称为动物的生境,生境是指动物在其中生活和繁殖的环境,包括它们的栖息地、活动范围、觅食区域、隐蔽场所、繁殖区域等。因此,生境是动物分布区域的一个重要组成部分。动物的停留地、栖息地可以算作动物的分布区域。(六)系统使用1.进入任务实施页面(1)进入实训练习页面。当前实训平台已将该页面设置为学员端默认首页,因此登录系统后即可自动进入实训练习页面。(2)进入任务列表页面。进入实训练习页面后,单击页面上关系标注模块下的“进入学习”链接,如图6-7所示,进入任务列表页面。(3)进入关系标注实施页面。在任务列表页面单击任意一个任务模块下的“进入学习”按钮。2.标注页面操作详解在本任务中,如果想要针对一个题完成标注操作,则需要用到如下按钮和步骤,按顺序说明如下。(1)标注任务领取。在本系统中,打开任务实施页面后,会默认加载第一条题目,因此不需要额外做任务领取操作。此时,题目列表中的第一条记录默认呈现出选中状态。(2)选择实体。在文本展示区,按住鼠标左键拖曳选中的对应实体,释放鼠标左键,在对应实体上右击,并在弹出的快捷列表中选择“粘贴到实体值1”命令或“粘贴到实体值2”命令,在操作区的灰色框内会显示所选取的文本。重复操作会覆盖上一次的结果。右击选中的文本后,在弹出的列表中选择相应实体值,实体值框内生成文本。(3)实体位置互换。如果实体值位置选反,则单击“互换”按钮调换位置。(4)选择关系类型。在操作区的“关系下拉列表”中选择对应的关系类型。(5)确定或清空关系。选择完实体和对应的关系后,单击“确定”按钮。如果错误比较多,则单(6)修改或删除关系类型。如果出现错标或由于其他原因需要修改/删除单个关系类型,则可以在关系保存区的关系类型上右击,在弹出的快捷菜单中选择“删除”命令或“修改”命令。选择“修改”命令后,操作区会回到单击“确定”按钮前的状态。(7)保存当前标注结果。单击页面下方的“保存”按钮可以保存当前标注结果。“保存”按钮主要用于保存已经标注的结果,以确保标注中的结果不会丢失。单击“保存”按钮后,该按钮会变成橙色,提示保存成功。(8)提交当前任务。单击“提交”按钮即可提交当前任务。单击“提交”按钮后,会呈现出参考答案与作答结果对比页面。明确给出错误点提示,以供学习者对比参考。(9)切换到下一题。单击“提交”按钮后,单击参考答案与作答结果对比页面中的按钮手动换到下一题。对于已提交的题目,不能再修改。(10)查看答

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论