2026年人工智能训练师实体标注实操考核试题及答案_第1页
2026年人工智能训练师实体标注实操考核试题及答案_第2页
2026年人工智能训练师实体标注实操考核试题及答案_第3页
2026年人工智能训练师实体标注实操考核试题及答案_第4页
2026年人工智能训练师实体标注实操考核试题及答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年人工智能训练师实体标注实操考核试题及答案一、单项选择题(每题2分,共20分)1.在实体标注任务中,下列哪一项最符合“LOC”实体的定义?A.苹果公司发布了新款手机B.长江发源于青藏高原C.张三在北京大学任教D.2025年GDP增长5%答案:B解析:LOC表示地理位置实体,长江是地理名称,符合定义。2.当标注“2026年人工智能大会将于4月15日在深圳举行”时,“4月15日”应标注为:A.DATEB.TIMED.EVENTD.NUM答案:A解析:DATE用于表示具体日期,格式为“年-月-日”或“月-日”。3.在BIO标注体系中,若“北京市”被标注为“B-LOCI-LOC”,则“北京市海淀区”应标注为:A.B-LOCI-LOCI-LOCB.B-LOCB-LOCI-LOCC.B-LOCI-LOCB-LOCD.B-LOCI-LOCI-LOCI-LOC答案:A解析:海淀区属于北京市,整体为同一LOC实体,连续使用I-LOC。4.下列关于嵌套实体的说法正确的是:A.嵌套实体无法在同一标注体系中共存B.嵌套实体必须使用多层标注框架C.嵌套实体只能通过规则抽取D.嵌套实体在BIO体系中无法表示答案:B解析:嵌套实体如“北京大学”中的“北京”是LOC,“北京大学”是ORG,需多层框架。5.在医疗文本中,“阿莫西林500mg”中“500mg”应标注为:A.DOSAGEB.DRUGC.FREQUENCYD.ROUTE答案:A解析:DOSAGE表示药物剂量,单位mg明确为剂量。6.当模型在验证集上出现“过拟合”现象时,最优先考虑的标注侧干预措施是:A.增加训练集标注量B.降低学习率C.清洗标注噪声D.增加dropout答案:C解析:标注噪声会误导模型,清洗噪声是最直接干预。7.在中文分词与实体标注联合任务中,若“上海市”被错误切分为“上海/市”,会导致:A.实体边界错误B.实体类型错误C.无影响D.仅影响分词指标答案:A解析:切分错误导致LOC实体边界断裂,后续标注随之错误。8.使用主动学习策略时,优先级最高的样本特征是:A.标注置信度高B.模型预测熵最大C.样本长度最长D.样本重复出现答案:B解析:熵最大表示模型最不确定,信息增益最大。9.在序列标注任务中,CRF层相对Softmax的主要优势是:A.训练速度更快B.能建模标签转移概率C.参数更少D.支持多标签分类答案:B解析:CRF通过转移矩阵约束标签序列合法性。10.当标注规范出现版本更新时,以下哪项做法最合理?A.直接覆盖旧数据B.重新标注全部数据C.使用版本映射表进行兼容标注D.忽略旧数据答案:C解析:版本映射表可保持历史数据可用性,减少重复劳动。二、多项选择题(每题3分,共15分)11.以下哪些属于典型的实体标注一致性检查方法?A.双人独立标注后计算KappaB.使用规则脚本自动扫描边界错误C.训练小模型预测标注错误D.随机删除部分标签看模型波动答案:A、B、C解析:D属于对抗扰动实验,非一致性检查。12.在标注平台设计时,以下哪些功能有助于提升标注效率?A.快捷键映射B.实体标签自动补全C.预标注模型联动D.强制每次标注提交后重启页面答案:A、B、C解析:D会降低效率。13.以下哪些情况可能导致实体标注的类别歧义?A.“苹果”既可指公司也可指水果B.“小米”既可指公司也可指谷物C.“2026”既可指年份也可指编号D.“张三”在文中指代不明答案:A、B、C解析:D属于指代消解问题,非类别歧义。14.在医疗实体标注中,以下哪些属于需要保护的PHI信息?A.患者姓名B.住院号C.疾病名称D.医生姓名答案:A、B解析:疾病名称与医生姓名通常不视为PHI。15.以下哪些指标可直接用于评估实体标注质量?A.精确率B.召回率C.F1值D.AUC值答案:A、B、C解析:AUC用于二分类,不直接适用于序列标注。三、判断题(每题1分,共10分)16.在BIOES体系中,单字实体应使用S标签。答案:√17.标注人员理解力差异不会对模型效果产生影响。答案:×解析:噪声标注会直接降低模型性能。18.使用预训练语言模型做预标注时,无需任何人工校验。答案:×解析:预标注仍需人工校验以保证质量。19.实体标注规范必须覆盖所有可能出现的语言现象。答案:×解析:规范需迭代,无法一次性覆盖全部。20.在多人协同标注时,锁定机制可防止标注冲突。答案:√21.对于时间表达式“下周五”,应标注为DATE类型。答案:√22.标注时若发现文本本身存在错别字,应直接修改原文。答案:×解析:原文不可修改,应在备注中说明。23.在嵌套实体场景下,扁平化标注会损失信息。答案:√24.使用CRF后,标签序列的合法性一定100%满足。答案:×解析:CRF仅降低非法序列概率,非绝对。25.实体标注的粒度越细,模型效果一定越好。答案:×解析:粒度过细可能导致数据稀疏。四、简答题(每题10分,共30分)26.给定句子:“2026年4月15日,李医生在上海市浦东新区人民医院为张三实施了腹腔镜胆囊切除术。”请按照以下规范完成实体标注:规范:PER:人名ORG:机构LOC:地点DATE:日期PROC:医疗手术DRUG:药品DOSAGE:剂量要求:采用BIO体系,写出标注序列(字与标签用/分隔,每字一行)。答案:2026/DATE-B年/DATE-I4/DATE-I月/DATE-I15/DATE-I日/DATE-I,/O李/PER-B医/PER-I生/PER-I在/O上/LOC-B海/LOC-I市/LOC-I浦/LOC-B东/LOC-I新/LOC-I区/LOC-I人/ORG-B民/ORG-I医/ORG-I院/ORG-I为/O张/PER-B三/PER-I实/O施/O了/O腹/PROC-B腔/PROC-I镜/PROC-I胆/PROC-I囊/PROC-I切/PROC-I除/PROC-I术/PROC-I。/O解析:严格按照BIO体系,机构与地点嵌套时以最大实体优先。27.某标注团队对5万条医疗记录进行双人标注,计算得到Kappa=0.81。请解释该值的含义,并给出后续质量提升的三条具体措施。答案:Kappa=0.81表明标注一致性达到“几乎完美”水平(0.8~1.0)。但仍存在19%的期望不一致风险。提升措施:1.对Kappa低于0.8的实体类型(如PROC)组织专项讨论,细化边界规则并补充正例与反例。2.引入adjudication环节:对不一致样本由第三方专家仲裁,形成黄金标准并反哺规范。3.利用主动学习:训练轻量模型识别低置信样本,优先推送人工复核,减少随机抽检成本。28.简述在低资源场景下如何利用词典+规则+弱监督完成中文药品名实体标注,并给出一条可运行的Python伪代码示例(含正则)。答案:策略:1.构建药品词典,含通用名、商品名、别名;2.设计正则捕捉“中文+英文+数字”组合,如“阿莫西林胶囊500mg”;3.使用弱监督:以词典匹配结果作为远程标签,训练BiLSTM-CRF,再迭代自训练。伪代码:```pythonimportre,jsonfromcollectionsimportdefaultdictdrug_dict=set(json.load(open('drug_dict.json')))rule=repile(r'[\u4e00-\u9fa5]+(?:[A-Za-z]+)?(?:\d+(?:\.\d+)?\smg|g|ml)?')rule=repile(r'[\u4e00-\u9fa5]+(?:[A-Za-z]+)?(?:\d+(?:\.\d+)?\smg|g|ml)?')defweak_label(sent):labels=['O']len(sent)labels=['O']len(sent)forminrule.finditer(sent):span=m.group()ifspanindrug_dict:start,end=m.span()labels[start]='B-DRUG'foriinrange(start+1,end):labels[i]='I-DRUG'returnlist(sent),labels```解析:正则提供高召回,词典提供精度,弱监督缓解无标注问题。五、综合实操题(25分)29.任务描述:给定一段用户生成的医疗咨询文本(已脱敏),请完成以下子任务:文本:“医生,我老妈今年68,有高血压史,上周开始吃苯磺酸氨氯地平片5mg,每天早上一次,但最近三天出现脚踝肿,是不是副作用?要不要换药?”子任务:1.按照BIO体系完成实体标注,标签集为{PER,AGE,DISEASE,DRUG,DOSAGE,FREQUENCY,SYMPTOM};2.指出其中存在的潜在嵌套实体,并说明如何在多层框架中表示;3.假设标注团队收到反馈:模型将“脚踝肿”错误识别为“SYMPTOM”而医生认为是“ADVERSE_DRUG_EVENT”,请给出规范修订建议与重新标注流程。答案:1.标注序列(字/标签):老/O妈/O今/O年/O6/AGE-B8/AGE-I,/O有/O高/DISEASE-B血/DISEASE-I压/DISEASE-I史/O,/O上/O周/O开/O始/O吃/O苯/DRUG-B磺/DRUG-I酸/DRUG-I氨/DRUG-I氯/DRUG-I地/DRUG-I平/DRUG-I片/DRUG-I5/DOSAGE-Bm/DOSAGE-Ig/DOSAGE-I,/O每/FREQUENCY-B天/FREQUENCY-I早/FREQUENCY-I上/FREQUENCY-I一/FREQUENCY-I次/FREQUENCY-I,/O但/O最/O近/O三/O天/O出/O现/O脚/SYMPTOM-B踝/SYMPTOM-I肿/SYMPTOM-I,/O是/O不/O是/O副/O作/O用/O?/O要/O不/O要/O换/O药/O?/O2.嵌套实体:“苯磺酸氨氯地平片5mg”整体为DRUG,内部“5mg”为DOSAGE;多层框架中第一层标注DRUG跨度,第二层在DRUG内部再标注DOSAGE,使用不同层级编号区分。3.规范修订与流程:a.在标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论