版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
测试文档以及测试文档对应的测试题目和标准2基于多种测评任务确定测评集,所述测评集包括每种测评任务对基于所述测评集中每种测评任务对应的所述测试文档,对待测评模型进基于每种测评任务对应的所述智能答案与所述标准答案之间的差异且所述目标评分基于每种测评任务对应的至少两个子评估基于每种测评任务包括的所述测试题目对应的至少两个子评估结果基于每种测评任务包括的所述测试文档对应的至少两个子评估结果基于每种测评任务对应的至少两个子评估结果,确定每种测评任务所述子评估结果包括具体评分值,所述基于每种测评任务对应的至少两个子评估结基于每种测评任务对应的至少两个子评估结果包括的具体评分值是否处于同一评分在第一测评任务对应的至少两个子评估结果包括的具体评分值处于同一评分档位且均不等于0的情况下,对所述第一测评任务对应的至少两个子评估结果包括的具体评分值在第一测评任务对应的至少两个子评估结果包括的具体评分值不处于同一评分档位且均不等于0的情况下,通过重新对所述第一测评任务进行评估得到所述第一测评任务对3在第一测评任务对应的至少两个子评估结果包括的具体评分值中存在具体评分值等于0的情况下,通过重新对所述第一测评任务进行评估得到所述第一测评任务对应的目标6.根据权利要求4或5所述的方法,其中,所述获取分别从多个测评因素评估出的所述第一测评任务包括的所述测试题目的多项评基于所述测试题目对应的多个测评因素下的所述多项评分数据,确根据所述第一测评任务包括的所述测试题目对应的评分结果基于所述第一测评任务对应的所述测试文档、所述测试题目以及根据每种测评任务对应的权重以及每种测评任务对应的所述目标评根据多个第一评估维度确定所述待测评模型的所述整体根据多个第二评估维度确定所述待测评模型的所述局部根据每种测评任务的特点,从外链知识库中选取与每种测评任务相关的所述测试文按照每种测评任务的测试题目示例,为每种测评任务包括的所述测试文基于每种测评任务对应的所述测试文档、所述测试题目和所述标4根据与每种测评任务相关的文档特征,从所述外链知识库中选取与第一确定模块,用于基于多种测评任务确定测评集,所述测应的测试文档以及所述测试文档对应的测试题目和标测试模块,用于基于所述测评集中每种测评任务对应的所第二确定模块,用于基于每种测评任务对应的所述智能答案与的两个子评估结果,且所述目标评分基于每种测评任务对应的至少两个子评估结果而确第三确定模块,用于基于每种测评任务对应的所述目标第一确定子模块,用于基于每种测评任务包括的所述测第二确定子模块,用于基于每种测评任务包括的所述测第三确定子模块,用于基于每种测评任务对应的至少两个子基于每种测评任务对应的至少两个子评估结果包括的具体评分值是否处于同一评分在第一测评任务对应的至少两个子评估结果包括的具体评分值处于同一评分档位且均不等于0的情况下,对所述第一测评任务对应的至少两个子评估结果包括的具体评分值5在第一测评任务对应的至少两个子评估结果包括的具体评分值不处于同一评分档位且均不等于0的情况下,通过重新对所述第一测评任务进行评估得到所述第一测评任务对在第一测评任务对应的至少两个子评估结果包括的具体评分值中存在具体评分值等于0的情况下,通过重新对所述第一测评任务进行评估得到所述第一测评任务对应的目标获取分别从多个测评因素评估出的所述第一测评任务包括的所述测试题目的多项评基于所述测试题目对应的多个测评因素下的所述多项评分数据,确根据所述第一测评任务包括的所述测试题目对应的评分结果调取模块,用于响应于第一测评任务对应的所述目标评第四确定模块,用于基于所述第一测评任务对应的所述测第四确定子模块,用于根据每种测评任务对应的权第五确定子模块,用于根据多个第一评估维度确定所述待测第六确定子模块,用于根据多个第二评估维度确定所述待测选取子模块,用于根据每种测评任务的特点,从外链知识库中选取与每种测6生成子模块,用于按照每种测评任务的测试题目示例,为每种试文档生成所述测试题目以及所述测试题目对应的所述标准第七确定子模块,用于基于每种测评任务对应的所述测根据与每种测评任务相关的文档特征,从所述外链知识库中选取与所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被使所述计算机执行根据权利要求1_13中处理器执行时实现根据权利要求1_13中任一项7[0002]随着时间的推移,基于外链知识库的大模型服务在医药领域的应用越来越广标评分基于每种测评任务对应的至少两个子评估结应的测试文档以及测试文档对应的测试题目和标[0012]第二确定模块,用于基于每种测评任务对应的智能答案[0017]存储器存储有可以被至少一个处理器执行的指令,指令8[0025]图3是根据本公开实施例的基于外链知识库的大模型预训练任务分类及题目制定[0026]图4是根据本公开实施例的基于外链知识库的大模型预训练的评分标准与任务统[0028]图6是根据本公开实施例的基于外链知识库的大模型预训练评分度量维度示意9就是评分标准的不一致性和评分流程的不规范性,这导致了大模型的评估与训练处于发[0035]本公开为了至少部分地解决上述问题以及其他潜在问题[0036]本公开实施例提供了一种模型测评方法,图1是根据本公开实施例的模型测评方施、结局、研究类型(PopulationInterventionComparisonOutcomeStudydesign,抽取五类测评任务分别制定8篇测试文档,每篇测试文档制定10道测试题目和10个标准答[0060](4)本篇试验的研究结果是什么?/whatresearchmethodswereemployedin明,不作为对不同种测评任务对应的测试题目包括的全部可能的类型数量和内容的限定,答案与标准答案之间的差异给出针对每种测评任务的估结果是第i个目标对象基于测试题目y的智能答案y和标准答案y之间的差异i确定出的,第i个目标对象比较智能答案y和标准答案y后得到该差异i;获取第j个目标对象确定出的第j个子评估结果,该第j个子评估结果是第j个目标对象基于智能答案y和标准答案y之间[0089]示例性地,由Q个目标对象基于待测评模型的智能答案与标准答案之间的差异进标对象可以从第五个维度得到第九子评估结果,即基于第五测评任务得到第九子评估结种测评任务对应的至少两个子评估结果;基于每种测评任务对应的至少两个子评估结果,的至少两个子评估结果包括的具体评分值处于同一评分档位且均不等于0的情况下,对第分档位且均不等于0的情况下,对第一测评任务对应的至少两个子评估结果包括的具体评的至少两个子评估结果包括的具体评分值不处于同一评分档位且均不等于0的情况下,通[0109]示例性地,若第一测评任务对应有两个子评估结果(子评估结果1和子评估结果评分档位且均不等于0的情况下,通过重新对第一测评任务进行评估得到第一测评任务对的至少两个子评估结果包括的具体评分值中存在具体评分值等于0的情况下,通过重新对[0112]示例性地,若第一测评任务对应有两个子评估结果(子评估结果1和子评估结果评分值等于0的情况下,通过重新对第一测评任务进行评估得到第一测评任务对应的目标别从测评因素1和测评因素2对该测试题目进行评分,得到测评因素1下的评分数据12和测[0137]如此,响应于第一测评任务对应的目标评分低于第一测[0168]图2示出了根据本公开实施例的基于外链知识库的大模型预训练测评流程图,如[0177]对医疗大模型进行预训练时,使用预训练任务数据集对务四为多篇文档总结,该任务五为文档详细信息抽取。该PICOS抽取任务可以包括:目标[0181]图4示出了基于外链知识库的大模型预训练的评分标准与任务统计维度框架图,有小部分要点遗漏和答案存在少量发散内容,但存在能通过阅读文档内容而发现的错误、[0193]图6是根据本公开实施例的基于外链知识库的大模型预训练评分度量维度示意终评分0的题目+1分*最终评分为1分题目数+2分*最终评分为2分题目数+3分*最终评分为3分题目数+评分1分题目数+评分2分题目均不等于0的情况下,对第一测评任务对应的至少两个子评估结果包括的具体评分值进行且均不等于0的情况下,通过重新对第一测评任务进行评估得到第一测评任务对应的目标[0210]本领域技术人员应当理解,本公开实施例的模型测评装标评分基于每种测评任务对应的至少两个子评估结[0224]如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(Read_OnlyMemory,ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(Random因特网的计算机网络和/或各种电信网络与其他设备交换信元901的一些示例包括但不限于中央处理单元CPU、图形处理单元(GraphicsProcessing部可以经由ROM902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加路系统、现场可编程门阵列(FieldProgrammableGateArray,FPGA)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、专用标准产品(Application_一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解[0228]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(Erasable面或者该网络浏览器来与此处描述的系统和技术的实施方式交互),或者包括这种后台部字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年采油vr安全培训内容核心要点
- 2026年建筑安全隐患培训内容重点
- 2026年数字政府项目建设协议
- 2026年女工安全培训内容重点
- 阿坝藏族羌族自治州理县2025-2026学年第二学期五年级语文期中考试卷(部编版含答案)
- 红河哈尼族彝族自治州蒙自县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 2026年知识体系军品试验安全培训内容
- 海北藏族自治州海晏县2025-2026学年第二学期五年级语文第六单元测试卷(部编版含答案)
- 2026年交通安全教育培训内容重点
- 石嘴山市大武口区2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 非遗泥塑传承与创新:传统色彩·现代技艺·实践探索【课件文档】
- 汽车行业无人配送专题报告:无人配送应用前景广阔国内迎来加速期-
- 城管队伍建设考核制度
- 卫生院中层干部任用制度
- 2026年高级经济师宏观经济学实务操作题集
- 前程无忧在线测试题库及答案行测
- HG-T 2521-2022 工业硅溶胶介绍
- 小学“英语单词达人”比赛活动方案
- 月施工现场安全检查记录表
- GA/T 1971-2021法医精神病学精神检查指南
- 《健康教育学》第五章-健康心理课件
评论
0/150
提交评论