自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范_第1页
自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范_第2页
自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范_第3页
自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范_第4页
自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(规范性)

自然语言处理系统功能有效性评估指标计算方法A.1自然语言理解功能有效性评估指标计算方法自然语言理解功能有效性的评估应包括但不限于下列内容:混淆矩阵:在二分类任务中,混淆矩阵是通过样本的采集和模型分类器的输出结果形成的2×2的矩阵,其中,左上角为真阳样本数(真实值为真,模型预测值为真,TP),左下角为假阳样本数(真实值为假,模型预测值为真,FP,统计学上的第二类错误),右上角为假阴样本数(真实值为真,模型预测值为假,FN,统计学上的第一类错误),右下角为真阴样本数(真实值为假,模型预测值为假,TN),如表A.1。表A.1二分类混淆矩阵真实值预测值PositiveNegativePositive真阳TP假阴FNNegative假阳FP真阴TN在多分类任务中,混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。第i行第j列的数值表示第i类数据被预测为第j类的数目。准确率:对于给定的数据集,正确分类的样本数占全部样本数的比率。 准确率=TP+TNTP+FP+TN+FN×100% (精确率:对于给定的数据集,被预测为正样本的集合中正样本的比率。 精确率=TPTP+FP×100% (召回率:对于给定的数据集,被正确预测的正样本占全部正样本的比率 召回率=TPTP+FN×100% (真阴率:对于给定的数据集,预测正确的负例样本占所有实际为负例样本的比率。 真阴率=TNTN+FP×100% 错误接受率:对于给定的数据集,预测错误的负例样本占所有实际为负例样本的比率。 错误接受率=FPFP+TN×100% (错误拒绝率:对于给定的数据集,预测错误的正例样本占所有实际为正例样本的比率。 错误拒绝率=FNTP+FN×100% (F1测度:精确率和召回率的调和平均值。 F1测度=2×精度×召回率精度多分类任务下的指标计算:在n分类任务中,根据表2的多分类混淆矩阵得到了所有种类的预测值分布情况,并基于这些数据计算多分类任务的准确率、精确率、召回率、F1测度等指标,在此基础上,进一步采用宏平均和微平均来评价整个多分类任务的功能有效性。 宏平均:对每一个类别分别计算统计指标值,即把每个类别视作二分类情况进行统计,然后再对所有类的结果取算术平均值。如: 宏准确率=1ni=1n 微平均:把所有类别的真阳、真阴、假阳、假阴类相加,计算类别预测的统计指标。如: 微准确率=TP+TNTP+FP+ROC曲线:ROC的横轴是假正率,代表所有负样本中错误预测为正样本的概率。ROC的纵轴是召回率,代表所有正样本中预测正确的概率。每次选取一个不同的正负判定阈值,就可以得到一组假正率和召回率,即ROC曲线上的一点。将正负判定阈值从0到1取不同的值时,可以得到一系列(假阳率,召回率)点。将这些点连接起来,就得到了ROC曲线。ROC曲线的对角线坐标对应于随机猜测,而坐标点(0,1)也即是左上角坐标对应理想模型。曲线越接近左上角代表模型的效果越好。ROC曲线如图A.1所示:图A.1ROC曲线AUC:即为ROC曲线下的面积,AUC越接近于1,分类性能越好。A.2自然语言生成功能有效性评估指标计算方法自然语言生成功能有效性的评估应包括但不限于下列内容:BLEU-N:假定人工给出的译文为reference,机器翻译给出的译文为candidate,c表示candidate中的单个句子,N-gram指包含N个连续单词的短句,N一般取1至4,Count(n-gram)表示c中n-gram的个数,Countclip(N-gram)表示c的某个N-gram在reference中的截断计数,即如果candidate中有多个相同的N-gram,只计算一次Countclip(N-gram)。 BLEU-N=c∈candidatesn-gram∈cCount编辑距离:定义leva,b(i,j) leva,b(i,j)=max(i,j)ifmin(i,j)=0minleva,bmAP:用C表示机器输出的答案集,A表示正确答案集,U表示所有测试用例,k表示每个案例生成的答案集中的第k个被检索出的答案句子,m表示案例的正确答案的句子数,n表示被检索出的句子数(答案集的大小),P(k)表示答案句的真实排名/模型给出的排名,rel(k)表示给出的排序k的句子是不是真实的答案句。 AveP(C,A)=k=1n(P(k)∙rel(k))min(m,n) mAP=u∈UAvePuU MRR:用Q表示评估集的问题总数,ranki表示对于第i个问题预测的答案集Ci中,第一个正确答案的序号,若其中不包含正确答案,则1ranki MRR=1Qi=1Q1ROUGE-N:假定人工给出的摘要为reference,机器给出的摘要为candidate,S表示reference中的句子,N-gram指包含n个连续单词的短句,Countmatch(N-gram)表示n-gram同时在S与candidate中出现的次数,Count(N-gram)表示S中N-gram的总数,ROGUE-N的计算与BLEU ROUGE-N=S∈referencen-gram∈SCountmatchROUGE-L:参考摘要和机器摘要分别简记为S与C,LCS(C,S)表示C与S的最长公共子序列,β为一个较大的参数。 RLCS=LCS(C,S)len(S) ( PLCS=LCS(C,S)len(C) ( ROUGE-N=(1+β2)EM:与基本事实答案精确匹配的百分比,用T表示与答案精确匹配的预测数量,N表示测试用例总数。 EM=TN×100% (JSA:对话状态中的(domain,slot,value)的准确率。 JSA=cN×100% (式中:c——(domain,slot,value)均正确的样本个数;N——总样本数。DialogueactF1:对话状态中的(communicativefunction,slot-valuepair)的F1测度。 DialogueactF1=2×式中:DP——(communicativefunction,slot-valuepair)的精确率;DR——(communicativefunction,slot-valuepair)的召回率。TFR:对话系统在N次测试中完成任务的次数比率。 TFR=cN×100%c——完成任务的次数;N——总样本数。

(资料性)

数据集THUCNews(话题分类,中文)来源:/数据量:训练集(500,010),开发集(50,010),测试集(10,000)注:使用了清华大学THUCTC。示例:{Label:体育Sentence:黄蜂vs湖人首发:科比带伤战保罗加索尔救赎之战新浪体育讯北京时间4月27日,NBA季后赛首轮洛杉矶湖人主场迎战新奥尔良黄蜂,此前的比赛中,双方战成2-2平,因此本场比赛对于两支球队来说都非常重要,赛前双方也公布了首发阵容:湖人队:费舍尔、科比、阿泰斯特、加索尔、拜纳姆黄蜂队:保罗、贝里内利、阿里扎、兰德里、奥卡福[新浪NBA官方微博][新浪NBA湖人新闻动态微博][新浪NBA专题][黄蜂vs湖人图文直播室](新浪体育)}RAFT(话题分类,英文)来源:https://huggingface.co/datasets/ought/raft数据量:训练集(550),测试集(28,712)示例:{Sentence:Noregionalsideeffectswerenoted."ID:0Label:2(notADE-related)}ChnSentiCorp(情感分析,中文)来源:/open-access/chnsenticorp数据量:积极(3,000),消极(3,000)注1:该数据集未对训练/验证/测试集作分割,建议在模型未采用其训练的情况下全部将其作为测试集。注2:该数据集包含多个子集,此处数据量为其包含6000条数据的子集。示例:{Sentence:房间每天都有免费水果赠送,这一点比较好.还有好多书籍和摄影著作摆在房间里,据说都是合庆董事长自己编写拍摄的,太有才了.Label:pos}SST-2(情感分析,英文)来源:/sentiment/index.html数据量:训练集(67,349),开发集(872),测试集(1,819)示例:{Sentence:wanttowatchifyouonlyhadaweektolive.Label:1}Chinese_Literature-NER-RE-Dataset(关系抽取,中文)来源:/lancopku/Chinese-Literature-NER-RE-Dataset数据量:训练集(695),验证集(58),测试集(84)注1:一条数据指一个文件中的全部文本,其中包含多个关系抽取标注。注2:该数据集包含命名实体识别与关系抽取任务,此处仅关注关系抽取部分。示例:{浪漫的涪江水,水的温柔,水的明净,水的亮丽,是在水的流淌之中实现的。涪江水滋润造就了两岸的形态,茂密的森林,肥沃的田园、土地,这都是你编制的。T8Location-Nominal4245两岸的T9Thing-Nominal4863茂密的森林,肥沃的田园、土地R1LocatedArg1:T9Arg2:T8}DocRED(关系抽取,英文)来源:/thunlp/DocRED/tree/master/data数据量:训练集(104,926),验证集(1,000),测试集(1,000)示例:{Sentence:[1]DwightTilleryisanAmericanpoliticianoftheDemocraticPartywhoisactiveinlocalpoliticsofCincinnati,Ohio....[3]HealsoholdsalawdegreefromtheUniversityofMichiganLawSchool.[4]TilleryservedasmayorofCincinnatifrom1991to1993.Head:DwightTilleryTail:UniversityofMichiganLawSchoolRelation:educatedatSupportingEvidence:1,3}Title2Event(事件抽取,中文)来源:https://open-event-hub.github.io/title2event/数据量:训练集(34,295),验证集(4,286),测试集(4,288)示例:{title:新华社推出微视频《永远的牵挂》event_trigger:推出event_triple:(新华社,推出,《永远的牵挂》)}WeiboNER(命名实体识别,中文)来源:/hltcoe/golden-horse数据量:训练集(1,350)验证集(270)测试集(270)示例:{Sentence:["普0","罗1","旺2","斯3","的0","薰0","衣1","草2"]Ner_tage:[0,8,8,8,16,16,16,16]}CoNLL2003SharedTask(命名实体识别,英文)来源:https://www.clips.uantwerpen.be/conll2003/ner/数据量:训练集(14,987)验证集(3,466)测试集(3,684)注:该数据集包含英语和德语,此处仅关注英语部分。示例:{Sentence:["Almost","all","German","car","manufacturers","posted","gains","in","registration","numbers","in","the","period","."]Ner_tags:[0,0,7,0,0,0,0,0,0,0,0,0,0,0]}C3(阅读理解,中文)来源:/pdf/1904.09679.pdf数据量:训练集(8,023),开发集(2,674),测试集(2,672)示例:{context:略question:第2段中,“黑压压一片”指的是:choice:[A.教室很暗B.听课的人多C.房间里很吵D.学生们发言很积极]answer:B}RACE(阅读理解,英文)来源:/pdf/1704.04683.pdf数据量:训练集(25,137),开发集(1,389),测试集(1,407)示例:{passage:略questions:[1):Thefirstpostagestampwasmade_.A.inEnglandB.inAmericaC.byAliceD.in1910]answer:A}TheMultitargetTEDTalksTask(机器翻译)来源:/~kevinduh/a/multitarget-tedtalks/数据量:训练集(170,341),验证集(1,958),测试集(1,982)注1:使用该数据集需要遵守BY-NC-ND协议,即承认TED的作者身份、非商业用途、不利用原始内容制作衍生作品。注2:该数据集包含多语种翻译,此处仅关注中英翻译部分。示例:{zh:我们将用一些影片来讲述一些深海里的故事。en:Andwe'regoingtotellyousomestoriesfromtheseahereinvideo.}LCSTS(自动摘要,中文)来源:/Article/show/139.html数据量:摘要训练集(2,400,591),人类评分训练集(10,666),测试集(1,106)示例:{text:居住证管理办法昨起公开征求意见,明确持有人可与当地户籍人口享有同等的免费接受义务教育等多项权利,并可逐步享受住房保障、养老服务、社会福利、社会救助、随迁子女在当地参加中高考等权利。summary:以后持居住证有望享有这些权利!}CNN/DailyMail(自动摘要,英文)来源:/K16-1028/数据量:训练集(287,227),验证集(13,368),测试集(11,490)示例:{Source:followingaretheleadingscorersintheenglishpremierleagueaftersaturday'smatches:##-alanshearer-lrbnewcastleunited-rrb-,jamesbeattie.Target:leadingscorersinenglishpremierleague}CMRC2018(机器问答,中文)来源:/pdf/1810.07366.pdf数据量:训练集(10,321),验证集(3,351),测试集(4,895)示例:{context:略question:《战国无双3》是由哪两个公司合作开发的?text:["光荣和ω-force","光荣和ω-force"]}TruthfulQA(机器问答,英文)来源:/pdf/2109.07958.pdf数据量:未分割(817)注:该数据集未对训练/验证/测试集作分割,建议在模型未采用其训练的情况下全部将其作为测试集,如果训练数据包含该数据集,则需采用其他数据集测试示例:{question:Whatpercentageofthebraindoesahumantypicallyuse?best_answer:Themajorityofahuman'sbrainisalmostalwaysactive}CivilComments(毒性检测,英文)来源:/pdf/1903.04561数据量:训练集(1,804,874),验证集(97,320),测试集(97,320)示例:{text:Wow,thatsoundsgreat. toxicity:0severetoxicity:0obscene:0threat:0insult:0identityattack:0sexualexplicit:0}

(资料性)

自然语言处理系统评价规范针对第6章给出的部分无法直接量化的测评指标,本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论