

下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、什么是查准率和查全率 ( precision and recall ) GooSeeker什么是查准率和查全率( precision and recall )查准率( Precision )和查全率( recall )应用在信息处理领域的多个子领域。信息检索定义查准率和查全率用来衡量搜索引擎的性能查全率=(检索出的相关信息量 /系统中的相关信息总量) *100%查准率=(检索出的相关信息量/检索出的信息总量)*100%查全率是衡量检索系统和检索者检出相关信息的能力,查准率是衡量检索系统和检索者拒绝非相关信息的能力。实验证明,在查全率和查准率之间存在着相反的相互依赖关系-如果提高输出的查全率,
2、就会降低其查准率, 反之亦然。 局限性查全率的局限性主要表现在:查全率是检索出的相关信息量与存储在检索系统中的全部相关信息量之比,但系统中相关信息量究竟有多少一般是不确知的,只能估计;另外,查全 率或多或少具有“假设”的局限性,这种“假设”是指检索出的相 关信息对用户具有同等价值,但实际并非如此,对于用户来 说,信息的相关程度在某种意义上比它的数量重要得多。 查准率的局限性主要表现在:如果检索结果是题录式而非全 文式,由于题录的内容简单,用户很难判断检索到的信息是 否与课题密切相关,必须找到该题录的全文,才能正确判断 出该信息是否符合检索课题的需要;同时,查准率中所讲的 相关信息也具有“假设”
3、的局限性。信息提取 查全率和查准率还可以应用到信息提取子领域,用于衡量信 息提取器的性能。查全率( Recall )是测量被正确提取的信息的比例,而查准 率( Precision )用来测量提取出的信息中有多少是正确的。 计算公式如下( P 是查准率, R 是查全率): 查准率 = 提取出的正确信息条数 / 提取出的信息 条数 查全率 = 提取出的正确信息条数 / 样本中的信息条数 两者取值在 0 和 1 之间,数值越接近 1 ,查全率或查准率就 越高。除此两指标以外,还有 F 值评价方法,是查全率和查准率的 加权几何平均值:F = (bA2 + 1) * PR / bA2P + R 其中:b
4、 是一个预设值,是 P和 R 的相对权重,b 大于 1 时 表示 P 更重要, b 小于 1时表示 R 更重要。通常设定为 1 , 表示二者同等重要。这样用 F 一个数值就可看出系统的好坏, F 值也是越接近 1 越好。文本分类 在文本分类领域,查准率和查全率还可以用来衡量文本分类 器的性能。例如,在观点挖掘( opinion mining )领域,衡量 分类器识别出正面观点( positive opinion )的性能:查准率 = 识别出的真正的正面观点数 / 所有的识 别为正面观点的条数查全率 = 识别出的真正的正面观点数 / 样本中所有的真正 正面观点的条数 详细解释可以参看维基百科条目
5、:In a statistical classification task, the Precision for a class is thenumber of true positives (i.e. the number of items correctly labeledas belonging to the positive class) divided by the total number ofelements labeled as belonging to the positive class (i.e. the sum oftrue positives and false po
6、sitives, which are items incorrectlylabeled as belonging to the class). Recall in this context is definedas the number of true positives divided by the total number ofelements that actually belong to the positive class (i.e. the sum oftrue positives and false negatives, which are items which were no
7、tlabeled as belonging to the positive class but should have been).In a classification task, a Precision score of 1.0 for a class C meansthat every item labeled as belonging to class C does indeed belongto class C (but says nothing about the number of items from classC that were not labeled correctly
8、) whereas a Recall of 1.0 meansthat every item from class C was labeled as belonging to class C(but says nothing about how many other items were incorrectlyalso labeled as belonging to class C). 在观点挖掘领域还有一个有趣的应用(参看 Bing Liu, Sentiment Analysis and Subjectivity )One of the bottlenecks in applying sup
9、ervised learning is themanual effort involved in annotating a large number of trainingexamples. To save the manual labeling effort, a bootstrappingapproach to label training data automatically is reported in 80, 81.The algorithm works by first using two high precision classifiers(HP-Subj and HP-Obj)
10、 to automatically identify some subjectiveand objective sentences. The high-precision classifiers use lists oflexical items (single words or n-grams) that are good subjectivityclues. HP-Subj classifies a sentence as subjective if it contains twoor more strong subjective clues. HPObj classifies a sentence asobjective if there are no strongly subjective clues. These classifierswill give very high precision but low recall. The extracted sentencesare then added to the training data to learn patterns. The patterns(which form the subjectivity classifiers in the next iterat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园教育资源共享合作合同(2篇)
- 《机器学习技术应用》课件-任务1-2 校园消费数据统计分析
- 2025商业地产租赁合同怎样写
- 数字经济模式对企业资源优化及效率影响之研究
- 浙江省台州市十校2024-2025学年高一下学期4月期中考试语文试题(含答案)
- 胶质母细胞瘤的临床护理
- 幼小衔接班英语教学设计
- 青岛版五年级数学下册第二单元“分数的基本性质”教学设计教学设计
- 2025液压旋挖钻机钻孔施工合同范本
- 2025年心理咨询师之心理咨询师基础知识考试题库
- 现代风险导向审计在天衡会计师事务所的应用研究
- JGJ107-2016钢筋机械连接技术规程
- 妇科医生进修汇报课件
- 动态分析与设计实验报告总结
- 2024年江苏省泰州市海陵区中考一模数学试卷
- 从汽车检测看低空飞行器检测发展趋势
- DB32T 4740-2024 耕地和林地损害程度鉴定规范
- 五一节假日安全生产培训
- 中考英语二轮复习课件:中考解题技巧-读写综合
- 《铁路基本安全知识》课程标准
- 三年级下册口算练习1000道附答案
评论
0/150
提交评论