基于Web的比较式挖掘研究-北京大学计算机科学技术研究所_第1页
基于Web的比较式挖掘研究-北京大学计算机科学技术研究所_第2页
基于Web的比较式挖掘研究-北京大学计算机科学技术研究所_第3页
基于Web的比较式挖掘研究-北京大学计算机科学技术研究所_第4页
基于Web的比较式挖掘研究-北京大学计算机科学技术研究所_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

NLP&CC2013

跨语言情感分类评测万小军北京高校计算机科学技术探讨所评测背景情感分类随着网络评论的海量增长受到人们越来越多的重视。情感分类系统通常依靠于标注语料并结合分类算法来实现。然而,情感标注语料的分布在不同语言下是极不均衡的。因此在当前语言的标注语料缺乏时,利用其他语言的资源来实现情感分类已经成为了一个热门的探讨课题。2

评测任务介绍本任务要求参赛队伍在仅利用组织方供应的资源的前提下,对测试集内的每条中文评论进行倾向性分类(正面和负面)。评测资源包括:英文标注数据少量中文标注数据英文情感词典中文未标注语料3

评测数据英文标注数据英文标注数据为Amazon的用户评论,共包含3个不同领域:DVD,书籍,音乐。每个领域内有2000条正面评价和2000条负面评价。英文情感词典供应MPQA情感词典(Multi-PerspectiveQuestionAnsweringSubjectivityLexicon),共包含2789个正向词和6079个负向词。4

评测数据中文标注数据(验证数据)供应包含DVD,书籍,音乐三个领域的少量中文标注数据,正负例各20条。中文未标注数据供应包含DVD,书籍,音乐三个领域的大量中文未标注数据,正负例不均衡。5

评测数据测试数据来自Amazon的用户评论,DVD,书籍和音乐每个领域均包含4000条测试评论,其中正负向评论均为2000条。6

参赛状况本次评测共有7所单位参与,提交10组结果。7

评测结果评价指标本任务运用精确率(Accuracy)作为评价指标。其中#system_correct表示分类精确的评论数,system_total表示测试集内全部评论数。由于测试数据中三个领域的评论数目相同,因此不区分宏平均和微平均结果。8

评测结果本次评测中有四队伍的精确率达到70%以上,最高结果为77%。(表格中为每单位最好结果)9

单位编号DvdAccuracyMusicAccuracyBookAccuracyAverageAccuracy10.48050.50300.49780.493820.64730.66050.59800.635330.54300.52950.58930.553940.77730.75130.78500.771250.73900.73250.74230.737960.77200.74530.72400.747170.78330.75950.77000.7709论文录用状况本次评测中有以下两篇论文被NLP&CC2013分别录用为Oral和Poster论文Gui

Lin,

Xu

Ruifeng,

Xu

Jun,

Yuan

Li,

Yao

Yuanlin

and

Zhou

Jiyun.

基于混合模型的跨语言情感分析方法.哈尔滨工业高校深圳探讨生院智能计算中心炎祥

何,

续乐

刘,

陈,

松涛

and

菲菲

牛.

基于句法分析的跨语言情感分析.武汉高校计算机学院10

探讨与展望如何有效利用中文未标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论