已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于树核函数的人物关系抽取研究,彭成 钱龙华 周国栋 报告人:彭成 苏州大学自然语言处理实验室 /,提纲,引言 相关工作 研究动机 我们的方法 实验结果与分析 下一步工作,引言,人物关系抽取 人物关系抽取是实体关系抽取的一个重要分支,旨在抽取人名实体之间的各种社会关系。 例如,关系实例“朱镕基会见克雷蒂安”中,存在着社会交互关系(CONTACT)。 研究意义 WEB给我们提供了一个巨大的信息库,其中隐藏着大量用户感兴趣的实体及其相互关系。 人物关系抽取技术对社会网络的构建、问答系统等均具有重要意义。,相关工作,基于共现的方法: Kautz等(1997): Referral Web. Mika(2005): Flink. 基于机器学习方法: Matsuo等(2006):基于决策树的C4.5分类器。 姚从磊等(2007):基于模拟退火算法。 Jing等(2007):基于命名实体识别、关系检测、事件检测。 Elson 等 (2010):基于角色名称识别和对话检测。 Agarwal等(2011):基于社会交互事件检测。,研究动机,存在的问题:目前针对人物关系抽取的研究一般只涉及特定的领域或是依赖于大规模网页共现关系。通常情况下,人物关系类型比较单一。 现有条件:随着基于核函数的广泛采用,实体关系抽取技术得到迅速发展并日臻成熟。 能否利用树核函数从新闻领域文本中抽取丰富的人物关系?如何提高其抽取性能?,人物关系抽取方法,人物关系定义 静态人物关系:ACE语料原有定义的PER-SOC关系(Business, Family, Lasting-Personal)。 动态人物关系:重新定义ACE的CONTACT事件(Meet, Phone-Write)为交互关系。 基于树核函数的人物关系抽取方法 结构化信息的构造 同义词词林语义信息的融合 重采样技术的应用,结构化信息的构造,删除实体并列结构(RMV_ENTITY_CC) 当连接两个实体节点的路径中出现并列结构时,可以删除其中的一个并列部分。 删除NP并列结构(RMV_NP_CC_NP) 当连接两个NP节点的路径中出现并列结构时,保留最短路径所通过的那个并列部分。 恢复右侧动词(EXT_RIGHT_VERB) 扩展第二个实体到最低公共节点之间出现的动词短语结构。,结构化信息的构造(续),语义信息融合,语义信息对实体间语义关系的抽取具有重要的指导作用,我们在句法树中加入了两个实体词汇在同义词词林的语义编码信息。,重采样技术的应用,实验,实验设置 人物关系语料库包括关系正例880个,关系负例18599个。人物关系类型主要为PER-SOC类和CONTACT类。 本文实验采用五倍交叉验证策略。 选择SVM作为分类器,采用的开源工具为支持卷积树核函数的SVMLight TK工具包。 评估标准采用常用的准确率(P),召回率(R)和F1指标(F1)。 本文采用近似随机技术进行显著性测试,并分别使用双下划线、单下划线和无下划线表示 p0.01、0.01p0.05和p0.05,即差异非常显著、显著和不显著。,实验结果裁剪特征的影响,结论: 1.三种裁剪策略对总体性能提升显著。 2. Contact类型的F1值明显低于PER-SOC类型,同时,其性能提升幅度大于PER-SOC类型。,实验结果语义信息的影响,结论: 1.随着语义信息颗粒度的逐步提高,F1总体性能不断增加。 2. F1值的提高均来源于召回率的大幅提高。,实验结果重采样技术的影响,欠采样对人物关系抽取的影响,实验结果重采样技术的影响,过采样对人物关系抽取的影响,结论: 1.欠采样和过采样的性能基本上都高于完全样本训练时的F1值。 2.过采样的性能普遍高于欠采样,且在一定比例范围内维持基本不变。 3.无论对于欠采样还是过采样,Contact类的性能提升明显高于PER-SOC类。,下一步工作,本文提出了一种基于树核的人物关系抽取方法。 该方法同时使用了结构化信息裁剪、词林语义信息、重采样技术等策略。 今后的工作:利用搜索引
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省青岛市城阳区2024-2025学年九年级上学期语文期末试卷(含答案)
- 脑梗塞病发作征兆及护理技巧
- 尿毒症常见症状及护理建议培训
- 原始反射整合训练
- 狼疮常见症状及护理守则
- 预防患者跌倒宣教
- 内分泌系统疾病常见症状及护理要点
- 胆囊切除术后护理宣教
- 肥胖训练方案
- 2025年隔离接地开关项目规划申请报告范文
- 2025江苏盐城下半年射阳县招聘政府购买服务工作人员107人考试笔试备考题库及答案解析
- 心肺协同康复护理专家共识
- 22《鸟的天堂》课件
- 香港大埔宏福苑火灾事件全解析:灾情、救援与安全启示
- 中国的矿产资源课件 -2025-2026学年八年级地理上册湘教版
- 2025年火力电厂面试题及答案
- 2025年老人70岁以上驾考三力测试题及答案
- 2025江西金融租赁股份有限公司社会招聘10人笔试考试备考试题及答案解析
- 2026广东省选调生招录1715人历年真题库含答案解析(夺冠)
- 《走进林业》课件-第6单元 智慧林业
- 2024内蒙古机电职业技术学院辅导员招聘笔试真题
评论
0/150
提交评论