




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于树核函数的人物关系抽取研究,彭成 钱龙华 周国栋 报告人:彭成 苏州大学自然语言处理实验室 /,提纲,引言 相关工作 研究动机 我们的方法 实验结果与分析 下一步工作,引言,人物关系抽取 人物关系抽取是实体关系抽取的一个重要分支,旨在抽取人名实体之间的各种社会关系。 例如,关系实例“朱镕基会见克雷蒂安”中,存在着社会交互关系(CONTACT)。 研究意义 WEB给我们提供了一个巨大的信息库,其中隐藏着大量用户感兴趣的实体及其相互关系。 人物关系抽取技术对社会网络的构建、问答系统等均具有重要意义。,相关工作,基于共现的方法: Kautz等(1997): Referral Web. Mika(2005): Flink. 基于机器学习方法: Matsuo等(2006):基于决策树的C4.5分类器。 姚从磊等(2007):基于模拟退火算法。 Jing等(2007):基于命名实体识别、关系检测、事件检测。 Elson 等 (2010):基于角色名称识别和对话检测。 Agarwal等(2011):基于社会交互事件检测。,研究动机,存在的问题:目前针对人物关系抽取的研究一般只涉及特定的领域或是依赖于大规模网页共现关系。通常情况下,人物关系类型比较单一。 现有条件:随着基于核函数的广泛采用,实体关系抽取技术得到迅速发展并日臻成熟。 能否利用树核函数从新闻领域文本中抽取丰富的人物关系?如何提高其抽取性能?,人物关系抽取方法,人物关系定义 静态人物关系:ACE语料原有定义的PER-SOC关系(Business, Family, Lasting-Personal)。 动态人物关系:重新定义ACE的CONTACT事件(Meet, Phone-Write)为交互关系。 基于树核函数的人物关系抽取方法 结构化信息的构造 同义词词林语义信息的融合 重采样技术的应用,结构化信息的构造,删除实体并列结构(RMV_ENTITY_CC) 当连接两个实体节点的路径中出现并列结构时,可以删除其中的一个并列部分。 删除NP并列结构(RMV_NP_CC_NP) 当连接两个NP节点的路径中出现并列结构时,保留最短路径所通过的那个并列部分。 恢复右侧动词(EXT_RIGHT_VERB) 扩展第二个实体到最低公共节点之间出现的动词短语结构。,结构化信息的构造(续),语义信息融合,语义信息对实体间语义关系的抽取具有重要的指导作用,我们在句法树中加入了两个实体词汇在同义词词林的语义编码信息。,重采样技术的应用,实验,实验设置 人物关系语料库包括关系正例880个,关系负例18599个。人物关系类型主要为PER-SOC类和CONTACT类。 本文实验采用五倍交叉验证策略。 选择SVM作为分类器,采用的开源工具为支持卷积树核函数的SVMLight TK工具包。 评估标准采用常用的准确率(P),召回率(R)和F1指标(F1)。 本文采用近似随机技术进行显著性测试,并分别使用双下划线、单下划线和无下划线表示 p0.01、0.01p0.05和p0.05,即差异非常显著、显著和不显著。,实验结果裁剪特征的影响,结论: 1.三种裁剪策略对总体性能提升显著。 2. Contact类型的F1值明显低于PER-SOC类型,同时,其性能提升幅度大于PER-SOC类型。,实验结果语义信息的影响,结论: 1.随着语义信息颗粒度的逐步提高,F1总体性能不断增加。 2. F1值的提高均来源于召回率的大幅提高。,实验结果重采样技术的影响,欠采样对人物关系抽取的影响,实验结果重采样技术的影响,过采样对人物关系抽取的影响,结论: 1.欠采样和过采样的性能基本上都高于完全样本训练时的F1值。 2.过采样的性能普遍高于欠采样,且在一定比例范围内维持基本不变。 3.无论对于欠采样还是过采样,Contact类的性能提升明显高于PER-SOC类。,下一步工作,本文提出了一种基于树核的人物关系抽取方法。 该方法同时使用了结构化信息裁剪、词林语义信息、重采样技术等策略。 今后的工作:利用搜索引
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 温差电器件制造工岗位操作技能考核试卷及答案
- 缩放排工异常处理考核试卷及答案
- 建筑方案设计平面布局图
- 游艇制作厂家施工方案
- 市政承台降水施工方案
- 校园防性侵安全教育方案
- 装修微信营销策划方案
- 罗平新年装修活动方案策划
- 建筑方案设计任务和内容
- 移动人工智能营销方案
- 2024年连云港东海县招聘社区工作者真题
- 燃料电池催化剂研究报告
- 湖北省华大新高考联盟2026届高三上学期9月教学质量测评语文试题(含答案)
- 2025年化妆品代理合同范本模板
- 2025年江苏省农垦集团有限公司人员招聘笔试备考及参考答案详解
- 人工智能应用技术-教学大纲
- 虚拟货币挖矿管理办法
- 2025至2030年中国粗杂粮及粗杂粮加工行业市场调研分析及投资战略咨询报告
- 军用无人机讲解课件
- 2025年中国移动校园招聘笔试试题解析及答题技巧
- 长宏国际安全知识培训课件
评论
0/150
提交评论