基于动词的关系模式抽取方法_第1页
基于动词的关系模式抽取方法_第2页
基于动词的关系模式抽取方法_第3页
基于动词的关系模式抽取方法_第4页
基于动词的关系模式抽取方法_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于动词的关系模式抽取方法 摘要 本文提出了一种基于动词的关系模式抽取方法 旨在 从中文网页语料中抽取高准确率的实体关系 使用 ICTCLAS 和实体表进行人名和岛屿岛礁实体识别 生成准确的句子实 例 在此基础上构建基于动词的关系模式 实验结果表明该 方法获得了良好的抽取性能 关键词 关系抽取 关系模式 实体识别 一 引言 信息抽取研究技术是人们获取信息的有力工具 是应对信 息爆炸带来的严重挑战的重要手段 信息抽取的目标是从无 结构自然语言文本中提取计算机可以理解的结构化信息 其 中一种主要的结构化信息是实体关系 关系抽取是信息抽取 的子任务 主要目的是提取句子中的实体关系 1 Web 已经成为包含人类社会各种知识的信息库 其规模正 在以指数级速度膨胀 容纳的信息中有各种实体关系信息 如人物社会关系 国家与岛屿之间的拥有主权关系等等 然 而 现有的搜索引擎仅能返回与用户关心的相关信息网页 不能得到各种关系信息 本文以从中文网页语料中自动抽取实体之间关系为目标 提出一种基于动词的关系模式抽取方法 二 关系抽取 语料中的实体包括八类 人名 地名 城市 岛屿岛礁 海域河域 组织机构 政府部门 军事机构 如图 1 所示 人名 人名地名 地名城市 城市岛屿岛礁 岛屿岛礁海域河域 海域河域组织机构 组织机构政府部门 政府部门军事机构 军事机构 图 1 实体关系表 如何抽取这八类实体之间的关系 以构建关系模式是我们 要研究的内容 本文以抽取人名和岛屿岛礁之间的关系为例 开展研究 我们提出的关系抽取策略包括句子实例获取 关系模式的 构建 实体关系抽取原理如图 2 所示 中文网页语 料 文本 预处理 关系模式构建 确定动词概念 确定名词概念 生成规则 训练部分 测试部分 生成关 系模式 新实例 抽取 图 2 实体关系抽取原理图 一 句子实例获取 将中文网页正文部分进行预处理 获取含有实体的句子作 为关系抽取的句子实例 预处理包括分段分句 词性标注 命名实体识别等 2 本文主要处理人物与岛屿岛礁之间的关 系抽取任务 所以在分好的句子中使用 ICTCLAS 3 识别出这 两种实体类型 在句子中出现的人物以 1 人名 XX 标注 岛屿以 23 岛屿名 XX 标注 二 关系模式的构建 传统的启发式方法对句子实例进行词性标注 并用通配符 替换实体对出现的位置来构建模式 4 但通用性和准确性不 足 例如 北京是中国的首都 的模式构建结果为 object 是 v target 的 u 首都 n 而从 北京是中国政治文化的中 心 中得到的模式并未表示北京和中国之间的 capital of 关 系 本文使用的关系模式抽取方法是从种子句中出现在实体 前后的上下文来学习关系模式 在从种子句中学习抽取模式 时 并不是机械地把出现在种子句中实体前 实体中 实体 后的所有词语均作为所学模式的特征词 5 因为通过对句子 的观察 发现句子中两个实体的上下文中常会出现大量的修 饰性词语 如形容词 副词 语气词等 如果把所有出现的 词语都作为抽取模式的特征词 一方面极大地增加了模式的 长度 会在以后的模式匹配工作中占据较多的机器时间 另 一方面长模式的匹配准确率也会有相应的下降 所以本文提 出了基于动词的关系抽取方法 以 动词 为核心 将相同 动词的句子放在一起抽取关系模式 Comment U1 不用翻译 Comment U2 不用翻译 以下是一个句子标注例子 动词 到达动词 到达 从谭门镇出发 将航向调到东南从谭门镇出发 将航向调到东南 110110 度 度 3 3 天天 3 3 夜后夜后 琼琼 琼海琼海 08068 08068 号渔船船长号渔船船长 1 1 许卫许卫 可到达可到达 23 23 黄岩岛黄岩岛 我们抽取的是实体 概念 之间的关系 这种关系在文本 体现方式上为上下文环境约束 即提炼各种上下文环境约束 规则 将其实现到语言中 计划实现的上下文环境计算符包 括 SENT 表示在同一句话中 ORD 表示满足先后顺序 DIST n 表示两两距离不能超过 n 等等 关系模式的一个示例 CONCEPT ACTION ARRIVE 到达 CONCEPT NAME 许卫 CONCEPT NAME ISLAND 黄岩岛 MCONCEPT RULE ARRIVE person island SENT ORD person NAME ACTION ARRIVE island NAME ISLAND 关系模式包含两部分的内容 一部分是概念 一部分是规 则 CONCEPT 表示概念 包括动词概念和名词概念 动词 概念以 ACTION 为开头 名词概念指的是实体 如人物 地名 国家 岛屿 海域 城市 组织机构等等 CONCEPT NAME 许卫 表示人名 许卫 CONCEPT NAME ISLAND 黄岩岛 表示岛屿名 黄岩岛 抽取的目标是概念的关系 我们用 MCONCEPT RULE 定义抽取的规则 规则名 ARRIVE 用动词来表示 规则由两个参数 person 和 island 组成 分别对应名词概念 NAME 和 NAME ISLAND 三 实验结果及分析 一 实验语料 实验中选择了人名与岛屿岛礁名的关系作为抽取对象 使用了 21 467 篇中文网页 对其进行分段分句 共分出 435 210 个相异句子 在分好的句子中使用 ICTCLAS 进行实 体识别后再进行实体表比对 最终收集了含有人名和岛屿名 的共 7959 个句子组成了实验集合 在对所有的句子按照 动 词 进行划分 对句子中出现命名实体 人名 岛屿岛礁名 进行标注后 选取其中有代表性的 100 个句子作为关系模式 的种子集 余下句子作为测试集 二 实验结果 构建关系模式过程由关系抽取系统实现 如图 3 所示 输入动词 暗示 查找到相关句子 根据动词定义规则名 IMPLY 称并生成动词概念 ACTION IMPLY 从句子中抽 取名词并生成名词概念 以此构建概念之间的关系最终生成 关系模式 即规则 Comment U3 图片不用管 图 3 关系抽取系统 将构建的关系模式写入 txt 文件 如图 4 所示 图 4 构建的关系模式 在实验中由于是对某一具体关系类别的分析 我们引入 了准确率和召回率这两个判断标准 6 公式如下 准确率 P 正确抽取的某一实体关系数目 测试集 中抽取的某一实体关系数目 召回率 R 正确抽取的某一实体关系数目 测试集 中应有某一实体关系数目 实验结果如表 1 所示 表 1 关系模式抽取实验结果 DIST 值抽取 person island 关系数 正确 关系 数 应有 person island 关系对 准确 率 召回 率 DIST 213210516979 5 62 1 DIST 4987511476 5 65 8 不限2 70 6 从表 1 中可以看出基于动词的关系模式抽取方法的召回 率和抽取的 person island 关系的准确率与 DIST 值有很大关 系 DIST 2 表示两两距离不超过 2 即当 person 和动词之间 的距离不超过 2 时 抽取关系的准确率为 79 5 相对较高 而召回率较低 当 DIST 取值为 DIST 4 时 抽取关系的准确 率为 76 4 较 DIST 2 时要低些 而召回率较 DIST 2 时要 高些 当 DIST 取值不限时 即 person 与动词之间无距离限 制时 抽取关系的准确率更低些 而召回率较前两者高些 四 结论 普通模式匹配方法抽取实体关系是用模式与句子及其词 语进行格式或形式上的匹配 这种方法一般要求句子的行文 结构比较规范 然而对于包含各种关系的中文网页语料 由 于其结构比较灵活 普通的模式匹配方法效率并不高 为此 本文提出了基于动词的模式匹配方法来抽取句子中实体的关 系 完成了对人名和岛屿岛礁之间的关系抽取任务 下一步 的工作中 我们将对关系实例进行进一步挖掘 以提升抽取 准确率并获得更多语义信息 另外 我们还将尝试抽取其他 类别的关系实例 参考文献 1 吴楠 王庆林 刘禹 基于百科词条的领域本体关系抽取方法 J 中南大学学报 自然科学版 2013 44 347 350 2 张苇如 孙乐 基于维基百科和模式聚类的实体关系抽取方法 J 中文信息学报 2012 2 75 78 3 中科院计算所 ICTCLAS 汉语分词系统 EB OL 2011 http ictclas org Chinese Academy of Institute of Computing Technology ICTCLAS Chinese Analysis System 4 O Medelyan D Milne C legg Mining Meaning from Wikipedia J International Journal of Human Computer Studies 2009 67 9 716 754 5 E Agichten and L Gravano Snowball Extracting relations from large plain text collections J Proceedings of the fifth ACM conference on Digital libraries New York ACM Press 2000 85 94 6 zelenko D Aone C Rechardella A Kernel Methods for Relation Ext

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论