




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第 卷 第 期测 绘 学 报 年 月 引文格式 余丽 陆锋 刘希亮 开放式地理实体关系抽取的 方法 测绘学报 开放式地理实体关系抽取的 方法 余 丽 陆 锋 刘希亮 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室 北京 中国科学 院大学 北京 江苏省地理信息资源开发与利用协同创新中心 江苏 南京 摘 要 从网络文本中抽取地理实体间空间关系和语义关系要求高时效性和强鲁棒性 本文提出一种 开放式地理实体关系的自动抽取方法 通过 技术统计词语的词性 位置和距离特征来计 算语境中词语权值 据此确定描述地理实体关系的关键词 最终组织成结构化实例 并使用百度百科和 开展了试验 研究结果表明 本文方法能自动挖掘自然语言的部分词法特征 无须 领域专家知识和大规模标注语料 适用于未知关系类型的信息抽取任务 较之经典的 和 频率统计方法 精度和召回率分别提升约 和 关键词 文本挖掘 地理实体 关系抽取 定量评价 中图分类号 文献标识码 文章编号 基金项目 国家自然科学基金 国家 计划 包含地理实体 如地名 组织机构 地缘政治 实体 间语义关系 如从属 合作 继承关系 和空 间关系 如拓扑 方位 距离关系 的文本资源在广 义地理信息采集与服务中占据重要地位 为地 图数据库更新提供了巨大潜能 催生了开放式地 理实体关系抽取研究 开放式地理实体关系 抽取旨在从自然语言文本中抽取地理实体间的空 间关系和语义关系 形成结构化的表达形式 它不限定于处理规范的新闻文本或者特定领域文 本 无须预先定义关系的类别 以 抽取 代替 识 第 期余 丽 等 开放式地理实体关系抽取的 方法 别 挖掘文本中蕴含的一切关系实例 能更好地 适应高动态 富信息的网络文本的处理需求 相比实体关系抽取 地理实体关系抽取有 如下特殊性 缺乏大规模地理实体关系标注语 料 用于训练监督的机器学习模型 以检测种类 繁多的关系类型 缺乏典型的地理知识库作为启 动弱监督机器学习模型的种子 现有的地理知识 库 等 仅限于描述面状地理实体间的 分离 包含 和 相邻 种空间关系 远不能满 足多类型地理实体关系抽取的需求 文本蕴含 的地理实体关系实例分布异质性极强 热点地理 实体相关的关系描述频繁出现 而不受关注的地 理实体文本描述较少 地理实体关系抽取结果 难以定量评价 人工逐条检查上万条地理实体关 系实例的质量是不切实际的 而小规模的随机采 样又无法计算系统的召回率 因此 从自然语言 文本中抽取地理实体关系面临着巨大的挑战 本文重在解决开放式地理实体关系抽取的两 个核心问题 缺乏大规模标注语料和地理知识 库的前提下 如何自动产生地理实体间空间关系 和语义关系的结构化元组 如何定量评价开放式 地理实体关系抽取效果 本文利用 技术分析关系词的词法特征 引入到关键词提取 的权值计算中 据此将共现地理实体组织成结构 化形式 然后分析结果集的质量分布情况 计算关 系抽取精度和召回率 并基于百度百科文本验证 方法的有效性 相关工作 针对文本蕴含地理实体关系抽取的问题 大 量的研究成果集中在模式匹配方法 该方法通过 提取和泛化词法 句法 模式 可识别出有限的关 系实例 文献 将蕴含 包含 和 相邻 空间关 系的隐式表达 文本中未出现关系词 定义为词法 模式 作为查询条件在 和 中搜索 新的地理实体关系实例 该方法适用于按照行政 区划级别排列的规范化地址文本 但仅能抽取指 定的两种地理实体关系 文献 使用人工设计 的 种中文模式与网页摘要进行匹配 以获取 显式表达 文本中出现关系词 的地理实体关系实 例 该方法能识别出多种类型的地理实体关系 但需要预先准备大规模的空间词典和模式库 与 文献 的方法相同 文献 使用 个空间 动词建立语法规则 实现了意大利语空间关系抽 取 上述的模式匹配方法 其模式发现过程仍依 赖于手工劳动 需要领域专家知识 且有限的模式 难以适应文本快速增长和变化需求 文献 基 于自建立的大规模空间关系标注语料 采用序列 比对的方法自动生成空间关系句法模式库 该方 法提高了模式挖掘的自动化程度 但仍需耗费大 量人力构建标注语料库 与之不同 关系抽取的 模式发现过程充分利用了海量文本的冗余性 整 个模式库的构建过程无须人工干预 利用该方法 建立 的 经 典 关 系 抽 取 系 统 有 然而 这些系统仍需由领域专家预先定 义词法或句法规则 为了放松地理实体关系抽取方法对领域专家 知识的限制 一些研究者使用监督的机器学习方 法从文本中自动抽取地理实体关系 通过大规模 的标记数据训练某个分类模型 再对未标记数据 自动分配某种预定义的关系类型 该方法的主要 障碍是缺乏可获取的地理实体关系标注语料 考 虑到存在大量未标注的文本且人工标注语料的成 本太高 自动生成大规模标注语料的弱监督学习 方法逐步成为研究热点 文献 使用在线的酒 店点评文本自动构建了地理实体 相邻 关系的标 注语料 规模为 万个文档 文献 使用维 基百科自动回标技术 建立了河流与水系的 流 入 关系 郊区与城镇的 组成 关系 然而 上述 自动构建标注语料的方法仅能建立指定类型的关 系标注语料 当建立新类型的关系标注语料时 仍需一定的手工劳动 难以快速适应地理实体关 系的多样性 此外 以空间本体为知识库的弱监 督学习算法也备受关注 文献 通过手动建立 空间本体 成功抽取了地理实体之间的拓扑和方 位关系 相比自动生成大规模标注语料的方法 空间本体更容易扩展到新类型的地理实体关系抽 取 然而该方法不能识别出一对地理实体之间的 多种关系 目前 业界尚未开展开放式地理实体关系抽 取无监督机器学习方法研究 而在关系抽取领域 已有大量的无监督机器学习研究成果 其中 频 率统计 是一种广泛应用于无监督关系抽取 的重要技术 其核心思想是通过统计词语频数反 映词语重要性 并选择权值最大的词语作为关系 名称 然而 频率统计方法要求表征关系的词语 频繁出现 难以适用于稀疏分布的地理实体关系 实例 方 法 地理实体关系抽取过程包含 数据获取 数据 预处理和数学计算 如图 所示 下文将重点阐 述数学计算子过程 图 地理实体关系抽取流程 任务定义 本文研究范围仅限于抽取一个句子中共现的 两个地理实体之间的空间关系词语和语义关系词 语 且关系词语存在于句中 即显式表达的二元地 理实体关系 针对一个句子中共现的两个地理实 体 从所在的句中提取词语组成一个语 境 并过滤停用词 了 的 等 关键词抽取即 是从集合 中选择一个词语 使得 能表达一 种空间关系或者语义关系 式 将语义关系实例作为属性表达式 用于 描述地理实体指定类型的属性值 式 将空间 关系实例作为位置表达式 用于描述一个地理实 体相对于参考地理实体的空间位置 分析文本发 现 空间关系表达习惯于同时使用方位和拓扑词 语 天津东临渤海 或者同时使用方位 行为和 度 量 词 语 西 子 湾 距 高 雄 市 中 心 车 程 约 分钟 因此 式 中 表示方位词语 东 中心 表示度量词语 分钟 特征选择 本文借鉴实体关系抽取和关键词提取方法 探索自然语言表达的地理实体关系文本在 词 性 位置 长度 和 距离 方面的规律 为下文 地理实体关系抽取提供先验知识 词性 名词 动词 介词或者其他 位置 的左边 和 中间 的右边 左边有连词或者介词时的位 置 的左边 和 中间 的右边 到 的距离 到句尾的距离 长度 以字为单位 到 的距离 以词语为 单位 考虑到文本数量庞大且构建标注语料的成本 太高 本文使用 技术 分析上述 个特征 的原理是通过随机重采 样 利用小样本来推测总体的统计量 当样本规模 足够大时 基于样本的统计结果即可代表总体的 水平 首先 随机排列句子 利用等间距抽样的方 法选择 个句子 然后 手工标注每个句子的关 系词语 形成标注语料 最后 从标注语料中随机 采样形成一个等规模的新样本 该过程重复多次 次 得到一个大规模的样本集合 统计每 个样本中上述 个特征的值 计算出各项特征的 均值 统计结果如表 表 所示 得到如下规律 的句子不存在地理实体关系 超过半数的 关系词为名词 余下的为动词和介词 没有关系 词位于 的左边 大多数都位于 的右边 当 关系词的左边存在连词或者介词时 的关 系词位于 的右边 关系词到 的距离为 的比例最大 关系词位于句尾的比例最大 关 系词远离地理实体 的概率最高 名词长度至 少为 个字 且跨度较大 当存在关系词时 两 个地理实体之间的距离不超过 个词语 与现 有 方 法 中 获 取 的 词 法 和 句 法 规 则 不 同 上述规律不是直接用于模式匹配 而是辅 助数据预处理并将在 节使用统计学方法将其 定量化表达 以指导地理实体关系抽取 同时 这 些规律不是某个文本的变换形式 而是真实数据 直观反映出的人们对关系表达的普遍认知 考虑 到语言的地域 文化和认知差异性 方法针对不同体裁 风格的文本获取规律的取值 范围将发生变化 第 期余 丽 等 开放式地理实体关系抽取的 方法 表 特征的平均比例 特征比例 名词动词介词其他无关系 左中右 左中右 表 特征的平均取值范围 名词动词介词其他 关键词提取 基于 方法得到的统计结果 本 文引入词语的词性 位置和距离的重要性 设计关 键词提取方法 如式 针对词语 表示在词性 位置 距离影响下的重要性 分别表示词性 位置 距离重 要性 分别表示词语 地理实体 和 连词或者介词在句中的索引 表示 句子长度 对于每一对地理实体 使用 式 从语境 中选择一个重要程度最高的词语 作为表达地理实体关系的关键词 公式中数字 来源于 节的统计结果 如式 中 表示样 本中有 的关系词是名词 这些数字不是人 为设定的固定值 会随着数据变化而变化 烅 烄 烆 烅 烄 烆 烅 烄 烆 关系实例构建 将每一对地理实体 和它的关键词 代入式 组成语义关系实例 然而 本文仅为一对地理实体提取一个关键词 不能完 整地描述空间关系实例 具体 地 方位词语 受到分词结果的影响 若 和拓 扑词被划分成一个整体 东邻 则提取的关键 词既蕴含方位关系又包含拓扑关系 若 和拓扑 词被划分成两个部分 东 和 邻 则提取的关 键词仅表达方位关系 同时 度量词语 通过预 定义的规则来识别 若句中存在数量词 词性为 且位于地理实体 右边 个窗口内 取值 为 则保存该数量词和单位 词性为 作为度 量词 默认地关系表达式 和 中 是主 体 是客体 如果关键词 位于 右边 则将 设置为客体 设置为主体 试 验 试验数据 本文以新浪旅游的中国景点名称作为地理实 体的基础地名 在百度百科中逐个获取对应的简 介或正文首段 使用 进行数据 预处理 分段 分句 分词 词性标注 地理实体识 别 构建了地理实体关系抽取的文本集合 数据 分布如表 所示 表 不同阶段的语料规模 新浪旅游 中国景点 属于百度 词条的景点 百度百科的 原始句子 预处理后的 试验句子 地理 实体对 真 值 本文使用 技术 基于少量的手工 评价结果 自动产生大规模的真值 首先 使用等间 距随机采样法选择 个句子 不包括特征选择使 用的句子 逐句标注地理实体关系实例 然后 从 标注句子中随机采样形成一个等规模的新样本 该 过程重复 次 共产生 个样本 作为评 价结果质量的标注语料 每个语料的规模为 个 句子 此外 本文将与经典的 种频率统计方法 和 进行质量对比 评价指标 本文结合地理实体关系抽取任务描述 定义精 度和召回率如表 表示结果集 表 示标注语料 中不存在关系的实例 表示 标注语料 中存在关系的实例 每个标注语料的精 度和召回率计算如式 均值计算如式 表 精度和召回率的定义 烍 烌 烎 烍 烌 烎 结果与讨论 本文针对 对地理实体共抽取了 个关系 实 例 一 对 地 理 实 体 可 拥 有 多 种 关 系 种方法的精度和召回率如图 所示 本文方法 表示为 试验结果显示 本文方法的精度 和召回率分别为 和 比其他 种统 计方法的均值分别提高了约 和 图 种方法的精度和召回率的均值 表 展示了百度百科词条 海宁 的文本抽取 地理实体关系的结果 其中 斜体表示根据句意 表达的逻辑调整元素顺序后的关系实例 黑体表 示扩展了度量词后的空间关系实例 本文针对一 个句子中共现的两个地理实体仅提取一个关键 词 例如表 若 东邻 被划分成一个词语 则提 取的关系词为 东邻 否则提取的关系词为 东 为了避免分词结果不一致导致的信息误判 本文 认为上述的两种关系抽取结果都是正确的 表 地理实体关系抽取的示例 文本关系元组 海宁市位于中国长江三角洲南 翼 浙江省北部 东邻海盐县 南濒钱塘江 与绍兴上虞市 杭 州萧山区隔江相望 西接杭州 余杭区 江干区下沙 北连桐乡 市 嘉 兴 秀 洲 区 东 距 上 海 公里 西接杭州 南濒钱塘 江 年 撤 县 设 市 海 宁 市是王国维 徐志摩 金庸 蒋 百里等名人的故乡 气候四季 分明 是典型的江南水乡 素有 鱼米之乡 丝绸之府 才子之 乡 文 化 之 邦 皮 革 之 都 的 美誉 浙江省 北部 海宁 海宁 东 海盐县 海宁 南 钱塘江 绍兴上虞市 相望 海宁 杭州萧山区 相望 海宁 海宁 西 杭州余杭区 海宁 东 上海 公里 海宁 西 杭州 海宁 南 钱塘江 海宁 是 江南水乡 据统计 试验文本中 的语境存在多个 频数最大的词语 此时 和 仅与 词语在整个文本集合中的分布有关 将赋予低频 词语更大的权值 而 恰好相反 将赋予 高频词语更大的权值 因此对于分布稀疏的地理 实体关系实例 单纯地依靠频率统计难以判断词 语在句中的重要程度 本文基于自然语言描述的 词法特征 通过 技术自动引入词语 的词性 位置和距离的重要性 提取关键词作为描 述地理实体关系的线索 对比 和 种频率统计方法 本文方法产生 了更高质量的关系实例 同时 本文方法无须领 域专家知识和大规模标注语料 不限定地理实体 关系的类型 仅需少量的标注语料即可启动算法 能快速适应新领域的地理实体关系抽取需求 然而 本文抽取的地理实体关系实例中存在 两类错误 不存在关系的地理实体对提取出关 系 存在关系的地理实体对提取出错误的 关 系 针 对 上 述 两 类 错 误 本 文 使 用 技术对结果集中 个标注语 料进行统计 结果如表 所示 错误可分为 第 期余 丽 等 开放式地理实体关系抽取的 方法 种情况 是地理实体对之间不存在关系 本文 方法仅能通过语境为空或者地理实体之间的距离 大于 个词语判断不存在关系 尚未深入到句意 理解层次 是不能识别隐式的地理实体关系 本 文的研究范围仅限于明确提及关键词的显式地理 实体关系抽取 和 均是由文本预处理带来的 级联错误 错误可分为 种情况 是当关 系词语 进入 作为谓语且存在多个状语修饰词 间或 蜿蜒 长距离的影响增大了状语修饰 词的权值 无法准确提取出谓语关系词 是当多 个地理实体按照行政级别顺次排列 中国 云南 省 丽江市 仅仅依靠词语本身的特征尚不能 准确识别出嵌套地理实体之间复杂的空间关系 是当多个词语组成一个复杂的关系描述 单个 关键词语无法概括完整的语义 均是由文 本预处理带来的级联错误 综上所述 本文针对显式表达的地理实体关 系 仅考虑了词法特征 尚未深入到句法分析和语 义理解层次 同时 本文未考虑中文分词 词性标 注 地理实体识别 指代消解等环节带来的级联错 误 文本预处理的质量有待提高 且本文仅使用百 度百科进行试验 语料的规模和多样性有待进一 步扩展 此外 本文产生的 个关系实例共 有 种关系类型 存在大量语义相似但描述不 同的关系 例如 位于 处于 在 地处 坐落 均表达同一种空间关系 本文研究的关键词提取 方法是语义聚类的基础 下一步将研究语义聚类 问题 以减少关系实例表达的冗余 为地理实体高 动态信息的增量更新提供基础数据 表 错误分析 分类均值编号子类举例 不存在关系 海泉湾 是香港中旅集团继建设深圳华侨城 之后的又一 力作 隐式关系东都 今河南省洛阳市 地理实体分词错误中国造船业 中国 地理实体类型错误东北 东北 状语修饰词过多 苏花公路 间或蜿蜒进入平坦河口 三角洲 腹地 苏花公路 间或
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安丘市2025-2026学年七年级上学期语文期中测试试卷
- 安徽省池州市石台县2024-2025学年高三上学期第一次月考语文考点及答案
- DB21-T 2567-2025 工业锅炉 效率测试技术
- 2024-2025学年河南省新乡市高新区人教PEP版(2024)三年级下册期末测试英语试卷(含答案)
- 宾馆转让合同范本
- 缠绕膜合同范本
- 社区政治基础知识培训课件
- 私人聘请员工合同范本
- 承包田亩合同范本
- 网围栏采购合同范本
- 学校食堂及校内小卖部食品安全专项检查表
- DBJ∕T15-232-2021 混凝土氯离子控制标准
- 刑事报案材料模板(涉嫌诈骗罪)
- 乳制品配送服务质量保障方案
- 高血压防治指南解读课件
- 2024在役立式圆筒形钢制焊接储罐安全附件检验技术规范
- 托管老师培训课件
- 大客户营销管理策略下的客户激励与忠诚度提升
- 管道改造管道吹扫安全方案
- 非营利组织战略管理机制的构建-以上海市青少年发展基金会为例的中期报告
- 煤矿与环境保护
评论
0/150
提交评论