知识库构建与应用ppt课件.ppt_第1页
知识库构建与应用ppt课件.ppt_第2页
知识库构建与应用ppt课件.ppt_第3页
知识库构建与应用ppt课件.ppt_第4页
知识库构建与应用ppt课件.ppt_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

徐源北京邮电大学 知识库构建与应用 1 目录 语义信息抽取知识库语义检索海量数据处理 2 语义信息抽取泛网资源与信息语义抽取内容模式抽取层级构建 3 语义信息抽取 海量资源与信息 泛在网为我们提供了无所不在的资源及信息 如何在海量信息中获取我们需要的信息 如何快捷的获取 机器理解 如何让机器更好的理解 语义抽取 4 语义信息抽取 语义抽取内容 实体抽取 Namedentityextraction 人物 地点 机构 疾病 等命名或专有实体 属性抽取 Attributeextraction 实体的自身属性 关系挖掘 Relationmining 实体之间的关系 事件挖掘 Eventmining 由多个关系元组所构成 5 语义信息抽取 实体抽取 识别文本中出现的实体MUC 1997 Person Location Organization Date Time CurrencyACE 2005 100多种更具体的类型针对不同实体类型与领域考虑不同方法封闭类 e g geographicallocations diseasenames gene proteinnames 人工规则 词典语法相关 e g phonenumbers zipcodes 正则表达式语义相关 e g personandcompanynames 综合考虑上下文 句法特征 词典 启发式规则等 6 语义信息抽取 实体抽取 人工规则方法某些情况构建简单 电话号码 邮政编码等 调试和维护简单拓展性问题机器学习方法当容易构建大量训练数据时适合采用能够捕捉复杂的模板主要方法 NaiveBayes HiddenMarkovModels MaximumEntropyMarkovModels ConditionalRandomFields CRF 7 语义信息抽取 属性抽取 属性包括 属性名属性值 8 语义信息抽取 属性抽取 9 语义信息抽取 属性抽取 基于无结构化与前面方法类似模板改变 AofI AofIisV VisAofI种子改变 China capital China capital Beijing 基于WikipediaInfobox基于HTML表格 10 语义信息抽取 关系抽取 ACE AutomaticContentExtraction 会议将关系抽取任务表述为 探测和识别文档中特定类型的关系 并对这些抽取出的关系进行规范化表示 一个比较完整的关系抽取系统应包括依次相连的5个模块 NLP处理和实体抽取 模式匹配或分类 共指消解 新关系处理以及规范化输出 关系抽取的困难可以归纳为3个方面 特定领域标引数据集的获取模式的获取共指消解 11 语义信息抽取 关系抽取 基于模式匹配的关系抽取先构造出若干基于语词 基于词性或基于语义的模式集合并存储起来 当进行关系抽取时 将经过预处理的语句片段与模式集合中的模式进行匹配 一旦匹配成功 就可以认为该语句片段具有对应模式的关系属性 基于词典驱动的关系抽取基于词典驱动的关系抽取方法非常灵活 新的关系类型能够仅仅通过向词典添加对应的动词入口而被抽取 但只能识别以动词为中心词的关系 基于机器学习的关系抽取将关系抽取看作是一个分类问题 在人工标引语料的基础上构造分类器 然后将其应用在领域语料关系的类别判断过程中 目前使用比较多的学习算法有MBL算法和SVM算法 混合抽取方法基于词汇 located in 基于句法结构 Obj Verblocated Subj 机器学习方法有监督学习 基于人工标注数据训练模型 SVM MaxEnt KNN等 1 基于特征的方法2 核方法 核函数Kernel x y 定义对象x与y之间的相似度 则可直接使用核函数代替上述公式中基于显式特征的点积运算半监督学习 基于自举方法从种子样例中训练模型自举方法 Bootstrapping 轮流发现实体关系对与抽取模板 无监督学习 自动发现主要的关系与相应的对象基于对象对与关系上下文的对偶性利用聚类算法 12 语义信息抽取 事件抽取 事件由事件触发词和描述事件结构的元素构成 通常需要共指消解 消岐 去重 推理 事件抽取由两个步骤组成 事件类别识别 事件模板由事件的类别决定 ACE2005定义了8种事件类别以及33种子类别 事件元素识别 事件元素是指事件的参与者 根据所属的事件模板抽取相应的元素 并为其标上正确的元素标签 13 语义信息抽取 事件抽取 事件抽取主要有两种方法 模式匹配和机器学习的方法 模式匹配的方法对某类事件的识别和抽取是在一些模式的指导下进行的 采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配 机器学习的方法把事件抽取任务看作分类问题 把主要的精力放在分类器的构建和特征的发现 选择上 14 语义信息抽取 模式抽取 一阶共现 模版 PB Hoursmayvaryonholidays suchasEaster ThanksgivingandChristmas Pattern suchas including T T and Easter Thanksgiving Christmas 二阶共现 分布式相似性 DS 前提是假设 出现在相似上下文 词语 句法 中的词语比较相似 定义上下文 句法上下文 词语上下文 将每个短语表示为一个特征向量 特征 短语出现的一个上下文 特征值 上下文针对短语的权重 计算短语相似性 特征向量之间的相似性 Cosine Jaccard 15 语义信息抽取 语义层级构建 为短语 term 赋予类标签或上位词 label Beijing city capital Apple company fruit 方法 Patternmatching counting为语义类 semanticclass 赋予类标签 label Beijing Shanghai Dalian cities Chinesecities 方法 投票 Voting 构建层级 16 知识库典型知识库构建方式应用 17 知识库 典型知识库 人工构建的知识库WordNet 专家构建 英语Wikipedia 社区网民构建 实体 属性自动抽取得到的知识库YAGO Wikipedia WordNet 自动构建 准确率高DBpedia Wikipedia 社区网民创建的映射规则 召回率高Freebase Wikipedia 其他数据库 用户编辑 18 知识库 构建方式 YAGO自动构建方式1 利用WordNet和Wikipedia Infobox和Categories 抽取相关知识 再合并构成联通本体 2 一致性检查 包括实体的唯一性 关系领域与范围 类型的一致性 http www mpi inf mpg de yago naga yago 19 知识库 构建方式 Dbpedia自动构建方式1 人工构建分类体系ontology 259classes 6levels 1200properties 2 映射规则 将Wikipediainfoboxesandtables映射到其自有的ontology 人工映射规则 http dbpedia org 20 知识库 构建方式 Freebase自动构建方式1 从Wikipedia ChefMoz NNDB和MusicBrainz等多个数据源导入数据 2 用户可贡献数据 Totaltriples 1 9billion 21 知识库 应用 自动问答系统语义相似性计算情感倾向Web数据标注地图标注侧面搜索 22 语义检索语义解析语义计算文本推理文本复述 23 语义检索 语义解析 词法分析 词法分析 英语 lexicalanalysis 是计算机科学中将字符序列转换为单词 Token 序列的过程 如下所示 24 句法分析 语义解析 短语结构分析 短语结构指的是词法分析之后词和词之间的结构关系 包括并列 动宾等等 如下所示 25 句法分析 语义解析 依存关系分析 依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构 主张句子中核心动词是支配其它成分的中心成分 而它本身却不受其它任何成分的支配 所有受支配成分都以某种依存关系从属于支配者 如下所示 26 句法分析 语义解析 语义角色标注 语义角色标注是指在语法分析的基础上 对句子中各种词语进行更深一层的角色分析 如下所示 27 语义计算 词汇语义计算是语义计算的基础 也是关键技术点 28 语义计算 词汇语义计算 词语相似度的计算主要分两类 1 基于语义词典的方法 如wordnet 知网等 2 基于语料统计的方法 29 语义计算 基于语义词典的词汇 语义词典一般由多个同义词集合组成 每个集合里面是表示相同词义的词的集合 每个词条包括多个同义词集合 同义词集合通过不同的词义关系相连 使用同义集合代表概念 词汇关系在词语之间体现 语义关系在概念之间体现 基于语义词典的词汇语义计算方法很多 如下介绍几种典型的 1 WuAndPalmer算法通过与概念词最近的公共父结点概念词的位置关系来计算其相似度 2 LeacockAnd Chodorow算法则是将两概念间的路径长度转化为信息量来进行相似度计算 3 在基于信息内容的算法上 Resnik提出了直接利用公共父结点概念词的信息内容来计算概念词之间的相似度的算法 30 语义计算 基于语义词典 语义词典方法的缺点 1 对于很多语言并没有好用的语义词典 2 有些词不被语义词典包含 例如实体 新词等 3 大部分方法依赖于上下位层次关系 这限于名词 对于形容词和动词并不完善 31 语义计算 基于语料统计 上下文共现向量方法潜在语义分析LSA LatentSemanticAnalysis 词向量 32 语义计算 上下文共现向量方法 构建上下文向量 每个词为一个1xV V为所有词总数 的向量 记录其他词是否与该词一起出现基于向量距离 相似度公式 典型的胃余弦距离 进行计算两个词的相似度 33 语义计算 潜在语义分析LSA 构建词和文档的矩阵A给词赋予权重 例如TF IDF权重对矩阵进行SVD SingularValueDecomposition 分解留下奇异值不为0对应的k行和k列矩阵U中的每一行表示相应词语与隐含语义空间中语义维度之间的关联 34 语义计算 词向量 词向量是用来将语言中的词用数学方式表示成一个向量的形式 一种最简单的词向量方式是one hotrepresentation 就是用一个很长的向量来表示一个词 向量的长度为词典的大小 向量的分量只有一个1 其他全为0 1的位置对应该词在词典中的位置 但这种词表示有两个缺点 1 容易受维数灾难的困扰 尤其是将其用于DeepLearning的一些算法时 2 不能很好地刻画词与词之间的相似性 术语好像叫做 词汇鸿沟 针对这种情况 Hinton于1986年提出DistributedRepresentation 之后对词向量的研究成为学术界的热点 尤其是在2000年之后 提出了多种词向量训练模型 35 语义计算 词向量解释 模型中的隐层有多少个节点 词向量就是多少维 隐层中的每一个节点相当于一个语义 从输入层到隐层的映射 相当于将一个词映射到不同的语义维度上 语义越相近的词 向量相似度越高 语料库越大 训练出来的词向量越准确 36 语义计算 文本推理 从自然语言表示角度 在词法层 句法层 语义层 将文本依次看成字符串形式 成分结构或依存关系和语义表达 逻辑表达式 在基于各个表达层级选择推理逻辑方法 文本推理的难点 需要大量背景知识的支持句式结构 语义表达的多样化需要构建使用完整的推理规则 37 语义计算 文本复述 根据在知识库索引中找到的信息 进行文本组织复述 反馈给查询者复述生成方法 基于规则的方法基于词典的方法基于自然语言生成的方法基于机器翻译的方法 38 海量数据处理Nesper 39 Nesper NEsper概念 背景 针对实时信息的高并发性和高吞吐量的需求而设计Esper是用于CEP 复杂事件处理 和ESP 事件流处理 应用程序的组件 是一个适合实时分析数据的内存计算引擎 Java 高吞吐量低延迟复杂计算Nesper引擎 类似数据库倒置 设定查询条件实时数据通过这些查询条件 引擎对其进行数据过滤核心包NEsper dll EPL语法解析引擎 事件监听机制 事件处理核心模块NEsper IO dll 与excel database msmq http socket XML等数据源读 40 Nesper 事件处理流程 程序先获取数据把数据传入EPL语句进行执行 执行时可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论