




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
知心时代,百度知识图谱新进展,青玉案元夕,百度,百度搜索引擎,97 7Billion,覆盖中国的网民 % 每天的搜索量,百度每天的搜索query来自全球138个国家,百度的产品,User Generated Content (UGC) 多种垂类产品,超过3亿 已解答问题,来自520万网民 贡献的1000万词条,超过800万的吧,NLP,NLP百度,UGC,知道,百科,贴吧,LBS,Map,Nuomi,Group Buy,国际化,葡语,阿语,泰语,搜索,网页搜索,移动云,移动搜索 百度云 语音助手,商业产品,文库,音乐,广告,百度NLP,百度NLP,百度NLP-多元化团队,语言学人才,百度 NLP,系统实现人才,产品设计人才 架构、前端、客户端工程开发人才,算法开发人才,学术人才,百度NLP,基本方法 基础资源,词典,语料,规则方法,统计与机器学习方法 网页 日志,基础架构/平台,应用系统,智能交互,深度问答,机器翻译,用户理解,话语分析 自动文摘 网页理解,文本生成 Query理解 APP理解,专名识别 分词、词性 形态分析,组块分析 主干分析 依存分析,逻辑推理 语义计算 语义表示,文本理解 上层技术,词法,基础分析 句法,语义,用户建模 用户行为预测,NLP业务,应用产品,搜索产品,LBS产品,国际化产品,用户消费产品,移动产品,知识挖掘,提纲, 百度知心概要介绍, 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展, 知识图谱的其他技术和应用,百度的知识中心,百度知心:百度的知识图谱 知心的两层含义 百度更知用户的心,百度知心,丰富的 应用,庞大的 知识库,强大的,处理技术,孵化平台,“涵盖了数十领域,上亿实 体与属性,符合国际化接轨 的数据标准体系”,“包括清洗、消歧、关联、推 理等能力,将无序数据变为知 识网络”,“对接大搜索、移动、LBS、 国际化等公司战略产品,提供 诸如:知识聚合、检索、推荐、 交互等形态多样的应用” 快捷的 “已高效完成百亿互,联网数据的挖掘,以 及数十个创新产品的 孵化”,知识图谱定位和概况 百度知识图谱致力于构建宏大的知识网络,包含世间万物以及它们之间的联系,以图文并茂 的方式展现知识的方方面面,让人们更便捷的获取信息、找到所求。,百度知心的一路走来,2012年底百度知心上线,实体基本属性,仅针对实体型query 相关实体推荐,增加用户互动的内容,搜索引擎体现社交色彩,百度知心:更加精彩的用户体验,推荐无处不在,推荐技术更加深入,百度知心:更加精彩的用户体验,百度知心:无处不在的推荐,点击后推荐,click,百度知心:无处不在的推荐 上翻后推荐,下翻,上翻,通栏推荐,百度知心:无处不在的推荐,百度如何知心?,百度知心的背后,尽可能快的满足用户的当前需求 尽可能多的引导用户的延展需求,更加深刻的理解用户需求 更加丰富的需求满足方式,更加深入细致的搜索/推荐/挖掘/NLP/机器学习技术,百度知心的不断进化,提纲, 百度知心概要介绍, 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展, 知识图谱的其他技术和应用,什么是推荐理由?,推荐理由的两方面作用 摘要满足,让用户一目了然的了解推荐的 实体是什么,增加吸引力,让用户更有兴趣对推荐的实体 一探究竟,百度知心推荐理由的分类,单实体型推荐理由 Q:林丹 对于推荐实体本身的描述 与query无关 覆盖面高,实体关系型推荐理由 Q:林丹 对两个实体的关系的描述 与给定query相关 覆盖面低,单实体推荐理由挖掘,百度百科,网页库,搜索日志,实体链指,数,据,掘,Bootstrapping,Distant Supervision,推荐理由生成 基于规则的生成,实体 三元组,模板集,后 处 理 挖,推荐理由压缩,实体推荐理由 知识库 推荐理由挖掘 基于模板的挖掘,单实体推荐理由挖掘挖掘示例,doc /view/452602.htm,1. 2. 3. 1. 2. 3. 4. 1. 2. 3. 4. 5. 1. 2. 3. 4. 1. 2.,文雅丽出生于中国香港,1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子,成为 亚历山德拉王妃 文雅丽有着1/4中国血统的文雅丽是土生土长的香港女孩,1995年嫁给丹麦女王 次子约阿希姆王子,成为欧洲王室史上第一位亚裔王妃,但双方于2005年离婚。 主要成就:“北欧的戴安娜王妃” (文雅丽,亚历山德拉王妃) (文雅丽,土生土长的香港女孩) (文雅丽,欧洲王室史上第一位亚裔王妃) (文雅丽,北欧的戴安娜王妃) (文雅丽,亚历山德拉王妃) (文雅丽,土生土长的香港女孩) (文雅丽,史上第一位亚裔王妃) (文雅丽,欧洲王室史上亚裔王妃) (文雅丽,北欧的戴安娜王妃) (文雅丽,亚历山德拉王妃) (文雅丽,土生土长的香港女孩) (文雅丽,史上第一位亚裔王妃) (文雅丽,北欧的戴安娜王妃) (文雅丽,亚历山德拉王妃) (文雅丽,北欧的戴安娜王妃),doc,预处理 sent related to e 抽取TAG (e, tag), 压缩TAG (e, s_tag), 过滤TAG accuracy 85%+ 众测, ,为什么要自动化:pattern-based方法召回低 问题定义: PU Learning问题 Only positive example and unlabeled data Two steps:, ,Mapping Stage: finding reliable negative instances Convergence Stage: classifier building,单实体推荐理由挖掘Tag Model,Yu et al., 2002. PEBL: Positive Example Based Learning for Web Page Classification Using SVM. In SIGKDD.,doc /view/452602.htm,1. 2. 3. 1. 2. 3. 4. 5. 6. 1. 2. 1.,文雅丽出生于中国香港,1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子,成为 亚历山德拉王妃 文雅丽有着1/4中国血统的文雅丽是土生土长的香港女孩,1995年嫁给丹麦女王 次子约阿希姆王子,成为欧洲王室史上第一位亚裔王妃,但双方于2005年离婚。 主要成就:“北欧的戴安娜王妃” (文雅丽,成为亚历山德拉王妃) (文雅丽,土生土长的香港女孩) (文雅丽,嫁给丹麦女王次子) (文雅丽,王室史上第一位亚裔) (文雅丽,成为欧洲王室) (文雅丽,北欧的戴安娜王妃) (文雅丽,土生土长的香港女孩) (文雅丽,北欧的戴安娜王妃) (文雅丽,北欧的戴安娜王妃),doc,预处理 sent related to e 抽取候选 (e, tag), 分类TAG accuracy 84% 众测,单实体推荐理由挖掘Tag Model抽取示例,实体关系型推荐理由挖掘-1 利用结构化信息自动生成关系型推荐理由,使用百科名片数据中的属性知识自动拼接生成实体关系,实体关系型推荐理由挖掘-2 基于句法分析从自由文本中挖掘实体间关系,对海量网页数据进行句法分析,从实体间的句法路径挖掘实体关系,颜良,关公,杀死,一刀,大坯山,在 大坯山 下 颜良 被 关公 突然 袭击 快马 奔到 面前 一刀 杀死 的,提纲, 百度知心概要介绍, 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展, 知识图谱的其他技术和应用,Query端/文本端分别建模,知识库中的实体,M1,M2,M3,M4,M5,知识库实体建模,文本端,Query端 Q:李娜 青藏高原 基于点击日志 的query扩展,MQ NERL-Q,Query mention建模,MD NERL-D,文本mention建模,Query端/文本端分别建模 Q:为什么需要分别建模? A:同一个mention在query和长文本中的entity分布可能 相差很大 例如:,Query:你不知道的事,出现在query中,绝大 多数情况是歌曲名,文本:解析老干妈:“逆营销”下,你不知道的事 出现在文本中,大多 数情况不是歌曲名,上下文建模 候选实体抽取:在给定文本中定位mention及其候选entities,同义词映射: 勒布朗-詹姆斯,同义词映射: 凯文-乐福 同义词映射: 克里夫兰骑士队,同义词映射: 奥兰多魔术队,衰减率,(w,_),1,-5,-4,-3,-2,-1,0,1,2,3,4,5,李娜 0,名将,HEAD,在,号,上下文建模 上下文词汇特征 目标mention左右窗口中的词 上下文实体特征, 目标mention左右窗口中出现的实体 文本类别特征 当前文本的所属类别,距离衰减因子,实体建模 实体文本词汇特征 实体文本中的内容词w与mention在大规模语料中的共现紧密度 实体文本实体特征, 实体文本中出现的其他实体 实体文本类别特征 如百科词条的分类标签,特定小说、影视、 音乐等特定类别 的特征裁剪,实体链指决策, 特征, mention与entity的自身相似度特征、上下文词相似度特征、上下文,实体相似度特征、文本类别相似度特征, mention链指到不同entity的先验概率特征, 决策步骤-1:排序, 从mention的所有候选实体中,基于LTR选出top-1候选, 决策步骤-2:分类, 基于RF模型对top-1候选进行分类,判断是否应链接, 注:知识库中存在实体缺失问题,因此分类的步骤必不可少,EL应用于推荐实体消歧,Q:小威,Q:青藏高原,EL应用于推荐实体消歧,Q:小威,Q:青藏高原 解决上下文稀疏问题: 在N个推荐实体中,用其他 N-1个实体作为当前歧义实 体的上下文,提纲, 百度知心概要介绍, 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展, 知识图谱的其他技术和应用, 模型的优化目标, 右侧实体推荐的整体reward最大化, 如:推荐实体的点击率(click-through rate:CTR), 主要挑战, 推荐实体的动态变化性, 右侧推荐实体的候选列表是在动态变化的,且用户的兴趣也会随着时,间动态变化, 用户反馈数据的不完备性, 只有展现出来的实体会得到用户的点击反馈;那些没有展现出来的实,体永远没有机会被展现出来,基于在线学习(Online Learning)的推荐实体轮展,Calculate candidates,Get Feedbacks,Display Recommended items,Multi-Armed Bandits,在exploration (新的推荐实体)和exploitation(好 的推荐实体)之间取得平衡,问题抽象,Display,Card-Ranker,Item-Rerank,User - Log,Preprocessing Feed Back & Dictionary Generation,Bandit Algorithm,Candidate Generation,推荐实体轮展系统流程,提纲, 百度知心概要介绍, 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展, 知识图谱的其他技术和应用,知识图谱的其他技术和应用:,专名挖掘,Learning NEs using Url-text Hybrid Patterns, Is it possible to extract NEs from webpage titles only?, Yes! 99% NEs can be found in some webpage titles, Url-text hybrid patterns, Url constraints should be taken into consideration, Simple text patterns are enough for credible url (website) Complicated text patterns are needed for low-quality url, Url-text hybrid pattern learning, utp = (up, tp, c, f) Example:,Zhang et al. 2013. Bootstrapping Large-scale Named Entities using URL-Text Hybrid Patterns. In IJCNLP.,S2,Learning NEs using Url-text Hybrid Patterns,Zhang et al. 2013. Bootstrapping Large-scale Named Entities using URL-Text Hybrid Patterns. To appear in IJCNLP.,Inter-class Estimator Inner-class Estimator scorer,Option Pat. seed, Overview Multiclass Collaborative Learner,Sn,Multiclass Seeds S1 ,Bootstrapping Pat. Generation Seed Extraction,Learning NEs using Url-text Hybrid Patterns, Multiclass Collaborative Learning (MCL), NEs of multiple classes are extracted simultaneously Bootstrapping NEs and url-text hybrid patterns iteratively, A small set of seeds is required for each class, Inter-class and intra-class scoring approaches are used for controlling,the quality of NEs and patterns yielded in each iteration, Inter-class scoring: A correct NE of a class should not be extracted by patterns of other classes; A correct pattern of a class should not extract seeds from other classes., Intra-class scoring: A correct NE of a class should not be extracted by only one pattern of the class; A correct pattern of a class should not yield a lot of NEs that cannot be extracted by other patterns of the class.,Zhang et al. 2013. Bootstrapping Large-scale Named Entities using URL-Text Hybrid Patterns. To appear in IJCNLP.,知识图谱的其他技术和应用:,深度问答与情感分析,面向知识图谱查询的Query理解,DE,ATT 的,演过 OBV 还珠格格,1. 还珠格格演 员,2. Skip,4. (还珠格格演员) & (台湾演员) 演员 3. (台湾演员) ATT 台湾,1 2 3,解码算法: -Transition(shift-reduce) decoding 结构特征: -依存分析的结果 语义特征: -角色标签,知识库Scheme,深度问答的不同产品形态 机器翻译应用 多语言翻译,情感分析,情感分类,评论观点,评论Tag,评论摘要,知识图谱的其他技术和应用:,智能交互,3轮,4轮,百度考霸:基于知识图谱的多轮交互 Q:600分可以上哪些学校推荐? 1轮 2轮,北京市 600分 能上 什么 大学,依存分析,北京市 600分 能上 什么 大学 知识库查询query has(scoreLine,LT,600).has(scoreLine,GT,550).has(type,universityScoreLine).has(province, 北京).has(type,un
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 七年级生物下册 第四单元 第四章 第三节《输送血液的泵-心脏》说课稿 (新版)新人教版
- 第二单元空气和氧气课题3制取氧气 第1课时实验室制取氧气的原理 分解反应说课稿-九年级化学人教版(2024)上册
- 保姆基本知识培训总结
- 7《听听秋的声音》(教学设计)统编版语文三年级上册
- 港务局招工考试题及答案
- 人教版八年级上册地理2.1地形与地势 说课稿
- 1.7 隋唐时期的科技与文化 说课稿 2024-2025学年统编版七年级历史下册
- 2025年中国铁建校园招聘专业科目模拟题及解析
- 综合与实践 家乡变化情况的调查教学设计初中数学湘教版2024七年级下册-湘教版2024
- 2025年医院护士招聘面试模拟题及答题技巧
- MOOC 英语话中华-山东大学 中国大学慕课答案
- SCAN 反恐审核要求清单
- 综合楼监理规划
- 行政执法监督工作实施方案
- 人行桥、机耕桥施工
- 10KV配电室倒闸操作票
- Unit+4+Natural+Disasters+Workbook+China+to+the+rescue+课件-【知识精讲精研】高一上学期英语人教版(2019)必修第一册
- 疑难病历随访登记本(医技科)
- 译林版九年级英语上册Unit 4 Task 示范公开课教学课件
- 16G362 钢筋混凝土结构预埋件
- 疫情防控应知应会术语释义
评论
0/150
提交评论