版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章自动问答目录自动问答概述基于知识库的自动问答基于固定文档的自动问答基于自由文本数据的自动问答小结第八章自动问答自动问答概述第八章自动问答自动问答(QA)旨在解决什么问题?简而言之,就是让计算机理解自然语言提问并像人类一样返回精准答案。问句理解→信息检索→答案抽取/生成"百度大厦在哪儿?"➜检索地理位置信息➜"北京市海淀区..."核心分类维度领域范围限定域(Restricted)vs开放域(OpenDomain)反馈机制检索式(Retrieval)vs生成式(Generation)数据依赖(DataSource)结构化知识库(KB)固定文档集(Docs)自由文本(FreeText)目录第八章自动问答自动问答概述基于知识库的自动问答基于固定文档的自动问答基于自由文本数据的自动问答小结基于知识库的自动问答-主要数据集第八章自动问答数据集年份/来源特点与规模Free9172013/天普大学917个问题,覆盖Freebase600+关系,标注逻辑表达式。WebQuestions2013/斯坦福5810个真实搜索问题;SP版增加了SPARQL标注。SimpleQuestions2015/Facebook大规模(10万+),针对单关系简单事实问答。ComplexQuestions2016/哈工大引入时间、类型、多实体、聚合(求和/最值)等复杂约束。LcQuAD2017/波恩大学基于DBpedia,82%为复杂问题;2.0版扩展至3万题。NLPCC-ICCPOL2016/中文通用1.4万对训练集,提供含650万实体的大规模中文知识库。基于知识库的自动问答-语义解析范式第八章自动问答逻辑形式基础一元形式(Unary)
对应实体查询,如查找实体e。二元形式(Binary)
对应关系查询,如查找与关系p相关的所有三元组。支持连接(Join)、求交(Intersection)、聚合(Aggregation)等操作。语义解析核心步骤步骤1:词汇映射(LexicalMapping)实体对齐:Obama→BarackObama关系对齐:wasbornin→PlaceOfBirth步骤2:解析树构建自底向上合并逻辑节点桥接(Bridging):引入中间关系连接断开的逻辑片段筛选机制:训练分类器计算每个候选逻辑式的概率得分,择优输出。将自然语言“翻译”为数据库能理解的逻辑形式(LogicalForm),是KBQA的经典解法。基于知识库的自动问答-深度学习范式第八章自动问答从符号匹配到端到端表示学习,深度学习极大地提升了KBQA的鲁棒性。核心思路:子图嵌入(SubgraphEmbedding)1.实体识别与链接定位问句中的锚点实体2.扩展子图一跳或多跳扩展,获取候选答案集3.向量化匹配计算Embed(Q)与Embed(Subgraph)相似度其他前沿方向Seq2Seq/Attention序列到逻辑形式的直接翻译状态转移模型原子操作生成查询图核心洞察结构归纳偏置+表示学习=更强的泛化与鲁棒基于知识库的自动问答-常识问答第八章自动问答任务特点依赖外部常识(如ConceptNet)问题更抽象、开放两大挑战检索与融合:如何高效获取并整合相关知识?可解释性:如何量化推理过程的合理性?知识融合路径1.预训练阶段注入利用Adapter/K-Adapter等技术,将三元组或语言知识隐式注入模型参数。2.图神经网络融合显式利用GNN整合ConceptNet与Wikipedia,进行可解释的图上推理。当答案不在给定文本中,而在于“常识”时,我们需要让AI学会“说得通”。目录第八章自动问答自动问答概述基于知识库的自动问答基于固定文档的自动问答基于自由文本数据的自动问答小结基于固定文档的自动问答-主要数据集第八章自动问答1.完形填空(Cloze)预测文档中被遮蔽的词或实体。Dataset:CNN/DailyMail2.答案选择(MultipleChoice)从给定选项中挑选正确答案。Dataset:MCTest,RACE3.片段抽取(SpanExtraction)从文档中抽取连续子序列作为答案。Dataset:SQuAD1.1/2.04.自由回答(FreeAnswer)基于多文档综合生成非固定形式答案。Dataset:TriviaQA,DuReader基于固定文档的自动问答-模型总体架构第八章自动问答基于深度学习的MRC模型通常遵循经典的“编码-交互-输出”三层架构。基于固定文档的自动问答-BiDAF机制刨析第八章自动问答基于固定文档的自动问答-DFGN思路第八章自动问答当单文档不足以回答时,DFGN通过动态融合图网络实现跨文档的链式推理。1实体图构建从文档中提取实体构建初始拓扑2动态融合Doc2Graph:聚合信息Graph2Doc:引导关注3链式推理逐步发现“支持实体”过滤噪声节点目录第八章自动问答自动问答概述基于知识库的自动问答基于固定文档的自动问答基于自由文本数据的自动问答小结基于自由文本数据的自动问答-相关数据资源第八章自动问答知识资源维基百科开放域自动问答中最常用的知识资源作为事实知识库与答案来源文本处理方式仅保留相关页面的纯文本内容删除:结构化数据(如列表、表格、图形)内部歧义标签、索引与大纲信息目的减少噪声,提高文本检索与阅读理解效率验证数据集CuratedTRECWebQuestionsWikiMovies这些数据资源为开放域自动问答系统的知识获取、模型训练与性能评估提供了重要基础。基于自由文本数据的自动问答-DrQA自动问答框架第八章自动问答基于自由文本数据的自动问答-检索器+阅读器第八章自动问答1.文档检索器(Retriever)机制:TF-IDFBigram利用倒排索引快速计算问题与文档的相似度。输出返回相关度最高的Top-k篇文档(或段落),极大缩小搜索空间。2.文档阅读器(Reader)丰富的特征工程词向量(GloVe)精确匹配(ExactMatch)词性/NER/词频对齐问题特征(AlignedQuestion)决策逻辑最大化联合概率:P(start)×P(end)DrQA系统通过高效的稀疏检索与精细的神经阅读,实现了维基百科上的开放域问答。基于自由文本数据的自动问答-动态重排DDRQA第八章自动问答1.迭代检索更新Query补充文档到图谱2.动态重排对文档打分过滤无关噪音3.全局控制决定停止或继续针对开放域多跳问答,DDRQA通过“检索-重排-过滤”的迭代循环,动态构建证据链。核心价值:为多跳与长链推理问题构建更纯净、更相关的证据集。基于自由文本数据的自动问答-稠密检索DPR第八章自动问答BERT_Q问题编码器BERT_P段落编码器•点积相似度(DotProduct)意义:捕获深层语义(如同义词、改写),不再受限于严格的关键词匹配,是现代RAG架构的基石。从“关键词匹配”到“语义匹配”的进化,DPR解决了传统检索的词汇鸿沟问题。目录第八章自动问答自动问答概述基于知识库的自动问答基于固定文档的自动问答基于自由文本数据的自动问答小结小结第八章自动问答问答范式数据依赖代表模型/方法适用场景KBQA结构化知识库
(KB)•语义解析(CCG)
•子图嵌入(SubgraphEmb)精确事实查询
复杂多跳推理MRC给定文档
(Context)•BiDAF(交互层)
•BERT(预训练编码)文档阅读理解
信息抽取与归纳OpenQA海
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高中语文现代文阅读理解题
- 2026年农药使用技术指导与咨询服务题
- (2026年)智能化穿透式监管体系建设实施方案(2026-2028)
- 2026年会计师实务操作指南与面试技巧解析
- 护理制度与护理沟通
- 护理个案:护理团队建设
- 2026年开发区招商引资项目法律服务知识试题
- 骨科膝关节韧带修复术后康复指南
- 鼻窦炎规范化药物治疗教程
- 危险品存储安全管理方案制度
- 作文纸电子版
- 第一单元项目一探秘鸟类研究认识数据信息与知识课件沪科版高中信息技术必修1
- T CACM、T CAAM 冬病夏治穴位贴敷疗法治未病干预指南
- 关于请求支援xxx的函-公文关于协助函
- 第七讲-80年代文学思潮
- 超级电容器制造技术
- 五年级语文老师家长会课件(完美版)
- 医疗废水处理工艺设计毕业设计论文说明书
- 腹部疾病-腹部损伤(外科学课件)
- 电力冬雨季施工措施方案
- 大华拼接屏控制器说明书
评论
0/150
提交评论