版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
对话系统需要的理论基础综述目录TOC\o"1-3"\h\u21369对话系统需要的理论基础综述 154101.1相关术语 1200601.2语料处理 173591.3文本分类 295571.4命名实体识别与关系抽取 51.1相关术语意图(Intent):当用户与聊天机器人交互的时候,我们用不同的Intent来标注用户说的每一句话,识别出用户到底想要我们做什么实体(Entities):实体即为意图拥有的元数据,可以是次数,数量,体积,也可以是电影票,航班,音乐会,一个意图中可以存在多个实体。话术(Utterances):对问题/意图的不同表达方式,同一意图拥有相当多的表达方式,通过收集多种话术加强意图识别的准确率置信度:置信度得分表示机器模型对识别出用户意图的信心,我们用置信度得分来观察不同话术对意图的影响。1.2语料处理由于本文建立的是中文对话系统,中文分词是中文文本处理中一个基础步骤,也是中文人机自然语言交互的基础模块(1)JIEBA分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG),再采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,通过JIEBA分词对收集的语聊进行预处理,将句子精确的切割开,将句子中的各个词划分词性输出。(2)条件随机场(ConditionalRandomField,CRF)通过借鉴最大熵模型思想,计算标记序列的联合概率,对于序列标记有着天然的优势。在规定训练文件格式后使用CRF++进行训练,给定词性,规定模板,字的状态信息进行分词,再将分词完成后的语料作为训练集训练模型。条件随机场分词模型如图2-2所示:图2-2条件随机场分词模型1.3文本分类文本分类是信息检索和数据挖掘的重要基础,本文研究了以下三个分类模型:(1)贝叶斯文本分类模型贝叶斯公式又英国数学家贝叶斯提出,与经典概率学并列为现代统计学中的两大学派,贝叶斯理论描述了一种以某一事件过去发生的频率为基础对这一事件发生的概率进行估计的方法。设A,B两个随机事件,已知在B发生条件下,A发生的概率称为条件概率P(A|B),定义为:P(A|B)=P(A,B)P(B)P(B|A)定义为:P(B|所以P(B|A)=P(B| 贝叶斯定理如公式2-3所示,贝叶斯分类模型以统计方法为基础,将贝叶斯理论作为基本理论,将分类问题看作是一种依据正确率的不确定决策问题。分类器通过归纳训练集的属性对未知类别的数据对象进行分类,将后验证概率最大的类别作为样本的分类,且在分类时使用数据的所有特征。假设用户输入为语句S,S通过分词可以表示为S={T1,T2,T3...Ti,i<n}假设一共有C类样本,那需要计算的是对于每一个类别P(C|S)的值。根据式(2-3)改写为:P(C|将每个词向量带入式子(2-4)得到所有词向量在每一个样本中的后验概率,选取后验概率最大的类别作为文本的分类。决策树文本分类模型决策树(DecisionTree)作为机器学习的常用方法,可以清晰透明的解释分类。用数据集(文本)生成决策树模型,每个节点的生成如图2-3所示图2-3决策树生成过程熵表示随机变量的不确定性,熵越大,随机变量的不确定性就越大。条件熵则表现了已知随机变量X下随机变量Y的不确定性。而信息增益表示特征X的信息使Y信息的不确定性减少程度。是节点按照属性对数据集进行分类后信息熵的增加值,根据信息论中,信息熵的大小与数据纯度成正比例相关,信息增益越大,数据纯度就越高,因此信息增益越大,数据纯度越高,特征就能更好的的对数据进行分类。另外,在训练决策树的时候会出现过拟合的状况,所以需要对决策树进行减枝处理,决策树减枝基本策略分为预剪枝和后剪枝。预剪枝是指在决策树的节点生成时进行预估,看节点的划分能不能带来泛化能力提升,可以就停止划分并标记叶节点,而后剪枝则是指在决策树生成之后,使用训练集从下而上地对决策树内部节点评估,若将内部节点替换为叶节点可以提高泛化能力,就将其标记为叶节点。(3)SVM文本分类模型支持向量机(SupportVectorMachine,SVM)是在高维特征空间使用线性函数来假设空间的算法,在分类方面具有良好的性能。在自然语言处理中广泛运用于文本分类,短语识别和消除歧义等方面。1.4命名实体识别与关系抽取命名实体是命名实体识别的研究主体,在命名实体时一般秉承三大类(数字类,实体类和时间类),七小类(人名,地名,机构名,时间,日期,货币,百分比)的原则。模式匹配可以用于类似于时间,数量,日期,货币等实体识别,而人名,地名,机构名等存在大量的不确定性,需要依据其他的方法判断。评判命名实体是否正确的被识别主要有以下两个方面:文本识别正确,实体类型识别错误文本边界错误,但词类标记正确准确判断文本边界和词类标注实体识别起着重要的作用。命名实体识别方法主要分为基于规则和词典的方法,基于统计的方法和混合算法。基于规则的方法基于规则模板,选用关键字,标点符号,位置词等特征,通过模式和字符串的匹配实现命名实体识别。系统的实现代价比较高,可移植性也存在着一定的限制。基于统计的方法根据所用的机器学习方法不同,可以划分为有监督的学习方法,半监督的学习方法,无监督的学习方法和混合方法。其中,有监督算法包括了支持向量机,条件随机场,隐马尔科夫模型,最大熵模型等。基于统计的方法对特征选取的要求比较高,需要从文本选取有效反映实体特性的特征集合。有关特征包括单词特征,上下文特征,停用词特征,核心词特征和语义特征等,还可以将特征进行包装和组合。混合方法则包括,统计方法混合,规则词典与机器学习相融合,各类模型算法的混合。本文主要使用了条件随机场模型和基于规则的模式匹配来进行实体的识别。条件随机场(ConditionalRandomField,CRF)模型进行实体识别对训练语料进行标记,标记集可以采用B,I,O的方式进行标注,也可以采用B,I,E,S,O的方式进行标注,如表2.1表2.1CRF标记语料说明标注含义B当前词是相应命名实体的开始I当前词是相应命名实体的内部O当前词不是命名实体E当前词是相应命名实体的结尾S当前词是独立命名实体由于命名实体的构成具有很强的随意性,只是依靠命名实体本身结构和用字分析很取到比较好的识别效果,因此,我们需要充分挖掘命名实体中上下文的相关信息,由条件随机场来表达长距离的依赖信息,有效地将相关与不相关的信息融合在一起。一个基本的特征生成算法主要由以下步骤输入:语料,特征模板输出:特征集选取一个模板顺序读取语料库中的每一个词,并做匹配,看生成的模板是否在模板库中,不存在就将新生成的特征加入模板,存在就做计数加1双循环将每一个词和每一个模板匹配如此构建的特征集合就可以作为条件随机场模型的特征集。对于信息抽取和关系抽取,做以下解释:关系抽取:识别出实体并抽取实体之间的语义关系。如果关系类型是已知的,那这种抽取的方法就被称为封闭式关系抽取。而如果这种关系类型是未知的,只是确定了实体间发生了关系,关系内容还需要发现,那么这种抽取称为开放式关系抽取。一般来说,面对的都是二元关系抽取问题,即发生在两个实体之间的关系。但相应的也有多个实体关系的句子描述,我们将其称为多元关系抽取。使用人工的方式列出实体与实体之间的关系,举个例子:Entity1:小AEntity2:小BRelation:朋友Entity1:小AEntity2:小CRelation:合作Entity1:小AEntity2:演唱会Relation:演唱实体关系抽取的方式多种多样,本文主要是使用了基于规则判断的关系抽取,通过人工总结的模式实现。Content:刘德华演了无间道Rules:[name]演了[movie]NewContent:周杰伦演了大灌篮实体关系抽取(RelationExtraction,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社团审批制度及流程
- 四川省蓉城名校联盟2026届高三4月第二次联合诊断性考试 政治试卷(含答案详解)
- 山西省运城市2026年高考考前适应性测试(二模)思想政治试题(含答案)
- 人体营养状况测定和评价
- 2026高血压养生用药提醒设置课件
- 2026 高血压病人饮食的黄瓜汁的夏日凉饮课件
- 2026二年级数学下册 混合运算文化传承
- 2026道德与法治六年级阅读角 阅读经典人物形象
- 行政审批权力监督制度
- 行政审批红黑榜制度
- GB/T 42124.3-2025产品几何技术规范(GPS)模制件的尺寸和几何公差第3部分:铸件尺寸公差、几何公差与机械加工余量
- 基于单片机的家电远程控制系统设计
- 公司厂房租赁管理制度
- 防汛应急服务合同范本
- T/CTRA 01-2020废轮胎/橡胶再生油
- 科技助农:农业新篇章
- 思考快与慢课件
- 学前特殊儿童语言教育
- 学校防投掷爆炸物预案
- 2024年公路工程质量检验评定标准
- 幼教培训课件:《幼儿园区域活动与幼儿成长》
评论
0/150
提交评论