基于关键词复杂网络中的带权最短路径的复杂查询扩展课件

上传人：h*** IP属地：贵州上传时间：2019-01-04 格式：PPT 页数：24 大小：306KB 积分：30 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于关键词复杂网络中的带权最短路径的复杂查询扩展杨华1,2姬东鸿*3萧国政2 1贵州师范大学数学与计算机学院贵阳 550001 2武汉大学文学院武汉 430070 3武汉大学计算机学院武汉 430070 即时通信：QQ与微信：905018910（高品低智）摘要：基于大型文档集构建了的关键词同现网络在该网络中，基于带权最短路径长度的概念，提出了一种新颖的、针对自然语言描述的复杂查询的扩展方法。完成了针对的自然语言表达的复杂查询的信息检索任务，以验证该查询扩展方法方法的有效性。实验表明，用我们的方法度量词语与复杂查询之间的相关度是有效的，但结果依赖于原始复杂查询的良好分析。 1引言信息检索系统一般依赖于倒排索引，各种检索模型基本的操作是判断符号是否存在于文档中，这是基于布尔运算的、机械式符号匹配，只有文档包含查询中的词语的符号，才能被检索到。然而，由于用户查询与其真实需求之间存在的偏差，很有可能某些文档符合用户需求但却因为未包含查询中的词语而不能被检索到。 1引言查询扩展可以提高检索性能1, 2 。在原始查询基础上扩展出的新词集合称为扩展词表。根据扩展词表的来源，目前的查询扩展技术可分成三类3 ： 1）基于全局语料集分析的方法(简称全局分析法)：在整个待检索的文档集上统计同现概率、互信息等自动生成扩展词表48 。 2）基于局部文档集分析的方法(简称局部分析法)：根据一定的相关性假设获得小规模数据，比如认为初次检索的前K篇文档是相关的，从中获得扩展词表。 3）基于语义知识辞典的方法：根据语言学知识而获得基于语义的、含有词语间语义关系信息的人工资源，获得扩展词表911 。 1引言本文提出一种与上述三类方法均不类同的方法，获取扩展词。基于大型语料，构建文档的关键词同现网络，对复杂查询进行扩展，其关键步骤是获取与复杂查询高度相关的词语，事实上也就是度量词语与短文本的相关性的工作。 2基于关键词复杂网络中的最短路径的查询扩展基于最短路径和的查询扩展的总体思想如下：首先构建了关键词同现网络（Key Term Concurrence Network，KTCN）在KTCN中获取离复杂查询中的每个词语的带权最短路径长度最短的词汇用最短路径长度度量词语之间的相关性，获取扩展词并对其加权。 2.1网络构建 2.2复杂查询分析所谓复杂查询，就是用户输入的用自然语言表达的查询，而非过去普遍研究的单个的、短的词语。对于自然语言表达的复杂查询Q，如 “列举全球气候变暖的危害”。首先用如下方法分解：对L中的每个词语W，如果W包含于字符串L，则将W加入到Qa中；去除诸如“提问词”之类的停用词；且向量中的每个元素的权值为L中每个词语的长度与原始查询的长度之比。没有采用分词的方法，因为在查询Q的语境下，“全球气候”，“ 全球气候变暖”等是表达了完整含义的词语，其含义比单独的“ 全球”和“变暖”具备更具体的词义。以Q=“列举全球气候变暖的危害”为例，最终得到得到的初始查询向量是：Qa=，，，。 2.3扩展长度设置本文将使用带权最短路径的长度表达词语之间的语义距离：假设在 KTCN中，两个节点之间的带权路径长度越短，说明相应两个词汇亲密度越高。比如对于Qa=，，，，我们将其中的每个词语称为扩展源，分别对每个扩展源Ts扩展：使用 dijstra算法，依次获取离Ts最短路径长度最短的ExtNum个词。 xtNum即扩展长度：对每个扩展源扩展出的语词的个数（包括扩展源本身）。查询扩展过程将针对始查询向量中的每个元素（扩展源），对每个扩展源Ts，获取的扩展长度为ExtNum个扩展词形成的向量ETs按离扩展源的最短路径长度从短到长排序，即按与扩展源的亲密程度排序。有一点值得提及的是，在大型的网络中，最短路径的获取实际是一件困难的任务，计算的细节，请注意我们进一步将发表的文章。 2.4扩展词加权策略将每个扩展源的扩展结果按照其与扩展源的亲密程度排序，被扩展出的语词按照亲密程度的名次加权；多个扩展源可能会扩展出相同义位，如果一个词语被多次扩展，则扩展结果中它的权值则被累积。具体算法见图2。 2.5检索过程 2.5.1倒排索引本文的支持项目的目的本身不是为了查询扩展，而是探索在复杂网络中如何度量词语的相关性。这里的查询扩展工作的目的是检验基于复杂网络的方法的有效性，因此没有采用为汉语检索系统中常用的一元及二元做倒排索引的方法，而仅对文本中的关键词做倒排索引FInvIdx，索引建立过程为：如果文档D中以语词T为关键词，则对这对“语词文档” 建立索引项。索引项的形式为T，D，F，其中 F为词语T在文档D中作为关键词语出现的频次。注意，并非T出现在D中，就对其建立索引项。我们目前的研究尚未发现好的方法使用F帮助以获得比本文更好的结果，因此下文中仅用表示: T是D的关键词。 2.5检索过程 2.5.2获取相关文档：这一步的操作是根据扩展后的查询向量，利用其中的语词和相应权值，检索结果文档并按得分（相关性）非递减排序。 3实验结果 3.1语料与评测参数采用NTCIR7中的IR4QA任务1315 验证我们的方法的效果。NTCIR7 中IR4QA的简体中文语料( 检索结果也是简体中文)由新闻文章组成，共 545162篇文档。中文上的IR4QA的评测数据最终包括了97个话题。IR4QA任务使用平均正确率(Average Precision ，AP)、Q-measure (Q)16 、标准化折扣累积增益（Normalised Discounted Cumulative Gain， nDCG）17 作为评测参数。其中AP是IR中研究比较充分的参数，Q和nDCG可以处理分级的相关性。 3实验结果 3.2实验结果与分析经过大量实验测试，alpha设置为200左右，beta 设置为15左右时总体性能比较好。表1列出了 alpha=200，beta=15时在不同的扩展长度得到的结果。从表中看出扩展长度在25的时候成绩最好。但是，由于没有参与pooling等因素(NTCIR中获取测试集的过程)，我们的结果可能比表1所显示的更好，但是能提高多少暂时无法考证，原因见文献15 。 3实验结果 3实验结果 3实验结果图 4各AP得分段的话题个数 3实验结果图 4列出了表2中C情形，即我们目前取得的最好成绩的一组数据的AP在各个分值段的话题个数。可以看出，检索性能性能非常不平均，两极性比较强：均值为0.4135的情况下标准差高达0.2231。在NTCIR7 IR4QA最终评测的97个话题中 AP高于0.675的话题多达18个，其中0.775到0.8的话题高达9个。分值小于0.2的话题个数高达22个，仅得分接近0（小于0.1）的话题就多达8个。 3实验结果经过观察得分非常差的话题的初始查询向量，我们发现，这些话题都分析得非常差。例如，对话题ACLIA1CST42，即“谁是本拉登？”，没有获得任何分析结果因此该话题的得分为0，获得的初始查询向量为空（注：语料库中确实有包含“本拉登”字符串的文档，但是关键词抽取工具认为没有一篇文档以“本拉登”作为其关键语词，因此网络中不存在相应的结点），因此该话题的得分为0；对话题 ACLIA1CST74，即“列举中俄之间发生的事情”，使用话题分析策略4，获得的初始查询向量为“俄之间 0.25 发生 0.166667 发生的事情 0.416667 事情 0.166667 之间 0.166667” ，除了“俄之间”非常勉强地和原始话题有点关系外，其他的语词几乎不会携带与话题相关的信息。该话题的得分是AP得分0.007。以上现象说明瓶颈在于话题分析阶段。好的信息：扩展词的寻找和扩展词的加权策略本身性能良好，符合我们支撑项目最重要的目标；坏的消息：检索结果严重依赖于话题分析。 4与传统方法的比较相对于第1节中描述的传统查询扩展，本文采用的查询扩展方法（简称KTCNQE）有很多独特之处。 KTCNQE不依赖于人工资源。相对于局部分析，KTCNQE能避免局部分析中对局部文档相关性程度的敏感性，而且只需要一次检索。与全局分析相同相比 KTCNQE间接利用了全局文档的丰富信息，获取的语词之间的关联性相对局部分析法更准确。与全局分析不同的是，KTCNQE不需要计算所有语词之间的关联度之后才能使用，具有更好的实时性。 4与传统方法的比较 KTCNQE能随着文档集中的文档不断产生，消失，修改等的动态变化（比如互联网上的文档）而获得动态的结果，因为这些变化导致的只是KTCN中的节点，边，权值的增减操作，因此KTCNQE方法不受限于领域，能自动跟上由于流行语言的变化。 KTCNQE用于海量文档时，文档数量的越大，KTCN的边权值更加能表达语义上的相关程度，使得查询扩展更准确。KTCNQE可以检索到不包含原始复杂查询中的词语的相关文档。 5下一步的工作本文的目标并不在于查询扩展本身，而是以查询扩展任务检验我们的度量短文本和词语之间的相关性的方法的效果。就查询扩展工作本身而言，有如下工作值得进

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于关键词复杂网络中的带权最短路径的复杂查询扩展课件

文档简介

温馨提示

最新文档

评论