




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第第6章 查询及查询扩展章 查询及查询扩展 主讲 张春元 信息学院主讲 张春元 信息学院213室 室 联系电话 联系电话课程邮箱 课程邮箱 haidair2009 密码 密码 ir2009 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 2 提纲提纲 引言引言引言引言 查询查询查询查询 基于关键词的查询基于关键词的查询基于关键词的查询基于关键词的查询 基于非关键词的查询基于非关键词的查询基于非关键词的查询基于非关键词的查询 查询扩展查询扩展查询扩展查询扩展 用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展 自动局部分析扩展自动局部分析扩展自动局部分析扩展自动局部分析扩展 自动全局分析扩展自动全局分析扩展自动全局分析扩展自动全局分析扩展 交互式查询扩展交互式查询扩展交互式查询扩展交互式查询扩展 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 3 引言引言 查询是用户信息需求的概要表示 信息检索系统中所采用的查查询是用户信息需求的概要表示 信息检索系统中所采用的查查询是用户信息需求的概要表示 信息检索系统中所采用的查查询是用户信息需求的概要表示 信息检索系统中所采用的查 询有多种类型 这在一定程度上取决于信息检索系统所用的检询有多种类型 这在一定程度上取决于信息检索系统所用的检询有多种类型 这在一定程度上取决于信息检索系统所用的检询有多种类型 这在一定程度上取决于信息检索系统所用的检 索模型 索模型 索模型 索模型 最简单的查询是由关键词组成 信息检索系统由此检索出包含最简单的查询是由关键词组成 信息检索系统由此检索出包含最简单的查询是由关键词组成 信息检索系统由此检索出包含最简单的查询是由关键词组成 信息检索系统由此检索出包含 有这些关键词或这些关键词所表达的语义的文档 基于关键词有这些关键词或这些关键词所表达的语义的文档 基于关键词有这些关键词或这些关键词所表达的语义的文档 基于关键词有这些关键词或这些关键词所表达的语义的文档 基于关键词 的查询直观 易于表达 而且允许快速的排序 因而非常流行 的查询直观 易于表达 而且允许快速的排序 因而非常流行 的查询直观 易于表达 而且允许快速的排序 因而非常流行 的查询直观 易于表达 而且允许快速的排序 因而非常流行 由于信息检索系统所支持的查询功能有限或者用户自身原因 由于信息检索系统所支持的查询功能有限或者用户自身原因 由于信息检索系统所支持的查询功能有限或者用户自身原因 由于信息检索系统所支持的查询功能有限或者用户自身原因 在许多情况下 用户难以构建合适的查询准确地表达其其信息在许多情况下 用户难以构建合适的查询准确地表达其其信息在许多情况下 用户难以构建合适的查询准确地表达其其信息在许多情况下 用户难以构建合适的查询准确地表达其其信息 需求 为此有必要对用户的查询进行扩展 以构建更为完善的需求 为此有必要对用户的查询进行扩展 以构建更为完善的需求 为此有必要对用户的查询进行扩展 以构建更为完善的需求 为此有必要对用户的查询进行扩展 以构建更为完善的 查询表达式 查询表达式 查询表达式 查询表达式 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 4 提纲提纲 引言引言引言引言 查询查询查询查询 基于关键词的查询基于关键词的查询基于关键词的查询基于关键词的查询 基于非关键词的查询基于非关键词的查询基于非关键词的查询基于非关键词的查询 查询扩展查询扩展查询扩展查询扩展 用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展 自动局部分析扩展自动局部分析扩展自动局部分析扩展自动局部分析扩展 自动全局分析扩展自动全局分析扩展自动全局分析扩展自动全局分析扩展 交互式查询扩展交互式查询扩展交互式查询扩展交互式查询扩展 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 5 基于关键词的查询基于关键词的查询 单一词查询单一词查询单一词查询单一词查询 上下文查询上下文查询上下文查询上下文查询 布尔查询布尔查询布尔查询布尔查询 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 6 单一词查询单一词查询 单一词查询单一词查询单一词查询单一词查询 单一词查询是基于关键词的查询中最基本 最简单的一单一词查询是基于关键词的查询中最基本 最简单的一单一词查询是基于关键词的查询中最基本 最简单的一单一词查询是基于关键词的查询中最基本 最简单的一 种 是指从文档集中检索出包含有单一关键词或单一关键词种 是指从文档集中检索出包含有单一关键词或单一关键词种 是指从文档集中检索出包含有单一关键词或单一关键词种 是指从文档集中检索出包含有单一关键词或单一关键词 所表达的语义的文档子集并加以排序 上下文查询 布尔查所表达的语义的文档子集并加以排序 上下文查询 布尔查所表达的语义的文档子集并加以排序 上下文查询 布尔查所表达的语义的文档子集并加以排序 上下文查询 布尔查 询 自然语言查询都是建立在单一词查询的基础之上 询 自然语言查询都是建立在单一词查询的基础之上 询 自然语言查询都是建立在单一词查询的基础之上 询 自然语言查询都是建立在单一词查询的基础之上 单一词查询的结果的排序单一词查询的结果的排序单一词查询的结果的排序单一词查询的结果的排序 单一词查询结果的排序通常是根据该词在不同文档中的单一词查询结果的排序通常是根据该词在不同文档中的单一词查询结果的排序通常是根据该词在不同文档中的单一词查询结果的排序通常是根据该词在不同文档中的 权值高低来排列的 单一词在文档中的权值的计算的主要依权值高低来排列的 单一词在文档中的权值的计算的主要依权值高低来排列的 单一词在文档中的权值的计算的主要依权值高低来排列的 单一词在文档中的权值的计算的主要依 据是该词在文档中出现的频次 另外还可参考该词在文档中据是该词在文档中出现的频次 另外还可参考该词在文档中据是该词在文档中出现的频次 另外还可参考该词在文档中据是该词在文档中出现的频次 另外还可参考该词在文档中 的具体位置 如标题 段首 段尾 与文档中别的词的关的具体位置 如标题 段首 段尾 与文档中别的词的关的具体位置 如标题 段首 段尾 与文档中别的词的关的具体位置 如标题 段首 段尾 与文档中别的词的关 系等信息 系等信息 系等信息 系等信息 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 7 上下文查询上下文查询 上下文查询上下文查询上下文查询上下文查询 对于由多个单一词组成的查询表达式 信息检索系统在对于由多个单一词组成的查询表达式 信息检索系统在对于由多个单一词组成的查询表达式 信息检索系统在对于由多个单一词组成的查询表达式 信息检索系统在 检索匹配时除了考虑查询表达式中各单一词是否包含在文档检索匹配时除了考虑查询表达式中各单一词是否包含在文档检索匹配时除了考虑查询表达式中各单一词是否包含在文档检索匹配时除了考虑查询表达式中各单一词是否包含在文档 中外 有时还会考虑各单一词在文档的上下文中的位置关系中外 有时还会考虑各单一词在文档的上下文中的位置关系中外 有时还会考虑各单一词在文档的上下文中的位置关系中外 有时还会考虑各单一词在文档的上下文中的位置关系 如各单一词之间的邻近距离是否在允许的最大距离内或是 如各单一词之间的邻近距离是否在允许的最大距离内或是 如各单一词之间的邻近距离是否在允许的最大距离内或是 如各单一词之间的邻近距离是否在允许的最大距离内或是 否在同一个句子 段落内 各单一词在上下文中出现的顺序否在同一个句子 段落内 各单一词在上下文中出现的顺序否在同一个句子 段落内 各单一词在上下文中出现的顺序否在同一个句子 段落内 各单一词在上下文中出现的顺序 是否与查询的顺序相同等 并以此确定相应的排序策略 是否与查询的顺序相同等 并以此确定相应的排序策略 是否与查询的顺序相同等 并以此确定相应的排序策略 是否与查询的顺序相同等 并以此确定相应的排序策略 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 8 布尔查询布尔查询 布尔查询布尔查询布尔查询布尔查询 布尔查询是一种复合查询 其查询表布尔查询是一种复合查询 其查询表布尔查询是一种复合查询 其查询表布尔查询是一种复合查询 其查询表 达式使用布尔运算符来组合关键词形成 达式使用布尔运算符来组合关键词形成 达式使用布尔运算符来组合关键词形成 达式使用布尔运算符来组合关键词形成 布尔查询是最为常用的一种查询方式 布尔查询是最为常用的一种查询方式 布尔查询是最为常用的一种查询方式 布尔查询是最为常用的一种查询方式 布尔查询语法树布尔查询语法树布尔查询语法树布尔查询语法树 因为布尔查询总体上是复合型的 有因为布尔查询总体上是复合型的 有因为布尔查询总体上是复合型的 有因为布尔查询总体上是复合型的 有 些运算符是在其他运算符结果的基础上形些运算符是在其他运算符结果的基础上形些运算符是在其他运算符结果的基础上形些运算符是在其他运算符结果的基础上形 成的 所以经常把它描述为一个查询语法成的 所以经常把它描述为一个查询语法成的 所以经常把它描述为一个查询语法成的 所以经常把它描述为一个查询语法 树 即叶子代表关键词 节点代表布尔运树 即叶子代表关键词 节点代表布尔运树 即叶子代表关键词 节点代表布尔运树 即叶子代表关键词 节点代表布尔运 算符 如右图所示 算符 如右图所示 算符 如右图所示 算符 如右图所示 AND 翻译OR 语法语法的 翻译OR 语法语法的 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 9 布尔查询布尔查询 续 续 布尔运算符布尔运算符布尔运算符布尔运算符 逻辑或 逻辑或 逻辑或 逻辑或 OROR 如 如 如 如 e1 OR e2e1 OR e2表示查找满足表示查找满足表示查找满足表示查找满足e1e1或满足或满足或满足或满足e2 e2 的所有文档 的所有文档 的所有文档 的所有文档 逻辑与 逻辑与 逻辑与 逻辑与 ANDAND 如 如 如 如 e1 AND e2e1 AND e2表示查找同时满足表示查找同时满足表示查找同时满足表示查找同时满足e1e1和和和和e2 e2 的所有文档 的所有文档 的所有文档 的所有文档 逻辑非 逻辑非 逻辑非 逻辑非 NOTNOT 如 如 如 如 e1 NOT e2e1 NOT e2表示查找满足表示查找满足表示查找满足表示查找满足e1e1但不满足但不满足但不满足但不满足e2 e2 的所有文的所有文的所有文的所有文 档 注意此处档 注意此处档 注意此处档 注意此处NOTNOT是指是指是指是指AND NOTAND NOT 而不是而不是而不是而不是OR NOTOR NOT 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 10 布尔查询布尔查询 续 续 布尔查询的实际应用布尔查询的实际应用布尔查询的实际应用布尔查询的实际应用 布尔查询非常严格 没有考虑文档与查询间的部分匹配 如布尔查询非常严格 没有考虑文档与查询间的部分匹配 如布尔查询非常严格 没有考虑文档与查询间的部分匹配 如布尔查询非常严格 没有考虑文档与查询间的部分匹配 如 果一篇文档不能完全满足查询表达式 即使满足大部分查询条果一篇文档不能完全满足查询表达式 即使满足大部分查询条果一篇文档不能完全满足查询表达式 即使满足大部分查询条果一篇文档不能完全满足查询表达式 即使满足大部分查询条 件 依然不能被检出 件 依然不能被检出 件 依然不能被检出 件 依然不能被检出 在实际应用中 不少信息检索系统对布尔查询的检索条件加在实际应用中 不少信息检索系统对布尔查询的检索条件加在实际应用中 不少信息检索系统对布尔查询的检索条件加在实际应用中 不少信息检索系统对布尔查询的检索条件加 以放宽使用 以支持部分匹配 通常和查询匹配的部分越多 以放宽使用 以支持部分匹配 通常和查询匹配的部分越多 以放宽使用 以支持部分匹配 通常和查询匹配的部分越多 以放宽使用 以支持部分匹配 通常和查询匹配的部分越多 排序时越靠前 排序时越靠前 排序时越靠前 排序时越靠前 另外 为了方便用户使用 大多数信息检索系统在设计查询另外 为了方便用户使用 大多数信息检索系统在设计查询另外 为了方便用户使用 大多数信息检索系统在设计查询另外 为了方便用户使用 大多数信息检索系统在设计查询 窗口时 并不要求用户输入窗口时 并不要求用户输入窗口时 并不要求用户输入窗口时 并不要求用户输入andand notnot 而是自动将用户输入而是自动将用户输入而是自动将用户输入而是自动将用户输入 的各关键词间的空格或的各关键词间的空格或的各关键词间的空格或的各关键词间的空格或 转换为转换为转换为转换为andand 转换为转换为转换为转换为notnot 也有 也有 也有 也有 的信息检索系统会将用户输入的各关键词间的空格或的信息检索系统会将用户输入的各关键词间的空格或的信息检索系统会将用户输入的各关键词间的空格或的信息检索系统会将用户输入的各关键词间的空格或 转换转换转换转换 为为为为oror进行查询 进行查询 进行查询 进行查询 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 11 提纲提纲 引言引言引言引言 查询查询查询查询 基于关键词的查询基于关键词的查询基于关键词的查询基于关键词的查询 基于非关键词的查询基于非关键词的查询基于非关键词的查询基于非关键词的查询 查询扩展查询扩展查询扩展查询扩展 用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展 自动局部分析扩展自动局部分析扩展自动局部分析扩展自动局部分析扩展 自动全局分析扩展自动全局分析扩展自动全局分析扩展自动全局分析扩展 交互式查询扩展交互式查询扩展交互式查询扩展交互式查询扩展 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 12 基于非关键词的查询基于非关键词的查询 基于非关键词的查询基于非关键词的查询基于非关键词的查询基于非关键词的查询 自然语言查询自然语言查询自然语言查询自然语言查询 在一些高级的信息检索系统中 支持用户直接采用自然语在一些高级的信息检索系统中 支持用户直接采用自然语在一些高级的信息检索系统中 支持用户直接采用自然语在一些高级的信息检索系统中 支持用户直接采用自然语 言进行查询是 检索系统自动对自然语言查询表达式进行分言进行查询是 检索系统自动对自然语言查询表达式进行分言进行查询是 检索系统自动对自然语言查询表达式进行分言进行查询是 检索系统自动对自然语言查询表达式进行分 析 提取所表达的语义或者其中的关键词 然后进行查询 匹析 提取所表达的语义或者其中的关键词 然后进行查询 匹析 提取所表达的语义或者其中的关键词 然后进行查询 匹析 提取所表达的语义或者其中的关键词 然后进行查询 匹 配时不一定采用布尔查询 有的检索系统采用的是向量空间模配时不一定采用布尔查询 有的检索系统采用的是向量空间模配时不一定采用布尔查询 有的检索系统采用的是向量空间模配时不一定采用布尔查询 有的检索系统采用的是向量空间模 型进行匹配 型进行匹配 型进行匹配 型进行匹配 正则表达式查询正则表达式查询正则表达式查询正则表达式查询 字符串容错查询字符串容错查询字符串容错查询字符串容错查询 字符串子串查询字符串子串查询字符串子串查询字符串子串查询 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 13 提纲提纲 引言引言引言引言 查询查询查询查询 基于关键词的查询基于关键词的查询基于关键词的查询基于关键词的查询 基于非关键词的查询基于非关键词的查询基于非关键词的查询基于非关键词的查询 查询扩展查询扩展查询扩展查询扩展 用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展 自动局部分析扩展自动局部分析扩展自动局部分析扩展自动局部分析扩展 自动全局分析扩展自动全局分析扩展自动全局分析扩展自动全局分析扩展 交互式查询扩展交互式查询扩展交互式查询扩展交互式查询扩展 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 14 查询扩展查询扩展 查询扩展查询扩展查询扩展查询扩展 query expansion QE query expansion QE 早在早在早在早在2020世纪世纪世纪世纪7070年代 查询扩展就被提出来了 主要用年代 查询扩展就被提出来了 主要用年代 查询扩展就被提出来了 主要用年代 查询扩展就被提出来了 主要用 来解决用户需求表达差异 优化查询请求 从而提高信来解决用户需求表达差异 优化查询请求 从而提高信来解决用户需求表达差异 优化查询请求 从而提高信来解决用户需求表达差异 优化查询请求 从而提高信 息检索系统的检准率 息检索系统的检准率 息检索系统的检准率 息检索系统的检准率 其主要做法是通过对整个文档集其主要做法是通过对整个文档集其主要做法是通过对整个文档集其主要做法是通过对整个文档集 或者现有查询结果中的相关性文档进行分析以修正初始或者现有查询结果中的相关性文档进行分析以修正初始或者现有查询结果中的相关性文档进行分析以修正初始或者现有查询结果中的相关性文档进行分析以修正初始 查询请求查询请求查询请求查询请求 现有查询扩展方法基本上可分为四类 现有查询扩展方法基本上可分为四类 现有查询扩展方法基本上可分为四类 现有查询扩展方法基本上可分为四类 基于用户反馈信息基于用户反馈信息基于用户反馈信息基于用户反馈信息 User Relevance Feedback User Relevance Feedback 的查询扩展的查询扩展的查询扩展的查询扩展 基于自动局部分析基于自动局部分析基于自动局部分析基于自动局部分析 Local Feedback Local Feedback 的查询扩展的查询扩展的查询扩展的查询扩展 基于自动全局分析基于自动全局分析基于自动全局分析基于自动全局分析 Global Feedback Global Feedback 的查询扩展的查询扩展的查询扩展的查询扩展 交互式查询扩展交互式查询扩展交互式查询扩展交互式查询扩展 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 15 提纲提纲 引言引言引言引言 查询查询查询查询 基于关键词的查询基于关键词的查询基于关键词的查询基于关键词的查询 基于非关键词的查询基于非关键词的查询基于非关键词的查询基于非关键词的查询 查询扩展查询扩展查询扩展查询扩展 用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展 自动局部分析扩展自动局部分析扩展自动局部分析扩展自动局部分析扩展 自动全局分析扩展自动全局分析扩展自动全局分析扩展自动全局分析扩展 交互式查询扩展交互式查询扩展交互式查询扩展交互式查询扩展 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 16 基于用户反馈信息的查询扩展基于用户反馈信息的查询扩展 主要思想主要思想主要思想主要思想 首先用户对查询结果进行相关性判断 然后系统自首先用户对查询结果进行相关性判断 然后系统自首先用户对查询结果进行相关性判断 然后系统自首先用户对查询结果进行相关性判断 然后系统自 动从这些用户认为相关的文档中选择出重要的词条 再动从这些用户认为相关的文档中选择出重要的词条 再动从这些用户认为相关的文档中选择出重要的词条 再动从这些用户认为相关的文档中选择出重要的词条 再 根据这些词条对查询请求进行扩展 从相关文档中选择根据这些词条对查询请求进行扩展 从相关文档中选择根据这些词条对查询请求进行扩展 从相关文档中选择根据这些词条对查询请求进行扩展 从相关文档中选择 新的词条增加到查询请求中 新的词条增加到查询请求中 新的词条增加到查询请求中 新的词条增加到查询请求中 或或或或调整词条权重调整词条权重调整词条权重调整词条权重 在实际操作中 当查询结果数量较多时 用户往往在实际操作中 当查询结果数量较多时 用户往往在实际操作中 当查询结果数量较多时 用户往往在实际操作中 当查询结果数量较多时 用户往往 只需要对查询结果中前只需要对查询结果中前只需要对查询结果中前只需要对查询结果中前10101010 或者前 或者前 或者前 或者前20202020 篇文档作相关性 篇文档作相关性 篇文档作相关性 篇文档作相关性 判断 并以此基础进行查询扩展 判断 并以此基础进行查询扩展 判断 并以此基础进行查询扩展 判断 并以此基础进行查询扩展 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 17 基于用户反馈信息的查询扩展基于用户反馈信息的查询扩展 续 续 向量空间模型下的基于用户反馈信息查询扩展算法向量空间模型下的基于用户反馈信息查询扩展算法向量空间模型下的基于用户反馈信息查询扩展算法向量空间模型下的基于用户反馈信息查询扩展算法 理想情况下的最佳查询向量理想情况下的最佳查询向量理想情况下的最佳查询向量理想情况下的最佳查询向量 对于用户某一具体的信息需求 必定存在一个最佳查询对于用户某一具体的信息需求 必定存在一个最佳查询对于用户某一具体的信息需求 必定存在一个最佳查询对于用户某一具体的信息需求 必定存在一个最佳查询 向量向量向量向量可表达这一需求 从而将文档集中的相关文档子集可表达这一需求 从而将文档集中的相关文档子集可表达这一需求 从而将文档集中的相关文档子集可表达这一需求 从而将文档集中的相关文档子集 与非相关文档子集与非相关文档子集与非相关文档子集与非相关文档子集区分开来 反之 如果知区分开来 反之 如果知区分开来 反之 如果知区分开来 反之 如果知 道道道道 也可以确定相应的最佳查询向量 也可以确定相应的最佳查询向量 也可以确定相应的最佳查询向量 也可以确定相应的最佳查询向量 即 即 即 即 r C r C r C r C opt q rjrj opt Cd j Cdr j r d C d C q 1 1 opt q 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 18 基于用户反馈信息的查询扩展基于用户反馈信息的查询扩展 续 续 实际情况下的查询向量扩展实际情况下的查询向量扩展实际情况下的查询向量扩展实际情况下的查询向量扩展 在实际情况下 我们通常只知道用户的初始查询向量在实际情况下 我们通常只知道用户的初始查询向量在实际情况下 我们通常只知道用户的初始查询向量在实际情况下 我们通常只知道用户的初始查询向量 我 我 我 我 们所要做的工作就是借助于用户对们所要做的工作就是借助于用户对们所要做的工作就是借助于用户对们所要做的工作就是借助于用户对的查询结果的相关性反馈信的查询结果的相关性反馈信的查询结果的相关性反馈信的查询结果的相关性反馈信 息修正 以获得更为相关的查询结果 提高系统的检准率 常用息修正 以获得更为相关的查询结果 提高系统的检准率 常用息修正 以获得更为相关的查询结果 提高系统的检准率 常用息修正 以获得更为相关的查询结果 提高系统的检准率 常用 的初始查询向量扩展方法有如下三种 的初始查询向量扩展方法有如下三种 的初始查询向量扩展方法有如下三种 的初始查询向量扩展方法有如下三种 1 1 Standard RochioStandard Rochio 2 2 Ide RegularIde Regular 3 3 Ide Dec HiIde Dec Hi q q njrj m Dd j Dd n j r d D d D qq max j Dd j ddqq rj m 不相关 njrj m Dd j Dd j ddqq 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 19 基于用户反馈信息的查询扩展基于用户反馈信息的查询扩展 续 续 实际情况下的查询向量扩展实际情况下的查询向量扩展实际情况下的查询向量扩展实际情况下的查询向量扩展 在实际情况下 我们通常只知道用户的初始查询向量在实际情况下 我们通常只知道用户的初始查询向量在实际情况下 我们通常只知道用户的初始查询向量在实际情况下 我们通常只知道用户的初始查询向量 我 我 我 我 们所要做的工作就是借助于用户对们所要做的工作就是借助于用户对们所要做的工作就是借助于用户对们所要做的工作就是借助于用户对的查询结果的相关性反馈信的查询结果的相关性反馈信的查询结果的相关性反馈信的查询结果的相关性反馈信 息修正 以获得更为相关的查询结果 提高系统的检准率 常用息修正 以获得更为相关的查询结果 提高系统的检准率 常用息修正 以获得更为相关的查询结果 提高系统的检准率 常用息修正 以获得更为相关的查询结果 提高系统的检准率 常用 的初始查询向量扩展方法有如下三种 的初始查询向量扩展方法有如下三种 的初始查询向量扩展方法有如下三种 的初始查询向量扩展方法有如下三种 1 1 Standard RochioStandard Rochio 2 2 Ide RegularIde Regular 3 3 Ide Dec HiIde Dec Hi q q njrj m Dd j Dd n j r d D d D qq max j Dd j ddqq rj m 不相关 njrj m Dd j Dd j ddqq D Dr r 初始查询结果中经用户判断为相关 文档的结果子集 初始查询结果中经用户判断为相关 文档的结果子集 D Dn n 初始查询结果中经用户判断的非相 关文档的结果子集 初始查询结果中经用户判断的非相 关文档的结果子集 D Dr r D Dn n Dr Dn 中的文档数量 Dr Dn 中的文档数量 maxmax不相关 不相关 d dj j 最不相关文档 最不相关文档 调节参数 可取 1 通常相 关文档包含的信息比非相关文档所包含的信 息更重要 所以 要小于 有时取 0 形成正反馈扩展 调节参数 可取 1 通常相 关文档包含的信息比非相关文档所包含的信 息更重要 所以 要小于 有时取 0 形成正反馈扩展 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 20 基于用户反馈信息的查询扩展基于用户反馈信息的查询扩展 续 续 概率检索模型下的基于用户反馈信息查询扩展算法概率检索模型下的基于用户反馈信息查询扩展算法概率检索模型下的基于用户反馈信息查询扩展算法概率检索模型下的基于用户反馈信息查询扩展算法 在第在第在第在第2 2 2 2章 参本课件章 参本课件章 参本课件章 参本课件P37P37P37P37 我们已经学习了二值独立概率检索模 我们已经学习了二值独立概率检索模 我们已经学习了二值独立概率检索模 我们已经学习了二值独立概率检索模 型 型 型 型 其中其中其中其中 可通过查询结果可通过查询结果可通过查询结果可通过查询结果 即系统自动取前若干个查询结即系统自动取前若干个查询结即系统自动取前若干个查询结即系统自动取前若干个查询结 果作为相关查询集合果作为相关查询集合果作为相关查询集合果作为相关查询集合 不断迭代计算 直至获得令用户满意的检索 不断迭代计算 直至获得令用户满意的检索 不断迭代计算 直至获得令用户满意的检索 不断迭代计算 直至获得令用户满意的检索 结果 事实上 这其实是一种结果 事实上 这其实是一种结果 事实上 这其实是一种结果 事实上 这其实是一种基于局部自动分析的查询扩展基于局部自动分析的查询扩展基于局部自动分析的查询扩展基于局部自动分析的查询扩展 如果将如果将如果将如果将 的迭代计算改为根据用户对查询结果的的迭代计算改为根据用户对查询结果的的迭代计算改为根据用户对查询结果的的迭代计算改为根据用户对查询结果的 相关反馈迭代计算 则上述二值独立概率检索查询将成为基于用户相关反馈迭代计算 则上述二值独立概率检索查询将成为基于用户相关反馈迭代计算 则上述二值独立概率检索查询将成为基于用户相关反馈迭代计算 则上述二值独立概率检索查询将成为基于用户 反馈信息的扩展查询 此时 原反馈信息的扩展查询 此时 原反馈信息的扩展查询 此时 原反馈信息的扩展查询 此时 原 计算公式中的计算公式中的计算公式中的计算公式中的 n i i i i i qijij RtP RtP RtP RtP wwqdsim 1 1 log 1 log RtP i RtP i RtP i RtP i RtP i RtP i V 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 21 基于用户反馈信息的查询扩展基于用户反馈信息的查询扩展 续 续 为查询结果中经用户判断为的相关文档的结果子集为查询结果中经用户判断为的相关文档的结果子集为查询结果中经用户判断为的相关文档的结果子集为查询结果中经用户判断为的相关文档的结果子集的基数 的基数 的基数 的基数 为为为为 中含有标引词中含有标引词中含有标引词中含有标引词的文档数量 即有 的文档数量 即有 的文档数量 即有 的文档数量 即有 另一种计算方式变为 另一种计算方式变为 另一种计算方式变为 另一种计算方式变为 然而二值独立概率检索模型存在一些缺点 然而二值独立概率检索模型存在一些缺点 然而二值独立概率检索模型存在一些缺点 然而二值独立概率检索模型存在一些缺点 1 1 没有考虑标引词在文档中出现的频率没有考虑标引词在文档中出现的频率没有考虑标引词在文档中出现的频率没有考虑标引词在文档中出现的频率 所有权值都是二元的 所有权值都是二元的 所有权值都是二元的 所有权值都是二元的 2 2 假定标引词之间相互独立 假定标引词之间相互独立 假定标引词之间相互独立 假定标引词之间相互独立 为此 为此 为此 为此 CroftCroft提出了一种改进的概率检索模型 提出了一种改进的概率检索模型 提出了一种改进的概率检索模型 提出了一种改进的概率检索模型 1 5 0 1 5 0 r rii i D D V V RtP 11 r i ri i i i D N n D V N n V RtP 1 1 r i rii i ii i DN N n Dn VN N n Vn RtP r D i V r D i t 1 5 0 1 5 0 r riiii i DN Dn VN Vn RtP 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 22 基于用户反馈信息的查询扩展基于用户反馈信息的查询扩展 续 续 CroftCroftCroftCroft概率检索模型概率检索模型概率检索模型概率检索模型 其实是向量模型与概率模型的结合体其实是向量模型与概率模型的结合体其实是向量模型与概率模型的结合体其实是向量模型与概率模型的结合体 对于初始查询对于初始查询对于初始查询对于初始查询 其中 其中 其中 其中 为逆文档频率 为逆文档频率 为逆文档频率 为逆文档频率 为词条频数 为词条频数 为词条频数 为词条频数 C C C C k k k k为参数为参数为参数为参数 对于基于用户反馈查询而言对于基于用户反馈查询而言对于基于用户反馈查询而言对于基于用户反馈查询而言 n i qjiqijij Fwwqdsim 1 jiiqji tfnewidfCF max 1 ji ji ji tf tf kktfnew ji i i i i qji tfnew RtP RtP RtP RtP CF 1 log 1 log i idf ji tf 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 23 基于用户反馈信息的查询扩展基于用户反馈信息的查询扩展 续 续 CroftCroft概率检索模型的优点概率检索模型的优点概率检索模型的优点概率检索模型的优点 考虑了词条在文档中出现的频次 考虑了词条在文档中出现的频次 考虑了词条在文档中出现的频次 考虑了词条在文档中出现的频次 考虑了逆文档频率 考虑了逆文档频率 考虑了逆文档频率 考虑了逆文档频率 引入了参数引入了参数引入了参数引入了参数C C和和和和k k 具有更大的灵活性具有更大的灵活性具有更大的灵活性具有更大的灵活性 CroftCroft概率检索模型的缺点概率检索模型的缺点概率检索模型的缺点概率检索模型的缺点 公式复杂公式复杂公式复杂公式复杂 查询请求中的词条并没有得以扩充查询请求中的词条并没有得以扩充查询请求中的词条并没有得以扩充查询请求中的词条并没有得以扩充 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 24 基于用户反馈信息的查询扩展基于用户反馈信息的查询扩展 续 续 布尔模型下基于用户反馈信息的查询扩展算法布尔模型下基于用户反馈信息的查询扩展算法布尔模型下基于用户反馈信息的查询扩展算法布尔模型下基于用户反馈信息的查询扩展算法 构造查询扩展所面临的问题构造查询扩展所面临的问题构造查询扩展所面临的问题构造查询扩展所面临的问题 1 1 1 1 传统布尔检索是二值相关的 即要么相关 要么不相传统布尔检索是二值相关的 即要么相关 要么不相传统布尔检索是二值相关的 即要么相关 要么不相传统布尔检索是二值相关的 即要么相关 要么不相 关 无法对相关文档的相关度大小进行计算 事实上关 无法对相关文档的相关度大小进行计算 事实上关 无法对相关文档的相关度大小进行计算 事实上关 无法对相关文档的相关度大小进行计算 事实上 有的文档是可能相关度很高 有的文档相关度较小也给有的文档是可能相关度很高 有的文档相关度较小也给有的文档是可能相关度很高 有的文档相关度较小也给有的文档是可能相关度很高 有的文档相关度较小也给 判定成了相关文档 因此无法用向量空间模型的扩展方判定成了相关文档 因此无法用向量空间模型的扩展方判定成了相关文档 因此无法用向量空间模型的扩展方判定成了相关文档 因此无法用向量空间模型的扩展方 法进行扩展 法进行扩展 法进行扩展 法进行扩展 2 2 2 2 即便是从相关文档中构造出了新的查询关键词 如何将即便是从相关文档中构造出了新的查询关键词 如何将即便是从相关文档中构造出了新的查询关键词 如何将即便是从相关文档中构造出了新的查询关键词 如何将 这些新的查询关键词用合适的布尔操作符来联接起这些新的查询关键词用合适的布尔操作符来联接起这些新的查询关键词用合适的布尔操作符来联接起这些新的查询关键词用合适的布尔操作符来联接起 来 来 来 来 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 25 基于用户反馈信息的查询扩展基于用户反馈信息的查询扩展 续 续 布尔模型下基于用户反馈信息的查询扩展算法布尔模型下基于用户反馈信息的查询扩展算法布尔模型下基于用户反馈信息的查询扩展算法布尔模型下基于用户反馈信息的查询扩展算法 DillonDillonDillonDillon的扩展方法 权值计算方法参教材的扩展方法 权值计算方法参教材的扩展方法 权值计算方法参教材的扩展方法 权值计算方法参教材P117P117P117P117 依据索引词在相关文档和非相关文档中出现的频率计算依据索引词在相关文档和非相关文档中出现的频率计算依据索引词在相关文档和非相关文档中出现的频率计算依据索引词在相关文档和非相关文档中出现的频率计算 索引词的权重 然后设定若干个阈值 根据索引词的权重大索引词的权重 然后设定若干个阈值 根据索引词的权重大索引词的权重 然后设定若干个阈值 根据索引词的权重大索引词的权重 然后设定若干个阈值 根据索引词的权重大 小由高到低将它们分配到各阈值区间之中 再按照阈值区间小由高到低将它们分配到各阈值区间之中 再按照阈值区间小由高到低将它们分配到各阈值区间之中 再按照阈值区间小由高到低将它们分配到各阈值区间之中 再按照阈值区间 的级别用布尔操作符联接 第的级别用布尔操作符联接 第的级别用布尔操作符联接 第的级别用布尔操作符联接 第1 1 1 1级阈值区间内的索引词用级阈值区间内的索引词用级阈值区间内的索引词用级阈值区间内的索引词用orororor联联联联 结 第结 第结 第结 第2 2 2 2级阈值区间内的索引词按权重高低两两组合用级阈值区间内的索引词按权重高低两两组合用级阈值区间内的索引词按权重高低两两组合用级阈值区间内的索引词按权重高低两两组合用andandandand联联联联 结成索引词对 索引词对之间用结成索引词对 索引词对之间用结成索引词对 索引词对之间用结成索引词对 索引词对之间用orororor联结 第联结 第联结 第联结 第3 3 3 3级阈值区间内的级阈值区间内的级阈值区间内的级阈值区间内的 索引词按权重高低每三个词组合 用索引词按权重高低每三个词组合 用索引词按权重高低每三个词组合 用索引词按权重高低每三个词组合 用andandandand联结成一个索引词联结成一个索引词联结成一个索引词联结成一个索引词 对 索引词对之间用对 索引词对之间用对 索引词对之间用对 索引词对之间用orororor联结 别的级别的阈值区间依此类推 联结 别的级别的阈值区间依此类推 联结 别的级别的阈值区间依此类推 联结 别的级别的阈值区间依此类推 最后构建出新的查询 最后构建出新的查询 最后构建出新的查询 最后构建出新的查询 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 26 基于用户反馈信息的查询扩展基于用户反馈信息的查询扩展 续 续 DillonDillonDillonDillon的扩展方法存在的缺陷的扩展方法存在的缺陷的扩展方法存在的缺陷的扩展方法存在的缺陷 1 1 1 1 新构建的查询不一定包含原始查询中关键词新构建的查询不一定包含原始查询中关键词新构建的查询不一定包含原始查询中关键词新构建的查询不一定包含原始查询中关键词 2 2 2 2 索引词的权重可能出现负值 当索引词在不相关文档中索引词的权重可能出现负值 当索引词在不相关文档中索引词的权重可能出现负值 当索引词在不相关文档中索引词的权重可能出现负值 当索引词在不相关文档中 出现的频率比其在相关文档中的频率要高时会出现这种出现的频率比其在相关文档中的频率要高时会出现这种出现的频率比其在相关文档中的频率要高时会出现这种出现的频率比其在相关文档中的频率要高时会出现这种 情况 情况 情况 情况 3 3 3 3 新构建的查询包含的子查询往往太多 会大大影响检索新构建的查询包含的子查询往往太多 会大大影响检索新构建的查询包含的子查询往往太多 会大大影响检索新构建的查询包含的子查询往往太多 会大大影响检索 系统的性能 系统的性能 系统的性能 系统的性能 DNFDNFDNFDNF方法对方法对方法对方法对DillonDillonDillonDillon方法进行修正 略 方法进行修正 略 方法进行修正 略 方法进行修正 略 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 27 提纲提纲 引言引言引言引言 查询查询查询查询 基于关键词的查询基于关键词的查询基于关键词的查询基于关键词的查询 基于非关键词的查询基于非关键词的查询基于非关键词的查询基于非关键词的查询 查询扩展查询扩展查询扩展查询扩展 用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展用户相关反馈扩展 自动局部分析扩展自动局部分析扩展自动局部分析扩展自动局部分析扩展 自动全局分析扩展自动全局分析扩展自动全局分析扩展自动全局分析扩展 交互式查询扩展交互式查询扩展交互式查询扩展交互式查询扩展 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 28 基于自动局部分析的查询扩展基于自动局部分析的查询扩展 主要思想主要思想主要思想主要思想 这种方法与基于用户反馈信息的查询扩展比较相这种方法与基于用户反馈信息的查询扩展比较相这种方法与基于用户反馈信息的查询扩展比较相这种方法与基于用户反馈信息的查询扩展比较相 似 似 似 似 不同的是此方法不需要用户的参与 而是自动将初不同的是此方法不需要用户的参与 而是自动将初不同的是此方法不需要用户的参与 而是自动将初不同的是此方法不需要用户的参与 而是自动将初 次查询得到的前若干篇文档自动当作相关文档 并以此次查询得到的前若干篇文档自动当作相关文档 并以此次查询得到的前若干篇文档自动当作相关文档 并以此次查询得到的前若干篇文档自动当作相关文档 并以此 为基础对查询请求进行扩展为基础对查询请求进行扩展为基础对查询请求进行扩展为基础对查询请求进行扩展 包括对当前查询请求的词 包括对当前查询请求的词 包括对当前查询请求的词 包括对当前查询请求的词 条扩充和词条权重的调整 条扩充和词条权重的调整 条扩充和词条权重的调整 条扩充和词条权重的调整 常用的基于自动局部分析的查询扩展方法 常用的基于自动局部分析的查询扩展方法 常用的基于自动局部分析的查询扩展方法 常用的基于自动局部分析的查询扩展方法 1 1 1 1 基于局部簇的查询扩展基于局部簇的查询扩展基于局部簇的查询扩展基于局部簇的查询扩展 2 2 2 2 基于局部上下文分析的查询扩展基于局部上下文分析的查询扩展基于局部上下文分析的查询扩展基于局部上下文分析的查询扩展 海南大学信息学院张春元主讲海南大学信息学院张春元主讲 2009秋季秋季 29 基于局部簇的查询扩展基于局部簇的查询扩展 主要思想主要思想主要思想主要思想 信息检索系统自动将初次查询结果中的前若干篇文档 这信息检索系统自动将初次查询结果中的前若干篇文档 这信息检索系统自动将初次查询结果中的前若干篇文档 这信息检索系统自动将初次查询结果中的前若干篇文档 这 些文档组成的集合称为局部文档集 记作些文档组成的集合称为局部文档集 记作些文档组成的集合称为局部文档集 记作些文档组成的集合称为局部文档集 记作D D D Dlocal locallocallocal 视作相关文视作相关文视作相关文视作相关文 档并加以分析 将档并加以分析 将档并加以分析 将档并加以分析 将D D D Dlocal locallocallocal中的所有不同词条组成集合 中的所有不同词条组成集合中的所有不同词条组成集合中的所有不同词条组成集合V V V Vlocal locallocallocal 称称称称 作局部词汇表 然后由作局部词汇表 然后由作局部词汇表 然后由作局部词汇表 然后由V V V Vlocal locallocallocal导出所有不同词干 导出所有不同词干 导出所有不同词干 导出所有不同词干 也可以是也可以是也可以是也可以是 关键词关键词关键词关键词 形成的集合 形成的集合 形成的集合 形成的集合S S S Slocal locallocallocal 再对再对再对再对S S S Slocal locallocallocal中各词干间的关系进行 中各词干间的关系进行中各词干间的关系进行中各词干间的关系进行 分析构建局部簇 在此基础上就可以利用局部簇对查询请求分析构建局部簇 在此基础上就可以利用局部簇对查询请求分析构建局部簇 在此基础上就可以利用局部簇对查询请求分析构建局部簇 在此基础上就可以利用局部簇对查询请求 中的词条进行扩展 中的词条进行扩展 中的词条进行扩展 中的词条进行扩展 常用的局部簇有三种类型 分别是 常用的局部簇有三种类型 分别是 常用的局部簇有三种类型 分别是 常用的局部簇有三种类型 分别是 1 1 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年秋新北师大版数学一年级上册教学课件 第一单元 生活中的数 第7课时 快乐的午餐
- 水质实验室基础知识培训课件
- 新型储能项目安全生产方案
- 聚酰亚胺薄膜生产线项目运营管理手册
- 施工现场卫生管理方案
- 化工产业园危险化学品应急响应方案
- 一、机械能(第2课时) -苏科版九年级《物理》上册考点练习
- 影视艺术特性74课件
- 水电消防知识培训课件
- 2025版建筑工程设计与施工一体化论文集合同
- 锂离子电池正极材料研究进展
- 二手房屋买卖物品交接清单
- 技师论文 变频器的维修与保养
- 非标自动化设备项目进度表
- 诊断学教学胸部查体
- 桥梁安全事故案例警示
- YY/T 1095-2015肌电生物反馈仪
- SB/T 10460-2008商用电开水器
- GB/T 9124.1-2019钢制管法兰第1部分:PN系列
- GA 1800.2-2021电力系统治安反恐防范要求第2部分:火力发电企业
- 欣旺集团种禽养殖管理制度手册
评论
0/150
提交评论