


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Lucene3.应结果排序(1):原理传统上,人们将信息检索系统返回结果的排序称为相关排序(relevanceranking),隐含其中各条目的顺序反映结果和查询的相关程度。1、基本排序原理1向量空间模型GeraldSalton 等 在30多 年 前 提 出 的 向 量 空 间 模 型 ” ( VectorSpaceModel,VSM )SaltonandLesk,1968,Salton,1971。 该模型的基础是如下假设: 文档 d 和查询 q 的相关性可以由它们包含的共有词汇情况来刻画。经典的 TF*IDF 词项权重的计算公式:给定某种权重的定量设计,求文档和查询的相关性就变成了求 d 和
2、 q 向量的某种距离,最常用的是余弦(cos)距离喈回邓I2链接分析 PageRank 原理链接分析技术主要基于两个假设:1)一个网页被多次引用,则它可能是很重要的,如果被重要的网页引用,说明自身也是重要的,网页的重要性在网页之间可以传递。2)随机冲浪模型:认为假定用户一开始随机地访问网页集合中的一个网页,然和跟随网页的链接向前浏览网页,不会退浏览,那么浏览下一个网页的概率是被浏览网页的量化的重要程度值。按照以上的用户行为模型,每个网页可能被访问到的次数越多就越重要,这样的可能被访问的次数”也就定义为网页的权值,PageRank 值。如何计算这个权值呢?PageRank 采用以下公式进行计算:
3、为二(1-X3啰其中 wj 代表第 j 个网页的权值;lij 只取 0、1 值,代表从网页 i 到网页 j 是否存在链接;ni 代表网页 i 有多少个连向其它网页的链接;d 代表随机冲浪”中沿着链接访问网页的平均次数。选择合适的初始数值,递归的使用上述公式,即可得到理想的网页权值。2、Lucene 排序计算公式Lucene 的排序公式如下:&0m=cordxx,硝)2项41尸W),协调因子,表示文档(d)中 Term(t)出现的百分比,也就是计算查询条件(q)中不同 Term(t),以及在文档中出现的数量之和,两者的数量之比。通常在文档中出现查询 Term种类越多,分值越高。2),调节
4、因子,不影响索引排序情况,只在检索时使用,主要是用来让排序结果在不同的查询条件之间可以比较。这个条件是在搜索时候计算。数值是根据每一个查询项权重的平方和计算得到。计算公式如下:q 四号蛇删 g)=j1卜呼EBBSIO04/乂咸历口或 0 了由 g3),文档频率,表示查询词中,每个 Term 在对应的结果文档中(d)中出现的次数。查询词出现的次数越多,表示出现频率越高,文档的检索得分就越高。为了避免获得更大的相关性函数,实际中,使用次数的平方跟作为文档频率 tf 的值,避免数值过度放大。4),逆文档频率,检索匹配文档数量的反向函数。按照信息理论,文档出现的次数越少,每一篇文档的信息量就会越大。所
5、以匹配的文档数越少,得分就越高。而索引库中文档总数越多,找到一篇目标文档难度越大,相应的信息量也会比较大。5),长度因子,每个索引词汇在域中的总体长度决定的,这个参数在索引建立时确定。数值根据文档中实际具有的索引项个数确定。检索词长度在文档总长度中占的比例越大,长度因子的数值也越大。制 c?产阳&d)=d.etBoostf)xxn/.etBoostQ)lenhNorm(f)=oftermsinfieldfLucene3.0L#卜序( (2):操作1、 Lucene 相关排序流程2、 Lucene 相关类1Query 类:一个抽象类,Lucene 检索结果最终评分的总控制中心。其它评分有
6、关的类和对象都是由Query 类来管理和生产。2Weight 类接口:定义 Query 权重计算的一个实现接口,可以被重用。Weight 类可以用来生成 Scorer 类,也可以解析评分的详细信息,另外还定义了获取 Query 权值的方法。3Scorer 类:Lucene 评分机制的核心类。类的定义是抽象类,提供的一些抽象基本的计分功能方法提供所有的评分类实现,同时还定义了评分的详细解析方法,Scorer类内部有一个 Similarity 对象,用来指明计算公式。4Scorer 类:Lucene 相似度计算的核心抽象类。Similarity 类主要处理评分计算,系统缺省使用类 DefaultS
7、imilarity 类对象3、排序控制使用 Sort 对象定制排序,通过改变文档 Boost 值来改变排序结果以及使用自定义的Similarity 方法更改排序 4、文档 Boost 加权排序1Boost 是指索引建立过程中,给整篇文档或者文档的某一特定域设定的权值因子,在检索时,优先返回分数高的。Document 和 Field 两重 Boosting 参数。通过 Document 对象的 setBoost()方法和 Field 对象的 setBoost()方法。不同在于前者对文档中每一个域都修改了参数,而后者只针对指定域进行修改。文档加权=Document-boosting*Field-b
8、oosting,默认情况下为 1,一般不做修改。2Sort 对象检索排序Sort 使用时通过实例化对象作为参数,通过 Searcher 类的 search 接口来实现。Sort 支持的排序功能以文档当中的域为单位,通过这种方法,可以实现一个或者多个不同域的多形式的值排序。实际使用排序对象 Sort 进行排序。主要有两种模式,一种是以字符串表示文档域的名称作为参数指定域排序,一种是直接以排序域的包装域的包装类作为参数进行排序。Sort 对象使用比较简单,只需要在对文档索引进行检索时,在检索器的 Search 方法中带 Sort 对象作为参数即可。1)Sort 对象相关性排序按照相关性排序时最基本
9、的结果排序方法,使用 Sort 对象无参数构造函数完成的排序效果相当于 Lucene 默认的按相关性降序排序。2)Sort 对象文档编号排序某些应用场合需要对所有符合匹配度的结果,按照文档内部编号排序输出。使用 Sort对象的静态实例 Sort.INDEXORDE 陈实现3)Sort 对象独立域排序在检索过程中,把检索结果按照某一个特定域排序,非常重要。在使用搜索引擎过程中,有时会选择使用时间排序,而在搜索引擎库中,检索词完全是另外一个域的内容,与时间没有任何关系。这种应用中,检索关键词的匹配仍然是首要因素,匹配太低或者不匹配的文档直接不必处理,而匹配的文档则需进一步排序输出。指定的排序域并没有进行特别限制,可以是检索词的关联域,也可以是文档中的任意其它域。4)S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广东深圳北京大学国际法学院招聘1人模拟试卷及参考答案详解1套
- 2025河南三联科技工程有限公司招聘考前自测高频考点模拟试题附答案详解(考试直接用)
- 涂装车间设备知识培训内容课件
- 涂装工艺基础知识培训总结
- 2025年蚌埠固镇县连城镇招聘村级后备人才3人考前自测高频考点模拟试题及答案详解(各地真题)
- 2025广东工业大学招聘23人考前自测高频考点模拟试题及答案详解(网校专用)
- 2025北京石景山区招聘社区工作者62人考前自测高频考点模拟试题及一套参考答案详解
- 2025北京海淀十一中关村科学城学校教师招聘考前自测高频考点模拟试题及答案详解(各地真题)
- 安全培训自查表课件
- 2025内蒙古民航机场集团有限公司管制“+1”培养生、管理培养生招聘15人模拟试卷及完整答案详解1套
- 胃管的注意事项、脱管与护理
- 小学创新精神主题班会课件
- 知识产权争议的仲裁与诉讼途径
- 英语试卷讲评课课件
- 部编版六年级上册语文(全册)教案设计(含教材分析、教学计划及进度)
- 医疗护理品管圈48
- ps课件教学课件
- 桥梁亮化工程施工方案
- 《环境影响评价》第一章 环境影响评价的概念课堂讲义
- 2024年中级注册安全工程师《安全生产法律法规》真题及答案
- 2025新外研社版英语七年级下单词表
评论
0/150
提交评论