版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索
第06章查询处理技术软件学院教研室陈鄞信息检索系统的体系结构文本数据库数据库管理建索引索引查询处理搜索排序排序后的文档用户反馈文本处理用户界面检出的文档用户需求文本提问逻辑视图倒排文档引言查询处理主要包含两方面内容将用户输入的原始查询转化为统一的查询机内表示形式序号检索模型查询机内表示形式1布尔模型布尔表达式→合取向量的析取范式2向量空间模型向量3概率模型向量4基于统计语言模型的检索模型词串引言查询处理主要包含两方面内容将用户输入的原始查询转化为统一的查询机内表示形式查询重构为什么要重新构造查询用户检索经验不足,无法提供高质量的用户查询问题复杂,用户无法提供恰当的表述潜在的真实需求(RealInformationNeed,RIN)意识到或感知到的需求(PerceptionInformationNeed,PIN)表达出的需求(Request)查询(Query)用户信息需求的不同状态本章内容6.1相关反馈与查询重构6.2自动的查询扩展技术
6.1相关反馈与查询重构相关反馈(RelevanceFeedback
)利用用户对于最初的检索结果的相关性评估信息对系统的搜索策略进行调整,以改进检索效果的技术相关反馈的原理F:从用户那里接受相关性评估,输出相关文档和不相关文档G:实现相关反馈公式检索过程FG原始Q排序输出相关和不相关的文档重新形成的queryQ’相关评估相关反馈主要利用了如下思想当用户对文档集不十分了解时,构造一个好的查询很困难,但是让用户来判断具体文档的相关性却是比较容易的用户看到某些文档之后可能会使他们对原来所理解的信息需求进行修正如何利用相关反馈信息重新构造查询?本节主要内容6.1.1向量空间模型中的相关反馈6.1.2伪相关反馈与隐式相关反馈6.1.3概率模型中的相关反馈6.1.1向量空间模型中的相关反馈Rocchio,1971年提出基本思想对用户最初给出的权值进行调整,对于查询中的每个词,如果其在相关文档集合中的权重比较高,则提高其在查询中的权重;如果其在不相关文档集合中的权重比较高,则降低其在查询中的权重6.1.1向量空间模型中的相关反馈Rocchio算法,1971年提出相关反馈实现中的一个经典算法20世纪70年代左右在Salton的SMART系统中引入并广泛流传基本思想对用户最初给出的权值进行调整,对于查询中的每个词,如果其在相关文档集合中的权重比较高,则提高其在查询中的权重;如果其在不相关文档集合中的权重比较高,则降低其在查询中的权重
基本思想
向量中的权重分量如果为负值,那么该分量将会被忽略,即该分量权重设为0正反馈往往比负反馈更有价值,因此在很多IR系统中,会将参数设置成β>γ
一个合理的取值是α=1、β=0.75及γ=0.15实际上,很多系统都只允许进行正反馈,即相当于设置γ=0只取检索系统返回结果中排名最高的标记为不相关的文档进行负反馈Idedec-hi公式相关反馈可以同时提高召回率和正确率实际表明该技术在一些重召回率的场景下对于提高召回率非常有用。这其中的部分原因在于它对查询进行了扩展修改后的查询引入了一些新的索引词,这些索引词主要来自相关文档实际应用中的迭代算法Rocchio算法实际应用中的问题长查询检索实现时更高的计算开销,导致系统对用户的应答时间更长,降低了系统的效率。部分解决方案是只改变相关文档中某些关键词项(比如文档中词项频率最高的20个词项)的权重例子
T1
T2
T3T4
T5Q=(5,0,3,0,1)→初始查询d1=(2,1,2,0,0)→相关文档d2=(1,0,0,0,2)→不相关文档S(Q,
d1)=(52)+(01)+(32)+(00)+(10)=16S(Q’,d1)=(5.752)+(0.51)+(42)+(00)+(0.50)=20S(Q,d2)=(51)+(00)+(30)+(00)+(12)=7S(Q’,d2)=(5.751)+(0.50)+(40)+(00)+(0.52)=6.75=1,=1/2,=1/4文本搜索中相关反馈的例子Initialquery:Newspacesatelliteapplications1.0.539,08/13/91,NASAHasn’tScrappedImagingSpectrometer2.0.533,07/09/91,NASAScratchesEnvironmentGearFromSatellitePlan3.0.528,04/04/90,SciencePanelBacksNASASatellitePlan,ButUrgesLaunchesofSmallerProbes4.0.526,09/09/91,ANASASatelliteProjectAccomplishesIncredibleFeat:StayingWithinBudget5.0.525,07/24/90,ScientistWhoExposedGlobalWarmingProposesSatellitesforClimateResearch6.0.524,08/22/90,ReportProvidesSupportfortheCriticsOfUsingBigSatellitestoStudyClimate7.0.516,04/13/87,ArianespaceReceivesSatelliteLaunchPactFromTelesatCanada8.0.509,12/02/87,TelecommunicationsTaleofTwoCompaniesUserthenmarksrelevantdocumentswith“+”.+++查询扩展成18个带权重的词项2.074new 15.106space30.816satellite 5.660application5.991nasa 5.196eos4.196launch 3.972aster3.516instrument 3.446arianespace3.004bundespost 2.806ss2.790rocket 2.053scientist2.003broadcast 1.172earth0.836oil 0.646measure查询扩展后的检索结果1.0.513,07/09/91,NASAScratchesEnvironmentGearFromSatellitePlan2.0.500,08/13/91,NASAHasn’tScrappedImagingSpectrometer3.0.493,08/07/89,WhenthePentagonLaunchesaSecretSatellite,SpaceSleuthsDoSomeSpyWorkofTheirOwn4.0.493,07/31/89,NASAUses‘Warm’SuperconductorsForFastCircuit5.0.492,12/02/87,TelecommunicationsTaleofTwoCompanies6.0.491,07/09/91,SovietsMayAdaptPartsofSS-20MissileForCommercialUse7.0.490,07/12/88,GapingGap:PentagonLagsinRaceToMatchtheSovietsInRocketLaunchers8.0.490,06/14/90,RescueofSatelliteBySpaceAgencyToCost$90Million2186.1.2直接反馈、间接反馈与伪相关反馈直接反馈 (用户有意识)间接反馈 (用户无意识)也叫隐式相关反馈点击率间接反映了该文档与查询的相关性假设文摘质量比较好浏览时间等伪相关反馈 (无用户)将返回结果的前K个文档作为相关文本优点:实现起来比较方便缺点:迭代,会导致查询漂移例:coppermines→minesinChile
→Chile6.1.3概率模型中的相关反馈第1步:初始化第2步:第3步:词t状态相关文档不相关文档合计t出现rtdft
–
rtdftt
不出现R-rtN-dft-(R-rt)N-dft合计RN-RN第4步:重复以上两步直至收敛VSM与概率检索模型中
相关反馈技术的比较VSM中的相关反馈概率模型中的相关反馈作用对象不同概率模型中的反馈直接作用于模型(参数),而不是查询对查询的扩展性不同概率模型没有扩展查询提纲6.1相关反馈与查询重构6.2自动查询扩展技术6.2自动查询扩展技术查询扩展用附加(额外的)的词语补充原始查询的过程查询扩展的提出20世纪70年代,用于改善检索结果查询扩展的分类依据用户的参与程度交互式查询扩展扩展词的选择由用户自己完成自动查询扩展查询扩展的分类依据用户的参与程度交互式查询扩展扩展词的选择由用户自己完成自动查询扩展扩展词的选择由系统自动完成依据扩展源基于相关文档集合的查询扩展基于相关反馈技术的局部分析法基于语义词典的查询扩展人工编撰计算机自动提取(基于全部文档集合的全局分析法)基于用户日志的查询扩展6.2.1全局分析法基本思想通过对全部文档集合的分析,自动获取关键词之间相似度的矩阵(相似度词典)。当进行查询时,使用与查询相似度最高的关键词作为新生成的查询用词如何从文档集合中提取与查询词相似度高的关键词?
相似度词典的构造方法tjditndm两个词所处的文档环境越相似,它们之间的相似度就越大wji的计算t1…tj…tnd1n11…n1j…n1n………………dini1…nij…nin………………dmnm1…nmj…nmnd1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmn实际应用中的公式关键词之间相似度自动生成词典样例基于关键词相似度矩阵的查询扩展关键词tj与查询q之间的相似度选择相似度最高的r个关键词作为候选的扩展用关键词,相应的权值定义为设q’=(w’q1,w’q2,…,w’qn),则qe=q+q’其中r项不为0另外一种扩展办法q=AddB=2AddA=1,D=1AddE=0.5AddB=0.5,E=0.5AddnothingA=5B=4.5C=1D=2E=1qe
=根据q不能找出仅包含E的文档,但qe可以A=4B=2C=1D=1E=0Associated
term的权值系数为0.5
ABCDEA11000B11010
C00101
D01011
E00111
假设根据阈值将相似度转化为二值的OriginaltermAssociatedtermABBA,DCEDB,EEC,D该方法也适用于人工编撰的同义词典性能分析优点最大限度地探求关键词之间的关系相似度词典建立以后,查询扩展效率较高缺点相似度词典建立过程中的时间和空间开销较大,降低了该方法的可行性词典质量常常是一个问题6.2.2局部分析法基本思想利用初次检索得到的与原查询最相关的N篇文档来确定扩展的词语进一步分类基于直接相关反馈基于伪相关反馈局部上下文分析的方法算法要点从初始检索得到的前k个段落中选择与原查询相关度最高的“概念”作为新的查询用词概念c与查询q的相关程度由c与查询q中的每一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 非金属矿山整体托管安全管理协议合同二篇
- 个体洗车店股份合作经营协议
- 学校采购询价制度
- 建立工程采购管理制度
- 市场采购部管理制度
- 医院注射室采购管理制度
- 广电采购物资制度
- 幼儿园采购退货制度范本
- 市直机关采购制度
- 2026届甘肃省陇南市康县3校高三一模联考模拟预测物理试题(无答案)
- 2026上半年北京事业单位统考大兴区招聘137人备考题库(第一批)及参考答案详解【考试直接用】
- 2026学校防范电信网络诈骗“无诈校园”建设工作方案(完整版)
- (14)普通高中音乐课程标准日常修订版(2017年版2025年修订)
- T/CECS 10143-2021高分子量高密度聚乙烯(HMWHDPE)双波峰缠绕结构壁排水管
- DL∕T 1616-2016 火力发电机组性能试验导则
- 2023年4月全国自学考试00341公文写作与处理试题及参考答案
- 《马克思主义基本原理概论》社会实践报告
- 玻璃钢化粪池施工方案(化粪池)
- 2023年黑龙江省学位英语历年考试真题
- 安全生产考试中心工作制度
- 公司危险化学品安全管理办法
评论
0/150
提交评论