外文翻译---增加信息的关联反馈过滤.doc

资源ID：97919 资源大小：219KB 全文页数：15页
资源格式： DOC 下载积分：5积分

扫码快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

手机扫码下载

请使用微信或支付宝扫码支付

• 扫码支付后即可登录、下载文档，同时代表您同意《人人文库网用户协议》

• 扫码过程中请勿刷新、关闭本页面，否则会导致文档资源下载失败

• 支付成功后，可再次使用当前微信或支付宝扫码免费下载本资源，无需再次付费

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源（1积分=1元）下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

外文翻译---增加信息的关联反馈过滤.doc

1附件5：本科生毕业论文（设计）外文资料译文论文题目：Web中图像的检索技术研究.学生姓名：年级（学号）：.二级学院：信息工程学院专业：电子信息工程.指导教师：职称：副教授.填表日期：2004年2月25日杭州师范学院教务处制2外文资料翻译（不少于4000外文印刷字符）译文一：1所译外文资料：作者：JamesAlIan书名（或论文题目）：IncrementalRelevanceFeedbackforInformationFiltering出版社（或刊物名称）：CenterforIntelligentInformationRetrieval出版时间（或刊号）：1996ISBN:0-89791-792-8所译页码：270-277增加信息的关联反馈过滤摘要：我们从实验到TREC的数据都一直都在探索，究竟该怎么做关联反馈才能被更好的利用呢。我们也从过去所有的资料里得到证明，没有好的搜索关联反馈就不能得到高质量的结果。1.简介：关联反馈技术是自动把一个疑问号改正成更准确方法，反映出那些用户兴趣：由兴趣疑问搜索进而反馈给系统来提高搜索力度。对反馈感兴趣的研究人员，通常使用TREC来收集任务，由一些质问和相关的资料收集组成，从资料的开始被利用反馈测试结果出现和投入使用。我们是在那两种想法的结合过程中，发现信息的关联反馈过滤的好处并处理出现的新问题：1.当关联性判断出现，标准的反馈技术起作用时时起作用，我们就能取得更好的反馈结果，从而使检索效果更好。2.为了保持那种"高级品质"并设法降低空间要求，对我们将来的检索事业有着重要的意义。3.关联反馈技术能对付"质问漂流"，这将给我们的检索省下不少的时间。当调查那些问题中的任何一个时，当判断被一次而不是马上提出时，我们集中于关联反馈，一个过程我们叫增加的反馈。当全部判断同时被使用时，反馈的连续应用将增长集中于取得好的质问中。虽然铺设任务的关联反馈和TREC已经被广泛地研究，只有很少的工作高于增加的反馈在一种过滤的环境过程中处理那些问题。2.增加的反馈是什么在信息里到达的信息的数量可能随时变化，但却能随时取回系统监视器的资料，取回问题的这个部分由各种各样的研究团体和商业部门经营。当资料已经被选择时，用户读它们并且有机会标明他们相关与否。这些判断与产生一个新质问的质问相结合。新质问用于监控进来的资料的流动。这个循环继续，直到质问不再被需要。在表面上，在这个过程里的反馈看起来是明显的关联反馈。但是，与在其他底座里不同的是，更老的关联性判断必须被保留，新近的资料便朝着以不平常信息的那些反馈方向走。这种形势在交互式形势里出现，一个过滤的质问的存在时间表明，不可能给过去的全部档案进行关联性判断，因为存储空间有限。2.1增加模拟的反馈增加反馈在过滤上下文的信息内的进行完整评估，要求广大用户研究预订模拟资料的全部运行过程。简化问题，我们忽视真实选择那儿的资料：我们对只对那些起因于那些选择判断的关联性感兴趣。那些判断关联性被内在使用，他们象分配那些文件内列举。因为充分的反馈运转，命令实际上不重要。因为增加反馈，判断一次反馈一小部分直到全部质问耗尽全部信息。那是，第一个反馈循环使用判断前的1/n适合每质问，第2循环使用第2到第n号，等等。3表1表格1的统计是各种关联性判断给磁盘1和2。巨大的信息数量将需要实际的时间处理，因此我们通过选择大约全部判断的10/100为我们的所有实验都选择一个随便子集合，有利于资料判断相关。判断被从中选出来相关用30/100的可能发生的事件和从非相关用5/100的可能发生的事件。2.2关联反馈算法由全部实验的全过程可知，反馈从原先的质问开始，也许包括来自过去反馈循环的一些信息，和一些一套新关联性判断，和通过总计100个新条件产生一个新质问。注意到原先的质问可能在每个循环里使用。这在用户的最初疑问，通常正常工作的的结果固定，但是将结果定为漂流质问是不适当的。在一份关联文件里的前100个结果，出现的结果被首先预订，次数在关联文件里出现。在那排列过程中的前500个条件被根据一个Rocchio公式重新排列：这里(Wx)是重要的关联文件或者非关联文件。在相关的设备里的术语(t)的重量被计算如下：在非关联文件里的重物和在质问过程中被类似计算。Rocchio重量排列的前100个条件被增加给质问，原先的质问条件总被包括在新质问里。注意到这个反馈计划不是最著名的方法。尤其是全部质问结构被忽视，没有动态的反馈最优化，并且只增加条件。但是，这种方法更简单迅速，合理有效，和容易理解，因此它为这些实验提供一个极好的近似值。3.增加的反馈工作当过程中的第一个问题在判断时被增长使用时，标准的反馈技术可能是成功的。但是，10/100的样品将在整个全套判断中散布。当这个10/100的样品被增长使用时怎样产生更好的效应呢？图1显示当子集合的判断被更大的使用时，精密提高。2/n，1/n等等。图1显示效力到达基线时，不管判断的数量一次反馈多小，粗糙训练资料的一半已经被提出。由于判断的10/100被使用，平均的精密是在基线的10/100内。注意到如果没有反馈，效果将是43/100，如此相对很少的资料导致相当可观的改进。实际上，关联性判断的10/100实际上是确定的全部的判断的1/100，意思是，那非常高的效力被一小书写体全套的取样获得！并且长期的质问反馈，知道合理的安排可能的增加的反馈工作，并且它非常迅速取得"高级品质"。4.归档判断当判断的数量增长时，以前的部分显示那个，取回的质量改进。但是在那些情况里，全部过去判断都也可得到。存储空间不可提供不实际的全部资料。4.1保留最高资料针对这个实验，在每个循环，n相关和n非关联文件的(共2n)几乎总被人忘记。n的选择有两种方式：4图11.使用先进先出时刻表，资料因此那些最近看见的相关的n越过多循环积累，或许被保留。2.在保持n"不同"关联文件时。全部资料只要有多于资料，那些最相似对的那些最旧的资料被丢掉。3.那些判断被一次提出1/16。一个损失2/1003/100可能只是归档关联性判断的10/100。但是，我们的空间去非常有限。4.2保留顶概念我们档案信息，统计是不可能"预集"从上下文那里一个反馈循环开始的时候。因为只一个术语的子集合被储存在上下文里，全部其他条件的统计将是不精密的，他们将以更少的关联性判断为基础。现在怎样确定条件，我们尝试3条不同通路：1.以包含称呼的关联文件的总数的职位。2.通过在那些关联文件里的时期的事件的总数的职位。3.表格显示的差别效力不大，比好选择条件以为基础既确信又负的信息。很清楚，与储存整个判断的资料相比较，归档时期信息较少可变性，但是存储空间非常小和非常可预测。5.质问漂流如果一个请求时间足够，这个目标的那些质问可能改变：特别分题的那些质问的结果更将更有归根结底的可能，或者一个含糊有关的题目可以引起一些好奇并且移动"关联性"到切线的标题。象以前的部分里提出的那样，那些技术为处理质问漂流好像理想。因为不完全的信息正被保留，"过时"的反馈数据应该删掉，把更适合一个质问留给质问。5.1模拟的质问漂流已经漂流的一个质问基本上是两个质问原质问和新的质问。在实验过程中使用的一些TREC质问与两个他们的陈述相似并且在确定的他们的关联文件里。那其实是接近漂流表明一种方法。我们考虑二个质问重叠，如果他们共同拥有几份关联文件(的数量判断非关联文件共同不被考虑)。重叠在判断资料中大约为被判断的资料的40/100到一个没有的范围内。相关和非关联文件的判断通过把他们成为3组：(1)资料为原先的质问只判断，(2)资料为两个质问判断，(3)资料为新质问只判断。虽然增长，判断仍在那项命令里使用。

注意事项

本文（外文翻译---增加信息的关联反馈过滤.doc）为本站会员（上***）主动上传，人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知人人文库网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。