外文翻译---增加信息的关联反馈过滤.doc

收藏

预览图
编号:97919    类型:共享资源    大小:219KB    格式:DOC    上传时间:2013-11-17 上传人:上*** IP属地:江苏
6
积分
关 键 词:
教育专区 外文翻译 精品文档 外文翻译
资源描述:
1附件5:本科生毕业论文(设计)外文资料译文论文题目:Web中图像的检索技术研究.学生姓名:年级(学号):.二级学院:信息工程学院专业:电子信息工程.指导教师:职称:副教授.填表日期:2004年2月25日杭州师范学院教务处制2外文资料翻译(不少于4000外文印刷字符)译文一:1.所译外文资料:①作者:JamesAlIan②书名(或论文题目):IncrementalRelevanceFeedbackforInformationFiltering③出版社(或刊物名称):CenterforIntelligentInformationRetrieval④出版时间(或刊号):1996ISBN:0-89791-792-8⑤所译页码:270--277增加信息的关联反馈过滤摘要:我们从实验到TREC的数据都一直都在探索,究竟该怎么做关联反馈才能被更好的利用呢。我们也从过去所有的资料里得到证明,没有好的搜索关联反馈就不能得到高质量的结果。1.简介:关联反馈技术是自动把一个疑问号改正成更准确方法,反映出那些用户兴趣:由兴趣疑问搜索进而反馈给系统来提高搜索力度。对反馈感兴趣的研究人员,通常使用TREC来收集任务,由一些质问和相关的资料收集组成,从资料的开始被利用——反馈测试——结果出现和投入使用。我们是在那两种想法的结合过程中,发现信息的关联反馈过滤的好处并处理出现的新问题:1.当关联性判断出现,标准的反馈技术起作用时时起作用,我们就能取得更好的反馈结果,从而使检索效果更好。2.为了保持那种"高级品质"并设法降低空间要求,对我们将来的检索事业有着重要的意义。3.关联反馈技术能对付"质问漂流",这将给我们的检索省下不少的时间。当调查那些问题中的任何一个时,当判断被一次而不是马上提出时,我们集中于关联反馈,一个过程我们叫增加的反馈。当全部判断同时被使用时,反馈的连续应用将增长集中于取得好的质问中。虽然铺设任务的关联反馈和TREC已经被广泛地研究,只有很少的工作高于增加的反馈在一种过滤的环境过程中处理那些问题。2.增加的反馈是什么在信息里到达的信息的数量可能随时变化,但却能随时取回系统监视器的资料,取回问题的这个部分由各种各样的研究团体和商业部门经营。当资料已经被选择时,用户读它们并且有机会标明他们相关与否。这些判断与产生一个新质问的质问相结合。新质问用于监控进来的资料的流动。这个循环继续,直到质问不再被需要。在表面上,在这个过程里的反馈看起来是明显的关联反馈。但是,与在其他底座里不同的是,更老的关联性判断必须被保留,新近的资料便朝着以不平常信息的那些反馈方向走。这种形势在交互式形势里出现,一个过滤的质问的存在时间表明,不可能给过去的全部档案进行关联性判断,因为存储空间有限。2.1增加模拟的反馈增加反馈在过滤上下文的信息内的进行完整评估,要求广大用户研究预订模拟资料的全部运行过程。简化问题,我们忽视真实选择那儿的资料:我们对只对那些起因于那些选择判断的关联性感兴趣。那些判断关联性被内在使用,他们象分配那些文件内列举。因为充分的反馈运转,命令实际上不重要。因为增加反馈,判断一次反馈一小部分直到全部质问耗尽全部信息。那是,第一个反馈循环使用判断前的1/n适合每质问,第2循环使用第2到第n号,等等。3表1表格1的统计是各种关联性判断给磁盘1和2。巨大的信息数量将需要实际的时间处理,因此我们通过选择大约全部判断的10/100为我们的所有实验都选择一个随便子集合,有利于资料判断相关。判断被从中选出来相关用30/100的可能发生的事件和从非相关用5/100的可能发生的事件。2.2关联反馈算法由全部实验的全过程可知,反馈从原先的质问开始,也许包括来自过去反馈循环的一些信息,和一些一套新关联性判断,和通过总计100个新条件产生一个新质问。注意到原先的质问可能在每个循环里使用。这在用户的最初疑问,通常正常工作的的结果固定,但是将结果定为漂流质问是不适当的。在一份关联文件里的前100个结果,出现的结果被首先预订,次数在关联文件里出现。在那排列过程中的前500个条件被根据一个Rocchio公式重新排列:这里(Wx)是重要的关联文件或者非关联文件。在相关的设备里的术语(t)的重量被计算如下:在非关联文件里的重物和在质问过程中被类似计算。Rocchio重量排列的前100个条件被增加给质问,原先的质问条件总被包括在新质问里。注意到这个反馈计划不是最著名的方法。尤其是全部质问结构被忽视,没有动态的反馈最优化,并且只增加条件。但是,这种方法更简单迅速,合理有效,和容易理解,因此它为这些实验提供一个极好的近似值。3.增加的反馈工作当过程中的第一个问题在判断时被增长使用时,标准的反馈技术可能是成功的。但是,10/100的样品将在整个全套判断中散布。当这个10/100的样品被增长使用时怎样产生更好的效应呢?图1显示当子集合的判断被更大的使用时,精密提高。2/n,1/n等等。图1显示效力到达基线时,不管判断的数量一次反馈多小,粗糙训练资料的一半已经被提出。由于判断的10/100被使用,平均的精密是在基线的10/100内。注意到如果没有反馈,效果将是43/100,如此相对很少的资料导致相当可观的改进。实际上,关联性判断的10/100实际上是确定的全部的判断的1/100,意思是,那非常高的效力被一小书写体全套的取样获得!并且长期的质问反馈,知道合理的安排可能的增加的反馈工作,并且它非常迅速取得"高级品质"。4.归档判断当判断的数量增长时,以前的部分显示那个,取回的质量改进。但是在那些情况里,全部过去判断都也可得到。存储空间不可提供不实际的全部资料。4.1保留最高资料针对这个实验,在每个循环,n相关和n非关联文件的(共2n)几乎总被人忘记。n的选择有两种方式:4图11.使用先进先出时刻表,资料因此那些最近看见的相关的n越过多循环积累,或许被保留。2.在保持n"不同"关联文件时。全部资料只要有多于资料,那些最相似对的那些最旧的资料被丢掉。3.那些判断被一次提出1/16。一个损失2/100——3/100可能只是归档关联性判断的10/100。但是,我们的空间去非常有限。4.2保留顶概念我们档案信息,统计是不可能"预集"从上下文那里一个反馈循环开始的时候。因为只一个术语的子集合被储存在上下文里,全部其他条件的统计将是不精密的,他们将以更少的关联性判断为基础。现在怎样确定条件,我们尝试3条不同通路:1.以包含称呼的关联文件的总数的职位。2.通过在那些关联文件里的时期的事件的总数的职位。3.表格显示的差别效力不大,比好选择条件以为基础既确信又负的信息。很清楚,与储存整个判断的资料相比较,归档时期信息较少可变性,但是存储空间非常小和非常可预测。5.质问漂流如果一个请求时间足够,这个目标的那些质问可能改变:特别分题的那些质问的结果更将更有归根结底的可能,或者一个含糊有关的题目可以引起一些好奇并且移动"关联性"到切线的标题。象以前的部分里提出的那样,那些技术为处理质问漂流好像理想。因为不完全的信息正被保留,"过时"的反馈数据应该删掉,把更适合一个质问留给质问。5.1模拟的质问漂流已经漂流的一个质问基本上是两个质问——原质问和新的质问。在实验过程中使用的一些TREC质问与两个他们的陈述相似并且在确定的他们的关联文件里。那其实是接近漂流表明一种方法。我们考虑二个质问重叠,如果他们共同拥有几份关联文件(的数量判断非关联文件共同不被考虑)。重叠在判断资料中大约为被判断的资料的40/100到一个没有的范围内。相关和非关联文件的判断通过把他们成为3组:(1)资料为原先的质问只判断,(2)资料为两个质问判断,(3)资料为新质问只判断。虽然增长,判断仍在那项命令里使用。
内容简介:
-
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
提示  人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:外文翻译---增加信息的关联反馈过滤.doc
链接地址:https://www.renrendoc.com/p-97919.html

官方联系方式

2:不支持迅雷下载,请使用浏览器下载   
3:不支持QQ浏览器下载,请用其他浏览器   
4:下载后的文档和图纸-无水印   
5:文档经过压缩,下载后原文更清晰   
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

网站客服QQ:2881952447     

copyright@ 2020-2024  renrendoc.com 人人文库版权所有   联系电话:400-852-1180

备案号:蜀ICP备2022000484号-2       经营许可证: 川B2-20220663       公网安备川公网安备: 51019002004831号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知人人文库网,我们立即给予删除!