外文资料译文.doc

JSJ01-021@asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)

收藏

资源目录
跳过导航链接。
JSJ01-021@asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt).zip
JSJ01-021@asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)
WEB中图像的检索技术研究
THL-040612
演示稿.ppt---(点击预览)
毕业设计论文任务书_THL.doc---(点击预览)
文献综述.doc---(点击预览)
开题报告.doc---(点击预览)
外文资料译文.doc---(点击预览)
代码
论文
评审答辩表 答辩记录
压缩包内文档预览:
预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图
编号:507806    类型:共享资源    大小:825.77KB    格式:ZIP    上传时间:2015-11-10 上传人:QQ28****1120 IP属地:辽宁
12
积分
关 键 词:
毕业设计计算机
资源描述:
JSJ01-021@中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt),毕业设计计算机
内容简介:
1 附件 5: 本科生毕业论文(设计)外文资料译文 论文题目: Web 中图像的检索技术研究 . 学生姓名: 童宏梁 年级(学号): 9906528 . 二级学院: 信息工程学院 专业: 电子信息工程 . 指导教师: 张 量 职称: 副教授 . 填表日期: 2004 年 2 月 25 日 杭 州 师 范 学 院 教 务 处 制 nts 2 外文资料翻译 (不少于 4000 外文印刷字符) 译文一: 1所译外文资料: 作者: James AlIan 书名(或论文题目): Incremental Relevance Feedback for Information Filtering 出 版 社(或刊物名称): Center for Intelligent Information Retrieval 出版时间(或刊号): 1996 ISBN:0-89791-792-8 所译页码: 270-277 增加信息的关联反馈过滤 摘要: 我们从实验到 TREC 的数据都一直都在探索,究竟该怎么做关联反馈才能被更好的利用呢。我们也从过去所有的资料里得到证明,没有好的搜索关联反馈就不能得到高质量的结果。 1. 简介: 关联反馈技术是自动把一个疑问号改正成更准确方法,反映出那些用户兴趣:由兴趣疑问搜索进而反馈给系统来提高搜索力度。对反馈感兴趣的研究人员,通常使用 TREC 来收集任务,由一些质问和相关的资料收集组成,从资料的开始被利用 反馈测试 结果出现和投入使用。 我们是 在那两种想法的结合过程中,发现信息的关联反馈过滤的好处并处理出现的新问题: 1.当关联性判断出现,标准的反馈技术起作用时时起作用,我们就能取得更好的反馈结果,从而使检索效果更好。 2.为了保持那种 高级品质 并设法降低空间要求,对我们将来的检索事业有着重要的意义。 3.关联反馈技术能对付 质问漂流 ,这将给我们的检索省下不少的时间。 当调查那些问题中的任何一个时,当判断被一次而不是马上提出时,我们集中于关联反馈,一个过程我们叫增加的反馈。当全部判断同时被使用时,反馈的连续 应用将增长集中于取得好的质问中。 虽然铺设任务的关联反馈和 TREC 已经被广泛地研究,只有很少的工作高于增加的反馈在一种过滤的环境过程中处理那些问题。 2.增加的反馈是什么 在信息里到达的信息的数量可能随时变化,但却能随时取回系统监视器的资料,取回问题的这个部分由各种各样的研究团体和商业部门经营。 当资料已经被选择时,用户读它们并且有机会标明他们相关与否。 这些判断与产生一个新质问的质问相结合。新质问用于监控进来的资料的流动。这个循环继续,直到质问不再被需要。 在表面上,在 这个过程里的反馈看起来是明显的关联反馈。 但是, 与在其他底座里不同的是,更老的关联性判断必须被保留, 新近的资料便朝着以不平常信息的那些反馈方向走。 这种形势在交互式形势里出现, 一个过滤的质问的存在时间表明,不可能给过去的全部档案进行关联性判断,因为存储空间有限。 2.1 增加模拟的反馈 增加反馈在过滤上下文的信息内的进行完整评估,要求广大用户研究预订模拟资料的全部运行过程。简化问题,我们忽视真实选择那儿的资料:我们对只对那些起因于那些选择判断的关联性感兴趣。 那些判断关联性 被内在使用,他们象分配那些文件内列举。 因为充分的反馈运转,命令实际上不重要。 因为增加反馈,判断一次反馈一小部分直到全部质问耗尽全部信息。那是,第一个反馈循环使用判断前的 1/n 适合每质问,第 2 循环使用第 2 到第 n号,等等。 nts 3 表 1 表格 1 的统计是各种关联性判断给磁盘 1 和 2。 巨大的信息数量将需要实际的时间处理,因此我们通过选择大约全部判断的 10/100 为我们的所有实验都选择一个随便子集合,有利于资料判断相关。判断被从中选出来相关用 30/100 的可能发生的事件和从非相关用 5/100 的可能发生的事件。 2.2 关联反馈算法 由全部实验的全过程可知, 反馈从原先的质问开始, 也许包括来自过去反馈循环的一些信息, 和一些一套新关联性判断,和通过总计 100 个新条件产生一个新质问。 注意到原先的质问可能在每个循环里使用。 这在用户的最初疑问,通常正常工作的的结果固定,但是将结果定为漂流质问是不适当的。 在一份关联文件里的前 100 个结果,出现的结果被首先预订,次数在关联文件里出现。 在那排列过程中的前 500 个条件被根据一个 Rocchio 公式 重新排列: 这里 (Wx)是重要的关联文件或者非关联文件。 在相关的设备里的术语 (t)的重量被计算如下: 在非关联文件里的重物和在质问过程中被类似计算。 Rocchio 重量排列的前 100 个条件被增加给质问,原先的质问条件总被包括在新质问里。 注意到这个反馈计划不是最著名的方法。 尤其是全部质问结构被忽视,没有动态的反馈最优化,并且只增加条件。但是,这种方法更简单迅速,合理有效,和容易理解,因此它为这些实验提供一个极好的近似值。 3 . 增加的反馈工作 当过程中的第一个问题在判断时被增长使 用时,标准的反馈技术可能是成功的。但是, 10/100 的样品将在整个全套判断中散布。当这个 10/100 的样品被增长使用时怎样产生更好的效应呢? 图 1 显示当子集合的判断被更大的使用时,精密提高。 2 /n, 1 /n 等等。 图 1 显示效力到达基线时,不管判断的数量一次反馈多小,粗糙训练资料的一半已经被提出。 由于判断的 10/100 被使用,平均的精密是在基线的 10/100 内。 注意到如果没有反馈,效果将是 43/100,如此相对很少的资料导致相当可观的改进。 实际上, 关联性判断的 10/100 实际上是确定的全部的判 断的 1/100,意思是,那非常高的效力被一小书写体全套的取样获得!并且长期的质问反馈,知道合理的安排可能的增加的反馈工作,并且它非常迅速取得 高级品质 。 4 . 归档判断 当判断的数量增长时,以前的部分显示那个,取回的质量改进 。但是在那些情况里,全部过去判断都也可得到。 存储空间不可提供不实际的全部资料。 4.1 保留最高资料 针对这个实验, 在每个循环, n 相关和 n 非关联文件的 (共 2 n) 几乎总被人忘记。 n 的选择有两种方式: nts 4 图 1 1 . 使用先进先出时刻表 ,资料因此那些最近看见的相关的 n 越过多循环积累,或许被保留。 2 . 在保持 n不同 关联文件时。 全部资料只要有多于资料,那些最相似对的那些最旧的资料被丢掉。 3.那些判断被一次提出 1/16。 一个损失 2/100 3/100 可能只是归档关联性判断的 10/100。 但是, 我们的空间去非常有限。 4.2 保留顶概念 我们档案信息,统计是不可能 预集 从上下文那里一个反馈循环开始的时候。 因为只一个术语的子集合被储存在上下文里,全部其他条件的统计将是不精密的,他们将以更少 的关联性判断为基础。 现在怎样确定条件,我们尝试 3 条不同通路: 1 . 以包含称呼的关联文件的总数的职位。 2 . 通过在那些关联文件里的时期的事件的总数的职位。 3. 表格显示的差别效力不大,比好选择条件以为基础既确信又负的信息。 很清楚, 与储存整个判断的资料相比较,归档时期信息较少可变性,但是存储空间非常小和非常可预测。 5 . 质问漂流 如果一个请求时间足够, 这个目标的那些质问可能改变:特别分题的那些质问的结果更将更有归根结底的可能, 或者一 个含糊有关的题目可以引起一些好奇并且移动 关联性 到切线的标题。 象以前的部分里提出的那样,那些技术为处理质问漂流好像理想。 因为不完全的信息正被保留, 过时 的反馈数据应该删掉,把更适合一个质问留给质问。 5.1 模拟的质问漂流 已经漂流的一个质问基本上是两个质问 原质问和新的质问。在实验过程中使用的一些 TREC 质问与两个他们的陈述相似并且在确定的他们的关联文件里。 那其实是接近漂流表明一种方法。 我们考虑二个质问重叠,如果他们共同拥有几份关联文件 (的数量判断非关联文件共同 不被考虑 )。 重叠在判断资料中大约为被判断的资料的 40/100 到一个没有的范围内。 相关和非关联文件的判断通过把他们成为 3 组: (1)资料为原先的质问只判断, (2)资料为两个质问判断, (3)资料为新质问只判断。 虽然增长,判断仍在那项命令里使用。 nts 5 5.2 基本的漂流 以下类型的质问和评价如表 2,如下: 1 . 新:只与他们自己判断关联性一起修改新质问。 这应该是可能的最好的性能, 不但结果是:那些统计效应注意到更显著的是这里因为只是那些最高的 1000 个条件被救 ,到那时那些增加判决被使用 (在里新增加 )。 2 . 新增加:同一事物作为新但是有那些判断关联性增长反馈, 1/16 一次,保持上下文的 1000 句话。 这是大多数运行的基线,最好任何漂流的质问能期望增长做。 3 . 漂流:判断一次反馈 1/16,那些原先质问与那些混合关联性一起修改,保持上下文的 1000 个条件。 反馈的最后的循环应该导致接近新质问的质问。 4 . 新漂流:运转的这非常类似于运转的漂流, 做补偿是的一部分增加反馈的原先质问接近使用。 5.原先:那些原先质问与他们的自己 判断 (不增长 )关联性那里一起修改,然而评价好象他们那些新质问岁。 5.4 种漂流物和滑过 每当上下文被从一个更早期的循环恢复时,降低全部统计的一小部分。 如果一个时期继续在判断的资料里出现,它的统计将提高。 6 . 结论 关联反馈是对数据库改进质问的效力的一种极好的技术。 我们已经证明反馈可能是增长申请取得相似的效力 假若一些上下文被保持在反馈循环之间。 在那里这对档案许多资料或者大量统计信息不可行时, 如果少量过去判断被保持,增加的反馈工作的性能将有更好的改进。 7.参考资料 nts 6 译文二: 2. 所译外文资料: 作者: Heng Tao Shen , Beng Chin Ooi , Kian-Lee Tan 书名(或论文题目): Giving Meanings to WWW Images 出 版 社(或刊物名称): International Multimedia Conference 出版时间(或刊号): 2000 ISBN:1-58113-198-4 所译页码: 1-10 基于 WWW 图象的检索 提要: 图像在万维网 上的应用越来越广泛,工作生活中所需要的图片在这里基本上都能找到。但令人遗憾的是,现在万维网大多数的搜索引擎不能做到很好的搜索效应,也就是说还不能满足我们大多数用户的图片搜索需求。 在这文章内,我们提出了一种新的搜索模型,这个公式能调用表空间模型,根据计算的语义的相象程度而进行连接。 为了更进一步改进搜索效应,我们提出两个关联反馈机制。 我们通过网络上的图片搜索的性能研究,显示我们的模型和方法胜过现有的技术。 而且,相关的反馈机制能取得很好的搜索功能。 关键词: 万维网 相象语义 图像取 回 关联反馈 1. 简介: 由于因特网带宽和 CPU 处理速度的增加,万维网上的图片使用已经变得非常流行,并且成了网上不可缺少的组成部分。 万维网上无穷的图片成了现在用户的住要来源,但是现在,图像的管理和取出等问题成了主要的研究项目。 特别是图像的搜索功能。 传统的图像搜索系统现在已经不能满足人们的需求。 以文本为基础的系统 是以图像的关键字或正文说明来进行搜索的。 因为图像被嵌入的 HTML 页中有图像内容的正文说明,这些功能被万维网图像搜索系统采用。 但是,原文内容中的不能完全的描述出图像的特 征。 换句话说, 原文内容可能包含图像的正确信息,但也有其他的无关内容,这就给我们的检索带来了不必要的麻烦。 另一方面,基于内容的图像取回系统是以图像的具体形象 (例如颜色,质地和形状 )来作为搜索条件的,能得出比传统搜索更好的结果。 但令人遗憾是,基于的图像搜索仍然不完美。 首先,他们要用户自己给出准确的图像描述。 其次,检索系统自己也不能根据描述得出很好的结果。 最后,他们也还不是很稳定。 近年来,结合各种各样的特征 (颜色,质地和形状 )的综合系统已经有了比较好的功能。 但是,当不同的特征倾向有所差池时还不能 给出令人满意的结果。 在这篇文章里,我们采用不同的方法在一份 HTML 资料内鉴定一幅图像的相关语义。除职能图像 (象新符号和在建设中的符号那样 )之外,在一个网页里的一幅图像一般是与它的正文有关的,而这些文章中的内容基本都能比较好的描述出图像的内容,比如图像中事件的时间和地点。有一份 HTML 资料显示,正文中基本信息能给某些组成部分提供更多的语义的信息。 这些包括这幅图像,它的标题和资料的标题。我们提议的代表模型叫 ChainNet 模型的图像。基于是从一图像附近的正文获得相关词汇的连接。 并有一个新公式,调用表空 间模型和相关语义也将在本文中做出介绍。 2. 相关工作 由于现在基于万维网的图像收集工作,是从图像正文的节点获得 (例如标题 ),以及那些从它的相邻的页 (来自被嵌入的页被单个的超链接达到的那些页 )获得。并可能从图像那里到达在大多数二超链路, 这样久能考虑到更多的关于一个图像节点的信息。一个图像的自己的标题通常是描述它的内容,但它相邻页的图像标题就反映出相同的内容。 另外,这相象措施不考虑到任何语义的结构。 这样的相象措施可能不能得足以显示在一幅图像和这个关键词之间的真正的语义的相象。 关联反 馈是改进准确搜索的一种非常重要的方法,系统通过从用户使用反馈信息使质问更精确。使用颜色的多属性的使用关联反馈已经被应用其中。他们的结果通过使用关联反馈机制显示在搜索性能方面有显著的改进。 nts 7 3. 图像画像模型 在支持万维网图像搜索中的两个关键问题: (1)为一幅万维网图像和质问语义学确定一位定位。 (2)计算相象图像间关键词的关系。 鉴定一幅质问想象图像画像需要的性质: (1)精确度。 为了一位代表有效,它必须捕获必要的图像质问语义的意思。 (2)空间效率。 代表不应该消耗太多贮存。 (3)计算 机廉价的相象匹配。 它应该将迅速计算在表现之间的相象。 (4)在那些图像质问语义意思之间的相象保存。 (5)自动搜索。 代表应该被自动选出,而不是手工产生。 (6)精确搜索。 任何噪音或者变形不应该猛烈影响搜索结果。 3.1 一幅嵌入的图像的语义学 用一份 HTML 资料和表现它的正文的一幅图像之间的关系,并做出初步研究。结论表明,我们要很好的对图像进行搜索有 4 个关键: (1)图像标题。 图像文件标题 (图像标题仅仅 )基本上表明图像关心的主要物体的一个单字。 (2)图像 (交替的正文 )。 图像附加语用 HTML 资料通常是描述一篇图像语义学摘要的一个短语。 (3)图像文件标题。 图像文件标题通常关于一幅图像提供大多数语义内容。 它在 HTML 资料里是图像的环境正文。 (4)页标题。 图像用于提高网页内容,页标题最有可能与图像的语义学有关。 总结网页的内容,这通常是一个短的句子。 还有可以提供一些关于这幅图像信息的其他部分, 例如其他 HTML 数据,无论怎样,他们包含太多无关的信息。 3.2 ChainNet 模型 为了更足够描述图像语义学,我们提出了 ChainNet 模型。 图 1 说明一个例子。 一根词汇的链子(LC)是一连串有关正文的单词。 这里,我们把它定义为通过它的话带一定语义学的一个句子。 因为一个图像标题只是一个单字,我们说它是一根琐屑的词汇的链子 标题词汇的链子 (TLC)。 从 ALT 获得标签的正文被称为 ALT 词汇的链子 (ALC)。 页标题也被描述为 LC 标明词汇的连锁店 (股票上市公司 )的页数。 最后,因为一个标题包括多句子,我们描述它为 3 类词汇的链子。 另一种类型叫句子词汇链子 (SLC),描述一个图像标题一个单个的句子。 在图 1,每根柱子都是 SLC。 两类型被叫为重建的句子词汇 的链子 (RSLC), 并且它代表从有关的句子重建的一个新句子。在两 SLCs 的一句普通话使每SLC 分裂成两。 基于第一个普通话,第 2 SLC 秒一半首先连接第一个 SLC 半形成一 RSLC。 在图 1,如果从一个专栏到另一个专栏有一支箭,一 RSLC 存在。 最后一类型叫标题词汇链子 (CLC),描述整个图像标题。 CLC 通过一个又一个连结 SLC 被形成。 在图 1,连接通过点缀的箭头被做。 这 6 类词汇的链子建造 ChainNet 模型。 每根链子捕获这幅图像的语义的结构的部分。 TLC 表明一幅图像的主科。 ALC 关于一幅图像 提供短的说明。 一家股票上市公司显示它的内容的部分。 SLC 捕获图像标题一个单个的句子的语义学。 CLC 保持图像的总的语义学。 那是为什么我们叫它为 ChainNet,这基本上由一系列 LCs 做成。 但是, ChainNet 把每类型 LC 放在相等的重要性, 现在,仅仅描述一幅图像以这种方法是不能给我们带来好的性能的。我们已经把整个图像标题分成为 3 类词汇的链子的原因是, 由于在一个图像标题内的他们的位置和内部关系,我们想要使每类型句子的重要性有差异。 3 类词汇的在一个图像标题内的链子不同样重要。重要性从高在低处 预计象这样: SLC RSLC CLC。 如果在一个质问过程中完全一样的话在 SLC 里出现, 分别的 RSLC 和 CLC, SLC 在这 3 个中拥有最语义的意思,随后有 RSLC 和最后 CLC。 例如, 如果一个质问在这幅第一个图像内与 SLC 相配, 在第 2 幅图像内 RSLC 只匹配, 并且只在第 3 幅图像内与一 CLC 相配, 这幅第一个图像对质问非常相关,这很可能是情况, 随后有第 2 幅图像和第 3 幅图像。 4. 语义的措施模型 在这部分内,我们将提出我们相象测量模式在两词汇链子之间,和在一幅图像和一个质 问之间分别。 nts 8 4.1 相象词汇 我们已经为代表图像质问语义学提出模型。 为了计算在一个质问和一幅图像之间的语义的相象度,就由 ChainNet 里确定在两个基本的组成部分之间的相象开始 - LC。 假如我们商店每个 LC 的条件作为一个目录内。 属于一幅图像的全部目录象被 ChainNet 模型 (看见图 1)显示的那样连接图像根。 我们提议一个目录空间公式计算两 LCs 之间的相象如下: 图 1 这里 S 是在两 LCs 之间的相象。 图像初步定义为: nts 9 我们说,一幅图像在与有关的质问如果和只要它水平比赛胜任或者比那些门槛水平比赛质问大。 它让上述公式用在它的比赛水平方面的质问计算相象。 5. 关联反馈 因为大的图像收集,提供机制帮助用户更准确地进行搜索,指定他们的质问是很重要的。 一个这样的机制将从用户那里,利用反馈把图像从最初质问回来。 通过允许用户表明相关 (并且不相关 )图像,原先的质问可能更具有搜索能力。 对这目的来说,我们发展两种技术: 语义的积累和语义的综合和区别。 5.1 语义的综合和区别 在语义的积累反馈里,用 户只能一次选择一幅图像作为反馈信息。 为了节省时间并且过滤更多的无关的图像,我们介绍另一种技术: 语义的综合和区别。 用这种方法,用户同时能选择几幅相关和不相关图像。 6.结论和将来工作 在这文章内,我们提出一新模型描述图像嵌入万维网页。 被提议的 ChainNet 模型结合从一幅图像的环境正文获得的不同的类型词汇的链子。 我们的实验研究显示这种方法能有效连接相关语义。 我们也提出语义综合和区别方法,并能更准确地在实验中体现出来。 7.参考资料 学生签名 年 月 日 指导教师审阅意见 : 指导教师签名 年 月 日 nts 10 所译外文资料附件 (含封面、封底、目录、翻译部分页码的复印件等一并予以装订) 译文一原文: Incremental Relevance Feedback for Information Filtering 1.introduction an information filter monitors a stream of documents and selects those that match a query. information filtering differs from more traditional information retrieval in several respects: the documents arrive continuously rather than residing in a collection;the query is long-lived rather that one-shot(it might exist for days,weeks,or even yeas);and the matching process requires a yes/no decision rather than a ranked list. relevance feedback techniques provide a means for automatically correcting a query to more accurately reflect the users interests:a set of good/badrelevance judgments on documents are fed backinto the query to generate a better query. researchers interested in feedback generally explore the problem using a test collection such as that provided by the trec routing task,which consists of some queries and a collecting of documents that are known to be relevant or not relevant for each query. the documents are broken into training and test sub-collection,the queries air improved based upon the training sub-collection,and the results are checked using the test collection. we are intersested in a combination of those two ideas-i.e.,relevance feedback for information filtering-and the new questions that arise in that setting: 1.do standard feedback techniques work when relevance judgments arrive a few at a time rather than in a batch?if so,how quickly do we achieve a high qualityquery? 2.how much information from past relevance judgments mush be archived for a query in order to maintain that high quality but reduce space requirements? is it adequate to archive a few select judgments,or can more canonical (so more concise) information be saved instead? 3.can relevance feedback techniques cope with query drift,a slow shift in the focus of the users interest over time?(query drift should not be confused with concept drift,where the meaning of an indexing concept changes over time. the two are related in that a query concept could drift and cause the query proper to drift,but we are interested in more general cases where the idea of relevance changes.) this work investigates each of those questions. we focus on relevance feedback when the judgments are presented a few at a time rather than all at once,a process we call incremental feedback. the intent is that successive applications of feedback will incrementally converge on a query as good as that which could be achieved when all the judgments are applied simultaneously. although relevance feedback and the TREC routing task have been researched extensively,there has been little work that addresses the questions above in the context of incremental feedback in a filtering environment. section 2 starts by describing the information filtering environment in more detail and how we constructed experiments to answer the questions raised above. section 3 briefly nts 11 answers the question of whether relevance feedback works incrementally,and section 4 addresses storage issues by exploring two approaches to incremental application of feedback that remember only selected information from past cycles. section 5 demonstrates that the incremental approach can successfully cope with query drift and finally,section 6 summarizes the results and presents some open questions. 2.what is incremental feedback in information filters,documents arrive continuously,though the number of ducuments arriving at any time may vary. a retrieval system monitors the stream of documents and when it finds one that matches a users query,the document is saved. this part of the retrieval problem is handled by various existing filtering engines,both in the research community and the commercial setting. when documents have been selected,the user reads them and has the opportunity to mark them as relevant or not. these judgments are combined with the query to generate a new query-perhaps after several judgments have been made,perhaps after every one. the new query is then used to monitor the flow of incoming documents. this cycle continues until the query is no longer needed. on the surface,the feedback in this process appears to be straightforward relevance feedback. however,unlike in other settings,older relevance judgments must be retained so that unusual information in newly judged documents does not accidentally bias the feedback in the wrong direction. this situation arises in interactive situations,but the longevity of a filtering query means that it may not be practical to archive all past relevance judgments because of limited storage space. work on iterative query formulation using feedback is fairly well known,but has only been applied to an interactive setting where the database remains constant. some work has been done on deciding how many documents are needed to help feedback generate a good query and how many expansion terms should be used. in the area of text classification,efforts have been made to reduce the amount of training needed to build a reasonable classifier. 2.1 simulating incremental feedback a complete evaluation of incremental feedback in an information filtering context requires either extensive user studies or complex simulations of the process using a carefully constructed ordering of documents. to simplify the problem,we ignore the actual selection of documents:we are only interested in the stream of relevance judgments that results from the selection and presentation to some user. this approach limits the conclusions we can draw from this study,but creates a simpler platform for initial experiments. for these experiments,our initial queries are the description sections of TREC queries 51 through 100. these queries are short,so are a reasonable model of a genuine users initial query. the queries are improved by feedback on TREC disks 1 and 2;the resulting query is tested on TREC disk 3. the relevance judgments are used in the order they are listed in the files as distributed. for full feedback runs,the order is actually unimportant. for incremental feedback runs,the judgments are fed back a fraction at a time until all judgmunts all a query are exhausted. that is,the first feedback cycle uses the first 1/n of the judgments for each query,the second cycle uses the second nth,and so on. nts 12 table 1 presents some statistics about the set of relevance judgments for disks 1 and 2. the immense number of judgnemts -an average of almost 1800 per query!-would require substantial time to process,so we chose a random subset for all of our experiments by selecting about 10/100 of the full set of judgments,biased in favor of documents judged relevant. judgments were selected from the relevant set with a 30/100 probability and from the non-relevant with a 5/100 probability. 2.2 relevance feedback algorithm in all experiments discussed below,feedback starts from the original query,possibly includes some information from past feedback cycles,inclueds some new set of relevance judgments,and generates a new query by adding up to 100 new terms. note that the original query is used in every cycle. this anchors the results at the users initial query,an approach that works well in general but will turn out to be inappropriate for drifting queries. any term that occurs in a relevant document is a candidate for appearing in the top 100.the candidate terms are first ordered by rtf,the number of times the term occurs in the relevant documents. the top 500 terms in that ranking are re-ranked according to a rocchio formula: where (Wx) is the weight of the term in the query,relevant documents,or non-relevant documents. the weight of term (t) in the relevant set is calculated as follows: where (TFt,d) is the number of times term (t) occurs in document (d),(LENd)is the length of document (d),avgdoclen is the average length of documents in the collection,(N)is the number of documents that contain term (t). this formula is the belief function currently used by inquery. the weights in the non-relevant documents and in the query are calculated similarly. the first 100 terms ranked by the rocchio weight are added to the query,the original query terms are always included in the new query. because the user-supplied query terms are generally more reliable than the automatically-generated ones,the new terms are down-weighted slightly by multiplying them by 0.3. note that this feedback scheme is not the best known approach. in particular,all query structure is ignored(the queries are a weighted sum of words),no dynamic feedback optimization is done,and only terms are added. however,this simpler approach is fast,reasonably effective,and easy to understand,so it provides an excellent approximation for these experiments. when average precision is reported in this study,it is the average,non-interpolated percision for the top 1000 documents retrieved,assuming all other relevant documents were retrieved at rank infinity.(this measure is that calculated by the TREC evaluation programs.) note that the query is being evaluated against the entire test set (TREC disk 3) at
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
提示  人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:JSJ01-021@asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)
链接地址:https://www.renrendoc.com/p-507806.html

官方联系方式

2:不支持迅雷下载,请使用浏览器下载   
3:不支持QQ浏览器下载,请用其他浏览器   
4:下载后的文档和图纸-无水印   
5:文档经过压缩,下载后原文更清晰   
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

网站客服QQ:2881952447     

copyright@ 2020-2025  renrendoc.com 人人文库版权所有   联系电话:400-852-1180

备案号:蜀ICP备2022000484号-2       经营许可证: 川B2-20220663       公网安备川公网安备: 51019002004831号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知人人文库网,我们立即给予删除!