Web中图像的检索技术研究答辩稿_第1页
Web中图像的检索技术研究答辩稿_第2页
Web中图像的检索技术研究答辩稿_第3页
Web中图像的检索技术研究答辩稿_第4页
Web中图像的检索技术研究答辩稿_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

杭 州 师 范 学 院 电 子 工 程 系 毕业论文 作 者: 童宏梁 指导老师: 张 量 要 随着网络技术和计算机技术的飞速发展,网络搜索技术越来越受到人们的重视。如今,虽然网络检索技术已走向成熟和完善,但还是不能满足人们的需求。 在本文,我首先要向大家介绍一般网络搜索技术的基本原理、发展现状和它的发展趋势。在第二章我们则讲述基于 析搜索过程中分词技术的应用、检索模型和相似度他们之间的具体关系。 上一张 引 言 研究现状: 随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。因此人们对多媒体信息的检索需求也就随之随之变得特别迫切。但由于图像检索系统涉及了多学科的知识,实现和应用的难度相当高,所以已有的图像检索系统都有这样或那样的缺陷。 而传统的信息检索主要集中于文字的检索,在多媒体方面的研究并不是很多。互联网上的多媒体以图像为主,因此图像的检索就成为了目前研究的热点。 图像检索经历了两个阶段 :第一阶段是以文本为基础的检索。第二阶段是以图像自身的内容为基础的检索。 上一张 引 言 发展趋势 立足于文本,对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上 立足于图像内容,对图像进行分析和检索。 结合文本和内容,进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现 上一张 引 言 存在的问题: 由于搜索引擎技术的开发牵涉到信息检索、人工智能等许多基础研究领域的理论和技术,中文搜索引擎的开发就更涉及到语言习惯的差异、智能切分词等棘手的问题,而且中文搜索引擎技术的起步也较晚,还远没能满足中国网民的需求。因此我们现在要做的是研究出适合中国大众的简单有效的搜索技术。 上一张 基于 引擎的搜索途径 : 1. 关键词检索 (1)基于图像外部信息进行检索 (2) 基于手工标注的检索 上一张 基于 文本图像间关系 在文本检索中,搜索引擎主要考虑 些文本信息反映出网页的内容,但不完全与网页中图片的内容一致。在 据 获反映图片信息的文字信息,分析这些文本的语义具有重要的意义。 上一张 基于 图像的文本标记 (1)图像的说明 :图像说明文本 (2)图像的标题 :图像关键词 (3)图像的标签 :说明图片摘要信息的短语 (4)网页的标题 :反映网页中心内容 上一张 基于 文本权值间的关系 在图像的检索中,首先是要建立描述图片内容特征的查询语句,然后比较、区分它们之间的异同,获取需要检索的图像。但它们对图像描述时侧重不同,同时与图像信息的联系程度也不同。如图像标题和网页标题是简单的词条,两者中相对来说图像标题更接近图像的主题内容。所以在比较、区分各类文本信息以决定是否符合检索要求时,它们所占的权值应该是有所不同的。根据信息的重要程度,他们所占的权值大小按次序如下: 上一张 基于 图像检索模型 所提供检索质量将直接影响到检索的效果。这里采用向量空间模型。 上一张 基于 向量模型中权值计算 在这里我们一般采用比较简单的统计法来计算它的权值。公式如下: 在信息检索中常用的词条权值计算方法为 数: )()( )l o g ()(上一张 基于 相似度算法 两文档 ()()()()(c o s),(上一张 基于 进行查询的过程中,先将查询条件 要依据布尔模型 : 当 中时,将对应的第 ,否则置为 0,即 也就是说当两词条完全相同时,这一项为 1,其余情况为 0。可以看出文档含有完全相同的词条时,相似度 =1;而其中无相同时的词条时,相似度 =0。 1上一张 基于 从而文档 的相似度为: 根据文档之间的相似度在查询过程中 , 可以计算出每个文档与查询的相似度 , 进而可以根据相似度的大小 , 将查询的结果进行排序 。 ()()(),(上一张 基于 分词技术和匹配方法 1. 常用的切词算法如下: (1)最大正向匹配法 (2)逆向最大匹配法 (3)基于词频的统计方法 由于这些设计思想都不怎么好,所以这里我们将提出改良的匹配法。 上一张 基于 词典存储格式: 第一层存储所有单字,第二层保存所有的双字词和多字词的前两个字,第三层存储以某一双字为首的所有词。 A 1A 3A 2A 1 B 1 ( f , n 1 )A 1 C 1 ( t , n 3 )A 1 B 2 ( t , n 2 )A D 1 ( t , n 4 )F 1G 2 H 1G 2H 1 R 1 T 1上一张 基于 匹配方法 假设对一个句子 进行分词处理,算法描述如下: 1) 两个字(开始时为 在词典中查询 2) 不存在,则 次分词结束,返回 1。 3) 存在,判断 从词典中获取该词下层节点汉字的最大长度,设为 n 4) 若 n=0,一次分词结束,保存结果。 5) 否则, i=2,转 6)。 6 ) i=i+1,若 i=n+3,转 8);否则,转 7)。 7) 再取一个字(此处为 判断第三层中是否有以 始的字 (不需要恰好匹配,只要匹配开始的 。 8) 若存在,分词结束,返回最近一次能够恰好匹配的 Cj( 而检索完全度 60%。 上一张 结 论 在了解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论