搜索引擎图片识别原理PPT学习课件_第1页
搜索引擎图片识别原理PPT学习课件_第2页
搜索引擎图片识别原理PPT学习课件_第3页
搜索引擎图片识别原理PPT学习课件_第4页
搜索引擎图片识别原理PPT学习课件_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎图片识别,1,现在图片识别已经是主流搜索引擎必备的技术这种技术的原理是什么?计算机怎么知道两张图片相似呢?计算机可以区分颜色吗?,2,5/2/2020,将要搜的东西提取出特征值然后按照特征值比较相似度按照相似度排序展示所以总共来说需要解决两个问题,一个是如何取得特征值,一个是如何计算相似度。相关算法很多,下面主要介绍:哈希算法颜色分布法,3,5/2/2020,一、平均哈希算法(aHash),步骤:1.缩放图片:为了保留结构去掉细节,去除大小、横纵比的差异,把图片统一缩放到8*8,共64个像素的图片。,4,5/2/2020,2.转化为灰度图:把缩放后的图片转化为256阶的灰度。3.计算平均值:计算进行灰度处理后图片的所有像素点的平均值。4.比较像素灰度值:遍历灰度图片每一个像素,如果大于平均值记录为1,否则为0.,5,5/2/2020,5.得到信息指纹:组合64个bit位,即8*8的矩阵,采样顺序随意只要保持一致性即可。6.对比指纹:计算两幅图片的指纹,计算汉明距离(即矩阵异或,1的个数就是汉明距离),汉明距离越大则说明图片越不一致,反之,汉明距离越小则说明图片越相似,当距离为0时,说明完全相同。(通常认为距离10就是两张完全不同的图片),6,5/2/2020,优点:简单快速不受图片大小缩放的影响缺点:是图片的内容不能变更。如果在图片上加几个文字,它就认不出来了。所以,它的最佳用途是根据缩略图,找出原图。,7,5/2/2020,二、感知哈希算法(pHash),步骤:1.缩小图片:32*32是一个较好的大小,这样方便DCT计算2.转化为灰度图:把缩放后的图片转化为256阶的灰度图。3.计算DCT(离散余弦变换):DCT把图片的高频分量与低频分量分离4.缩小DCT:DCT是32*32,保留左上角的8*8,这些代表的图片的最低频率,8,5/2/2020,5.计算平均值:计算缩小DCT后的所有像素点的平均值。6.进一步减小DCT:大于平均值记录为1,反之记录为0.7.得到信息指纹:组合64个信息位,顺序随意保持一致性即可。8.对比指纹:计算两幅图片的指纹,计算汉明距离,9,5/2/2020,平均哈希算法过于严格,不够精确,更适合搜索缩略图。为了获得更精确的结果可以选择感知哈希算法,它采用的是DCT(离散余弦变换)来降低频率的方法,10,5/2/2020,三、差异哈希算法(dHash),步骤:1.缩小图片:收缩到9*8的大小,一遍它有72的像素点2.转化为灰度图:把缩放后的图片转化为256阶的灰度图。3.计算差异值:dHash算法工作在相邻像素之间,这样每行9个像素之间产生了8个不同的差异,一共8行,则产生了64个差异值4.获得指纹:如果左边的像素比右边的更亮,则记录为1,否则为0.,11,5/2/2020,相比pHash,dHash的运算量小,速度快相比aHash,dHash在效率几乎相同的情况下的效果要更好,它是基于渐变实现的。,12,5/2/2020,颜色分布法,每张图片都可以生成颜色分布的直方图。如果两张图片的直方图很接近,就可以认为它们很相似。任何一种颜色都是由红绿蓝三原色(RGB)构成的,所以上图共有4张直方图(三原色直方图+最后合成的直方图)。,13,5/2/2020,如果每种原色都可以取256个值,那么整个颜色空间共有1600万种颜色(256的三次方)需要采用简化方法。可以将0255分成四个区:063为第0区64127为第1区128191为第2区192255为第3区这意味着红绿蓝分别有4个区,总共可以构成64种组合(4的3次方)。任何一种颜色必然属于这64种组合中的一种,这样就可以统计每一种组合包含的像素数量。,14,5/2/2020,将表中最后一栏提取出来,组成一个64维向量(7414,230,0,0,8,.,109,0,0,3415,53929)。这个向量就是这张图片的特征值或者叫指纹。,15,5/2/2020,于是,寻找相似图片就变成了找出与其最相似的向量。这可以通过余弦相似度算出计算两个向量的夹角,余弦值越接近1,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论