




已阅读5页,还剩79页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多媒体分析与检索技术MultimediaAnalysisandRetrievalTechnology 注 本讲内容参考了北京大学数字媒体研究所 数字媒体技术基础 课件 数字媒体技术基础 第五讲 8课时 课程内容及安排 第一部分 数字媒体导论第二部分 数字媒体基础数字彩色图像基础图像 视频处理基础第三部分 数字媒体关键技术多媒体压缩编码技术多媒体分析与检索技术多媒体通信技术数字版权管理技术 2 80 教学目标 通过本章的学习 掌握 多媒体分析与检索 这一多媒体领域最活跃研究方向的基本研究问题和方法 及其最新进展 ACMMultimediaACMICMRICMEMMMICIMCSICCVCVPRICIPICPR 3 80 教学内容 多媒体检索概论 2 基于内容的图像分析与检索 CBIR 2 视频分析与检索 3 音频分析与检索 1 4 80 一 多媒体检索概论 5 80 InternetVideos Images Audio Flash Aminations LocalVideos Images 如何从如此海量的多媒体数据中定位到你所感兴趣的信息 Howtoeffectivelyorganize manage browse retrieve Image Videoindexingshouldbeanalogoustotextdocumentindexing MultimediaAnalysisandRetrieval 6 80 引言 多媒体搜索引擎 可以搜索多媒体文档的搜索引擎多媒体文档 可包含多种模态 如文本 图像 视频 音频等广义的 可以搜索非文字信息的搜索引擎 视 听觉 信息 7 80 多媒体文档的特点 多媒体文档包含丰富的非文字信息 8 80 多媒体文档的特点 关键字对应的非文字信息可能过于宽泛 9 80 麦浪滚滚 多媒体检索概念 提供多媒体的查询输入可以方便地输入多媒体和文字查询对多媒体文档进行多媒体索引特征索引 文本特征 字 词 短语 视觉特征 颜色直方图 Gabor纹理 形状特征 音频特征 音高 音调 语义索引 元数据 概念 事件提供多媒体的结果显示直观地展示多媒体和文字信息直观地展示深层信息跨文档综合 多媒体和文字信息 方便浏览大量文档 10 80 如何检索 11 80 检索方法1 基于文本 QBT 关键问题 如何获得关键字标注 方法1 手工标注工作量巨大 不可行 即使对同一幅图像 不同的人有不同的描述方法2 自动标注各种机器学习的算法性能不佳 只能提取少数概念 准确率也低 30 12 80 检索方法1 基于文本 QBT 关键问题 如何获得关键字标注 方法3 元数据分析 URL 链接文字 标题 关联页面 Meta data元数据 东北虎 5老虎 3动物 2中国 1俄罗斯 1长白山 1 13 80 检索方法1 基于文本 QBT 关键问题 如何获得关键字标注 方法3 元数据分析 URL 链接文字 标题 关联页面 问题 元数据不一定与多媒体文档内容相关 没有元数据或不完整 元数据与图像内容不相关 14 80 检索方法1 基于文本 QBT 关键问题 如何获得关键字标注 方法4 网络标注 Socialtagging Folksonomy 向普通用户提供上载和分享平台鼓励所有用户对上载的文档进行评论和标注这些评论和标注是直接针对文档作出的 15 80 16 80 QBT的难题 需求难以用文字精确描述非文字需求用户不愿意输入很多文字用户需求不是特别具体大多数人的想象力是不够丰富的系统提供的结果会极大地影响用户的需求需要浏览更多的文档才能发现需要的结果最重要 图像 视频 音频往往难以用文字准确描述一图胜千言各种文字标注方法普遍准确率不高 18 80 视觉信息描述的复杂性 19 检索方法2 基于内容 样例 基于内容的图像 视频检索Content basedimage videoretrieval CBIR CBVR Query by Example QBE 什么是 内容 Content 图像和视频的视觉特性如何描述 数学模型 如何匹配 相似度计算方法 如何索引 快速找到相似文档 如何提交查询 20 80 基于内容的图像 视频检索 内容 的数学模型文本文档 向量模型多媒体文档 特征提取表示视觉的多个物理量组成描述文档内容的特征视觉特征 颜色 纹理 形状 运动 音频特征 音频 音质 音调 21 80 ColorCameramotionMotionactivityMosaic ColorMotiontrajectoryParametricmotionSpatio temporalshape ColorShapePositionTexture SpokencontentSpectralcharacterizationMusic timbre melody pitch 视音频特征示例 22 基于内容的图像检索 Querybycontent Color texture Object SearchEngine Retrieval ImageDB WWW 23 基于内容的图像 视频检索 相似度计算文字文档 余弦距离多媒体文档 欧氏距离及其改进索引文字文档 倒排文件稀疏的文档向量多媒体文档 高维索引或不索引紧致的文档向量 24 80 基于内容的图像 视频检索 查询提交手段如何让系统获得一个好的 特征向量 可以较好地描述用户的需求文本查询 QBT QueryByText 关键字 难以准确描述用户需求自然语言 NLP仍是openissue样例查询 QBE QueryByExample 用户提交一个图像 视频作为样例 查询与样例相似的其它图像 视频概要图查询 QBS QueryBySketch 要求用户都是优秀的画家也有系统提供手绘界面 25 80 基于文本vs 基于内容 基于文本查询输入方便 在有准确的文字信息描述时很方便公开难题 如何提取图像 视音频的语义描述目前商业搜索引擎常用基于内容从信号处理角度入手 试图使检索过程符合人的视听觉特性 所见即所得 查询输入不符合人的习惯公开难题 语义鸿沟 SemanticGap 仍停留在研究阶段 26 80 多媒体检索框架 Humanormachine 27 多媒体搜索引擎需要的技术 多媒体内容分析技术理解多媒体文档的内容 提取语义多媒体查询输入技术方便地提交多媒体查询多媒体结果显示和浏览技术直观 方便地浏览结果多媒体特征的高维索引技术 28 80 多媒体检索分类 图像检索CBIR语义分类 标注相关反馈音频检索音频特征提取自动语音识别 ASR 哼唱找歌视频检索视频分割与分类特定对象检测事件检测与摘要跨媒体检索跨媒体融合 29 80 图像搜索技术的应用 风景图像的替换与补图 A Efros CVPR 2007 30 80 图像搜索技术的应用 Sketch2Photo 互联网图像蒙太奇 Chen SIGGraph2009 技术难点 自动找到高质量的 包含正确对象的图片无缝的对这些子图像进行合成 31 80 图像搜索技术的应用 Image2Gps 通过图像搜索推理出图像的拍摄位置 A Efros CVPR2008 32 80 图像搜索技术的应用 Panoramio 33 80 图像搜索技术的应用 ViewFocus 所指即所见 Luo ACMMM2009 34 80 图像搜索技术的应用 广告搜索 Trademark Logo Patent商业图像的数据挖掘版权保护商品搜索获取商品信息 用商品图像进行搜索得到相关信息网上购物 货比三家医学图像检索 35 80 图像搜索技术的应用 http www robots ox ac uk james 交互式视频技术用户在观看视频时 能够选择视频中出现的各种对象 人物 地点 物品等 在屏幕上展现被选中对象的信息 例如名称等 展现与上述对象相关的业务提供者 例如服装店 链接 用户可以通过IM或者电话进一步与业务提供者联系 36 80 VideoGoogle ATextRetrievalApproachtoObjectMatchinginVideos http www robots ox ac uk vgg research vgoogle 二 图像分析与检索 38 80 图像检索概论 Datta ACMCSUR 2008 39 80 SemanticGap 40 80 KeywordsDescriptionsClassificationOntologies HumanIntelligence Data ATypicalImageSearchSystem Query User Index Data QueryFormation Ranking Indexing ResultPresentation IntentionGap Intention SemanticGap SemanticGap UIandquerysuggestionSearchresultorganization InteractiveFeedback Imageannotation 41 80 Designingareal worldimagesearchengine Fromauserperspective Dotta etal Imageretrieval Ideas influences andtrendsofthenewage ACMComputingSurvey 2008 1 clarityoftheuseraboutwhatshewants 2 whereshewantstosearch and 3 theforminwhichtheuserhasherquery 42 80 Designingareal worldimagesearchengine Fromasystemperspective Dotta etal Imageretrieval Ideas influences andtrendsofthenewage ACMComputingSurvey 2008 1 howdoestheuserwishtheresultstobepresented 2 wheredoestheuserdesiretosearch and 3 whatisthenatureofuserinput interaction 43 80 CBIR框架 Smeulders PARMI 2002 44 80 图像特征与表示 Dotta etal Imageretrieval Ideas influences andtrendsofthenewage ACMComputingSurvey 2008 Anoverviewofimagesignatureformulation 45 80 图像特征类型 颜色 纹理 形状 关键点SIFT 位置 对象 区域 Smeulders PARMI 2002 46 80 图像特征汇总 ColorColorHistogram Sensitivetonoiseandsparse CumulativeHistogramsColorMomentsColorSets MapRGBColorspacetoHueSaturationValue quantizeColorlayout localcolorfeaturesbydividingimageintoregionsColorAutocorrelograms TextureCo occurrencematrixOrientationanddistanceongray scalepixelsContrast inversedeferencemoment andentropyHumanvisualtextureproperties coarseness contrast directionality likeliness regularityandroughnessWaveletTransformsextractedmeanandvariancefromwaveletsubbandsGaborFilters 47 图像特征汇总 ShapeOuterBoundarybasedvs regionbasedFourierdescriptorsMomentinvariantsFiniteElementMethod Stiffnessmatrix howeachpointisconnectedtoothers Eigenvectorsofmatrix Turingfunctionbased similartoFourierdescriptor convex concavepolygonsWavelettransformsleveragesmultiresolutionChamfermatchingforcomparing2shapes lineardimensionratherthanarea 3 DobjectrepresentationsusingsimilarinvariantfeaturesWell knownedgedetectionalgorithms 48 80 特征举例 颜色特征 Colourhistograms CH GlobalCHgenerateddirectlyfromRGBspace with125 5x5x5 bins 49 80 Bosch IVC 2006 50 80 特征举例 边特征 Edgehistogram EHD Capturesthespatialdistributionoftheedgeinsixstatues 0 45 90 135 nondirectionandnoedge GlobalEHDofanimage Concatenating16subEHDsintoa96binsLocalEHDofasegmentGroupingtheedgehistogramoftheimage blocksfallenintothesegment 51 80 特征举例 点特征 Detectpatches MikojaczykandSchmid 02 Sivicetal 03 ComputeSIFTdescriptor Lowe 99 52 全局vs 局部特征 54 80 区域分割 计算机视觉领域的公开难题 55 80 相似度度量 Dotta etal Imageretrieval Ideas influences andtrendsofthenewage ACMComputingSurvey 2008 56 80 相似度度量 Dotta etal Imageretrieval Ideas influences andtrendsofthenewage ACMComputingSurvey 2008 CBIR不是为了进行精确的匹配 而是计算查询图像和数据库中的图像之间的视觉相似度 相应的 检索结果不是单一的一副图像 而是按照与查询图像的相似度排序的一系列图像 不同的相似度度量显著影响CBIR系统的性能 57 80 基于样例的查询QuerybyExample Pickqueryexamplesandaskthesystemtoretrieve similar images QuerySample 58 80 相关反馈RelevanceFeedback UsergivesafeedbacktothequeryresultsSystemrecalculatesfeatureweights Initialsample 59 80 相关反馈OnlineFeatureWeighting FromQueryExamples thesystemdeterminesfeatureweighting kxk matrixW Query 60 80 基于相关反馈的检索界面 UserselectsrelevantimagesIfgoodimagesarefound addthemWhennomoreimagestoadd thesearchconverges SliderorCheckbox 61 80 基于相关反馈的检索界面 62 80 评价指标 AveragePrecision 只对返回的相关文档进行计算 系统检索出来的相关文档越靠前 rank越高 AP就越高 63 评价指标 AveragePrecision MAP MeanAveragePrecision istheaverageAPforallqueries 例如 假设有两个queries query1有4个相关images query2有5个相关image 某系统对于query1检索出4个相关image 其rank分别为1 2 4 7 对于query2检索出3个相关query 其rank分别为1 3 5 对于query1 AP为 1 1 2 2 3 4 4 7 4 0 83 对于query2 AP为 1 1 2 3 3 5 0 0 5 0 45 则MAP 0 83 0 45 2 0 64 64 现实中的CBIR系统示例 VisualsimilaritysearchinSpecificDomain aphoto sharingcommunitywithmorethanamillionairplane relatedpictures 65 80 现实中的CBIR系统示例 apublic domainsearchenginewhichincorporatesimageretrievalandfacerecognitionforsearchingpicturesofpeopleandproductsontheWeb 66 80 ImageAnnotation Tagging 面向图像语义检索 ShipWaterTreesky Useforkeyword basedimageretrieval 67 ImageAnnotation Tagging JJeon etal Automaticimageannotationandretrievalusingcross mediarelevancemodels Sigir 2003 RelevanceModels w1 w2 w3 wn 68 80 AnnotationExamples 69 80 BridgeUserIntentionGap Userqueriesareusuallyshort ambiguousHowtocaptureusersearchintent 70 80 VisualQuerySuggestion Zheng JunZha etal VisualQuerySuggestion ACMMM 2009 71 80 VisualQuerySuggestion Tohelpusersspecifyanddelivertheirsearchintents Zheng JunZha etal VisualQuerySuggestion ACMMM 2009 72 80 IGroup presentingwebimagesearchresultsinsemanticclusters Theresultof tiger inMSNimagesearch mixedwith tigerwoods and tigeranimal 73 80 IGroup presentingwebimagesearchresultsinsemanticclusters ThescreenofIGroup thegeneralview 74 80 IGroup presentingwebimagesearchresultsinsemanticclusters ThescreenofIGroup theclusterview 75 80 IGroup presentingwebimagesearchresultsinsemanticclusters 76 80 3DMARS 图像检索的3D展示 Imageretrievalandbrowsingin3DVirtualRealityTheusercanseemoreimageswithoutocclusionQueryresultscanbedisplayedinvariouscriteriaResultsbyColorfe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安全技术知识试题及答案
- 2025年电子商务创业项目策划面试题库及答案全解
- 2025年宠物健康管理师中级笔试题库
- 2025年仓库作业安全测试题库
- 2025年安全员安全技能考试题及答案
- 2025年宠物葬礼主持人才选拔题库
- 课件《云雀》教学课件
- 读懂彼此的心教学课件
- 2025年安全培训教材设计题集
- 2025年村级护路员笔试模拟题解析
- IT设备维修申请表
- 郑州市第四中学新初一分班(摸底)语文模拟试题(5套带答案)
- 2-第二章-各向异性材料的应力-应变关系
- 医院防爆反恐应急预案
- 云南省安全员C证考试题库及答案
- 死亡待遇申请表
- 集中供热管网系统一次网的调节方法
- 无线充电技术在汽车上的应用
- 马工程《刑法学(下册)》教学课件 第17章 危害国家安全罪
- 11科室临床路径、单病种管理目录
- 《廉洁从业》企业文化培训课件
评论
0/150
提交评论