




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多媒体内容分析与检索技术ppt课件目前一页\总数八十三页\编于十三点课程内容及安排第一部分:数字媒体导论第二部分:数字媒体基础数字彩色图像基础图像/视频处理基础第三部分:数字媒体关键技术多媒体压缩编码技术多媒体分析与检索技术多媒体通信技术数字版权管理技术2/80目前二页\总数八十三页\编于十三点教学目标通过本章的学习,掌握“多媒体分析与检索”这一多媒体领域最活跃研究方向的基本研究问题和方法,及其最新进展。ACMMultimediaACMICMRICMEMMMICIMCSICCVCVPRICIPICPR…3/80目前三页\总数八十三页\编于十三点教学内容多媒体检索概论(2)基于内容的图像分析与检索(CBIR)(2)视频分析与检索(3)音频分析与检索(1)4/80目前四页\总数八十三页\编于十三点一、多媒体检索概论5/80目前五页\总数八十三页\编于十三点InternetVideos,Images,Audio,Flash,Aminations,…LocalVideos,Images,…如何从如此海量的多媒体数据中定位到你所感兴趣的信息?Howtoeffectivelyorganize,manage,browse,retrieve?Image/VideoindexingshouldbeanalogoustotextdocumentindexingMultimediaAnalysisandRetrieval6/80目前六页\总数八十三页\编于十三点引言“多媒体搜索引擎”可以搜索多媒体文档的搜索引擎多媒体文档:可包含多种模态,如文本、图像、视频、音频等广义的:可以搜索非文字信息的搜索引擎“视/听觉”信息7/80目前七页\总数八十三页\编于十三点多媒体文档的特点多媒体文档包含丰富的非文字信息8/80目前八页\总数八十三页\编于十三点多媒体文档的特点关键字对应的非文字信息可能过于宽泛9/80麦浪滚滚目前九页\总数八十三页\编于十三点多媒体检索概念提供多媒体的查询输入可以方便地输入多媒体和文字查询对多媒体文档进行多媒体索引特征索引:文本特征(字、词、短语)、视觉特征(颜色直方图、Gabor纹理、形状特征、…)、音频特征(音高、音调….)语义索引:元数据、概念、事件提供多媒体的结果显示直观地展示多媒体和文字信息直观地展示深层信息跨文档综合(多媒体和文字信息)方便浏览大量文档10/80目前十页\总数八十三页\编于十三点如何检索?11/80目前十一页\总数八十三页\编于十三点检索方法1:基于文本(QBT)关键问题:如何获得关键字标注?方法1:手工标注工作量巨大---不可行!即使对同一幅图像,不同的人有不同的描述方法2:自动标注各种机器学习的算法性能不佳:只能提取少数概念,准确率也低(<30%)12/80目前十二页\总数八十三页\编于十三点检索方法1:基于文本(QBT)关键问题:如何获得关键字标注?方法3:元数据分析---URL、链接文字、标题、关联页面……Meta-data元数据东北虎:5老虎:3动物:2中国:1俄罗斯:1长白山:1。。。13/80目前十三页\总数八十三页\编于十三点检索方法1:基于文本(QBT)关键问题:如何获得关键字标注?方法3:元数据分析---URL、链接文字、标题、关联页面……问题:元数据不一定与多媒体文档内容相关没有元数据或不完整!元数据与图像内容不相关!14/80目前十四页\总数八十三页\编于十三点检索方法1:基于文本(QBT)关键问题:如何获得关键字标注?方法4:网络标注(Socialtagging/Folksonomy)向普通用户提供上载和分享平台鼓励所有用户对上载的文档进行评论和标注这些评论和标注是直接针对文档作出的15/80目前十五页\总数八十三页\编于十三点
16/80目前十六页\总数八十三页\编于十三点目前十七页\总数八十三页\编于十三点QBT的难题需求难以用文字精确描述非文字需求用户不愿意输入很多文字用户需求不是特别具体大多数人的想象力是不够丰富的系统提供的结果会极大地影响用户的需求需要浏览更多的文档才能发现需要的结果最重要:图像/视频/音频往往难以用文字准确描述一图胜千言各种文字标注方法普遍准确率不高18/80目前十八页\总数八十三页\编于十三点视觉信息描述的复杂性19目前十九页\总数八十三页\编于十三点检索方法2:基于内容/样例基于内容的图像/视频检索Content-basedimage/videoretrieval(CBIR/CBVR)Query-by-Example(QBE)什么是“内容”(Content)?图像和视频的视觉特性如何描述?(数学模型)如何匹配?(相似度计算方法)如何索引?(快速找到相似文档)如何提交查询?20/80目前二十页\总数八十三页\编于十三点基于内容的图像/视频检索“内容”的数学模型文本文档:向量模型多媒体文档:特征提取表示视觉的多个物理量组成描述文档内容的特征视觉特征:颜色、纹理、形状、运动……音频特征:音频、音质、音调….维数特性布尔运算语义文字超高(10万级)稀疏可离散多媒体高(几千以内)致密不可连续21/80目前二十一页\总数八十三页\编于十三点ColorCameramotionMotionactivityMosaicColorMotiontrajectoryParametricmotionSpatio-temporalshapeColorShapePositionTextureVideosegmentsStillregionsMovingregionsAudiosegmentsSpokencontentSpectralcharacterizationMusic:timbre,melody,pitch视音频特征示例22目前二十二页\总数八十三页\编于十三点基于内容的图像检索Querybycontent:Color,texture&ObjectSearchEngineRetrievalImageDB/WWW23目前二十三页\总数八十三页\编于十三点基于内容的图像/视频检索相似度计算文字文档:余弦距离多媒体文档:欧氏距离及其改进索引文字文档:倒排文件稀疏的文档向量多媒体文档:高维索引或不索引紧致的文档向量24/80目前二十四页\总数八十三页\编于十三点基于内容的图像/视频检索查询提交手段如何让系统获得一个好的“特征向量”?可以较好地描述用户的需求文本查询(QBT:QueryByText)关键字:难以准确描述用户需求自然语言:NLP仍是openissue样例查询(QBE:QueryByExample)用户提交一个图像/视频作为样例,查询与样例相似的其它图像/视频概要图查询(QBS:QueryBySketch)要求用户都是优秀的画家也有系统提供手绘界面25/80目前二十五页\总数八十三页\编于十三点基于文本vs.基于内容基于文本查询输入方便,在有准确的文字信息描述时很方便公开难题:如何提取图像/视音频的语义描述目前商业搜索引擎常用基于内容从信号处理角度入手,试图使检索过程符合人的视听觉特性(所见即所得)查询输入不符合人的习惯公开难题:语义鸿沟(SemanticGap)仍停留在研究阶段26/80目前二十六页\总数八十三页\编于十三点多媒体检索框架StorageBrowseAVDescriptionFeatureextractionManual/automaticTransmissionEncoding(fortransmission)Decoding(fortransmission)RecommendationPushSearch/queryPullHumanormachine27目前二十七页\总数八十三页\编于十三点多媒体搜索引擎需要的技术多媒体内容分析技术理解多媒体文档的内容,提取语义多媒体查询输入技术方便地提交多媒体查询多媒体结果显示和浏览技术直观、方便地浏览结果多媒体特征的高维索引技术28/80目前二十八页\总数八十三页\编于十三点多媒体检索分类图像检索CBIR语义分类、标注相关反馈音频检索音频特征提取自动语音识别(ASR)哼唱找歌视频检索视频分割与分类特定对象检测事件检测与摘要跨媒体检索跨媒体融合29/80目前二十九页\总数八十三页\编于十三点图像搜索技术的应用风景图像的替换与补图[A.Efros,CVPR,2007]30/80目前三十页\总数八十三页\编于十三点图像搜索技术的应用Sketch2Photo:互联网图像蒙太奇[Chen,SIGGraph2009]技术难点:自动找到高质量的、包含正确对象的图片无缝的对这些子图像进行合成31/80目前三十一页\总数八十三页\编于十三点图像搜索技术的应用Image2Gps:通过图像搜索推理出图像的拍摄位置[A.Efros,CVPR2008]32/80目前三十二页\总数八十三页\编于十三点图像搜索技术的应用Panoramio:
借助图像匹配搜索技术,从远近不同角度观察同一景点33/80目前三十三页\总数八十三页\编于十三点图像搜索技术的应用ViewFocus:所指即所见[Luo,ACMMM2009]34/80目前三十四页\总数八十三页\编于十三点图像搜索技术的应用广告搜索:Trademark,Logo,Patent商业图像的数据挖掘版权保护商品搜索获取商品信息:用商品图像进行搜索得到相关信息网上购物,货比三家
医学图像检索……35/80目前三十五页\总数八十三页\编于十三点图像搜索技术的应用http://www.robots.ox.ac.uk/~james/交互式视频技术用户在观看视频时,能够选择视频中出现的各种对象(人物、地点、物品等);在屏幕上展现被选中对象的信息,例如名称等;展现与上述对象相关的业务提供者(例如服装店)链接;用户可以通过IM或者电话进一步与业务提供者联系36/80目前三十六页\总数八十三页\编于十三点VideoGoogle:ATextRetrievalApproachtoObjectMatchinginVideos
http://www.robots.ox.ac.uk/~vgg/research/vgoogle/目前三十七页\总数八十三页\编于十三点二、图像分析与检索38/80目前三十八页\总数八十三页\编于十三点图像检索概论Datta,ACMCSUR,200839/80目前三十九页\总数八十三页\编于十三点SemanticGap40/80KeywordsDescriptionsClassificationOntologiesHumanIntelligenceData目前四十页\总数八十三页\编于十三点ATypicalImageSearchSystemQueryUserIndexDataQueryFormationRankingIndexingResultPresentationIntentionGapIntention/SemanticGapSemanticGapUIandquerysuggestionSearchresultorganizationInteractiveFeedbackImageannotation41/80目前四十一页\总数八十三页\编于十三点Designingareal-worldimagesearchengine:FromauserperspectiveDotta,etal.,Imageretrieval:
Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008(1)clarityoftheuseraboutwhatshewants,(2)whereshewantstosearch,and(3)theforminwhichtheuserhasherquery42/80目前四十二页\总数八十三页\编于十三点Designingareal-worldimagesearchengine:
FromasystemperspectiveDotta,etal.,Imageretrieval:
Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008(1)howdoestheuserwishtheresultstobepresented,(2)wheredoestheuserdesiretosearch,and(3)whatisthenatureofuserinput/interaction.43/80目前四十三页\总数八十三页\编于十三点CBIR框架Smeulders,PARMI,200244/80目前四十四页\总数八十三页\编于十三点图像特征与表示Dotta,etal.,Imageretrieval:
Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008Anoverviewofimagesignatureformulation45/80目前四十五页\总数八十三页\编于十三点图像特征类型颜色、纹理、形状关键点SIFT位置对象/区域Smeulders,PARMI,200246/80目前四十六页\总数八十三页\编于十三点图像特征汇总ColorColorHistogram“Sensitivetonoiseandsparse”-CumulativeHistogramsColorMomentsColorSets:MapRGBColorspacetoHueSaturationValue,&quantizeColorlayout-localcolorfeaturesbydividingimageintoregionsColorAutocorrelogramsTextureCo-occurrencematrixOrientationanddistanceongray-scalepixelsContrast,inversedeferencemoment,andentropyHumanvisualtextureproperties:coarseness,contrast,directionality,likeliness,regularityandroughnessWaveletTransformsextractedmeanandvariancefromwaveletsubbandsGaborFilters47目前四十七页\总数八十三页\编于十三点图像特征汇总ShapeOuterBoundarybasedvs.regionbasedFourierdescriptorsMomentinvariantsFiniteElementMethod(Stiffnessmatrix-howeachpointisconnectedtoothers;Eigenvectorsofmatrix)Turingfunctionbased(similartoFourierdescriptor)convex/concavepolygonsWavelettransformsleveragesmultiresolutionChamfermatchingforcomparing2shapes(lineardimensionratherthanarea)3-DobjectrepresentationsusingsimilarinvariantfeaturesWell-knownedgedetectionalgorithms48/80目前四十八页\总数八十三页\编于十三点特征举例:颜色特征Colourhistograms(CH)GlobalCHgenerateddirectlyfromRGBspace,with125(5x5x5)bins.49/80目前四十九页\总数八十三页\编于十三点Bosch,IVC,200650/80目前五十页\总数八十三页\编于十三点特征举例:边特征Edgehistogram(EHD)Capturesthespatialdistributionoftheedgeinsixstatues:0º,45º,90º,135º,nondirectionandnoedge.GlobalEHDofanimage:Concatenating16subEHDsintoa96binsLocalEHDofasegmentGroupingtheedgehistogramoftheimage-blocksfallenintothesegment51/80目前五十一页\总数八十三页\编于十三点特征举例:点特征Detectpatches[MikojaczykandSchmid’02][Sivicetal.’03]ComputeSIFTdescriptor[Lowe’99]52目前五十二页\总数八十三页\编于十三点目前五十三页\总数八十三页\编于十三点全局vs.局部特征54/80目前五十四页\总数八十三页\编于十三点区域分割计算机视觉领域的公开难题55/80目前五十五页\总数八十三页\编于十三点相似度度量Dotta,etal.,Imageretrieval:
Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,200856/80目前五十六页\总数八十三页\编于十三点相似度度量Dotta,etal.,Imageretrieval:
Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008CBIR不是为了进行精确的匹配,而是计算查询图像和数据库中的图像之间的视觉相似度,相应的,检索结果不是单一的一副图像,而是按照与查询图像的相似度排序的一系列图像。不同的相似度度量显著影响CBIR系统的性能。57/80目前五十七页\总数八十三页\编于十三点基于样例的查询QuerybyExamplePickqueryexamplesandaskthesystemtoretrieve“similar”images.QuerySampleResultsCBIR“Getsimilarimages”58/80目前五十八页\总数八十三页\编于十三点相关反馈RelevanceFeedbackUsergivesafeedbacktothequeryresultsSystemrecalculatesfeatureweightsInitialsample1stResultQuery2ndResultFeedbackFeedback59/80目前五十九页\总数八十三页\编于十三点相关反馈OnlineFeatureWeightingFromQueryExamples,thesystemdeterminesfeatureweighting(kxk)matrixWResultQueryCBIRCalculateW60/80目前六十页\总数八十三页\编于十三点基于相关反馈的检索界面UserselectsrelevantimagesIfgoodimagesarefound,
addthemWhennomoreimagestoadd,
thesearchconvergesSliderorCheckbox61/80目前六十一页\总数八十三页\编于十三点基于相关反馈的检索界面62/80目前六十二页\总数八十三页\编于十三点评价指标:AveragePrecision只对返回的相关文档进行计算系统检索出来的相关文档越靠前(rank越高),AP就越高63目前六十三页\总数八十三页\编于十三点评价指标:AveragePrecisionMAP(MeanAveragePrecision)istheaverageAPforallqueries例如:假设有两个queries,query1有4个相关images,query2有5个相关image。某系统对于query1检索出4个相关image,其rank分别为1,2,4,7;对于query2检索出3个相关query,其rank分别为1,3,5。对于query1,AP为 (1/1+2/2+3/4+4/7)/4=0.83。对于query2,AP为 (1/1+2/3+3/5+0+0)/5=0.45。则MAP=(0.83+0.45)/2=0.64。64目前六十四页\总数八十三页\编于十三点现实中的CBIR系统示例VisualsimilaritysearchinSpecificDomain:aphoto-sharingcommunitywithmorethanamillionairplane-relatedpictures65/80目前六十五页\总数八十三页\编于十三点现实中的CBIR系统示例apublic-domainsearchenginewhichincorporatesimageretrievalandfacerecognitionforsearchingpicturesofpeopleandproductsontheWeb.66/80目前六十六页\总数八十三页\编于十三点ImageAnnotation/Tagging:面向图像语义检索ShipWaterTreeskyUseforkeyword-basedimageretrieval67目前六十七页\总数八十三页\编于十三点ImageAnnotation/TaggingJJeon,etal.,Automaticimageannotationandretrievalusingcross-mediarelevancemodels,Sigir,2003RelevanceModelsw1,w2,w3,….wnI68/80目前六十八页\总数八十三页\编于十三点AnnotationExamples69/80目前六十九页\总数八十三页\编于十三点BridgeUserIntentionGapUserqueriesareusuallyshort,ambiguousHowtocaptureusersearchintent?70/80目前七十页\总数八十三页\编于十三点VisualQuerySuggestionZheng-JunZha,etal.,VisualQuerySuggestion,ACMMM,200971/80目前七十一页\总数八十三页\编于十三点VisualQuerySuggestionTohelpusersspecifyanddelivertheirsearchintentsZheng-JunZha,etal.,VisualQuerySuggestion,ACMMM,200972/80目前七十二页\总数八十三页\编于十三点IGroup:presentingwebimagesearchresultsinsemanticclustersTheresultof“tiger”inMSNimagesearch:mixedwith“tigerwoods”and“tigeranimal”.73/80目前七十三页\总数八十三页\编于十三点IGroup:presentingwebimagesearchresultsinsemanticclustersThescreenofIGroup:thegeneralview74/80目前七十四页\总数八十三页\编于十三点IGroup:presentingwebimagesearchresultsinsemanticclustersThescreenofIGroup:theclusterview75/80目前七十五页\总数八十三页\编于十三点IGroup:presentingwebimagesearchresultsinsemanticclusters76/80目前七十六页\总数八十三页\编于十三点3DMARS:图像检索的3D展示Imageretr
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小能手健康课件图片素材
- 肉类副产品在国际市场的营销策略考核试卷
- 水环境污染防治与水源保护考核试卷
- 三次根式复习课件
- 特色糕点地域文化传播考核试卷
- 电力线路金具选用与安装考核试卷
- 《上海高中作文讲座》课件
- 猫咪课件的名字
- 汉中船员考试试题及答案
- 调油员考试试题及答案
- 文艺学名著导读学习通超星期末考试答案章节答案2024年
- 子女抚养协议合同模板
- 健康证记录表-自动提示过期功能
- 物理与人类文明学习通超星期末考试答案章节答案2024年
- 地质灾害防治工程勘察规范DB50143-2003
- 商铺用电收费协议书模板
- 考察提拔干部近三年个人工作总结材料
- 2024年同等学力英语考试真题及详解
- 电动吊篮安全施工计算书
- DZT 0448-2023 滑坡崩塌泥石流灾害精细调查规范
- 2025年日历台历中文版纵向排版带节假日调休周日开始
评论
0/150
提交评论