计算机视觉基础课件_第1页
计算机视觉基础课件_第2页
计算机视觉基础课件_第3页
计算机视觉基础课件_第4页
计算机视觉基础课件_第5页
已阅读5页,还剩260页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机视觉基础目录概述成像模型图像滤波边缘检测特征检测与识别光流迹线几何与立体视觉StructurefromMotion大数据驱动的视觉计算21.概述3相关研究领域计算机图形学:模型→

图像4相关研究领域计算摄影学:图像→

图像5计算机视觉图像→

模型让计算机“看懂”图像和视频这是何种场景?汽车在哪里?建筑物有多远?…6视觉是自然智能不可思议的技艺

猕猴的大脑皮层中视觉部分占据大约50%人脑中有关视觉的部分所占比重最大这是皇后还是象?视觉7安全健康监控家务进入娱乐计算机视觉为什么重要?81966:Minsky给本科生布置了一个计算机视觉的暑假作业1960’s:合成的虚拟世界的理解1970’s:图像理解方面的进步1980’s:几何和精度1990’s:人脸识别;统计分析开始流行2000’s:更多的识别;大规模标记数据集可用;开始视频处理Guzman‘68OhtaKanade‘78TurkandPentland‘91计算机视觉简史9计算机视觉的应用:OCR数字识别,AT&T实验室/~yann/将扫描文档转换成文本的技术若你有一台扫描仪,则它很可能带有OCR软件车牌识别/wiki/Automatic_number_plate_recognition10计算机视觉的应用:人脸检测目前许多数码相机都能检测人脸Canon,Sony,Fuji,…11计算机视觉的应用:笑脸检测SonyCyber-shot®T70DigitalStillCamera12计算机视觉的应用:由成千上万的图像重建三维13计算机视觉的应用:物体识别(超市中)LaneHawkbyEvolutionRobotics“Asmartcameraisflush-mountedinthecheckoutlane,continuouslywatchingforitems.Whenanitemisdetectedandrecognized,thecashierverifiesthequantityofitemsthatwerefoundunderthebasket,andcontinuestoclosethetransaction.Theitemcanremainunderthebasket,andwithLaneHawk,youareassuredtogetpaidforit…“14计算机视觉的应用:基于视觉的生物测量12岁30岁15计算机视觉的应用:无密码登录笔记本电脑和其他设备上的指纹扫描仪人脸识别系统16计算机视觉的应用:物体识别(手机上)17黑客帝国计算机视觉的应用:特效--形状捕获18加勒比海盗计算机视觉的应用:特效--运动捕获19计算机视觉的应用:体育SportvisionfirstdownlineNiceexplanationon/video.html20计算机视觉的应用:智能汽车Mobileye汽车上的视觉系统,如BMW、GM、Volvo等21计算机视觉的应用:Google汽车22计算机视觉的应用:太空视觉视觉系统的几项任务:全景图缝合三维地形建模障碍检测,位置跟踪其他(参阅Matthies等人的“ComputerVisiononMars”)NASA的火星探索计划:2007年精神号漫游车

23计算机视觉的应用:工业机器人视觉引导的机器人给汽车上定位螺母24计算机视觉的应用:机器人机器人足球赛NASA的火星漫游车斯坦福生活机器人(洗碗)25计算机视觉的应用:医学成像手术导航3D核磁共振、CT262.成像模型27计算机视觉的相关研究领域计算机图形学:模型->图像计算摄影学:图像->图像计算机视觉:图像->模型28图像形成设计一个相机:思路1:将底片放在物体前方我们能得到一幅合适的照片吗?29针孔相机思路2:增加一个障碍物阻止大多数的光线减少模糊光圈控制光线量30针孔相机ff=焦距c=相机中心c31暗箱:相机前身中国(公元前470年)和希腊(公元前390年)暗箱UNCChapelHill的暗室PhotobySethIlys32第一张照片

现存的最老照片花了8小时在锡盘上成像JosephNiepce,1826第一张照片的照片保存在UTAustin33维度降低的机器(3D到2D)3D世界2D图像34投影的欺骗性…35射影几何丢失了什么?长度哪个球更近些?谁更高?36长度没有被保留B’C’A’37射影几何丢失了什么?长度角度垂直?平行?38射影几何什么被保留?直线依然是直线39消逝点和消逝线物理世界中的平行线在图像中相交于“消逝点”40消逝点和消逝线

o消逝点1o消逝点2消逝线41消逝点和消逝线

消逝点消逝线消逝点

垂直消逝点(无穷远处)42消逝点和消逝线43投影:世界坐标图像坐标CameraCenter(tx,ty,tz)...fZY.OpticalCenter(u0,v0)vu44齐次坐标变换齐次图像坐标齐次场景坐标由齐次坐标转换回来:转换到齐次坐标:45齐次坐标齐次坐标是缩放不变量笛卡尔坐标中的点在齐次坐标中是一条射线齐次坐标笛卡尔坐标46齐次坐标的基本几何学直线方程:ax+by+c=0给像素坐标增加分量1得到齐次坐标两点叉积得到一条直线两条直线的叉积得到这两条直线的交点47齐次坐标解决的另一个问题笛卡尔坐标:(Inf,Inf)齐次坐标:(1,1,0)平行线求交笛卡尔坐标:(Inf,Inf)齐次坐标:(1,2,0)48投影矩阵(针孔相机模型)x:图像坐标

(u,v,1)K:内部矩阵(3x3)R:旋转矩阵(3x3)t:平移量(3x1)X:

世界坐标

(X,Y,Z,1)OwiwkwjwR,T49投影矩阵K内部假设:

单位宽高比

光心坐标(0,0)

无倾斜外部假设:

无旋转

相机坐标(0,0,0)50移除“已知光心”的假设内部假设:

单位宽高比无倾斜外部假设:

无旋转

相机坐标(0,0,0)51移除“正方形像素”假设内部假设:无倾斜外部假设:

无旋转

相机坐标(0,0,0)52移除“无倾斜”的假设内部假设:外部假设:

无旋转

相机坐标(0,0,0)53允许相机移动内部假设:外部假设:

无旋转54点的三维旋转围绕坐标轴的逆时针旋转:pp’gyz55允许相机旋转56自由度5657消逝点=无穷远点的投影58正射投影透视投影的特例正交投影的中心到图像平面的距离为无穷大也称作“平行投影”其投影矩阵是什么?ImageWorld59比例缩放的正射投影透视投影的特例物体面积相对于到相机的距离来说很小也称为“弱透视”其投影矩阵是什么?ImageWorldSlidebySteveSeitz60视场(缩放)61假设有两个三维的立方盒子放在地上,面朝观察者,一个近,一个远透视图中它们看起来是什么样子?在弱透视中它们看起来又是什么样子?

62针孔相机之外:径向失真桶形失真校正无失真桶形失真枕形失真633.图像滤波64图像滤波空间域图像滤波直接对像素进行操作平滑化、锐化频率域图像滤波修改图像的频率去噪、采样、图像压缩模板和图像金字塔将模板匹配到图像检测、粗糙到精细65Imagefiltering图像滤波:计算每个位置处局部邻域的函数值滤波很重要!图像增强去噪、调整大小、对比度增强,等等从图像中提取信息纹理、边缘、特征点,等等检测模式模板匹配66例:箱式滤波器111111111670000000000000000000000090909090900000090909090900000090909090900000090090909000000909090909000000000000000900000000000000000000000000000000000000000090909090900000090909090900000090909090900000090090909000000909090909000000000000000900000000000000000011111111168000000000000000000000009090909090000009090909090000009090909090000009009090900000090909090900000000000000090000000000000000000100000000000000000000000090909090900000090909090900000090909090900000090090909000000909090909000000000000000900000000000000000011111111169000000000000000000000009090909090000009090909090000009090909090000009009090900000090909090900000000000000090000000000000000000102000000000000000000000000909090909000000909090909000000909090909000000900909090000009090909090000000000000009000000000000000000111111111700000000000000000000000090909090900000090909090900000090909090900000090090909000000909090909000000000000000900000000000000000001020300000000000000000000000090909090900000090909090900000090909090900000090090909000000909090909000000000000000900000000000000000011111111171010203030000000000000000000000009090909090000009090909090000009090909090000009009090900000090909090900000000000000090000000000000000001111111117201020303000000000000000000000000909090909000000909090909000000909090909000000900909090000009090909090000000000000009000000000000000000111111111?730102030305000000000000000000000000909090909000000909090909000000909090909000000900909090000009090909090000000000000009000000000000000000111111111?740000000000000000000000090909090900000090909090900000090909090900000090090909000000909090909000000000000000900000000000000000001020303030201002040606060402003060909090603003050808090603003050808090603002030505060402010203030303020101010100000011111111175箱式滤波器每个像素的值用其邻域像素的平均值替换实现平滑效果(去除尖锐特征)11111111176箱式滤波的平滑效果77线性滤波器000010000原始图像?78线性滤波器000010000原始图像滤波结果(无变化)79线性滤波器000100000原始图像?80线性滤波器000100000原始图像往左移动1个像素81线性滤波器原始图像111111111000020000-?(注意:滤波器各元素之和为1)82线性滤波器原始图像111111111000020000-锐化滤波器:

突出与局部均值之差别83锐化处理前处理后84其他滤波器-101-202-101垂直边缘(绝对值)Sobel算子85其他滤波器-1-2-1000121水平边缘(绝对值)Sobel算子86我们改怎样合成运动模糊?theta=30;len=20;fil=imrotate(ones(1,len),theta,'bilinear');fil=fil/sum(fil(:));figure(2),imshow(imfilter(im,fil));87高斯滤波器邻域像素根据其接近程度计算贡献值0.0030.0130.0220.0130.0030.0130.0590.0970.0590.0130.0220.0970.1590.0970.0220.0130.0590.0970.0590.0130.0030.0130.0220.0130.0035x5,=188高斯滤波器的平滑效果89高斯滤波器移除图像中的高频分量(低通滤波)图像变得更光滑自卷积是高斯滤波的一种形式因此,可用小宽度内核进行平滑,如此重复,得到用大宽度内核相同的结果用宽度为σ的高斯内核卷积两次,等同于用宽度为σ√2的高斯内核卷积一次

可分离的核二维高斯可分解成两个一维高斯的积90高斯滤波器的可分离性二维高斯可表示为两个函数的乘积,一个是x的函数,另一个是y的函数这两个函数都是一维高斯91可分离性的例子**==二维卷积

(仅中心位置)滤波器分解为两个一维滤波器的乘积沿行执行卷积计算紧跟着沿列进行卷积92例:混合图像高斯滤波器拉普拉斯滤波器高斯函数单位脉冲高斯函数的拉普拉斯934.边缘检测94边缘检测目标:识别图像中的突变(不连续)直观上,图像的大多数语义和形状信息都可由边缘信息

表示比像素更紧凑

理想:

画家的线条画(对象级)95为什么我们要关注边缘?提取信息、识别目标恢复几何和视点VanishingpointVanishing

lineVanishingpointVerticalvanishingpoint(atinfinity)96图像边缘的来源边缘是由各种因素引起的深度不连续曲面颜色不连续光照不连续曲面法向不连续97边缘特写Source:D.Hoiem98边缘的特点一条边是图像亮度函数中突变的地方图像亮度函数(沿水平扫描线)一阶导边缘对于导数的极值99亮度轮廓线100带有少量高斯噪声梯度101噪声的影响考虑图像中单行/单列哪里是边缘?102解决方案:先平滑为了检测到边缘,查找的峰值fgf*g103

计算如下:卷积微分定理f104平滑可去除噪声,但会模糊边缘在不同尺度下检测到边缘1个像素3个像素7个像素平滑和局部化之间的权衡105观察:沿着“脊”处的梯度幅值较大我们该怎样检测到实际的边缘点?我们怎样将这些边缘点连接起来形成边缘曲线?算法实现106边缘检测器的设计一个好的边缘检测器遵循的原则:有好的检测率最优的检测器应该能检测出所有真实边缘,而忽略噪声和其他瑕疵有好的局部化效果检测到的边缘必须尽可能的靠近真实边缘对于每个真实边缘点,检测器必须返回一个点边缘检测线索颜色、亮度、纹理的变化连续性高层知识(语义等)107Canny边缘算子计算机视觉中用得最广的边缘检测器理论模型:加性噪声干扰的阶梯边缘(Step-Edge)Canny展示了高斯函数的一阶导紧密逼近最优化信噪比和局部化的边缘算子J.Canny.AComputationalApproachToEdgeDetection.IEEETransactionsonPatternAnalysisandMachineIntelligence,8:679-714,1986.108例原始图像(Lena)109高斯滤波器的导数X方向Y方向110计算梯度(DoG)X方向导数Y方向导数梯度幅值111每个像素的梯度方向theta=atan2(gy,gx)112对每个方向进行非最大值压缩若点q的值大于其梯度方向上的点p和点r的值,则认为q处为极大值点p和点r的值通过插值得到113非最大值压缩之前114非最大值压缩之后115滞后阈值化检测梯度值的最大值是否足够大在边缘曲线起始处使用大阈值后续使用小阈值116Canny边缘检测结果117Canny边缘检测算子高斯函数的x和y方向导数滤波图像

计算梯度的幅值和方向非最大值压缩:细化多个像素宽的“脊线”阈值化和连接:定义高/低两个阈值使用高阈值开始一条边缘曲线,低阈值用于后续118的影响(高斯核的宽度)原始图像值的选择依赖于需求:大的值用于检测大尺度边缘小的值用于检测细节特征1195.特征检测与识别120特定识别任务121场景分类

户外/室内

城市/森林/工厂/等等122图像标注

街道

建筑

旅游业

多云

砖…123目标检测

检测行人124图像解析mountainbuildingtreebannermarketpeoplestreetlampskybuildingSvetlanaLazebnik125场景理解?126可变性:相机位置光照形状参数类内变化?识别就是建模可变性127类内变化128识别研究的历史1960s–early1990s:几何时代SvetlanaLazebnik129可变性:相机位置光照q对齐Roberts(1965);Lowe(1987);Faugeras&Hebert(1986);Grimson&Lozano-Perez(1986);Huttenlocher&Ullman(1987)形状:假设已知130对齐对齐:在两幅图像的特征对之间,通过一个变换来进行拟合找到一个变换T,使得下式最小化Txixi'131识别—成为一个对齐问题:组块世界J.Mundy,ObjectRecognitionintheGeometricEra:aRetrospective,2006L.G.Roberts,MachinePerceptionofThreeDimensionalSolids,Ph.D.thesis,MITDepartmentofElectricalEngineering,1963.

132对齐:Huttenlocher&Ullman(1987)133表示和识别物体类别是更难的...ACRONYM(BrooksandBinford,1981)Binford(1971),Nevatia&Binford(1972),Marr&Nishihara(1978)134通过部件进行识别Primitives(geons)ObjectsBiederman(1987)135Zissermanetal.(1995)GeneralizedcylindersPonceetal.(1989)Forsyth(2000)通用形状基元?136识别研究的历史1960s–early1990s:几何时代1990s:基于表观的模型137图像可变性的经验模型基于表观的技术Turk&Pentland(1991);Murase&Nayar(1995);etc.138Eigenfaces(Turk&Pentland,1991)139颜色直方图SwainandBallard,ColorIndexing,IJCV1991.140全局表观模型的局限性要求模式全局注册对于背景混乱、有遮挡、以及几何变换不鲁棒141识别研究的历史1960s–early1990s:几何时代1990s:基于表观的模型Mid-1990s:滑动窗口方法142滑动窗口方法143识别研究的历史1960s–early1990s:几何时代1990s:基于表观的模型Mid-1990s:滑动窗口方法Late1990s:局部特征144物体识别的局部特征D.Lowe(1999,2004)145大规模图像搜索

结合局部特征、索引和空间约束146大规模图像搜索

结合局部特征、索引和空间约束Philbinetal.‘07147大规模图像搜索

结合局部特征、索引和空间约束148识别研究的历史1960s–early1990s:几何时代1990s:基于表观的模型Mid-1990s:滑动窗口方法Late1990s:局部特征Early2000s:零件-形状模型149模型:物体视作零件集合零件间的相对位置零件的表观特征零件-形状模型150星座模型Weber,Welling&Perona(2000),Fergus,Perona&Zisserman(2003)151Representingpeople152识别研究的历史1960s–early1990s:几何时代1990s:基于表观的模型Mid-1990s:滑动窗口方法Late1990s:局部特征Early2000s:零件-形状模型Mid-2000s:bagsoffeatures153ObjectBagof‘words’Bag-of-features模型154识别研究的历史1960s–early1990s:几何时代1990s:基于表观的模型Mid-1990s:滑动窗口方法Late1990s:局部特征Early2000s:零件-形状模型Mid-2000s:bagsoffeatures当前趋势:局部和全局相结合的方法、数据驱动的方法、上下文方法155数据驱动方法J.HaysandA.Efros,SceneCompletionusingMillionsofPhotographs,SIGGRAPH2007156数据驱动方法J.TigheandS.Lazebnik,ECCV2010157D.Hoiem,A.Efros,andM.Herbert.PuttingObjectsinPerspective.CVPR2006.几何上下文158判别训练的基于零件的模型P.Felzenszwalb,R.Girshick,D.McAllester,D.Ramanan,"ObjectDetectionwithDiscriminativelyTrainedPart-BasedModels,"PAMI2009.1596.光流160光流的概念光流:图像序列(时间域和空间域)亮度变化的矢量场函数。161运动和感知组织有时候,运动是唯一线索162运动和感知组织甚至“贫瘠的”运动数据也能引发很强的感知

G.Johansson,“VisualPerceptionofBiologicalMotionandaModelForItsAnalysis",PerceptionandPsychophysics14,201-211,1973.163运动的用途估算三维结构基于运动线索分割对象学习和跟踪动态模型识别事件和活动改进视频质量(motionstabilization)164运动场运动场是三维场景运动到图像的投影非旋转球朝相机移动,其运动场是什么样子的?165光流定义:光流是图像中亮度模式的表观运动理想地,光流应该与运动场一致必须注意:表观运动可能由照明改变而非实际运动引起例如:一个在固定照明条件下均匀旋转的球面vs.一个在移动光照条件下的静止球面166Lucas-Kanade光流算法基本算法多分辨率算法迭代算法167imageIimageJ图像1(t)的高斯金字塔图像2(t+1)的高斯金字塔image2image1从粗到细光流估算runiterativeL-KruniterativeL-Kwarp&upsample...168例KhurramHassan-ShafiqueCAP5415ComputerVision2003169多分辨注册170光流计算结果171光流计算结果*FromKhurramHassan-ShafiqueCAP5415ComputerVision20031727.极线几何与立体视觉173多视角HartleyandZissermanLowe多视角几何、匹配、不变特征、立体视觉174为什么要多视角?单视角中,结构和深度是模棱两可的175为什么要多视角?单视角中,结构和深度是模棱两可的光心P1P2P1’=P2’176什么线索可以帮助我们感知三维形状和深度?177明暗差别(Shading)178聚焦/散焦同一视点不同参数的相机拍摄的两幅图像三维形状和深度估计179纹理180透视效果181运动182场景几何形状计算“ShapefromX”:明暗、纹理、焦距、运动……立体视觉:两个视角间的变化估算形状从不同视点得到的多幅图像估算场景的三维形状场景中的一个点光心图像平面基本思想:183立体摄影从两个稍稍不同的视角拍摄同一物体的两幅照片将两幅照片显示出来,让左右眼只能看到不同的一幅照片184为什么需要立体视觉?歧义性:射线OP上的任意一点都成像到图像平面上的点P185为什么需要立体视觉?第2个照相机可以解决这种歧义性,通过三角化实现深度测量186根据视差计算深度x’zfxCC’Xbaselinef(X–X’)/f=baseline/zX–X’=(baseline*f)/zz=(baseline*f)/(X–X’)187给定左图中的点p,其对应点p’应该在右图什么位置?立体配准约束188立体配准约束189双视角几何约束第1个视角中成像点在第2个视角中对应成像点的位置:它必须在一个平面(两个光心和该物理点所在平面)与成像平面的交线上极线约束190对极平面极点极线基准线极线几何极点191极线约束极线约束有用,是因为它能将匹配问题缩减为沿极线的一维搜索问题192例193基础矩阵令点p是左边图像中一点,点p’是右边图像中一点极线关系点p映射到极线l’

点p’映射到极线l

极线映射由3x3矩阵F描述:满足:l’lpp’194基础矩阵矩阵F称为基本矩阵当图像内参已知时基础矩阵更一般化情况下(非配准)通过点匹配来求解矩阵F每个点对(p,p’)给出矩阵F中的一个线性方程给定8个点对足以求解矩阵F(8点算法)195立体图像矫正196立体图像矫正将图像重新投影到与相机中心连线平行的公共平面上变换后,像素沿水平方向运动两个单应矩阵(3x3变换),分别对应一个输入图像的重投影197矫正实例198匹配问题极线几何约束了搜索范围,但是我们仍然要解决匹配这个难题!199基本立体匹配算法矫正两幅图像,使得极线变换成扫描线对第1幅图像中的每个像素x,找到右边图像中对应的极线扫描线检测扫描线上所有像素,得到最佳匹配点x’计算视差x-x’,并设置:depth(x)=f·Baseline/(x-x’)200匹配代价视差左边右边扫描线沿着右边扫描线滑动一个窗口,将滑动窗口的内容与左边图像中参考窗口的内容进行比较匹配搜索201滑动窗口的大小W=3W=20小窗口+ 更多细节更多噪声大窗口+ 更平滑的视差映射更少细节202匹配搜索失效的情况无纹理曲面遮挡和重复非朗博曲面、镜面反射203窗口搜索的结果基于窗口的搜索真实情况数据204如何改进基于窗口的匹配?迄今为止,匹配是每个点独立进行的我们可以加入什么约束/先验知识?205立体视觉约束/先验知识唯一性一幅图像中的任意点,在其他图像中最多有一个匹配点206立体视觉约束/先验知识唯一性一幅图像中的任意点,在其他图像中最多有一个匹配点排序匹配点在各自视图中具有相同的顺序207未遵循排序约束立体视觉约束/先验知识唯一性一幅图像中的任意点,在其他图像中最多有一个匹配点排序匹配点在各自视图中具有相同的顺序208立体视觉约束/先验知识唯一性一幅图像中的任意点,在其他图像中最多有一个匹配点排序匹配点在各自视图中具有相同的顺序平滑性大多数情况下,视差值变化平滑209左边图像右边图像扫描线立体视觉尝试一致性匹配整个扫描线上的像素不同扫描线仍然独立进行优化210LeftimageRightimage可采用动态规划算法实现correspondenceqpLeftocclusiontRightocclusions扫描线立体视觉中的“最短路径”211二维网格上的一致性立体视觉扫描线立体视觉生成“喷涂”瑕疵可采用动态规划算法在二维网格上找到空间一致的视差/匹配212立体匹配:能量最小化I1I2D这种形式的能量函数可采用Graph-Cut算法实现最小化W1(i

)W2(i+D(i

))D(i

)数据项平滑项213主动立体视觉:结构光将结构光模式投影到物体表面简化匹配问题允许我们仅用一台相机相机投影仪2148.StructurefromMotion215Structurefrommotion?给定两幅或更多图像中的匹配点集合,计算相机参数和点的三维坐标相机1相机2相机3R1,t1R2,t2R3,t3???216Structurefrommotion的不确定性若以因子k缩放整个场景几何,同时以因子1/k缩放相机矩阵,则场景中的点在图像中的投影不变:恢复场景的绝对尺度因子是不可能的!

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论