计算机视觉简介.doc_第1页
计算机视觉简介.doc_第2页
计算机视觉简介.doc_第3页
计算机视觉简介.doc_第4页
计算机视觉简介.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机视觉简介胡占义中科院自动化研究所模式识别国家重点实验室在介绍计算机视觉之前,首先需要回答的一个问题是什么是计算机视觉。正像很多学科一样,很多人在从事这方面的研究,但又很少有人能给出一个严格的定义。人工智能是这样,虚拟现实是这样,计算视觉也是不例外。最直观地讲,所谓计算机视觉就是用计算机来模拟人的视觉系统,实现人的视觉功能。马上随之而来的另一个问题是:人类视觉的主要功能是什么?或者更一般地讲,人类视觉系统主要是干什么的?我们人人有两只眼,眼的用处是看东西。我们无时不刻在用眼看东西,但我们主要在看什么?看的目的是什么?或者说为什么要看?似乎这些问题简单得很少有人去思考,但事实上又很少有人能说清楚。人与其它动物一样,视觉、听觉、触觉等感官功能的产生,首先在于进化过程中生存的需要。根据美国心理学家Gibson的理论,人的视觉不管有多少用处,但主要功能可概括为适应外界环境和控制自身的运动。看到汽车冲过来,你会赶快回避;看到前面有激流,你不会贸然淌过去。“适应外界环境和控制自身的运动”还是比较抽象的概念。事实上,为了适应外界环境和控制自身的运动,我们的视觉系统需要:能识别物体(可想而知,一个人连亲戚、同事、朋友都不认识,会怎样生活),能判断物体的运动以及确定物体的形状和方位(否则,无法抓取物体)。所以,物体识别、物体定位、物体三维形状恢复和运动分析,就构成了计算机视觉的主要研究内容。物体识别包含两种主要形式,一种叫做类型识别。如“椅子”可以有多种多样的形状,座椅,背椅,靠椅,但人们可以很容易地把他们归到“椅子”类。这种识别用的是物体的通用属性。另一种识别是同类物体的鉴别。如从人脸中识别出某个人,此时用的是类内的特定信息。物体识别要求既要能抽象出物体的共同属性,又要能分辨出相似物体间的细微区别,所以物体识别问题是一个非常困难的问题。要对物体进行识别,我们的大脑应该对这个物体有某种表达(或记忆)。表达问题(representation)是计算机视觉的一个核心问题。在计算机视觉界,目前有两种主要表达理论。一种是马尔(Marr)于上世纪八十年代初提出的三维表达理论(也成为三维重建理论:3D reconstruction paradigm)。一种是本世纪初人们提出的基于图像的表达理论(view-based representation)。三维表达的基本思想是:物体在大脑中表达的是物体的三维几何形状。因为物体的三维几何形状与视角无关,所以三维表达是与视角无关的表达。Marr 的三维物体表达模型的提出,宣告了计算机视觉这门学科的诞生。Marr的物体表达方式,主要在他1982年出版的一书中进行了详细介绍【1】,至今仍具有重要的影响。但近年来人们发现,Marr的这种三维表达方式也有很多不足,与很多生理和心理实验不符,所以人们又提出了基于图像的表达方式.基于图像的表达比较系统性的论述是Poggio 等人与2004年在Nature上的文章【2】。近几年,特别是神经科学的进展,人们发现基于图像的表达方式也有很多不足,所以人们猜测物体的表达模型可能是二维和三维的混合模型【3】。总之,物体表达是一个重要的问题,但也是至今仍没有很好解决的一个问题。粗略地讲,计算机视觉经历了以下4个主要发展历程:1:马尔视觉计算理论1982年马尔视觉计算理论的提出【1】,标志着计算机视觉成为了一门独立的学科。马尔视觉计算理论包含二个主要观点:首先,马尔认为人类视觉的主要功能是复原三维场景的可见几何表面,即三维重建问题;其次,马尔认为这种从二维图像到三维几何结构的复原过程是可以通过计算完成的,并提出了从图像初始略图(sketch)物体2.5维描述物体3维描述一套完整的计算理论和方法。2:主动视觉,目的视觉。针对马尔理论在具体应用中遇到的困难,以Aloimonos【4】,Bajcsy等为代表的学者在上世纪八十年代末、九十年代初提出了“目的视觉”、“主动视觉”、“定性视觉”等理论。这些理论的共同特点是认为马尔理论自下到上的三维重建过程,由于缺乏目的性、缺乏高层知识反馈,从而导致三维重建框架不可行,重建算法不鲁棒。他们强调视觉算法高层知识反馈的必要性和重要性,以及视觉主体与环境交互的重要性。这些理论尽管从原理上来说更加符合人类视觉过程,但由于“利用什么样的高层知识”,“如何利用高层知识”,“视觉主体如何与环境进行有效交互”等这些核心问题目前人们还知之甚少,在近期内估计还很难建立有效的计算模型,所以这些理论自从1994 年众多知名学者在CVGIP:Image Understanding上组织关于主动视觉的大辩论后,这些理论至今仍没有显著性进展。3:分层重建理论 (Stratified Reconstruction).以Faugeras 和Hartley【5】等提出的分层重建理论是上世纪90年代计算机视觉领域最活跃的研究内容。分层重建的基本思想是指从图像到三维欧几里得空间的重建过程中,先从图像空间得到射影空间下的重建(11个未知数),然后将射影空间下重建的结果提升到仿射空间(3个未知数),最后将仿射空间下重建的结果提升到欧几里得空间(5个未知数)。这种分层重建方法由于每一步重建过程中涉及到的未知变量少,几何意义明确,所以算法的鲁棒性得到了有效提高。例如Google和Microsoft公司开发的基于地面图像的3D地图系统Google Earth和Bing Map,Nokia公司开发的基于航空图像的3D城市C3 Ovi Map,NASA开发的开源系统World Wind等等,其中的核心技术之一就是基于分层重建的从运动恢复结构的技术(SFM)。4:基于学习的视觉。物体识别是计算机视觉的重要研究内容。随着基于图像的物体表达的提出【2】和机器学习的进展【6】,基于学习的视觉是近年来计算机视觉的研究热点。所谓基于学习的视觉,就是指利用机器学习的手段来对图像物体进行识别的方法,包括对物体个体的识别(object identification)和对物体类别的分类(object categorization)。另外,视觉伺服、大场景三维重建、海量图像标注、特定领域视频分析、视觉监控都是近年来计算机视觉领域非常活跃的研究方向。计算机视觉有三大主要国际会议,包括两年一次的国际计算机视觉会议(ICCV)和欧洲计算机视觉会议(ECCV)以及一年一次的计算机视觉和模式识别会议(CVPR)。计算机视觉最著名的奖是每次ICCV会议上授予的马尔奖(Marr Prize)。最主要的刊物有:IEEE T-PAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)和IJCV(International Journal of Computer Vision)参考文献【1】D. Marr, Vision: A computational investigation into the human representation and processing of visual information, W.H. Freeman and Company, 1982.【2】T. Poggio and E. Bizzi, Generalization in vision and motor control, Nature 431(14):768-774, 2004【3】G. A. Orban, P. Jansen, and R. Vogels, Extracting 3D structure from disparity, Trends in Neuroscience, Vol.29, No.8, pp466-473, 2006【4】Y. Aloimonos, Active Vision Revisited, in Y. Aloimonos (Ed.), Active Perception, Lawrence Erlbaum Associates, 1993.【5】R. Hartley and A. Zisserman, Multiple View Geometry in Computer Vision, Cambridge University Press, 2000.【6】J.B. Tenenbaum, C. Kemp, T. L. Griffiths, and N. D. Goodman, How to grow a mind: Statistics, structure, and abstraction, Science Vol.331, pp.1279-1285,2011.机器人视觉中的物体表达问题Object Representation for Robot Vision1、物体表达的必要性和重要性机器人能像人一样识别物体,是机器人视觉(robot vision)专家的梦想和追求。要想识别物体,不论是人还是机器人,仅仅看到是不够的,还需要知道物体的表达方式。表达是一个与认知科学密切联系的词汇,英文是representation,通俗地讲,物体表达问题就是指物体在大脑(对人类)或计算机内(对机器人)是如何对物体进行表示的问题。物体表达是物体识别的主要步骤。对机器人而言,不同的表达(主要指不同的数学模型),直接决定着对物体识别的能力和可靠性。这主要是因为一个物体从不同的方向看,对应的图像是不同的,有时甚至差别很大。人们希望物体表达方式尽量与观察物体的视角无关。这也是为什么要研究有效表达的原因。目前机器人很难处理同一物体在不同视角下的物体识别问题。然而,我们人类在识别物体时似乎对这种视角变化很不敏感。所以,研究人类视觉表达方式,是解决机器人视觉中物体表达的有效途径,至少具有重要的参考作用。2、两种主要的物体表达方式尽管文献中对物体有大量不同的数学描述方式,如显著特征描述,不变量描述,弹性模型等等,但这些模型可以说仅仅是针对某些特定物体在特定环境下的一些表达形式,还上升不到通用的物体表达方式的层次。就目前的文献看,物体表达方式主要由两种模型。一种称为三维形状模型(3D model),一种称为二维图像模型(view-based model)。马尔的三维模型三维形状模型是上世纪80年代由麻省理工学院已故教授马尔(David Marr)提出的。基本思想是:物体在大脑中的表达是物体的三维几何形状。因为物体的三维几何形状与视角无关,所以人类对物体的表达是与视角无关的表达。马尔三维物体表达模型的提出,宣告了计算机视觉这门学科的诞生。马尔的物体表达方式,主要在他1982年出版的vision一书中进行了详细介绍【1】,至今仍具有重要的影响。马尔的三维模型,文献中也称之为三维重建理论(3D reconstruction).马尔理论认为,人们首先从看到的二维图像中提取一些诸如点、线、区域等简单基元,然后通过双目立体视觉,运动视觉等视觉模块将这些简单基元的深度进行复原,最后对物体的整体几何形状给出一个简单表达。马尔的这种三维表达方式,在实践中遇到了很大的困难,并导致一些计算机视觉研究人员的批评和争论【2】。马尔三维表达最主要的困难是计算机很难可靠地从二维图像来复原物体在成像过程中所丢失的三维深度信息。后来,人们又提出分层重建等理论,来克服深度恢复过程的不鲁棒性问题【3,4】二维图像模型心理学实验发现,尽管人们识别物体时,从侧面图像识别与从正面图像识别所需的时间差别不大(人们自身很难觉察到),但还是有差别的。这就从某种程度上说明,人类对物体的表达“不纯粹”是三维表达。如果是三维表达的话,从正面图像与侧面图像识别物体时所需的时间应该完全一样。近年来,人们又提出了基于图像的表达方式【5,6,7】。这种表达方式认为,人类对物体的表达,不是物体的三维几何形状,而是该物体在不同视点下的一组图像。在这种模型下,物体的识别过程,就成为输入图像与大脑中对该物体存储的一组图像的匹配过程。这种模型数学上的依据是所谓的子空间方法(subspace method),也就是说,同一个物体,虽然从理论上来说可以投影成无数不同的图像,但在允许一定小误差的情况下,任何一幅图像都可以通过数量有限的一组基图像的线性组合得到,所以大脑仅仅存储这组基图像就可以了。基于图像的模型,还很不成熟。一个明显的问题是,大脑皮层负责物体识别的区域,有大量仅仅对深度信息敏感的神经元,这些深度信息如果不对物体识别起作用,在人类长期进化的过程中,这些细胞应该早已退化不再起作用。3、展望物体表达问题,是一个复杂的问题。不论是三维模型,还是二维模型,也许人们都在“瞎子摸象”。文献【8】猜测物体的表达模型可能是二维和三维的混合模型。也就是说,人类在识别物体时,先利用二维图像识别。当二维图像仍不足以区分物体时,此时需要加入三维信息进行区分。总之,物体表达是一个重要的问题,但也是至今仍没有很好解决的一个复杂问题,随着脑成像手段的不断进步,在不远的将来,人们可望对这个问题有更加深入的认识。4、参考文献【1】David Marr, Vision: A computational investigation into the human representation and processing of visual information, W.H. Freeman and Company, 1982.【2】Michael J. Tarr and Michael J. Black, A computational and Evolutionary Perspective on the Role of Representation in Vision, CVGIP:Image Understanding, Vol.60, No.1, pp.65-73, 1994【3】Olivier D. Faugeras, Three-Dimensional Computer Vision: A geometric Viewpoint, MIT Press, 1993;【4】Richard Hartely and Andrew Zisserman, Multip

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论