




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 头部三维运动的模拟问题涉及计算机视觉、计算机图形学、图像处理、模式识 别和人工智能等学科领域,是一个具有挑战性的跨学科研究课题,它在动画与游戏、 智能人机交互、智能监控、视频会议、虚拟现实和增强现实等领域均有着广阔的应 用前景。 三维运动分析是运动图像处理的重要组成部分,它以图像处理研究成果为基础, 主要研究空间中物体的运动情况,目的在于提取场景中运动物体的形状、位置、运 动参数等信息。从单目视频中恢复三维信息,是一个病态问题,如何在单个摄像机 下较精确地恢复头部的三维运动信息是一个具有挑战性的课题。 本文详细论述了基于特征点对齐的头部三维运动模拟算法,改进了算法的移动 步长函数,并提出了近似获取头部运动深度信息的两种方法。首先利用从视频图像 中提取出的人脸三个特征点,构成2 d 三角形,然后用已知的模型与视频图像中的三 点对应求仿射变换,求得空间中的对应三点位置,韵成平行于人脸平面3 d 三角体, 把头部运动视为刚体运动,用此三角体近似模拟实际头部的三维运动。鉴于基于单 目视频的三维运动分析中深度信息获取的难点,提出了近似获取头部深度信息的两 种方法:一种是直接利用其中两点的距离大小,近似推导头部深度信息;另一种是 首先利用摄像机标定算法,求得摄像机的参数,然后根据所得参数,近似推导头部 深度信息。以特定的三维道具模拟头部的三维运动,证实了算法的有效性,结果表 明改进后的步长,能更加真实的实现头部的三维运动模拟,两种深度获取方法在其 相应的应用环境下,能够获得较为准确的深度信息。 关键词:单目视频;特征点对齐;步长函数;仿射变换;刚体运动 a b s t r a c t t h ef i e l d si n v o l v e do fh e a dt h r e e - d i m e n s i o n a lm o t i o ns i m u l a t i o ni n c l u d ec o m p u t e r v i s i o n , c o m p u t e rg r a p h i c s ,i m a g ep r o c e s s i n g ,p a t t e r nr e c o g n i t i o n a n da r t i f i c i a l i n t e l l i g e n c e t h er e s e a r c ht o p i ci sc h a l l e n g i n ga n dc r o s s s u b j e c t i th a sa w i d ea p p l i c a t i o n p r o s p e c ti nt h ef i e l d si n c l u d i n ga n i m a t i o n , g a m e ,i n t e l li g e n th u m a n c o m p u t e ri n t e r a c t i o n , i n t e l l i g e n tm o n i t o r i n gv i d e oc o n f e r e n c e ,v i r t u a lr e a l i t ya n da u g m e n t e dr e a l i t y t h r e ed i m e n s i o n sm o v e m e n ta n a l y s i si s8 1 1i m p o r t a n tp a no fi m a g ep r o c e s s i n g i t d e v e l o p so nt h eb a s i so fi m a g ep r o c e s s i n g ;m a i n l ys t u d i e so b j e c tm o t i o ni ns p a c ea t e x t r a c t i n gi n f o r m a t i o no ft h em o v i n go b j e c ts h a p e ,l o c a t i o na n dm o t i o np a r a m e t e r s i ti s a ni l l - c o n d i t i o n e dp r o b l e mr e c o v e r i n gt h r e e d i m e n s i o n a li n f o r m a t i o nf r o mm o n o c u l a r v i d e o i ti sac h a l l e n g i n gt a s kh o wr e s u m e st h eh e a dt h r e e d i m e n s i o n a lm o t i o na c c u r a t e l y f r o mm o n o c u l a rv i d e o t h eh e a dt h r e e d i m e m i o n a lm o t i o ns i m u l a t i o na l g o r i t h mb a s e do nf e a t u r ep o i n t s a l i g n m e n ti sd i s c u s s e di nt h i sp a p e r t h es t e pf u n c t i o no fa l g o r i t h mi si m p r o v e d ,a n dt w o m e t h o d st oo b t a i nt h ed e p t hi n f o r m a t i o no f h e a da r ep u tf o r w a r d f i r s to fa l l ,e x t r a c tt h r e e f a c ef e a t u r ep o i n tf r o mt h ev i d e oi m a g e s ,c o n s t i t u t ea2 dt r i a n g l e ,a n dt h e no b t a i nt h e c o r r e s p o n d i n gt h r e e - p o i n ts p a t i a ll o c a t i o nu s i n gt h et h r e ep o i n t sf o ra 伍眦t r a n s f o r m a t i o n b e t w e e nak n o w nm o d e la n dv i d e oi m a g e s ,c o n s t i t u t ea3 dt r i a n g u l a rb o d yp a r a l l e lt ot h e p l a n eo ff a c e ,s u p p o s et h eh e a dm o v e m e n ta sar i g i db o d ym o v e m e n t ,s ot h et r i a n g u l a r b o d yc a ns i m u l a t et h ea c t u a lh e a dt h r e e d i m e n s i o n a lm o v e m e n t t h ed e p t hi n f o r m a t i o ni s d i f f i c u l ti nt h r e ed i m e n s i o n sm o v e m e n ta n a l y s i sb a s e do nm o n o c u l a rv i d e o t w om e t h o d s t oo b t a i nt h ed e p t hi n f o r m a t i o no fh e a da r ep u t t e df o r w a r d :f o ro b t a i n i n gt h ed e p t h i n f o r m a t i o no fh e a da p p r o x i m a t e l y , t h ef i r s tu s e st h ed i s t a n c eb e t w e e nt w op o i n t s ,t h e o t h e ro b t a i n st h ec a m e t ap a r a m e t e r sw i t l lc a m e r ac a li b r a t i o na l g o r i t h m b ys i m u l a t i v e t e s t i n gt h ea l g o r i t h mi ss i m p l ea n de f f e c t i v e ,t h es t e pf u n c t i o ni m p r o v e dp r o d u c eag o o d e f f e c t t h et w om e t h o d st oo b t a i nt h ed e p t hi n f o r m a t i o nh a v et h e i ro w ns t r e n g t h s , w e a k n e s s e sa n ds u i t a b l es c o p e k e yw o r d s :m o n o c u l a rv i d e o ;f e a t u r ep o i n t sa l i g n m e n t ;s t e pf u n c t i o n ;a f f i n e t r a n s f o r m a t i o n ;r i g i dm o t i o n n 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工 作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不 包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡献的个 人和集体,均已在文中作了明确的说明。本声明的法律结果由本人承担。 学位论文作者签名:虿箧聿牵一 日期:z 翻二么:丝 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定, 即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件 和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复 制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:触 日 期:鹚z :侈 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名: 日 期: 电话: 邮编: 东北师范大学硕士学位论文 1 1 研究背景及意义 1 1 1 研究背景 第1 章序言 进入二十一世纪以来,计算机图形技术得到了跨越式发展。迅速发展的计算机 硬件,特别是不断更新换代的图形处理器与图形显示设备,使得普通个人计算机的 计算性能和图形处理能力已有了巨大的提高。当前,逼真的虚拟数字物体、特殊虚 拟环境以及人们所能想象到的任何虚拟世界都可以由动画师们在配置了高端图形硬 件的个人机上,借助于m a y a 、3 d m h x 等三维图形软件工具,进行相当真实的模拟。 但是为了使制作出的虚拟物体具有十分逼真的动作,当前只能靠专业的动画师精心 的设计和不断调整来实现,这将耗费大量的人力和物力。 在影视特效、动画制作、游戏生成等众多应用中,可以使用计算机图形技术来 更加便捷,更加快速地生成目标动画。研究人员希望从丰富的、已有的或随处可得 的普通视频源中获取目标运动数据,重建其中的目标三维运动。而视频目标运动分 析,是视频目标动画的基础。近年来,结合视觉研究的成果,在计算机图形领域也 发展了一种称为视频目标动画的方法。这种方法首先从视频中恢复目标的运动信息, 然后将这些运动信息赋给新角色,使其产生与原始视频中的目标运动相似的目标动 画:。 视频头部运动分析研究核心是从单个或多个视频序列中检测、跟踪头部,获取 头部运动数据,并在此基础上重建头部的三维运动或描述和理解头部运动,它是计 算机视觉和计算机图形学相互融合的一个经典问题。视频头部运动分析研究涉及计 算机视觉、计算机图形学、图像处理、模式识别和人工智能等学科领域,是一个跨 学科的挑战性研究课题。视频头部运动分析在动画与游戏、智能人机交互、智能监 控、视频会议、虚拟现实和增强现实等领域均有着广阔的应用前景。 1 1 2 研究意义 视频头部运动分析和模拟在很多领域均有着广阔的应用前景,其在动画和游戏、 智能人机交互、智能视频监控、视频会议、虚拟现实和增强现实等方面的应用越来 越广泛。 东北师范大学硕士学位论文 在动画和游戏方面,视频设备的发展,特别是运动捕捉设备的使用,使得研究 人员能够获得人体各个部分的更加详细和真实的运动数据,从而为计算机动画和游 戏中人物角色的形体、运动和行为交互设计的逼真性提供了保障。基于单目视频的 头部运动分析与模拟的进展,使得从体育运动、经典影视、历史记录资料等视频源 中获取丰富的头部运动与姿态,用于虚拟世界和游戏环境中的虚拟数字人的头部成 为可能。头部运动分析在虚拟现实和增强现实中的应用也越来越广泛,视频头部运 动分析中的研究成果,可以直接应用于虚拟环境中的人机三维交互以及虚拟人物角 色的动作模拟,不但可以提供更加丰富的交互形式( 如游戏头盔) ,而且从视频中获 取的头部运动参数,使得我们可以用新的虚拟头部或具有类似模型的物体替换原始 视频中的头部,得到意想不到的特殊效果。视频头部运动分析使得智能入机交互得 以实现,目前人机交互主要使用键盘、鼠标等传统交互设备,交互手段比较局限, 交互内容不够丰富,而我们如果能使计算机可以识别人的语音、手势、姿态等信息, 甚至进行人的识别和行为理解,那么我们就可以通过语音、手语、姿态等人们习惯 的自然交流方式直接与计算机进行交互,这样,我们在与计算机交互的内容的丰富 程度、效率以及便捷度等方面将会大大提高。此外,还可以让计算机结合面部表情、 头部姿态、运动方式等与人进行交流或者驱动相应的控制。而作为人体司令部的头 部,其丰富的感官,可以更加真实便捷的与计算机进行交互,上述游戏头盔就是借 助于头部运动与计算机进行智能交互。同时这些研究成果可以直接应用于智能机器 人的研发。 在智能视频监控上的应用上,视频头部运动分析和模拟是不可或缺的一环。智 能监控系统主要是针对那些对安全要求比较严格的场合( 如军事重地、银行、商场 超市、停车场、住宅小区等) ,采用由计算机控制的若干摄像机进行安全监控。随着 人们对安全需求的增长以及监控信息的急剧膨胀,目前在商业中普遍应用的监控摄 像机,不能充分发挥其实时主动的监控作用,已经满足不了实际的需要,主要体现 在:一是由于工作人员疲倦引起的监控失效:二是由于事后查询时间过长不能满足 实时查询的需要;三是不能提供实时报警,从而阻止异常事件的发生。理想的监控 系统应能连续不间断地进行实时监视,并自动实时分析摄像机捕捉到的视频数据, 通过检测并跟踪其中的人体各个部分运动,分析其行为。当异常情况或犯罪行为发 生时,系统能准确及时地发出警报,起到事先预警的作用,从而有效防止此类事件 的发生,同时也可以减少雇佣大批安全监视人员所需要的人力、物力和财力的投入。 头部作为人体最容易捕获的部分,以及其丰富的面部表情和头部运动,使得头部运 动的分析在智能视频监控中尤为重要。 视频头部运动分析模拟也可以应用在身份鉴别的场合,有时仅仅依靠融合虹膜 识别、指纹识别、人脸识别等多种静态生物特征识别技术来确定目标身份,还显得 不够安全,因为随着科技的发展,这些静态的生物特征越来越容易复制,而加入人 的头部运动习惯,可以更加准确的判断其是否有进入该安全领域的权利。 此外,头部运动分析在视频会议、商场虚拟、i n t e r n e t 上的3 d 虚拟空间( 如聊天 2 东北师范大学硕士学位论文 室1 、网络视频和机器视觉_ h 3 。等其它领域也都有着相当广泛的应用前景。目前视频 头部运动分析还处于研究阶段,真正的实际应用还属于少数。但我们完全有理由相 信,在不久的将来,这些技术将深入到我们生活的各个领域,极大地影响和改变我 们的日常生活u j 。 1 2 国内外研究现状 头部跟踪模拟系统h 儿5 1 ,顾名思义就是基于特定的视频设备,使用相应的算法获 取头部运动信息,然后使用这些信息通过数据传输模块实时地去控制三维模型作同 方向的比例运动。它包含了适合头部运动的传感器算法、数据的抗干扰传输、三维 模型的平滑运动以及三维运动的重构等多项核心技术。 美国a s l ( a p p l i e ds c i e n c el a b o r a t o r j e s ) 公司是一个有三十多年的眼动仪研发 经验的厂商。它不仅研制了世界上第一台头戴式眼动仪,而且在头与眼运动综合技 术、无视差光学组件等技术也处于世界领先地位。在对眼睛运动跟踪进行测试的时 候,如果增加一个头部跟踪模拟系统,会使眼动跟踪仪器的功能大大地增强,在研 究及训练中取得更出色的结果。头部跟踪模拟系统可以跟踪头部位置,使受试者在 头部运动时,仍然知道需要注视哪一点旧3 。在头部和眼球运动整合过程中,a s l 6 0 0 0 系统能够同时对二十个平面上( 如监视器荧屏、黑板、墙面等) 的注视点进行跟踪, 从而达到在三维空间中显示注视点的效果。 f p v ( f i r s tp e r s o nv i e w ) 的全称是第一个私人视频系统,又称“千里眼 。它 是一套远程动态视频系统,主要应用在航模、车模等模型玩具中。该系统通过视频 眼睛完全虚拟了自己正常坐在交通工具上所看到的一切,主要由视频眼睛、头部跟 踪系统、无线音视频收发模块、无线数据传输模块、摄像头以及舵机组成。目前, 深圳市创兴科电子有限公司通过一年多的努力,已成功地开发出了单轴和双轴头部 跟踪模拟系统,这套系统可应用在航模、车模、火车模型上。头部跟踪模拟是f p v 系统的核心部分,它负责把采集到的头部运动的信息数字化,使用无线的方式实时 的控制远端的摄像头作同方向、等比例的运动。然而,当前在高端航模玩具上应用 的头部跟踪器都是依赖于特定的遥控器而设计的,并且通常定制的遥控器成本很高 ( 如f u t a b a ) 。基于头部跟踪系统除了应用在模型上,还可以应用于智能人机交互, 如基于头部跟踪系统的赛钛客游戏杆可以用头部的运动来控制游戏,以达到身临其 境的感觉。 近年来,借助于三维头部模型的头部运动跟踪模拟方法受到研究人员的高度重 视口3 。这种方法充分利用了先验知识,算法简便,鲁棒性好,可有效处理特征遮挡 的三维跟踪情况,是一种结合自上而下和自下而上的方法。但是其必须首先建立输 入人脸的三维模型,之后利用模型与输入图像的比较确定头部的三维运动参数。三 维头部模型可由深度图获取,但三维数字化扫描仪设备昂贵,使用条件不便咖。尹 宝才等提出了一种基于模型的头部运动估计和面部图像合成方法,采用自动调整与 3 东北! i 币范大学硕士学位论文 人机交互相结合的方法实现特定人脸模型匹配,应用三个方向的面部图像进行纹理 映射生成不同视点方向的面部图像,使用合成面部图像与输入面部图像最佳匹配的 方法进行输入面部图像的头部转动方向估计,算法复杂,合成图像受噪声影响大饽。 朱嘉琳等使用基于最小平方中值原理的运动参数估计的鲁棒方法恢复了刚体运动的 参数u m ;马登武等提出了人的头部运动是具有高斯马尔可夫特性的随机过程, 建立了头部运动的随机数学模型,设计了基于卡尔曼滤波和测量数据预处理技术的 头部未来位置预测算法m 1 。s v a l e n t e 采用分析合成共同作用的算法,由合成图像提 取特征点,与输入图像的特征点比较,由运动恢复结构的卡尔曼滤波器估计头部运 动,算法速度快n 幻;j s t r o m 等采用与此类似的算法,并用块匹配确定特征点的2 d 运动;s o o - c h a n g p e i 等利用图像轮廓与模型轮廓比较,由全搜索确定运动参数。 j a h l b e r g 利用主动表像算法,比较时将合成图像变为标准纹理,与归一化纹理比较, 利用刷新矩阵,求得局部最优的运动参数,速度接近实时,但该方法需要较大的样本 库n ;r i c a r d o l o p e z 和t s h u a n g 用已知的模型与图像的三点对应求仿射变换,即 2 d 一3 d 对齐算法n 利,得到运动参数,算法简单有效。 1 3 本文所要解决的问题及内容安排 本文主要分析了当前基于单目视频的头部运动模拟中所遇到的困难,以及国内 外对此问题的相关研究,采用基于特征点对齐的头部三维运动模拟算法开发出了头 部三维运动模拟系统,对该算法的移动步长函数进行了改进,并提出在不同条件下 近似获取头部运动深度信息的两种方法,提高了模拟算法的真实性。就以上介绍的 内容,本文具体的研究内容安排如下: 第1 章:序言。主要概述了研究背景,研究意义,国内外研究现状,并对本文 所要解决的问题以及内容安排等进行了阐释。 第2 章:头部三维运动分析。详细论述了三维运动分析方法,包括基于特征对 应的运动估计方法和基于光流场的运动估计方法,以及两种方法的典型算法与各自 的优缺点,分析了基于单目视频和基于多目视频的概念,以及各自所遇到的困难, 并概述地叙述了两种情况下获取深度信息的方法。 第3 章:摄像机标定。介绍了摄像机标定的意义,摄像机标定中常见的四种坐标 系:图像坐标系、成像平面坐标系、摄像机坐标系和世界坐标系,两种摄像机模型: 线性模型和非线性模型,两种摄像机标定方法:传统摄像机标定方法和摄像机自标 定方法,以及各自典型的算法,概述了每个算法的大体思想,以及适应环境条件。 第4 章:基于单目视频的头部三维运动模拟。这是本文的核心部分,主要介绍 了刚体运动原理,把头部运动视为刚体运动时的算法原理,给出了算法实现的详细 步骤:讨论了怎样推导出模拟3 d 三角形旋转参数,选择了合适的正脸判定算法,给 出了整个算法的流程图;在此基础上,改进了算法的步长函数,与原来的步长函数 进行了比较,阐述了改进后的步长函数的优越性,同时提出了不同条件下两种深度 4 东北师范大学硕士学位论文 信息获取方法:无摄像机参数的深度信息获取和有摄像机参数的深度信息获取;最 后介绍了模拟系统的开发环境,以及系统的分析、设计与实现。 第5 章:实验结果分析与未来工作展望。本章介绍了实验条件,实验道具与实 验中所用到的一些全局经验值,并详细论述了实验过程,分析了实验的结果;在此 基础上,对本文所采用的模拟算法和开发的模拟系统进行整体评价,分析其优劣, 说明不足和需要进一步完善之处。 5 东北师范大学硕士学位论文 第2 章头部三维运动分析 2 1 三维运动分析概述 三维运动分析是运动图像处理的重要组成部分,它以图像处理的研究成果为基 础u 豇,主要研究空间中物体的运动情况,目的在于提取场景中运动物体的形状、位 置、运动参数等信息。单目图像序列是指用一个摄像机拍摄得到的图像序列,多目 图像序列是指使用两个或两个以上摄像机拍摄得到的图像序列,而使用两个摄像机 拍摄得到的图像序列,通常被称为双目图像序列。基于图像序列的三维运动分析经 常被称为动态景象分析或图像序列分析。物体在空间运动时,只要它一直处于摄像 机的可视范围内,物体上的特征就可以在图像序列中反映出来,图像序列中不同图 像上的运动物体特征的坐标一般是不同的。三维运动分析的研究内容就是通过测量 与计算物体特征在图像平面上的坐标变化,来分析运动物体的三维结构,估计物体 的运动参数n 机。为了分析运动物体的结构和估计物体的运动参数,首先需要建立物 体的运动模型。目前,已经建立起来的三维运动分析模型有:特征点对应模型、直 线对应模型、小平面对应模型、质心对应运动模型以及光流模型等。 三维运动分析方法大致可分为两类:基于特征对应的运动估计方法和基于光流 场的运动估计方法。 2 2 三维运动分析方法 2 2 1 基于特征对应的运动估计方法 所谓基于特征对应的运动估计方法,就是基于运动前后两帧或多帧图像里的多 个对应特征,求解物体的结构及运动参数n 7 :。任何一个运动物体都有系列的特征, 如物体表面的一些尖锐点、边缘直线或曲线、边缘角或物体表面等,相对而言,这 些特征比较容易辨认,且易于自动提取。基于特征对应的运动估计方法一般包括以 下三个主要步骤:首先自动获取相邻图像帧中运动物体的特征;然后建立图像序列 帧间特征的正确对应关系:最后根据己建立的帧间特征对应关系,计算运动物体的 结构及运动参数。 根据所采用特征的不同,目前主要有三种基于特征的三维运动估计方法:第一 种是基于特征点的三维运动估计方法,这种方法的关键步骤,亦即最大困难是如何 6 东北师范大学硕士学位论文 从运动图像序列中获取高精度的特征点匹配关系。第二种是基于边缘的三维运动估 计方法,这种方法通常对背景有一定要求,例如背景是静止的且比较简单的,这是 为了便于从背景中分割出运动物体的边缘。最后一种是基于区域的三维运动估计方 法,这种方法一般是通过基于光流的匹配模板来实现的。然而,由于跟踪过程中误 差被逐步累加,随着帧数的增加跟踪误差会越来越大,从而导致错误的匹配结果。 2 2 2 基于光流场的运动估计方法 光流在计算机视觉、运动视觉计算中有着非常重要的作用,三维运动的光流法 由两步组成:首先要进行光流场估计;然后再进行基于光流场的三维运动估计。现 有的光流场计算方法有很多,比较经典的方法有h o r n s c h u n c k 方法、l u c a s k a n a d e 方法和n a g e l 方法等。h o r n s c h u n c k 方法假设同一运动物体引起的光流场应满足连续 的、平滑的要求,即光流场既满足光流约束方程又满足全局平滑性要求,然后用变 分法将两个约束方程转化为一对偏微分方程,并利用迭代方法求解。l u c a s k a n a d e 方法则假设在一个小的空间邻域上运动矢量保持不变,然后使用加权最d , - - 乘法估 计光流。n a g e l 方法使用二阶导数来计算光流,在估计过程中,这种方法也使用了全 局平滑性假设,但是与h o m s c h u n c k 方法不同的是n a g e l 方法提出的是面向平滑的约 束,而不是把约束加在边缘上,这样做的目的是为了处理遮挡问题。 2 2 3 两类方法的比较 两类运动分析方法各有优缺点和自得适用范围,简单而言,基于特征对应的方 法主要存在以下问题:首先它要求自动提取合适的图像特征,但是由于图像误差及 噪声等因素的影响,某些场合下该项工作很难完成;其次它要求建立图像帧间特征 的正确对应关系,任何不正确的对应都将导致误差:最后该方法是以运动物体是刚 体的假设为前提的。 基于光流场的方法主要存在以下缺点:首先它要求物体的运动是小幅度的、光 滑的,所以对图像序列采样频率有较高要求。其次光流计算的准确度与图像时间梯 度和空间梯度的计算准确度有关,即它对图像噪声十分敏感。 虽然存在以上问题,与基于光流场的方法相比,基于特征对应的方法仍具有以 下优势:首先它用物体特征的运动变化来表示物体的运动,表达方法更直观、简洁; 其次在基于特征的分析方法中,比较容易将物体运动及结构的先验知识融入到算法 里。 7 东北师范大学硕士学位论文 2 3 基于视频的头部三维运动 2 3 1 基于单目视频的头部三维运动分析 基于视频的三维运动分析的分类方法有多种,其一是按所用视觉传感器数量可 以分为基于单目视觉和基于多目视觉。基于单目视觉是指仅利用一台摄像机拍摄单 张图像来进行三维运动分析工作,如图2 - i 。从单个摄像机的拍摄单张图像中获取三 维运动信息是一个病态问题n 刚,因为在透视投影的成像几何中,已知二维图像点, 单个摄像机所能确定的只是一条连接相机光心与该图像点的直线,无法恢复空间三 维点的精确位置。但是因为其仅需一台摄像机,所以该方法的优点是结构简单,摄 像机标定也简单,同时还避免了立体视觉中的视场较小、立体匹配较难的不足,因 而近年来这方面的研究比较活跃。典型的方法有几何相似法、几何形状约束法、结 构光法、几何光学法、辅助测量棒法、激光辅助测距法等。 图2 1 单目摄像系统 几何相似法适用于三维物体的几何参数在同一平面内的情况,根据透视投影模 型,物体与其图像满足相似关系,只要从图像上提取所需参数,乘上实际放大倍数, 就得到物体的实际几何参数。几何形状约束法针对某些特殊形状( 如圆、圆柱等) 的 三维物体,充分利用目标几何形状上的约束条件,只需单台摄像机所摄单张图像就 可以确定目标的空间三维姿态信息。结构光法用激光作光源,产生点、线、面等各 种结构光,用摄像机接收,通过一定算法获取结构光所携带的被测物体的三维信息。 几何光学法通过摄像机的焦距和像距求得物距,可分为聚焦法和离焦法。辅助测量 棒方法借助一根带有三个以上己知标志点的辅助测量棒,用单台摄像机获取单张图 像就可进行空间点三维坐标测量。激光辅助测距法借助于测距仪,将手持激光测距 仪和摄像机集成在一起,通过摄像机拍摄的单张图像来获取三维物体的二维信息, 通过测距仪测距得到另一维信息,最后统一计算得到三维物体的三维坐标。 2 3 2 基于多目视频的头部三维运动分析 基于多目视觉是指运用不同位置的多台或者一台摄像机经过移动或旋转拍摄同 一幅场景,通过计算空间点在多幅图像中的视差,获得该点的三维坐标值,以实现 对物体三维信息的感知。目前研究热点是模拟人类双眼感知物体距离的方法,使用 两台摄像机进行拍摄,即双目视觉,也叫立体视觉n9 。基于双目视觉为获取物体的 三维信息提供了硬件环境,理论上可以精确的获得每个点的三维坐标,但其需要了 解准确的摄像机参数,精确的匹配多个视角的视频序列,并且使两个摄像机在时间 8 东北师范大学硕士学位论文 上严格同步,这些都是比较困难的。 不同的深度计算模型对应不同的摄像系统。双摄像系统有立体平行摄像模式和 立体汇聚摄像模式。两个摄像机,如果按光轴平行安装,则构成了立体平行摄像系 统,如图2 2 ;两个摄像机,如果按两光轴成一定角度进行安装,使两光轴同时汇聚 于目标物体上,则构成了立体汇聚摄像系统,如图2 3 。立体平行摄像系统便于标定 且计算简单,但是对于视角较小的摄像机,当基线定且目标离基线较近时,摄像 机无法摄取目标而造成盲区。对于视角较大的摄像机,在定程度上可以减小盲区, 但宽视角摄像机,其摄取的图像失真度较大,因此很难获得高精度的三维图像。对 于立体汇聚摄像系统,可以调整两光轴之间的夹角,使两摄像机同时汇聚于目标上, 消除盲区,进而进行有效测量。因此,双摄像系统大都采用立体汇聚摄像模式。 图2 2 双目平行摄像系统 图2 - 3 双目汇聚摄像系统 9 吒 东北师范大学硕士学位论文 3 1 摄像机标定的意义 第3 章摄像机标定 在图像测量过程以及机器视觉应用中,为确定空间物体表面某点的三维几何位 置与其在图像中对应点之间的相互关系,必须建立摄像机成像的几何模型,这些几 何模型参数就是摄像机参数。在大多数条件下这些参数必须通过实验与计算才能得 到,这个求解参数的过程就称之为摄像机标定啪:。要想从二维图像提取三维空间信 息,摄像机参数的标定都是非常关键的环节,其标定结果的精度及算法的稳定性直 接影响摄像机工作产生结果的准确性,它被广泛应用于三维重建、导航、视觉监控 等领域口b ,因此,做好摄像机标定是做好后续工作的前提,提高标定精度是摄像机 标定的重点所在。 从二维的单目视频中恢复三维运动信息是光学成像问题的逆问题,而摄像机通 过成像原理把三位物体投射n - - 维成像平面上时,已经丢失了深度信息,从而把这 一研究置于处于逆问题和病态问题研究中。视频图像中头部运动反向影射的非唯一 性是显然的,这类深度歧义性使得头部三维运动的获取变得极其困难蚴。因此在理 论上,采用经典的针孔摄像机模型,由单目视频不可能恢复目标的准确三维运动信 息。然而现实世界中存在着大量的视频源,更多的是包含目标运动的单目视频,因 此研究从单目视频中重建目标运动有着更多的现实意义。这也促使大量的研究人员 采用不同的技术来研究这一问题,并提出了不同的解决方法。已有的研究中,分为 需要和不需要获取摄像机参数两种情况。在无摄像机参数的情况下,重建目标的三 维运动,需要引入目标的大量先验知识或依靠繁琐的手工交互获取目标的三维运动 轨迹。当然,这些方法恢复的只是目标的相对三维运动,而不是目标在真实的三维 空间中的运动。 要想比较准确的确定空间物体表面某点的三维几何位置与其在图像中对应点之 间的相互关系,必须进行摄像机标定,以确定摄像机参数。摄像机标定的目的是利 用给定物体的参考点坐标( 五y ,:) 和它的图像坐标( 毡,) 来确定摄像机内部的几何和 光学特性( 内部参数) 以及摄像机在三维世界中的坐标( 外部参数) 之间的关系。内部 参数包括镜头焦距厂,镜头畸变系数( 后,s ,p ) ,坐标扭曲因子暑,图像坐标原点( ,v 0 ) 等参数儿纠。外部参数包括摄像机坐标系相对于世界坐标系得旋转矩阵尺和平移向 l o 东北师范大学硕士学位论文 量r 等参数。 3 2 摄像机模型摇5 : 3 2 1 坐标系 1 图像坐标系 摄像机所采集的数字图像在计算机内都存储为数组,数组中的每一个元素称为 像素( p i x e l ) ,其值即为灰度。如图3 - 1 所示,在图像上定义直角坐标系z ,一v ,每一 像素的坐标( 材,v ) 分别是该像素在数组中的列数和行数。所以( “,v ) 是以象素为单位 的图像坐标系坐标。 c 1 ( u o ,) r1y 图3 1 图像坐标系 2 成像平面坐标系 图像坐标系只能表示像素位于数字图像的列数和行数,并没有用物理单位表示 出该象素在图像中的物理位置,因此建立以物理单位表示的成像平面坐标系x y , 如图3 1 所示。在x - - y 坐标系中,原点c 1 定义在摄像机光轴和图像平面的交点处, 称为图像的主点,该点一般位于图像中心处,但由于摄像机制作的原因,也会有些 偏离。若c 】在g - - v 坐标系中的坐标为( ,) ,每个象素在j 轴和y 轴方向上的物理 尺寸为出和方,则两个坐标系的关系如下: i 】= ?uo ( 3 1 ) ji砂o 上出o o ,。_ 东北师范大学硕士学位论文 其中,s 表示因摄像机成像平面坐标轴相互非正交所引出的倾斜因子。 3 摄像机坐标系 如图3 - 2 所表示的是摄像机成像几何关系,其c 点称为摄像机光心,x ,轴和e 轴 与成像平面坐标系的,轴和y 轴平行,z 。轴为摄像机的光轴,与图像平面垂直。光 轴与图像平面的交点为图像主点c 1 。c o , 为摄像机的焦距。由点c 与以,e ,z f 轴 组成的直角坐标系称为摄像机坐标系。 4 世界坐标系 世界坐标系是用来描述摄像机和物体的具体位置的参考坐标系。摄像机坐标系 和世界坐标系之间的关系可用旋转矩阵只和平移矩阵f 来描述。由此,空间一点p 在 世界坐标系和摄像机坐标系下的齐次坐标分别为( k ,l ,乙,1 ) 7 和( t ,z c ,1 ) 厂,它 们存在如下关系: x c 艺 z f 1 = ( 钏 以) ,i l - 肘。 乙l 1 1 j ( 3 2 ) 其中,r 是3 x 3 的正交矩阵,是三维平移量,0 - - ( 0 , 0 ,o ) r ,m l 是4 x 4 矩阵, 表示两个坐标系之间的关系。 图3 2 摄像机坐标系与世界坐标系 1 2 ,墨,z f ) 东北师范大学硕士学位论文 3 2 2 线性模型 所谓摄像机的线性模型,是指经典的小孔模型。空间任意一点p 在图像上的成 像位置可以用针孔模型近似表示,即任何点j p 在图像上的投影位置p ,为光心d 与p 点的连线o p 与图像平面的交点,这种关系也称为中心投影或透视投影。比例关系 有如下关系式: ( 3 3 ) ( 3 4 ) 其中,( x ,y ) 为p 点的图像坐标;( 鼍,艺,五) 为空间点p 在摄像机坐标系下的坐标。 我们用齐次坐标与矩阵表示上述透视投影关系: 互f ; = f 孑 l 1 八0 0 00 、 l 厂00l o1oj 引 ( 3 5 ) 将( 3 1 ) ,( 3 2 ) 代入上式,我们就得到由世界坐标系表示的p 点坐标与投影点 p 的坐标( “,v ) 的关系: 互o o 。f , 彳i 雕刳v o 。= 够:) 其中,r 为旋转矩阵,f 为平移向量。所要标定的就是内部参数矩阵a 。 1 3 ( 3 6 ) ( 3 7 ) ( 3 8 ) 一乙 群一乙 一一 = x y 东北师范大学硕士学位论文 3 2 3 非线性模型 所谓摄像机的非线性模型,就是成像过程不服从d , t l 模型。通常可以用以下公 式来描述非线性模型: x = j + 疋( x ,夕) y = y + 6 y ( x ,y ) ( 3 9 ) ( 3 1 0 ) 其中,( 五y ) 为小孔线性模型计算出来的图像点坐标的理想值;( j ,少) 是实际图像点 的坐标,正、万,为非线性畸变值,它们与图像点在图像中的位置有关,可以用以下 公式表达: 正( 工,y ) = 岛工( ,+ y 2 ) + ( 易( 3 j 2 + y 2 ) + 2 p 2 x y ) + s l ( x 2 + y 2 ) ( 3 1 1 ) 戌( 工,少) = 如灭j 2 + y 2 ) + ( 仍( 缸2 + y 2 ) + 2 p , x y ) + s 2 ( x 2 + 少2 ) ( 3 】2 ) 其中正或瓯,的第一项称为径向畸变,第二项称为离心畸变,第三项称为薄棱镜 畸变,式中k 。,如,p 。,p :,s 。,是称为非线性畸变参数。一般情况下,上述非线 性模型的第一线径向畸变已能足够描述非线性畸变,t s a i 曾指出,由于在考虑非线 性畸变时对摄像机标定需要使用非线性优化算法,引入过多的非线性参数往往不仅 不能提高精度,反而引起解的不稳定。但也有研究表明,引入上式的第二项与第三 项在使用广角镜头是能提高模型的精度。如果只考虑径向畸变,上式可以写成: 工= x ( 1 + k l r 2 ) ( 3 1 3 ) y = y ( 1 + q r 2 ) ( 3 1 4 ) 该式表明x 方向与y 方向的畸变相对值与径向半径的平方成正比,即在图像边 缘处的畸变较大。 线性模型的参数,a x ,巳与非线性畸变参数j | l ,如,p l ,p 2 ,而,一 起构成了非线性模型的摄像机内部参数。 1 4 东北师范大学硕士学位论文 3 3 摄像机标定技术 3 3 1 传统的摄像机标定方法 摄像机标定方法可以分为两大类:传统的摄像机标定方法和摄像机自标定法渤:。 传统摄像机标定的基本方法是在一定的摄像机模型下,基于特定的实验条件( 形 状、尺寸己知的参照物) ,经过对其进行图像处理,利用一系列数学变换和计算方法, 求取摄像机模型内部参数和外部参数。传统的摄像机标定方法按照其算法思路可以 分为利用最优化算法的标定方法、利用透视变换矩阵的摄像机标定方法、两步法、 双平面标定法、张正友标定法以及其它传统摄像机标定方法等。 使用最优化算法的标定方法可以假设摄像机的光学成像模型非常复杂,但是会 使摄像机标定的结果比较依赖于摄像机的初始值,并且其优化程序也是非常耗时, 无法实时地得到结果;利用透视变换矩阵的摄像机标定方法刻画了三维空间坐标系 与二维图像坐标系关系的方程,通常是摄像机内部参数和外部参数的非线性方程; 两步法的核心是首先利用径向一致约束( r a c ) 条件求解除t 以外的其它摄像机外参 数,然后再求解摄像机的剩余参数;双平面标定法利用的是世界坐标系下的“视线”, 视线是从工作场景前后两个平面出发,到图像上某点的连线,给定空间的标定点以 及其图像上的对应点,用插入方法可计算出两张图,该方法的优点是利用线性方法 就可以解有关参数,缺点是要求解大量的未知参数,存在过分参数化的倾向;张正 友标定法假设标定所用的平面图板在世界坐标系中z = 0 ,通过线性模型分析计算得 出摄像机参数的优化解,然后用基于最大似然法进行非线性求精;其它传统摄像机 标定的基本方法有盂晓桥、胡占义的圆标定方法,其使用的模板不同于张正友的矩 形平面模板,而是圆环模板,还有吴毅红的平行圆标定方法。 3 3 2 自标定技术 在很多情况下,存在着经常性调整摄像机的需求,而且设置己知的参照物也不 现实,这时就需要一种不依赖参照物的摄像机标定方法,就是所谓摄像机自标定方 法。摄像机自标定法利用了摄像机本身参数之间的约束关系,标定与场景和摄像机 的运动无关,所以这种标定方法更为灵活。目前主流的自标定技术大致可以分为: 基于k r u p p a 方程的自标定方法、分层逐步标定法、基于二次曲面的自标定法、基于 主动视觉的自标定法以及其他摄像机自标定方法等。 基- 于k r u p p a 方程的自标定方法首先利用鼬呷p a 方程求得多幅图像上的所有像点 到对应极线的距离之和,然后对这个距离采用l m 算法求最小值,就可求出相应的摄 像机内参数j 鉴于直接求解k r u p p a 方程的困难,提出了分层逐步标定的想法,分层 标定法首先对图像序列做射影重建,在此基础上再仿射标定和欧氏标定:基于二次 曲面的自标定法与基于l 汛p p a 方程的方法在本质上是一致的,都是利用了绝对二次 l s 东北师范大学硕士学位论文 曲线在欧氏变换下的不变性,但在输入多幅图像并能得到一致射影重建的情形下, 基于二次曲面的自标定法更具有优势;基于主动视觉的自标定法是摄像机自标定方 法中的一个重要分支,所谓的主动视觉系统是指摄像机被精确的安装在可以控制的 平台上,通过主动控制摄像机作特殊的运动获得多幅图像,利用图像与可控制的摄 像机运动参数来确定摄像机的内参和外参:其它的摄像机自标定方法包括p o l l e f e y s 给出的一种变焦距下的自标定方法,s t u r r n m 提出的一种针对可变焦距摄像机的自标 定方法,以及h e y d e n 等人证明了在可变参数的自标定过程中,至少
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 八下记叙文练习题教学总结模版
- 2025年教科版三年级科学上册第四单元水和空气的知识点总结模版
- 大学生职业规划大赛《自动化专业》生涯发展展示
- 邮政银行面试题目及答案
- 银行社保助理面试题目及答案
- 医院会计培训考试试题及答案
- 养老院消防试题及答案
- 邢台计算机中专考试题及答案
- 图录资料增补与修改合作协议
- 生物燃料生产技术转让与产业创新合作合同
- 建设工程质量管理手册范本
- 中国文化遗产资料长城100字
- 高中生物选择性必修1基础背诵 课件
- 中医适宜技术操作规程及评分标准
- 2023-2024学年贵州省六盘水市小学语文六年级期末提升测试题详细参考答案解析
- 江苏南通轨道交通集团有限公司运营分公司社会招聘工作人员考试真题及答案2022
- 颈椎JOA腰椎JOA 评分-表格-日本骨科协会评估治疗
- 人工智能时代小学劳动教育的现实困境与突破路径 论文
- 野生动物管理学智慧树知到答案章节测试2023年东北林业大学
- 国际友人在中国智慧树知到答案章节测试2023年西北大学
- 函数的零点与方程的解(说课稿)
评论
0/150
提交评论