付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于支持向量机的眼动记录系统设计
1自然光照明环境下的眼动跟踪技术基于相机眼动记录系统的视觉评估,可分为基于表的方法和基于资源的方法。由于不同的光照条件或头部姿态下的人眼外观图像差别巨大,目前大多采用基于特征的方法,即提取瞳孔或虹膜中心、反射光斑等特征点作为估计注视方向的依据。文献和考虑到人眼注视不同方向时虹膜在像面的投影呈现椭圆的特点,利用椭圆拟合后虹膜轮廓的长短轴之比及方向角估计注视方向。由于虹膜投影椭圆的形变随眼睛转动的变化非常缓慢,这种方法需要极高的图像分辨率才能达到理想的精度。利用反射光斑和瞳孔中心估计注视方向的方法最为常见,其中包括单摄像机单光源、单摄像机多光源和多摄像机多光源等方法。采用单相机、单光源的系统精度易受头部运动影响,用多个摄像机或多个光源能够精确估计头部运动、建立相对准确的3D模型实现视线估计,但却使系统装配和校准过程更加复杂、造价更加昂贵。另外,虽然红外光源的使用能够增加图像对比度,但只能用于室内环境,且长期照射红外光易使人增加患白内障的风险,因此未来眼动跟踪技术的发展趋势还将是不使用红外光源照明的系统。在自然光照明环境下,多采用虹膜中心和眼角点估计注视方向。由于眼角点的位置基本不随眼睛运动而改变,因此采用虹膜中心-眼角点与瞳孔中心-反射光斑的方法基本等价。最近,Sesma等人的研究成果表明,采用虹膜中心和眼角点估计注视方向可以达到理想的精度。但是在自然环境下,精确定位虹膜中心特别是眼角点位置是该方法最大的难点。用于记录眼动数据的设备也称为眼动仪,现有的商用眼动仪大多采用多摄像机结合主动红外光源的方法,精度都已达到0.5°左右,但造价都在10万人民币以上。高质量的能响应红外波段的摄像机和镜头,以及较小的市场,是现有眼动仪价格昂贵的主要原因。由于中央凹的面积决定了人眼无需转动便能看清1°左右视场内的景物,因此精度已不是当今眼动技术的难点,而低成本、无红外光源的眼动记录技术才是未来眼动研究的关键。另外,在自然光照明下获取的人眼图像中,异色边缘是最显著的特征,此时反射光斑法不再适用。针对这些问题,本文设计了一种低成本、无红外光源的穿戴式眼动记录系统,装置灵活轻便,可以记录受试者自由地注视任何场景的眼动信息。考虑到自然光照明环境下虹膜图像的特点,提出一种分段加权环形Hough变换算法用于提取虹膜轮廓及中心,训练支持向量回归机(SVR)估计特征点与注视点的映射关系。实验结果表明,方案达到了理想的估计效果。2人工拍摄眼动图像设计的耳麦式眼动仪如图1所示,主要由2个普通CMOS摄像机和1个耳麦式支架构成。其中,注视摄像机固定在安装麦克风的前臂上,从眼睛的斜下方拍摄单眼图像;场景摄像机固定在从耳麦式支架的上方引出的硬质吊臂上,用于拍摄眼睛看到的视场图像。2个摄像机的分辨率均为640×360,通过USB3.0连接普通计算机。使用openCV在VisualStudio开发环境中同步采集两个摄像机所摄取的视频数据。头部运动对估计注视方向的影响,是传统遥测式眼动仪需要解决的关键问题。传统的解决方案包括使用多个高质量相机、多个红外光源和采用自动控制的云台等,而头戴式眼动仪具有克服这一问题的天然优势,近距离拍摄眼部图像不但降低了对相机分辨率的要求,还大大简化了人眼检测等图像处理过程。由于注视摄像机与人眼的相对位置不变,可采用虹膜中心在图像坐标中的位置代替眼角点-虹膜中心向量。因此,提取虹膜中心并估计其与场景图像中注视点的映射关系便可实现视线估计。3膜定位3.1人脸图像大小的估计为在人眼图像中获取更小的人眼窗口,并进一步缩小下一步的Hough变换搜索的范围,采用文献的方法,在注视摄像机获取的人眼图像中检测更精确的人眼窗口。首先根据人眼图像的大小估计人脸图像大小,按文献的方法构造尺度不变梯度算子。人眼图像采用长度为29的梯度算子,所得列梯度图像如图2(b)所示。然后利用最大期望算法(EM)结合尺度不变的梯度积分投影函数分割出更精确的人眼窗口,分割结果如图2(c)所示。3.2holl明确化的hock变换圆形Hough变换作为虹膜和瞳孔检测的一种经典算法,在二值化的边缘图像的基础上,利用投票的思想,在圆心坐标(xc,yc)及半径r的三维空间中迭代寻找投票值最大的参数组合。圆形Hough变换定义为其中:(xi,yi)是边缘图像中的边缘点;(xc,yc)是圆心坐标;r是圆半径。并且如果对应参数为(xc,yc,r)的圆经过边缘点(xi,yi),则这个点使得h(xi,yi,xc,yc,r)=1,有多少个边缘点在参数为(xc,yc,r)的圆上,此圆就获得多少投票值。获得投票越多(即H越大)则越接近圆形。自然光照明下,人眼图像中无法分辨出瞳孔。因此,只能定位虹膜中心作为人眼中心。然而虹膜极易受到眼睑及睫毛遮挡,通常不会呈现出理想的圆形。文献的实验结果也证明了经典的Hough变换用于虹膜检测的正确率不高。图3展示了经典的圆形Hough变换对数据错检的例子,这是由于虹膜裸露部分较少导致眼睑边缘更易被检出。针对上述问题,提出一种分段加权环形Hough变换算法。该方法充分考虑到人眼图像的3个特点:1)虹膜边缘的上部和下部最易受眼睑和睫毛遮挡;2)虹膜左右侧邻接白色巩膜,左侧边缘的梯度方向近似朝向左侧,右侧向右;3)眼球转动会导致虹膜的成像并非正圆,且运动模糊等图像噪声也会导致虹膜边缘并不是严格在正圆上。充分利用这些先验知识指导Hough变换的投票过程,构造出一种权值为分段函数的环形Hough变换,定义为其中式中,R表示将落在半径r-1到r+1的圆环里的点都记入投票。考虑到上述人眼图像的第3个特点,构造此圆环可以增加对非严格正圆形状的鲁棒性。权重w为分段函数式中:θ为以Hough变换中圆心为中心的极坐标中的极角;Rg为(xi,yi)为边缘点(xi,yi)的梯度方向。每个边缘点(xi,yi)在不同的参数对(xc,yc,r)下有不同的权值,权值大小由该点的梯度方向和该点在参数(xc,yc,r)对应圆中的空间位置决定。依据上述人眼图像的前两个特点,如图4所示,以直线AC和BD将整个圆环上的点分为4个部分,满足上述条件的左右两部分的权重较大,而上下两部分及不满足第2个特点的边缘点权重较小。3.3分段加权环形hock变换系统的注视相机距离人眼较近,并且由于普通CMOS摄像机景深较大,即使固定焦距摄像机也可在一定范围内获得清晰的图像。采用Canny算子提取人眼图像边缘,平滑参数取4,阈值根据直方图波谷法自适应确定。边缘检测结果如图2(d)所示。在进行分段加权环形Hough变换前,首先根据眼睛窗口估计虹膜半径,目的是缩小Hough变换过程对半径的搜索范围。然后将每个半径对应的投票结果用周长进行归一化,选取三维参数空间(xc,yc,r)中最大的值对应的Hm圆作为虹膜检测结果。图2中,虹膜定位结果如(e)、(f)所示。图5展示了分段加权环形Hough变换在max(Hm)对应的半径下对图2中人眼窗口的投票结果。图5中,最高峰的位置对应图2(e)、(f)中检测出的虹膜中心坐标。从图5可看出,分段加权环形Hough变换在虹膜轮廓处得到显著的极大值,符合最大化目标与非目标两类间距的原则。4svr算法原理在同一头部姿态下,眼睛依靠转动注视不同的方向。依据眼睛图像中的特征点估计注视方向的常用方法有多项式拟合和神经网络等。多项式拟合法是传统的基于经验风险最小化原则的回归方法,难以处理高维、非线性和小样本问题。人工神经网络具有很好的非线性逼近能力,但存在易出现过训练、训练不足或陷入局部极小值等缺陷。基于统计学习理论的SVR算法能够在一定程度上克服小样本、非线性、过拟合及陷入局部极小等问题,且拥有较强的泛化能力。类似支持向量机寻求使两类样本间距最大的超平面,SVR问题是使所有样本距离超平面的总偏差最小。其基本思想是在给定训练样本集T={(xi,yi)|i=1,…,n}的基础上,寻找使得期望风险最小化的函数f(x),其中xi是输入空间中的一个样本,yi是xi对应的输出值。SVR能够在对训练数据的逼近精度与逼近函数的复杂性之间寻求折衷,实现结构风险最小化。另外,SVR可以使用多种核函数处理高维非线性问题。所用SVR机选择ε不敏感损失函数及RBF核函数,惩罚因子及核函数参数均由网格搜索法确定。利用训练样本的虹膜中心坐标作为输入,分别将场景图像中注视点的横、纵坐标作为输出构造两个SVR机,实现对测试样本注视点的预测。5注视点估计误差用设计的耳麦式眼动记录系统,采集注视场景图像中不同坐标的视频图像。注视固定场景中不同的坐标点与注视变化场景中的同一点的效果是相同的,由于测试者头部可自由活动,很难使头部固定在三维空间中某一位置不变。而人耳中的前庭可以感知头部运动,并调整眼动补偿头动以保持眼睛位置及注视点不变,这种天生的能力称为前庭动眼反射(VOR,vestibular-ocularreflex)。因此,采用不同头部姿态注视同一点代替注视固定场景图像中不同的点,不仅方便了数据的采集和标记,而且使得注视点坐标位置不被局限于有限的标记点。在目标墙面上标记了一个显著的点,在距离眼睛240cm左右处采集了不同头部状态下注视该点的视频5段,共5min,从中选出200帧场景中包含注视点的图像(同时选出对应的200幅人眼图像);在距离眼睛300cm左右处采集了不同头部姿态下注视该点的视频共2min,从中选出100帧。人眼图像和场景图像分辨率均为640×360。为方便校准,实验选取的注视场景为白色墙壁,无需借助其他校准工具,可实现对黑色目标点位置的自动定位,黑色标记点的中心即测试者的注视点。从距离眼睛240cm处的200帧图像中选择100幅作为训练样本,另外100幅及距眼睛300cm处的100幅图像分别作为测试样本。通过标定场景图像中两点之间的距离得出,在距眼睛240cm和300cm处的场景图像中,每cm分别对应3.65和2.85pixel,以此估算出的注视方向平均误差见表1。由表1可看出,对240cm处的测试样本的平均估计误差为1.57°,而对没训练过的300cm处的测试样本的估计误差为1.88°;对两组测试样本水平方向上的平均估计误差均低于1°,已接近常见的商用眼动仪。以在60cm处观看48cm宽屏显示器(1440×900)为例,系统在水平方向和垂直方向上的误差分别为32和45pixel,约1到2个字符,能够满足日常交互需要。图6为对部分训练样本的测试结果,图7为对两组测试样本中部分注视点的估计结果。为避免距离较近的注视点造成真实值与估计值的混淆,图中只给出一部分测试结果。6工程应用场景,美国svr-a设计了一套低成本、低侵入性的耳麦式眼动记录系统,并充分考虑到自然环境下拍摄的人眼图像的特点,提出一种改进的Hough变换算法定位虹膜,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 路面压槽施工方案(3篇)
- 酒店营销薪酬激励方案(3篇)
- 锁口井施工方案(3篇)
- 露营租赁活动方案策划(3篇)
- 26年基础护理服务空巢老人保障工程课件
- 氧气泄漏应急预案
- AIGC 视觉营销设计课件
- 职业规划培训经历
- 货装值班员安全意识强化测试考核试卷含答案
- 新教材湘教版九年级数学上册期末专题复习课件全套
- 糖尿病高渗性昏迷课件
- 铁杵磨成针绘本故事课前三分钟演讲比赛背景课件
- 2025年高考物理试卷(黑吉辽蒙卷)(空白卷)
- 2025至2030年中国硫酸钙晶须行业市场竞争现状及投资前景研判报告
- JG/T 24-2018合成树脂乳液砂壁状建筑涂料
- DB36-T 1865-2023 湿地碳汇监测技术规程
- 红色简约风狼王梦读书分享会
- 建筑施工现场安全自检自查报告范文
- 【小升初】2023-2024学年人教PEP版英语六年级下学期重点专项练习(阅读选择)附答案
- 《研学旅行课程设计》课件-研学课程方案设计
- 肩关节X线检查
评论
0/150
提交评论