计算思维与人工智能 课件 第8章 智能图像处理_第1页
计算思维与人工智能 课件 第8章 智能图像处理_第2页
计算思维与人工智能 课件 第8章 智能图像处理_第3页
计算思维与人工智能 课件 第8章 智能图像处理_第4页
计算思维与人工智能 课件 第8章 智能图像处理_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8章

智能图像识别技术常熟理工学院·计算机科学与工程学院1.语义符号化与抽象的关系?2.你怎么理解一切都是逻辑?3.什么是抽象?4.什么是进制?进制之间是如何转换的?5.计算机一律为什么用补码表示和存储?目录1图像识别的应用图像识别的过程23图像的表示图像预处理45特征提取67决策分类案例分析本章导读1.理解图像识别的基本概念、流程;2.了解图像识别的主要应用场景并能运用搜索工具拓展新的应用场景;3.掌握数字图像的表示,能够运用数学分析工具对进行简单图像处理;4.掌握图像识别的基本原理,能够自主学习常用图像识别开发环境,并进行简单的图像分类。5.掌握人脸识别和手写体识别两个综合案例工作流程,能结合自身专业提出具体需求,利用人工智能大模型能工具或机器视觉平台,设计专业领域的图像识别方案。概述人类识别图像的过程就是根据历史知识对图像做出分析,最终识别所要观察的对象。‌例如,我们看到一朵月季花,如何知道它是月季花的呢?我们会根据父母、老师、书籍等等学到的“历史数据标签”,从它的特征中了解到是否带刺?是否是月季花的花瓣形状?什么颜色?叶子的形状等等,进而识别出这朵花是否是月季花等等。计算机图像识别和人类图像识别在原理上并没有本质的区别。计算机图像识别是指利用计算机和人工智能技术对图像进行分析和理解,以自动识别和分类图像中的对象、场景、模式等信息。‌它是计算机视觉领域的一个核心任务,‌旨在让计算机能够像人类一样具有对图像内容的理解和判断能力。如前面提到的门禁中使用的人脸识别系统,通常就利用了计算机图像处理技术,先从视频中提取人像特征点,利用生物统计学原理进行分析建立人脸特征模板,然后利用已建成的人脸特征模板与被测者的人的面像进行特征分析,根据分析的结果来给出一个相似值,通过这个值即可确定是否为同一人。1图像识别的应用

图像识别的应用

01工业领域的应用02遥感领域中的应用03生物医学中的应用04公共安全领域的应用05

智慧金融领域的应用06日常生活中的应用

图像识别的应用

图像识别技术已经渗透到工程、工业、医疗保健、航空航天、军事、科研、安全保卫等各个领域,在国民经济中发挥越来越大的作用。如自动装配线中检测零件的质量、并对零件进行分类,印刷电路板疵病检查,邮政信件的自动分拣,在一些有毒、放射性环境内识别工件及物体的形状和排列状态,生产线产品及部件进行无损检测。

工业领域的应用

如自动装配线中检测零件的质量、并对零件进行分类,印刷电路板疵病检查,邮政信件的自动分拣,在一些有毒、放射性环境内识别工件及物体的形状和排列状态,生产线产品及部件进行无损检测。(a)正常轴承

(b)有缺陷的轴承

图8-1正常轴承与有缺陷的轴承对比图

遥感领域中的应用

1.森林遥感图像处理与应用通过遥感技术,‌可以监测森林中的颜色变化,‌特别是对于山松甲虫等森林病害的发生进行追踪,‌帮助森林管理者更好地了解森林健康状况;掌握森林长势、气候干旱的程度,对于林火的预测及防护有很好的指导作用。2.国土资源遥感图像处理与应用利用遥感技术摸清土地资源,如土壤类型、多种地貌的分布细节、多种自然条件,在农业区域的规划、开发和利用中发挥作用。应用遥感技术进行农作物估产,诸如小麦、水稻、玉米、大豆的长势及产量预测。对大片草场的调查与监测,估计草的长势及产量和草场潜力。在国土自然灾害的监测上,为大面积的洪涝灾害和干旱提供了准确的信息,对于抗灾救灾发挥了重要的作用。

遥感领域中的应用

(a)

原始合成图像

(b)

分类的图像

图8-3遥感图像自动分类

遥感领域中的应用

海洋遥感图像处理与应用在海洋遥感的应用上主要包括海浪观测,它涉及到航海事业及海洋渔业、海岸变迁、海岸河口研究、海滩利用、海洋石油及其他海洋资源,如渔业资源的调查监测,海洋水文、水温、海洋动力学研究;海洋环境污染监测等。此外,它也被广泛地应用于气象监测,环境污染监测、军事侦察等。目前遥感技术已经比较成熟,但是还必须解决其数据量庞大、处理速度慢的缺点。

生物医学中的应用

1.医学影像诊断‌图像识别技术可以自动识别和标注医学影像中的病变区域,‌提高诊断的准确性和效率。‌‌例如,‌在X光片、‌CT、‌MRI等影像中,‌图像识别技术可以精确地识别出肿瘤、‌血管异常、‌骨折、‌炎症等多种病变,‌并自动标记其位置、‌大小和形态。2.病理诊断‌在病理诊断中,‌图像识别技术可以自动识别病理切片中的细胞形态、‌组织结构、‌免疫组化染色结果等,‌为医生提供参考。如借助医用显微图像的处理分析,利用早期癌细胞普查图像处理系统,可实现细胞自动分类,及早地发现癌变,从而达到早期诊断和治疗的目的。3.药物研发‌在药物研发过程中,‌图像识别技术可以自动识别药物分子的结构特征、‌药物合成过程中的反应条件、‌药物作用机制相关的生物标志物等,‌为药物筛选、‌合成、‌作用机制研究和安全性评价提供参考。‌

公共安全领域的应用

1.虹膜识别虹膜位于巩膜和瞳孔之间,包含了最丰富的纹理信息,占据65%。虹膜识别系统使用离人眼大约0.9米远的一台摄像机来捕捉虹膜特征样本,并将人的虹膜形状的图像变换成数字代码,然后将实时捕捉的图像与预存参考图像进行匹配的过程,比较图像之间的相似性,确定图像是否来自同一对象,以确定拒绝或接受。(a)眼睛的外观图

(b)用图像处理技术提取虹膜图8-4虹膜图像的处理

公共安全领域的应用

2.指纹识别人体指纹具有两个重要特性:一个人的指纹是终身不变的;两个指纹完全相同的概率极小,可以认为世界上没有两个人会有相同的指纹。因此,指纹识别技术正在被运用到越来越多的领域。(a)

指纹图像

(b)部分指纹特征点

图8-5指纹识别

公共安全领域的应用

自动指纹识别最终都归结为在指纹图像上找到并比对指纹特征。人的指纹包括两种特征:全局特征和局部特征。全局特征包括:基本纹线图案、核心区、模式区、三角点和纹线数等等。指纹纹形可分为弓、箕、斗、杂4种主要类型。中心点在读取指纹和比对指纹时作为参考点。从三角点开始连接三角点和中心点之间的连线与指纹纹路相交的绞线数量称为纹线数,可用于比对指纹。要区分任意两枚指纹仅依靠全局特征是不够的,还需通过局部(细节)特征的位置、数目、类型和方向才能唯一地确定。8公共安全领域的应用

人脸识别人脸识别是指对给定的包含人脸的输入图像,通过某种方式与已知人脸库中存储的模型进行匹配比较,确定是否是库中某一人物。具体流程:对于一张输入图像,首先检测出图像中的人脸,然后对人脸进行面部特征点的定位,并根据定位结果对人脸进行矫正,裁剪出人脸核心区域,最后提取人脸核心区域特征,与人脸数据库中的特征进行比对,得出识别结果。人脸识别在很多场合都有重要的作用,如出入控制,信用卡系统等。

智慧金融领域的应用

图像识别技术可以帮助金融机构快速和准确地认证客户身份,降低身份验证的门槛和成本。通过人脸识别技术,金融机构可以在客户注册、登录、支付等过程中实现快速的客户认证,提高客户体验。图像识别技术还可以帮助金融机构实时监控交易行为,发现和预防欺诈行为和风险事件,实现交易的安全性和可信度,降低风险。图像识别技术还可为客户提供更加便捷和个性化的服务,例如通过手机摄像头识别客户的信用卡,实现无需签名的在线支付。借助光学文字识别(OpticalCharacterRecognition,OCR)技术,可以精准快速识别发票、身份证、营业执照等信息。图8-7给出了利用OCR技术进行发票关键信息识别的实例。图8-7(a)原图(b)识别结果图8-7利用OCR技术进行发票关键信息识别

日常生活中的应用图片是互联网中的主要信息载体,这使得图像检索成为重要的应用。仅使用一些描述性词语,可以轻松定位和选择感兴趣的图像。例如,使用的拍照识别搜索功能,将鼠标停留在感兴趣的商品上后,就可以选择查看相似的款式;即使不能提供完全匹配的商品,也会推荐最为相关的商品,尽量满足购物需求。看到不熟悉的花草,可以利用手机拍照识花小程序实时拍摄并识别出花草的实例。图8-8利用手机拍照识花小程序识别花草

日常生活中的应用(a)指纹锁

(b)具有人脸解锁的智能门铃

(c)家用智能摄像头

图8-9用于智能家居的图像设备2图像识别的过程

图像识别的过程计算机进行图像识别时,其过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。

图像识别的过程图像数据的获取就是利用各种输入设备从现实世界中获取模拟图像,并经过采样和量化等过程将其转化为数字图像的过程。常用的图像获取设备包括照相机、摄像机、扫描仪、医用CT机、X光机等。图8-11给出了几种常用的图像获取设备。(a)相机

(b)摄像头

(c)医用CT图8-11常用的图像获取设备

图像识别的过程图像预处理的目的就是进行噪声消除、图像增强、去模糊、尺度变换等操作,以便于后续的特征提取和分类。特征提取是图像识别的核心步骤。它的目的是从图像中提取出最具有代表性和区分性的特征,用于描述图像的关键信息。在特征提取后,需要将提取到的特征量化和表示成计算机可以处理的形式,如向量等。决策分类是根据提取的特征,设计一个分类器来对图像进行分类。常见的分类器有基于统计学习的方法(如SVM、决策树等)和基于深度学习的方法(如卷积神经网络、循环神经网络等)。结果输出是将结果显示给用户或者作为其他应用的输入。例如,输出识别的标签、位置或其他附加信息。3图像的表示

图像的表示

01采样02量化03数字图像的基本类型04数字图像的基本文件格式

图像的表示

在自然的形式下,照片或视频形式保存的图像是连续的,计算机无法接收和处理这种空间分布和亮度取值均连续的图像。数字图像可以理解为对连续图像函数进行离散处理,转化成计算机能处理的信息,即离散的数字图像。分为采样和量化,经过采用和量化这样的离散化处理后,一幅图像通常可用二维矩阵来表示。

采样

采样是对图像空间坐标的离散化,就是用一个网格把待处理的图像覆盖,然后把每一小格上模拟图像的各个亮度取平均值,作为该小方格中点的值;或者把方格的交叉点处模拟图像的亮度值作为该方格交叉点上的值。采样后形成的图像称为数字图像,它决定了图像的空间分辨率。

采样

对一幅图像采样时,若每行(即横向)像素为M个,每列(即纵向)像素为N个,则图像大小为M×N个像素,从而f(x,y)构成一个M×N实数矩阵:每个元素为图像f(x,y)的离散采样值,称之为像元或像素。一般来说,图像中细节越多,采样间隔应越小。如手机屏幕分辨率就是一个重要参数,820P分辨率(1280x820像素)是入门级高清分辨率,这种分辨率在文字和图像的清晰度方面表现出色,但与更高分辨率的屏幕相比,图像和视频的细节表现力较弱,细节表现不足,不适合追求高清晰度和视觉体验的用户。4K分辨率(3840x2160像素)是当前手机屏幕的最高标准,具有极高的像素密度和图像细节表现力。

量化

把采样后所得的各像素灰度值从模拟量到离散量的转换称为图像灰度的量化。量化是对图像幅度坐标的离散化,它决定了图像的幅度分辨率。图7-13

量化示意图

量化

连续灰度值量化为灰度级的方法有两种:等间隔量化,非等间隔量化。等间隔量化就是把采样值的灰度范围等间隔地进行量化,也称为均匀量化。非均匀量化是依据一幅图像具体的灰度值分布的概率密度函数,按总的量化误差最小的原则来进行量化。具体做法是对图像中像素灰度值频繁出现的灰度值范围,量化间隔取小一些;而对那些像素灰度值极少出现的范围,则量化间隔取大一些。实用应用中一般采用等间隔量化。假定图像取M×N个样点,每个像素量化后的灰度二进制位数为Q,对应的量化级数为2Q。一般Q总是取为2的整数幂,即Q=2k(例如,每个像素占8位存储空间时,则Q=23,而量化后的灰度级数则为2Q=28=256级),则存储一幅数字图像所需的二进制位数b为:

量化

(a)256级灰度图象

(b)子图

(c)子图抠出的一小块

(d)对(c)图量化后数据

图8-14图像量化实例

采样点数越多,图像质量越好;采样点数减少时,图上的块状效应就逐渐明显。同理,当图像的采样点数一定时,量化级数越多,图像质量越好,当量化级数越少时,图像质量越差。

数字图像的基本类型

1.灰度图像灰度图像具有多个量化级数。如当像素灰度级用8bit表示时,图像的灰度级就是256(28=256),每个像素的取值就是256种灰度中的一种,即每个象素的灰度值为0到255中的一个。通常,用0表示黑,255表示白,从0到255亮度逐渐增加。灰度图像只有亮度信息而没有色彩信息。2.RGB彩色图像自然界常见的各种颜色光,都可由红(R)、绿(G)、蓝(B)三种颜色光按不同比例相配而成,同样绝大多数颜色也可以分解成红、绿、蓝三种色光,这就是三基色原理。RGB图像是24位图像,红绿蓝分量分别占用8位。因此,一幅彩色量化后要用3个矩阵表示。

数字图像的基本类型

(a)彩色图象

(b)子图(c)子图抠出的一小块(d)对(c)图量化后数据图8-15彩色图像量化实例

数字图像的基本文件格式

常用的图像文件存储格式主要有BMP图像文件、JPG图像文件、PCX图像文件、TIFF图像文件以及GIF图像文件等。BMP(Bitmap-File)文件由4个部分组成:位图文件头、位图信息头、彩色表和定义位图的字节(即图像数据)阵列。位图文件头包含有关于文件类型、文件大小、存放位置等信息;位图信息头用来描述位图的颜色、压缩方法等;彩色表包含索引图像的真实RGB值;图像数据它包含所有的位图数据字节。标记图像文件格式TIF(TagImageFileFormat)是现存图像文件格式中最复杂的一种,是目前流行的图像文件交换标准之一。TIF文件由文件头、参数指针表与参数域、参数数据表和图像数据4部分组成。GIF(GraphicsInterchangeFormat)文件的全称是图形交换文件格式,主要是为不同的系统平台上交流和传输图像提供方便。它是在Web及其他联机服务上常用的一种文件格式,最大不能超过64M,颜色最多为256色,主要是为数据流而设计的一种传输格式,而不是作为文件的存储格式。PCX图像文件由三个部分组成:文件头、图像数据和256色调色板。JPEG(JointPhotographer’sExpertsGroup)主要是采用国际数字图像压缩标准压缩后存储的图像,具备高压缩比和良好的图像质量,广泛应用于多媒体和网络程序中。4图像预处理

图像预处理01图像增强02图像复原技术03几何畸变校正

图像预处理在图像获取过程中,由于所通过的传输介质的实际性能和接收设备性能的限制,不可避免地存在着外部干扰和内部干扰,因此所获得的图像通常都含有各种各样的噪声和畸变,大大影响了图像的质量。因此,在对图像进行分析之前,必须先对图像质量进行改善,通常采用图像增强和图像复原技术。

图像增强

图像增强是指按照某种特定的需求,通过一定手段突出图像中有用的信息,去除或者削弱无用的信息,从而使处理后的图像更适合人眼的视觉特性或易于机器识别。根据增强处理过程所在的空间不同,可分为基于空域的算法和基于频域的算法两大类。基于空域的算法处理时直接对图像中的像素点进行操作,基于频域的算法则是在图像的某种变换域内对图像的变换系数值进行某种修正,是一种间接增强的算法。

图像增强

(a)原始图像

(b)去噪后图像图8-16雾霾图像去噪

图像增强

(a)原始图像

(b)去噪后图像图8-17雾霾图像去噪

图像复原技术图像复原需要知道图像退化过程的先验知识,据此找出一种相应的逆过程方法,从而得到复原的清晰图像,通常涉及到复杂的数学模型和算法。以前面提到的图像去雾霾为例,采用图像复原技术时,可以基于大气散射物理学模型,通过对大量有雾图像和无雾图像进行观察总结,得到其中存在的一些映射关系,然后追寻图像降质的物理过程,通过物理模型还原出清晰的图像。采用图像增强时,则不需要考虑有雾图像的形成过程,而是直接通过突出图像的细节,提高对比度等方式,从而使有雾图像看上去更加清晰。(a)退化图像

(b)复原后图像图8-18

图像复原

图像复原技术(a)因运动造成的模糊图像

(b)复原后图像图8-19图像复原举例

几何畸变校正在图像的获取或显示过程中往往会产生几何失真。例如,成像系统有一定的几何非线性,因此会造成失真。除此之外还有由于斜视角度获得的图像的透视失真。另外,由卫星摄取的地球表面的图像往往覆盖较大的面积,由于地球表面呈球形,这样摄取的平面图像也将会有较大的几何失真。在现实世界中,为了捕捉更宽广的视野,有时会采用具有球面透镜设计的鱼眼镜头但也带来了显著的畸变效果。为了减少或消除这种畸变,可以采用多种矫正技术。

几何畸变校正(a)使用鱼眼镜头获取的图像

(b)矫正后的图像图8-19图像矫正举例5特征提取

特征提取

图像特征提取是图像识别的核心步骤,它的目的是从图像中提取出最具有代表性和区分性的特征,以描述图像的关键信息。常用的图像特征主要包括颜色特征、‌纹理特征、‌形状特征和空间关系特征等。颜色特征用于描述图像或图像区域所对应的景物的表面性质。纹理特征是一种物体表面的特性,它需要在包含多个像素点的区域中进行统计计算。形状特征有两类表示方法,一类是轮廓特征,另一类是区域特征。图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域。一幅图像经过特征提取后可以将描述图像的矩阵降维成一个一维数组的形式,称之为特征向量:6决策分类8.6决策分类

01基于统计学习的图像分类方法02基于深度学习的图像分类手法8.6决策分类

决策分类就是根据提取的特征,设计一个分类器来对图像进行分类。常见的分类器有基于统计学习的分类方法和基于深度学习的分类方法。

基于统计学习的图像分类方法

基于统计学习的图像分类主要包括监督分类和非监督分类方法。‌1.监督分类监督分类(也称有监督学习或有教师学习)需要依靠已知所属类别的训练样本集,通过训练得到一个判别函数,然后根据确定的判别函数对未知的模式进行分类。优点在于可以利用已有的标签数据来指导分类过程,‌从而提高分类的准确性。可以用如下函数表示:

Y=F(X)

基于统计学习的图像分类方法

X的定义域取自特征集,即生成的各物理对象特征向量

的集合。Y的值域为类别的标号集,即对应每个物理对象所属的类别。例如,有苹果和梨两类水果,如前所述,分别用0对应苹果,1对应的梨,那么Y的值域就是标号的集合,即{0,1}。F是判别方法。监督分类的目标就是要通过训练集中大量已知类别的训练样本得到判别函数,以便对新的未知类别的苹果和梨进行分类。即通过大量的X和Y数据对进行训练计算出分类函数F。如果这个函数是线性的,就称之为线性分类器。

基于统计学习的图像分类方法

(a)线性分类器

(b)非线性分类器图8-21两类分类器的例子

基于统计学习的图像分类方法

例1:海鲈鱼和鲑鱼的分类步骤其步骤为:(1)架设摄像机,采集样本图像,获取样本数据(2)通过去噪声等预处理,并用图像分割操作把鱼和鱼之间以及鱼和背景之间分开,从而得到一条一条单独的鱼。(3)对单个鱼进行特征提取与选择,从而得到测量特征,如长度、亮度、宽度、鱼翅的数量和形状、嘴的位置等等,从而形成一个个特征向量。(4)分类决策:先通过训练得到分类器,然后将待识别的鱼一一通过摄像头,利用训练好的分类器就能自动识别了。图8-23是训练得到的鲈鱼和鲑鱼的线性分类函数,采用的分别是lightness(亮度)和width(宽度)特征。

基于统计学习的图像分类方法

例1:海鲈鱼和鲑鱼的分类步骤图8-23鲈鱼鲑鱼分类8.6.1基于统计学习的图像分类方法

‌2.‌非监督分类非监督分类(也称无监督学习)方法在没有先验知识的情况下,基于“物以类聚,人以群分”的观点,通过聚类分析把样本集的特征向量看成是分布在特征空间中的一些点,点与点之间的距离即可作为相似性的测量依据。所谓聚类分析就是用数学方法分析各特征向量之间的距离及分散情况,衡量其相似性,从而把相似的东西“聚”到若干类别中。无监督学习里典型例子是聚类,常用的聚类算法有K-means算法、DBSCAN算法和自组织映射(Self-organizingMaps,SOM)算法等。

基于深度学习的图像分类手法使用传统图像算法处理图像识别任务时,特征提取主要依赖人工设计不同的特征及其组合,如物体形状的长宽比、颜色梯度、颜色像素统计,纹理的均匀、细致、粗糙等度量,再通过判别规则对多种多样的检测对象进行分类。这些参数是人工事先定义好的,每个方法都是针对具体应用,在不同的应用场景或数据集上,需要重新调整参数,很难推广到新的应用场景。深度学习通过学习样本数据的内在规律和表示层次,能够让机器像人一样具有分析、学习能力,可识别文字、图像和声音等数据。就像人的大脑,看到了一只猫和狗的图片,想要正确地分辨他们,人的大脑会快速地分析它们之间的特征差别:眼睛、鼻子、耳朵、毛色、尾巴等,然后根据经验会对看到的多种特征进行一个分类,当所有的特征都符合一个曾经见过为猫的印象时,就大概率地认为是一只猫了。

基于深度学习的图像分类手法采用深度学习技术处理图像识别任务时,可以通过构建多层神经网络(deepneutralnetwork,简称DNN)来实现特征学习和图像识别的,每一层完成一次图像特征的提取,把某些较细微的特征表示成更加抽象的特征,这些特征的提取、抽象过程都不需要人工干预和理解,完全由机器通过数据训练获取和认知这些特征,并在此基础上实现效果更好的识别和分类。深度学习中的深度(Depth)指的是神经网络的层数,一般来说,层数越多,网络的表达能力越强。这类方法特征提取过程是自学习的,可以更好地适应不同的光照条件、角度、噪声等变化,但是需要大量的训练标注数据,对硬件要求高。

基于深度学习的图像分类手法下图给出了由多个人工神经元构成的一种神经网络的结构,红色(最左侧)代表输入层;黄色(中间4层)代表隐含层,蓝色(最右侧)代表输出层。图8-28神经网络的结构神经网络的输入层负责接收外部的信号,将其转换为神经网络能够处理的信号,隐藏层负责处理输入层接收到的信号,将其转换为输出层可以处理的信号,输出层负责将隐藏层处理的信号转换为有效输出,以满足外部需求。

基于深度学习的图像分类手法下图给出了一个用于动画角色DonaldDuck(唐老鸭)、Goofy(高飞)、TweetyBird(翠迪)等进行分类的经典的卷积神经网络(CNN)结构。输入一幅图像,通过卷积操作从输入图像中提取的特征图,不同的卷积核都可以学习并提取不同的特征,例如边缘、纹理、颜色等。一个卷积层通常包含多个卷积核,每个卷积核对图像操作都会生成一个特征图,特征图经过一层一层的卷积的传递,就可以使神经网络逐渐学到更高层次的特征。全连接就是把局部特征通过权值矩阵组装成完整的图,作用是分类。

基于深度学习的图像分类手法以识猫为例,输入一幅图像,全连接层之前各层目的是通过卷积学习到特征,全连接则是把学习到的这些局部特征整合成完整的图,从而实现分类。(a)卷积形成特征图(特征提取)

(b)全连接将特征图整合成完整的图(分类)图8-30经典的卷积神经网络7案例分析8.7案例分析

01基于几何特征的人脸识别02基于卷积神经网络的手写体识别03机器视觉

基于几何特征的人脸识别

该方法的基本原理是利用人脸的各个部位(如眼睛、鼻子、嘴巴等)的位置、大小以及它们之间的相对距离和角度等几何特征进行匹配和识别。1.人脸检测用于寻找图像中人脸的位置,如果有人脸,就返回包含每张人脸的边界框的坐标。2.人脸对齐人脸对齐的任务是把人脸中的关键点检测出来,并对人脸图片进行变换成模板人脸,然后进行旋转仿射变换将人脸摆正。通常使用特征点检测器来寻找一组人脸特征点,通过几何变换使各个特征点对齐(将眼睛、嘴等部位移到相同位置)。3.人脸图像特征提取人脸由眼睛、鼻子、嘴、下巴等局部构成,对这些局部和它们之间结构关系的几何描述,可作为识别人脸的重要几何特征。在人脸图像特征提取阶段,人脸图像的像素值会被转换眼虹膜、鼻翼、嘴角等面像五官轮廓的大小、位置、距离等特征值,从而形成一描述该人脸的特征向量。4.人脸匹配人脸匹配是指将提取的人脸图像的特征数据与数据库中存储的特征模板进行搜索匹配,通过设定一个阈值,当相似度超过这一阈值,则认为匹配并输出匹配结果。

基于卷积神经网络的手写体识别卷积神经网络中加入一个或多个特殊的隐含层——卷积层,每个卷积层的节点与上层节点并不完全连接,而是只连接其中相邻区域的部分节点,即一个感受野。具体连接方法是通过一个被称为卷积核的矩阵,譬如3×3的方阵,与输入层相对应节点值构成的同型方阵(感受野),做"点乘"运算,其结果就是卷积层的一个节点值。图8-33给出了一个核与对应感受野进行卷积的示意图,即(-1)*1+0*0+1*2+(-1)*5+0*4+1*2+(-1)*3+0*4=0图8-33卷积的计算

基于卷积神经网络的手写体识别从图像识别的角度,一个手写字符可以看成是一幅图像,把这幅图像识别为一个字符的过程称为手写字符识别。以手写数字"2"的识别为例。令表示"2"的数字图像为二值图像,像素数为6×6,即图像的横向、纵向点阵均为6个像素点,并规定有笔画的地方为黑色,用数值1表示;其他位置为白色,用数值0表示。(a)

对感受野(方框内)卷积

(b)对感受野(方框内)卷积图8-34

数字2的左上角部分图像的特征提取

基于卷积神经网络的手写体识别卷积核由3×3=9个数值构成,与输入层左上角区域9个节点数值做"点乘"运算,结果"5"保存在卷积层左上角节点位置。卷积层这个节点值5代表了数字图像"2"左上角部分向右上的一段弧,这就是对"2"这个字符一部分特征的提取或抽象。将输入层中的虚线框右移一位,所对应的输入值矩阵继续与卷积核矩阵作同样的点乘运算,结果为-2。依次类推,可以算出特征值“-2”,......由输入图像和卷积核计算出的计算出卷积层的4×4=16个节点的值,就代表了对字符“2”不同部分形状特征的抽象,抽象的结果用数值标识。这是对字符图像较小局部特征的提取或抽象。将上述4×4=16个节点的卷积层作为下一级卷积运算的输入层,并对该输入层再次做相同的卷积运算,卷积核仍保持3×3=9个元素组成(具体元素值可能有所不同),相对应的下一级卷积层则由2×2=4个节点构成。这一层卷积运算是对上一层卷积运算所得图像局部特征的再次抽象,所得的4个结节值可以理解为数字图像"2"的左上、右上、左下、右下等4个部位形状的特征值。最后还要加一个全连接层,构成一个完整的图像识别网络,其输出值就是一个手写字符识别的结果。

机器视觉

机器视觉系统主要由图像采集单元、图像信息处理与识别单元、结果显示单元和视觉系统控制单元组成。图像采集单元获取被测目标对象的图像信息,并传送给图像信息处理与识别单元。由于机器视觉系统强调精度和速度,因此需要图像采集单元及时、准确地提供清晰的图像,只有这样,图像信息处理与识别单元才能在比较短的时间内得出正确的结果。图像采集单元一般由光源、镜头、数字

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论