版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机视觉技术及应用第五章计算与人工智能基础A目录CONTENTS计算机视觉概述图像分割图像识别目标检测项目学习:计算机视觉任务PARTONE计算机视觉概述1计算机视觉的概念计算机视觉(ComputerVision,CV)是指用计算机实现人的视觉功能——对客观世界的三维场景的感知、识别和理解。例如,识别上面这张图片中的字母。1计算机视觉的概念计算机视觉计算机科学和工程信号处理物理学应用数学统计学神经生理学认知科学2发展历史早期发展
阶段深度神经网络阶段注意力与大模型阶段3早期发展阶段4神经网络阶段5注意力与大模型阶段6应用场景计算机视觉用各种成象系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。目前,已经应用在制造业、工业检验、文档分析、医疗诊断、军事目标跟踪、自主导航等系统当中。PARTTWO图像分割1什么是图像分割图像分割是将数字图像划分为多个有意义的区域或对象的过程,每个区域内的像素具有相似特征(如颜色、纹理、强度),而不同区域间特征差异显著。简单来说分割就是为了解决“这张图片里有什么,它在图片什么位置”的问题。简化图像分析将像素组织为更大单元(超像素),避免逐像素处理。定位物体与边界识别图像中的对象、轮廓(如线条、曲线)及其空间位置。支撑高级任务作为目标检测、分类、场景理解的基础核心目标2类型划分语义分割:为每个像素分配类别标签(如“人”“车”),但不区分同类物体的不同实例。实例分割:区分同一类别中的不同个体(如区分图像中的多个人),并为每个实例生成独立掩码。全景分割:结合语义与实例分割,对图像中所有像素进行统一标记,包括背景和前景对象3主要方法按颜色/亮度分:把颜色、明暗相似的像素归成一类,比如蓝天和绿地分开。按边缘分:先找出图像里的线条(物体边缘),再把边缘围起来的区域划成一块。用模板套:提前知道要找的东西(比如人、车)长啥样,拿模板去比对,对上的就是要分的区域。AI学出来:让模型看大量标好的图,学出“哪些像素属于同一物体”的规律,再用这规律去分割新图。PARTTHREE图像识别1图像识别概述图像识别是计算机视觉领域重要的任务之一,其主要任务便是让计算机能够从给定的图像中识别出所属的类别,以替代人眼对图像的观察和判断。图像识别的应用包含人脸识别,光学字符识别(OCR)等。2发展历程图像识别技术起源于20世纪60年代,经历了几个关键阶段:文字识别阶段早期专注于字符识别(如OCR)。数字图像处理与识别阶段1965年起,数字图像处理技术(如滤波和分割)成为基础,推动了特征提取方法的发展。物体识别阶段21世纪以来,随着人工智能兴起,图像识别进入高级计算机视觉范畴,结合深度学习和神经网络,实现了更复杂的物体检测。现代阶段(2020s后)深度学习主导,尤其是卷积神经网络(CNN)的广泛应用,显著提升了识别精度和应用范围。例如,腾讯云和华为云等平台提供基于深度学习的API服务,支持实时识别。3主要步骤图像获取通过摄像头、传感器或数据库获取原始图像数据(RGB彩色图像或灰度图像)预处理对原始图像进行优化以提高质量,包括去噪(减少干扰信息)、增强(突出关键特征)、校正(几何变换统一尺度和方向)等。这一步是特征提取的基础。特征提取提取图像中的关键特征,如边缘、颜色分布或形状。特征提取是关键环节,决定了识别的准确性。识别/分类使用算法将特征映射到类别。输出决策将分析结果传递给主控系统进行判断和行动。图像识别的过程通常分为多个步骤,涉及硬件和软件的协同工作,其核心流程包括图像获取、预处理、特征提取、识别分类和输出决策。4识别方法核心思路:“人工设计特征+机器学习分类器”优势:解释性强,计算量小局限性:依赖人工设计,复杂场景表现差基于深度学习方法是通过神经网络自动学习图像特征,无需人工设计,端到端完成“特征提取+分类”,是当前主流技术。传统机器学习方法是依赖人工设计的特征提取规则,结合机器学习模型完成识别。核心思路:神经网络自动学习特征与分类优势:适应复杂场景,精度高局限性:需大量数据和计算资源,解释性较弱5影响因素图像识别的影响因素:姿态、视角、光照、遮挡、背景干扰等6光学字符识别(OCR)光学字符识别通常包含文本检测与文本识别两大步骤。文本检测需要在给定的图像或文档中准确找到文字的位置。文本识别则需要将文本检测找到的区域转化为方便人们复制或编辑的文字。光学字符识别(OpticalCharacterRecognition)通过扫描图像或文档,识别出文字并转换成可编辑的文本格式,让电脑能够理解和处理这些文字内容。7人脸识别人脸识别是通过分析人脸图像的纹理、形状和结构特征来验证或识别个体身份(1:1验证或1:N识别)。属于1:N的比对,输入人脸身份为1,数据库人脸身份的数量为N,一般应用在办公楼门禁、疑犯追踪等领域。属于1:1的比对,输入人脸身份为1,数据库中为同一人的数据,在金融、信息安全、火车站闸机等领域应用较多。7人脸识别便捷性非接触性非强制性并行处理70%7人脸识别7人脸识别由于人脸的3D结构,光照投射出的阴影,会加强或减弱原有的人脸特征。尤其是在夜晚,由于光线不足造成的面部阴影会导致识别率的急剧下降。目前多数的人脸识别算法主要针列正面、准正面人脸图像,当发生俯仰或者左右侧而比较厉害的情况下,识别率也将会急剧下降。面部幅度较大的哭、笑、愤怒等表情变化会影像识别准确率。现有的技术对这些方面处理得还不错,不论是张嘴还是做一些夸张的表情,计算机都可以通过三维建模和姿态表情校正的方法把它纠正。对于非配合情况下的人脸图像采集,遮挡问题是一个非常严重的问题。特别是在监控环境下,往往被监控对象都会带着眼镜、帽子等饰物,使得被采集出来的人脸图像有可能不完整,从而影响了后面的特征提取与识别,甚至会导致人脸检测算法的失效。随着年龄的变化,一个人从少年变成青年,变成老年,容貌可能会发生较大变化,导致识别率的下降。对于不同的年龄段,人脸识别算法的识别率也不同。课程思政刷脸的风险和安全防范人脸识别的风险人脸数据滥采滥用:人脸信息采集不受环境限制,仅需视频监控和配套网络设备即可在不知不觉中记录和使用。近年来,因人脸信息滥用引起侵犯隐私权、肖像权的案例频发,如利用人脸信息构建个体“专属画像”进行精准营销,或公开售卖违规抓取的人脸数据。信息泄露途径多样:人脸信息泄露主要通过防护不严被窃取、信息终端被控制、网络传输被截获、存储平台被攻击等途径。一旦泄露,不仅损害个人人身与财产安全,还可能威胁公共安全。隐私泄露风险人脸识别的风险误识别与算法偏见:人脸识别技术可能错误地识别个人身份,导致无辜者被错误地识别为犯罪嫌疑人或合法用户被错误地拒绝访问服务。此外,算法偏见也可能导致对特定群体产生不公正或歧视性行为。深度伪造技术威胁:随着生成式人工智能技术的发展,“深度伪造”技术日益成熟,能够生成高度逼真的虚假人脸图像或视频,从而威胁到人脸识别技术的可靠性和准确性,增加身份冒用和欺诈等行为发生的可能性。技术安全风险人脸识别的风险侵犯个人隐私:人脸识别技术记录、储存和分析人脸图像,可能对隐私、公平及信任等概念带来根本性改变。公众担忧该技术是否会对个人隐私构成侵犯,特别是在未经同意的情况下被采集和使用人脸信息。社会信任危机:如果人脸识别技术被滥用或导致社会不公,可能破坏公众对该技术的信任感。例如,频繁的错误识别、歧视现象或隐私泄露事件都可能引发公众对人脸识别技术的质疑和抵制。社会伦理风险人脸识别的风险法律法规不健全:尽管一些国家和地区已经出台了关于人脸识别技术的法律法规,但整体上仍存在法律法规不健全的问题。这可能导致人脸信息在采集、处理、存储和使用过程中缺乏明确的法律规范和约束。违法责任追究难:由于人脸识别技术泄密具有隐蔽性、精准性、单向性和滞后性等特点,一旦发生信息泄露事件,往往难以追溯和追究违法责任。法律风险据1月22日《中国青年报》报道,2023年7月,在宁夏上大学的李学,因一份需要人脸验证的“兼职”而泄露了个人信息,后来莫名其妙地成为了四川多家公司的法定代表人或高管。当年9月,他在报考公务员考试时无法通过资格审查,没能参加考试。人脸识别的安全防范在使用需要人脸识别功能的应用或服务时,仔细阅读隐私政策,了解个人信息的收集、使用和存储方式,避免在不了解的情况下轻易授权。避免随意上传自己的人脸照片到网络或公共平台,特别是不要使用高清、无遮挡的正面照片作为头像或分享到社交媒体。定期检查自己的社交媒体、支付平台等账户,确保没有异常登录或未经授权的操作。警惕以兼职、抽奖等为名诱导进行人脸识别验证的诈骗行为,不轻信不明来源的信息和链接。在进行人脸识别验证前,务必核实对方的身份和目的,避免被不法分子利用。PARTFOUR目标检测1什么是目标检测目标检测是用算法判断图片中是不是包含有特定目标,并且在图片中标记出它的位置,通常用边框或红色方框把目标圈起来。2发展脉络整体看,目标检测从“手工特征+传统分类器”,经深度学习革命,走向“基于锚框/无锚框”的深度模型,核心趋势是平衡精度、速度、泛化性,适配自动驾驶、安防、智能终端等多元需求。3经典方法
两阶段检测器(精度优先)
原理:先生成候选区域,再分类与回归。代表算法:R-CNNFastR-CNNFasterR-CNNFPN(特征金字塔)
MaskR-CNN一阶段检测器(速度优先)
原理:将检测视为回归问题,单次前向传播输出结果。代表算法:YOLOSSDRetinaNet4R-CNN的原理R-CNN:全称RegionConvolutionalNeuralNetworks,于2013年11月问世,是第一个成功将深度学习应用到目标检测上的算法。4R-CNN的原理第一步:建立提取框。对于原始图像,使用SelectiveSearch搜寻可能存在物体的区域。SelectiveSearch可以从图像中启发式的搜索出可能包含物体的区域。第二步:对每个框提取特征。使用CNN(卷积神经网络)对提取框进行特征提取,并将提取的特征存储起来,方便后续分类。第三步:图像分类使用CNN算法得到了提取框的特征,其实也就是可能包含的物体的图像的特征,接下来要做的就是图像分类。可以使用SVM分类器进行物体分类。SVM支持向量机,是一种监督学习分类算法,广泛用于图像识别、文本分类领域。4R-CNN的原理第四步:非极大值抑制输出。通过SelectiveResearch可能得到很多的的提取框,现在也对每个提取框(每个框可能都代表某种物体)可能包含的物体进行了分类,但是这些框很可能有互相重叠的部分,我们要做的就是只保留输出最优的框,把其他的框删掉。这里用到非极大值抑制输出。非极大值抑制算法的主要目的是消除多余(交叉重复)的窗口,找到最佳物体检测位置。如图所示,虽然每个窗口均检测到人脸,但仅需给出一个最有可能表征人脸的窗口。PARTFIVE项目实战1国家新一代人工智能创新开放平台人工智能开放平台是一种综合性的服务平台,集成了先进的AI技术、多样化的算法、丰富的数据资源以及便捷的开发工具,使得开发者和企业能够轻松地获取所需资源,快速实现AI技术的集成、部署和应用。平台还提供持续的技术支持和功能更新,确保开发者能够紧跟行业趋势和技术进步。1国家新一代人工智能创新开放平台这些平台提供了一系列预训练模型和算法,覆盖计算机视觉、语音识别、自然语言处理等多个领域,并通过提供API(ApplicationProgrammingInterface,应用程序编程接口)和SDK(SoftwareDevelopmentKit,软件开发工具包)等开发接口,大幅降低开发难度和时间成本。
百度AI开放平台的SDK与HTTPAPI调用接口对比1国家新一代人工智能创新开放平台序号企业平台主要特点1百度自动驾驶2阿里云城市大脑3腾讯医疗影像4科大讯飞智能语音5商汤科技智能视觉1国家新一代人工智能创新开放平台序号企业平台主要特点6依图科技视觉计算和人工智能芯片7明略科技智能营销、管理与服务8华为基础软硬件9中国平安普惠金融10海康威视视频感知1国家新一代人工智能创新开放平台序号企业平台主要特点11京东智能供应链12旷视科技图像感知13360奇虎安全大脑14好未来智慧教育15小米智能家居2百度AI开放平台简介百度AI开放平台提供了120多项细分的场景化能力和解决方案,包括从语音识别、人脸识别、文字识别、细密度的图像识别、垂直的图像识别以及自然语言处理的知识图谱等一系列的能力,这些能力可以直接在产品和应用当中使用,能力集成速度最快仅需5分钟,并且在百度AI开放平台上,80%以上中小企业和开发者不需要花钱使用百度开放的能力。注册与登录要开始使用百度AI开放平台,需要访问官网进行注册和登录,注册时填写必要信息,登录成功后即可进入平台主界面,开始探索和使用平台提供的各项AI服务。创建应用在平台主界面上,点击“创建应用”按钮,填写应用基本信息并提交申请,审核通过后将获取接口密钥和安全密钥,是调用API时进行身份验证的重要凭证,请妥善保管。选择并调用API在百度AI开放平台上选择需要的AI能力接口,了解其调用方式、请求参数等信息,根据文档说明编写代码或配置环境,实现API接口的调用,并确保设置好密钥进行身份验证。3百度AI开放平台使用方法3百度AI开放平台使用方法成为开发者——完成百度AI平台的账号注册与认证3百度AI开放平台使用方法3百度AI开放平台使用方法创建应用——登录成功后,单击控制台。3百度AI开放平台使用方法创建应用——进入控制台后,点击右侧导航栏里面的“图像识别”,进入图像识别的概览界面。3百度AI开放平台使用方法创建应用——进入后按操作指引先领取免费资源,然后才能创建应用。3百度AI开放平台使用方法创建应用——点击“创建应用”,即可进入“创建应用”界面。
填入应用名称,勾选图像识别功能,最后单击立即创建。3百度AI开放平台使用方法获取调用百度AI工具包的主要凭证——已创建好的应用,可以在应用列表中查看。其中AppID是应用编号,APIKey是应用程序编程接口秘钥,SecretKey是秘钥,它们是调用百度AI工具包的主要凭证,需要妥善保管。3百度AI开放平台使用方法查看百度AI帮助文档——在“图像识别”信息列表里,点击“技术文档”选项,跳转到技术文档页面,点击SDK文档,选择PythonSDK文档。3百度AI开放平台使用方法安装百度AI的PythonSDK——在命令提示符窗口执行命令“pipinstallbaidu-aip”即可安装百度AI的PythonSDK安装包。安装后可以查看baidu-aip的目录。在命令提示符窗口输入命令“pipshowbaidu-aip”,查看SDK的详细信息。pipinstallbaidu-aip–ipipinstallchardet4百度AI图像识别接口的功能演示1234百度AI图像识别接口的功能演示可自行上传图片4百度AI图像识别接口的功能演示识别结果均是以JSON格式的数据来展示。JSON的全称是JavaScriptObjectNotation(JavaScript对象表示法),是一种轻量级的文本数据交换格式而非编程语言,其语法只支持字符串、数值、布尔值及null以及在此基础上的对象和数组。JSON的基本语法:数据使用名/值对表示。使用大括号保存对象,每个名称后面跟着一个“:”(冒号),名/值对使用“,”(逗号)分割。使用方括号保存数组,数组值使用“,”(逗号)分割。5创建动物识别应用进入百度人工智能开放创新平台。
在网页右上角单击“登录”按钮,在弹出的登录窗口输入用户名密码登录。5创建动物识别应用账号登录成功后,需要创建应用才可通过接口正式调用AI能力。应用是调用API服务的基本操作单元,可以基于应用创建成功后获取的APIKey及SecretKey,进行接口调用操作,及相关配置。在“百度智能云控制台”页面点击左上角的“menu”按钮,出现如右图所示界面。5创建动物识别应用
进入“百度智能云-管理中心”页面,免费领取资源。5创建动物识别应用点击“创建应用”,进入“创建应用”界面。填入应用名称,勾选图像识别功能,单击立即创建。5创建动物识别应用应用创建完毕后,可以点击左侧导航中的“应用列表”,进行应用查看,可以看到AppID、APIKey、SecretKey这三项重要信息。这三个信息是我们应用实际开发的主要凭证,每个应用之间各不相同。6集成开发的基本步骤在百度等人工智能开放创新平台进行AI应用开发的基本步骤基本上是一样的。以在百度AI平台为例,一般分导入模块、权限鉴定、准备资源、调用接口处理资源、输出或保存结果这5个基本步骤。7动物识别应用集成开发新建项目文件,文件保存为animal_classify.py。程序功能:读取上传的图片并进行识别,最后输出识别结果。(1)新建图像识别客户端(2)打开本地图片并读取数据(3)调用动物识别接口(4)输出识别结果image=open(‘cat.jpg','rb').read()7动物识别应用集成开发创建应用
获得1个id和2个key新建客户端通过SDK调用图像识别接口分析和处理结果8认识身份证8认识身份证8认识身份证返回结果JSON格式8认识身份证JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,易于人阅读和编写,同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025柳州工学院教师招聘考试题目及答案
- 2025江西科技学院教师招聘考试题目及答案
- 2025昌河职工工学院教师招聘考试题目及答案
- 内蒙特岗语文试题及答案
- 莱芜教招小学试题及答案
- 2026年山东交通职业学院公开招聘博士研究生(30名)建设考试参考试题及答案解析
- 2026四川成都银杏酒店管理学院人才招聘36人建设考试参考试题及答案解析
- 2026岚图汽车用户体验中心岗位招聘建设笔试备考题库及答案解析
- 2026贵阳观山湖人力资源服务有限公司教育教学人员招聘1人建设考试备考试题及答案解析
- 2026广东广州市增城区新塘中学编外聘用制教师招聘1人建设笔试模拟试题及答案解析
- 北京市西城区2026年高三一模英语试卷(含答案)
- 2026江西抚州市公务用车保障服务中心有限公司招聘员工20人考试参考题库及答案解析
- 2026内蒙古锡林郭勒盟阿巴嘎旗林草执法人员补充招收6人备考题库含答案详解(综合题)
- 2026云南红河州元阳县县属国有企业上半年招聘12人备考题库附答案详解(a卷)
- (贵州一模)贵州省2026年4月高三年级适应性考试物理试卷(含标准答案)
- 安全仪表系统管理制度
- 2026年内蒙古联通校园招聘笔试备考试题及答案解析
- 应急物流风险预警-洞察与解读
- 钬激光技术介绍
- 2026四川绵阳市三台县公安局招聘警务辅助人员60人参考考试题库及答案解析
- 保税仓介绍教学课件
评论
0/150
提交评论