计算机视觉-第07章1-基于BoW、SVM等的图像分类和目标检测

上传人：y*** IP属地：山东上传时间：2024-01-16 格式：PPTX 页数：72 大小：4.19MB 积分：15 举报 版权申诉

已阅读5页，还剩67页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人工智能学院人工智能视觉课程

基于BoW、SVM等的图像分类和目标检测01项目导入02项目任务03项目目标04知识链接05项目准备06任务实施07任务拓展08项目小结大家马上就要喜提第一个大（qi）型（shi）综（ye）合（bu）项（tai）目（fu）了（za）就在这一章项目导入2024/1/153目标检测下图中目测含多辆汽车如果希望计算机把它们检测出来，应该怎么做？项目导入2024/1/15401项目导入02项目任务03项目目标04知识链接05项目准备06任务实施07任务拓展08项目小结本章的任务是在Windows操作系统上使用Anaconda和PyCharm基于opencv-python库让电脑具有检测图中多辆汽车的能力项目任务2024/1/156这一章实际干了两件事识别有没有车检测车在哪儿关于标题2024/1/157识别有没有车这是一个分类问题我们这章就是个简单的2分类检测车在哪儿这是一个目标检测问题定位+分类计算机知道总共有多少种类但计算机不知道具体到某张图片中有多少种类和每一类数量关于标题2024/1/158还记得这张图片吗？2024/1/159另一个例子2024/1/1510输入：一张图片输出：一个或多个边界框+类别标签目标检测2024/1/1511所以讲义里的标题是不够准确的基于BoW和SVM的图像分类和目标检测贴切点正常来说类别标签也需要有但因为讲义里的例子只有一类（车），所以类别标签可以不用关于标题2024/1/1512讲义里先用SVM做了个分类，再用SVM针对该类算了个得分只是为了方便教学现实里大多不会这么干比如你们可以试着把分类的代码去掉也就是”_,result=svm.predict(bf)”以及相应的if语句去掉结果无变化关于标题2024/1/1513目前主流的目标检测算法十一章会讲基于深度学习的方法YOLOSSDRCNNFastR-CNNFasterR-CNN......多说一句2024/1/151401项目导入02项目任务03项目目标04知识链接05项目准备06任务实施07任务拓展08项目小结知识目标理解生成器和普通函数的区别理解yield的作用和好处理解滑动窗口的原理理解非极大抑制的工作原理了解词袋技术BOW定性了解视觉BOW理解SVM的原理项目目标16技能目标能使用yield改造返回列表的函数能综合使用图像金字塔和滑动窗口技术对图像进行不同尺度的遍历能使用非极大抑制技术调节输出矩形框的数量掌握视觉BOW的编程步骤能使用numpy中argsort函数进行排序能使用SVM进行数据训练能应用SVM训练结果进行预测项目目标2024/1/1517职业素养目标培养学生严谨、细致、规范的职业素质培养学生团队协作、表达沟通能力培养学生跟踪新技术、创新设计能力培养学生的技术标准意识、操作规范意识、服务质量意识等项目目标2024/1/151801项目导入02项目任务03项目目标04知识链接05项目准备06任务实施07任务拓展08项目小结本章很多知识点已经讲过ROI图像金字塔非极大抑制滑动窗口（这个词虽然没讲过，但可类比的概念讲了不少）SIFTFLANN给大家10分钟时间翻翻讲义，翻翻前面的PPT讲过的不再细讲了，后面用到的地方稍微带一带知识链接2024/1/1520课堂讨论2024/1/1521ROI、图像金字塔、非极大抑制、滑动窗口（找相似概念）、SIFT、FLANN分别在哪个PPT/讲义哪一章的哪一页只限已经讲过的内容有些不止一页讲过，给一页即可完全正确的前3名给分课堂讨论2024/1/1522车辆这图看着怪怪的，有什么问题？如果你们从事相关工作比如数据标注（也是各种拉框）要是标个这种框那肯定是很难不被骂的知识链接-图中的问题2024/1/1523知识链接-怎么知道计算机结果是好是坏？2024/1/1524IOU（IntersectionOverUnion）交并比目标检测的量化方法之一预测的边界框和真实的物体包围框的交并比知识链接-IOU2024/1/1525知识链接-IOU2024/1/1526注意车辆框上面那数字并不是IOU但显然预测框和真实框差很远知识问答2024/1/1527听说你们上过Python这门课所以下面这个知识问答我就直接问了知识问答2024/1/1528使用了yield的函数有什么特殊的地方？访问集合元素的一种方式从集合的第一个元素开始访问，直到所有的元素被访问完结束可以记住遍历位置迭代器只能往前不会后退知识链接-迭代器2024/1/1529两个基本的方法：iter()和next()>>>list=[1,2,3,4]>>>it=iter(list)#创建迭代器对象>>>forxinit:>>>print(x,end="")1234知识链接-迭代器2024/1/1530两个基本的方法：iter()和next()>>>list=[1,2,3,4]>>>it=iter(list)#创建迭代器对象>>>print(next(it))#输出迭代器的下一个元素1>>>print(next(it))2知识链接-迭代器2024/1/1531使用了yield的函数被称为生成器（generator）生成器是一个返回迭代器的函数只能用于迭代操作更简单点理解生成器就是一个迭代器节省资源知识链接-生成器2024/1/1532生成过程每次遇到yield时函数会暂停并保存当前所有的运行信息返回yield的值在下一次执行yield所在函数或对象的next()方法时从当前位置继续运行知识链接-生成器2024/1/1533课堂讨论2024/1/1534在深度学习中，当数据集较大时，为什么我们说使用生成器读取数据相较于一次性读取所有数据更为可行？使用生成器的场合如果数据集很大的话，应该考虑用生成器我之前有个项目暴力行为检测50000+个视频（3秒）作为数据集，200GB左右模型也很大，参数几亿个但训练的时候你要把数据读进内存，然后再把模型和模型输入送到显存里这资源消耗就吃不消了生成器派上用场知识链接-生成器2024/1/1535本章节中调用pyramid生成器函数的过程第一次：把原始图片返回第二次：从while循环开始执行。如果执行到yield，返回处理后的image第三次：同第二次......第N-1次：同第二次第N次：满足了if条件，跳出循环知识链接-生成器2024/1/1536利用已知尺寸的窗口遍历整幅图像，形成许多子图像ROI的技术知识链接-滑动窗口2024/1/1537利用window_size大小的滑动窗口，以step为步长，遍历图像image知识链接-滑动窗口2024/1/1538抑制不是极大值的元素局部最大（或最优）搜索窗口（区域）内存在多个候选框概率最高的直接留下，计算该框和剩下的候选框面积的重叠率面积重叠率超过阈值，则直接抛弃知识链接-非极大抑制2024/1/1539知识问答2024/1/1540以下关于滑动窗口和非极大抑制，说法不正确的是？自然语言处理中的技术BagofWords,BoW构建词汇字典统计字典中的单词在文档中的出现次数（词频）基于词频为文档构建向量，来表示文档知识链接-词袋技术2024/1/1541文档特征向量：[2,2,1,1,1,0,0,0][1,1,0,1,1,1,0,0][1,1,0,0,0,0,1,1]这俩领域有一现象自然语言处理领域有个什么好用的技术搞视觉的那些人就移植到视觉领域去用，发现也有好的效果反之亦然比如词袋，本来是用来处理自然语言的，搬到视觉领域也挺好用比如Transformer，本来是自然语言处理领域弄出来的，结果现在也被搬到视觉领域了比如卷积神经网络（CNN），发源于视觉领域，但现在自然语言处理领域也有在用知识链接-自然语言处理技术和视觉技术2024/1/1542把图像“文字化”局部图像特征则成为“视觉单词”知识链接-视觉中的词袋技术2024/1/1543视觉BoW步骤初步特征提取：得到局部图像特征数据生成视觉词汇：局部图像特征数据合并、聚类，得到视觉单词构成视觉字典使用视觉字典对图像进行向量化知识链接-视觉中的词袋技术2024/1/1544特征提取特征点查找描述符生成特征匹配知识链接-图像匹配2024/1/1545

…

…描述符描述符知识问答2024/1/1546词袋模型是一种特征提取方法吗？HarrisSIFTSURFFASTBRIEFORB知识链接-特征提取方法2024/1/1547知识链接-生成视觉词典2024/1/1548支持向量机supportvectormachinesSVM二分类模型知识链接-支持向量机2024/1/1549知识链接-支持向量机2024/1/1550想办法将图中的篮球和红球分开知识链接-支持向量机2024/1/1551想办法将图中的篮球和红球分开一条直线知识链接-支持向量机2024/1/1552想办法将图中的篮球和红球分开知识链接-支持向量机2024/1/1553想办法将图中的篮球和红球分开一条曲线在几何体中，超平面是一维小于其环境空间的子空间数学概念三维空间里的超平面是一个二维平面二维空间里的超平面是一条直线一维空间里的超平面为数轴上的一个点该概念可以用于定义子空间维度概念的任何一般空间知识链接-超平面2024/1/1554知识链接-支持向量机2024/1/1555想办法将图中的篮球和红球分开不使用曲线，使用超平面（点、直线、平面）怎么分？知识链接-支持向量机2024/1/1556将二维转为三维曲线变成了一个平面，很好地将蓝球与红球分离开来，这个平面就叫做超平面基本思想求解能够正确划分训练数据集并且几何间隔最大的分离超平面二维是直线，三维是平面对于线性可分的数据集来说，这样的超平面有无穷多个（即感知机）几何间隔最大的分离超平面却是唯一的SVM就是找到最合适的那个超平面以进行最好的分类知识链接-支持向量机2024/1/1557课堂讨论2024/1/1558以下哪个是最好的超平面？知识链接-支持向量机2024/1/1559以下哪个是最好的超平面？选择的这个超平面一定是要更好的对你的源数据进行分类超平面B更好的完成了这个任务课堂讨论2024/1/1560以下哪个是最好的超平面？知识链接-支持向量机2024/1/1561以下哪个是最好的超平面？SVM试图把分类器放在最佳位置，让在分类器的两边有尽可能大的间隙C与两个数据源的边距都比A和B要大，因此正确的超平面是C课堂讨论2024/1/1562以下哪个是最好的超平面？知识链接-支持向量机2024/1/1563以下哪个是最好的超平面？A符合选择的这个超平面一定是要更好的对你的源数据进行分类B符合SVM试图把分类器放在最佳位置，让在分类器的两边有尽可能大的间隙最大化边距的前提是准确的进行分类B的分类有误差正确的超平面是A课堂讨论2024/1/1564以下哪个是最好的超平面？知识链接-支持向量机2024/1/1565以下哪个是最好的超平面？除非用曲线线性不可分SVM具有忽略异常值并找到具有最大余量的超平面的功能知识链接-支持向量机中的核技巧2024/1/1566对于线性不可分的问题，SVM通过核技巧解决如果数据线性不可分将输入空间内线性不可分的数据映射到一个高维的特征空间内使数据在特征空间内线性可分知识链接-支持向量机中的核技巧2024/1/1567知识链接-支持向量机中的C参数2024/1/1568SVM中的C参数C是惩罚系数，即对误差的宽容度对于较大的C值，如果超平面能够更好地将所有训练点分类正确，

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机视觉-第07章1-基于BoW、SVM等的图像分类和目标检测

文档简介

温馨提示

最新文档

评论

计算机视觉-第07章1-基于BoW、SVM等的图像分类和目标检测

文档简介

温馨提示

最新文档

评论

相关文档