数据采集、清洗与标注课件第9章数据处理全过程案例

上传人：y*** IP属地：山东上传时间：2025-11-05 格式：PPTX 页数：23 大小：285.24KB 积分：20 举报 版权申诉

已阅读5页，还剩18页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第9章数据处理全过程案例[]目录[]CONTENTS

01客户评论情感分析

02智能货柜商品检测

03工件瑕疵图像分割

01客户评论情感分析数据处理的全过程主要包含三个关键阶段：数据采集、数据清洗以及数据标注。截至目前，我们已深入探讨并掌握了每个阶段的核心概念与常用工具。为了帮助大家构建起整个数据处理全过程的整体思路，并提升解决实际问题的能力，本章节将通过三个具体案例来展示数据处理的全过程。我们将处理数据并将其输入到机器学习算法模型中，通过评估模型的表现来检验数据处理的质量，并反思其中可能存在的不足之处。这一过程将形成一个持续迭代的闭环，从而不断提高数据的质量，为构建更为智能、精确的机器学习模型奠定坚实的基础。本章节所选用的三个案例分别是：“客户评论情感分析”、“智能货柜商品检测”和“工件瑕疵图像分割”。通过本章节的学习，读者将能够：更深刻地理解数据处理全过程的概念与流程。更熟练地运用工具完成数据处理的各项任务。更自觉地重视数据质量的提升。需要注意的是，数据处理的三个阶段在整个数据生命周期中是循环往复的，并非一次性完成的任务。在某些情况下，可能需要重新采集数据；在另一些情况下，则可能需要再次进行数据清洗或重新标注。所有这些举措的目标都是为了提高数据的质量。当然，在实际操作中，还需要根据具体情况妥善权衡数据质量与成本效益之间的关系。

01客户评论情感分析9.1客户评论情感分析【任务描述】

小王是一名数据分析师，他所在的电商公司计划对某平台上的热销商品进行用户评论分析，以了解产品的优点和缺点，进一步优化产品设计和服务流程。为此，小王准备先以一款彩色无线喷墨打印机为例，进行分析积累经验。这款打印机具备简约的外观设计，能与多种设备轻松连接，还可微信远程打印，深受消费者的喜爱。小王希望通过此任务的实施，达成以下目标：了解用户满意度：通过分析用户的评论，了解消费者对该产品的整体满意度。识别产品优势：找出用户普遍认可的产品优势。发现改进点：识别用户反馈中的负面意见，找出需要改进的地方。优化市场营销策略：根据用户反馈调整营销策略，提高转化率。

01客户评论情感分析【任务实施】9.1.1数据采集

在本教材的数据采集模块，我们已经了解到数据采集是数据分析、数据挖掘和决策支持的基础。准确、全面的数据采集能够为企业提供有价值的信息和洞察，帮助企业更好地了解市场需求、优化产品设计和营销策略、提高生产效率和产品质量。小王作为一名数据分析师，为完成京东平台上某款彩色无线喷墨打印机的用户评论分析，他准备先使用爬虫技术从京东商品页面抓取该款打印机的用户评论。1.商品页面请求URL2.User-Agent3.利用Python爬取商品评论内容

01客户评论情感分析9.1.2数据清洗

在本教材的数据清洗模块，我们已经认识到，从互联网上爬取到的评论文本通常需要进行一系列的文本清洗工作，以提高文本的质量和后续分析的准确性。通过观察在9.1.1小节爬取到的评论内容，本节采取以下步骤实施清洗任务，代码见实例9-2所示。1.文本清洗步骤（1）去HTML标签：使用正则表达式或专门的库（如Python中的BeautifulSoup或lxml）来移除文本中的HTML标签。（2）去除中英文、数字和常用标点符号以外的字符：使用正则表达式或字符串处理函数去除文本中除中英文、数字和常用标点符号外的字符，如图标😄、“@#$%^&*()_+-=[]{}|;':",.<>/?”，以及“✌︎˶╹ꇴ╹˶✌︎”等。（3）去除特殊字符：利用正则表达式去除空格和一些特殊字符，如“^”。2.文本清洗代码

01客户评论情感分析9.1.3数据标注

数据清洗完后，就可以对数据进行标注了。本节利用Doccano标注清洗后的评论数据，其中，0代表负向评论，1代表中立评论，2代表正向评论。

【实例9-3】利用Doccano对实例9-2清洗后的评论文本进行标注。1.导入数据2.建立标签3.开始标注4.导出标注文件

01客户评论情感分析9.1.4文本情感分类模型训练

【实例9-4】利用Sklearn.svm模型对实例9-3标注过的评论文本进行训练。1.导入Python模块2.对评论文本数据分词3.划分训练集和测试集4.生成句子向量5.训练SVM模型6.模型预测

01客户评论情感分析【任务总结】

客户评论的情感分析是一种自然语言处理（NLP）技术，旨在确定文本中表达的情感倾向。这种技术广泛应用于电子商务、社交媒体监控、市场研究等多个领域，帮助企业了解顾客对其产品或服务的感受。小王作为一名数据分析师，通过自己不懈的努力，先后完成了指定商品的客户评论数据的采集、清洗和标注三个任务，并用标注好的数据集训练了一个客户评论情感分析模型，用以分析了解消费者对指定商品的整体满意度，较好地完成了公司交办的工作。但在任务实施过程中，小王对模型的性能还不是十分满意，他认为以下两点还有待改进：一是数据集中三种情感倾向的评论数量不均衡，应多采集一些负面和中性的评论数据；二是模型单一，应多训练几种不同的算法，找出最优模型。

02智能货柜商品检测9.2智能货柜商品检测【任务描述】

小李是一名人工智能技术应用专业毕业的学生，在一家大型零售连锁公司工作。公司为优化管理、降低成本、提高顾客购物体验，计划开发一套新的智能零售货柜系统，该系统需能自动实时检测货柜内的商品种类和数量。小李认为用自己所学的专业知识，可以实现这个需求，便主动承担起系统中计算机视觉检测模块的开发任务。他希望通过此任务的实施，达成以下目标：提高检测准确率：利用计算机视觉的图像识别能力，确保每个商品被准确无误地检测并记录。提升检测效率：优化系统的检测速度，减少延迟。减少误报漏报：通过算法优化，减少因环境（如光纤变换、物体遮挡等）干扰导致的误报和漏报。

02智能货柜商品检测【任务实施】9.2.1数据采集

智能货柜是一种结合了人工智能和物联网技术的零售解决方案。它可在无人值守的情况下通过用户自主选择商品并完成支付，提供了便捷的购物体验，如图9-18所示。智能货柜零售系统中的图像采集是实现自动结算和商品管理的重要环节。通过图像采集，系统可以实时监控货柜内的商品状态，包括商品的数量、种类、位置等信息。

02智能货柜商品检测1.图像采集设备（1）摄像头：智能货柜通常会在货柜的两侧或每一层顶部安装摄像头，这些摄像头负责实时采集货柜内的视频流或图像，如图9-19所示。（2）高分辨率：为了确保图像识别的准确性，摄像头需要具备高分辨率，以便能够清晰地捕捉到商品的细节。（3）广角镜头：为了覆盖货柜内的所有商品，摄像头通常会采用广角镜头，以减少盲区。（4）夜视功能：对于需要24小时营业的智能货柜，摄像头还应具备夜视功能，以确保在光线不足的情况下也能清晰拍摄。2.图像采集方式（1）实时采集：摄像头会实时采集货柜内的视频流，当用户打开货柜门并取走商品时，摄像头会记录下这一过程。（2）静态拍摄：智能货柜也会采用静态拍摄的方式，即在用户取货前后分别拍摄货柜内的商品图片，通过对比两张图片来确定被取走的商品，如图9-20所示。

【实例9-5】利用OpenCV采集和预处理智能货柜的图像。

02智能货柜商品检测9.2.2数据清洗在本书第6章，我们已经学习了图像数据清洗的一般方法，在本案例中，数据清洗除使用这些常用方法外，重点是针对鱼眼图像进行矫正和数据增强操作，以提高计算机视觉模块的检测识别性能。传统的鱼眼图像检测是先将鱼眼图像矫正为可视化的图像后，再进行图像检测，即“先矫正后检测”；本案例采取先直接在原始鱼眼图像上进行检测，再通过坐标矫正聚类算法对检测结果进行校正，即“先检测后校正”。后者不仅在检测识别精度上较前者有显著提高，而且能减少因将鱼眼图像矫正为可视化图像带来的时间和计算成本上的消耗。1.鱼眼图像矫正（1）生成可视化的矫正图像：一般来说，鱼眼图像畸变矫正（如经纬度法）是通过对鱼眼图像中的所有像素坐标进行校准，并同时填充它们的RGB值，来生成可视化的矫正图像。但是，这两个操作不仅会在时间和计算上造成相当大的成本，而且可能会留下新的畸变残留，如图9-22所示。（2）不生成可视化的矫正图像：鉴于生成可视化矫正图像的不利因素，本案例采用了一种新方法，如图9-22所示。它在利用神经网络模型检测鱼眼图像的基础上，只矫正鱼眼图像上物体检测框（boundingbox）的中心坐标，再对矫正后的中心点的横坐标进行聚类。它不生成可视化的矫正图像，既减少了时间和计算上的成本，也避免了产生新的畸变。

02智能货柜商品检测2.数据增强

数据增强是提高模型性能的有效途径，且方法较多，在实践中，要根据具体情况选择合适的方法。例如，在本案例中存在如下问题：货柜内外的光线变化会降低图片清晰度、镜头成像时长会造成图片色温和亮度变化、不同高度商品临近摆放会造成商品有效识别区的阴影遮挡、图片检测框区域的高度相似会导致模型“认敌为友”。为减少这几种现象对分类精度的影响，可以选择色彩抖动（colorjitter）、随机遮挡（randomerasing）和图像混叠（mixup）等数据增强方法。（1）色彩抖动

色彩抖动是指对图像的颜色通道（如亮度、对比度、饱和度和色调）进行随机变换，使得模型能够更好地适应不同的光照条件和颜色变化，如图9-24（c）所示。（2）随机遮挡

随机遮挡是在图像上随机选择一块区域并用特定颜色（如均值像素值）填充，以模拟遮挡效果，提高模型的鲁棒性，如图9-24（d）。（3）图像混叠

图片混叠是一种数据增强技术，通过线性组合两张图像及其对应的标签，生成新的图像和标签，从而增强模型的泛化能力，如图9-24（e）所示。

02智能货柜商品检测9.2.3数据标注

数据标注虽然耗时费力、成本较高，但对于提高模型的性能仍是大有裨益的。本节使用8.2节介绍的图像标注工具MakeSense实施标注任务。

【实例9-8】利用MakeSense对智能货柜数据集进行标注。1.导入数据集2.添加标签3.开始标注4.保存标注文件5.查看标注文件

02智能货柜商品检测9.2.4图像检测模型训练 YOLOv5是一个非常流行的实时对象检测系统，它基于PyTorch框架构建，因其易于使用和强大的性能而广受欢迎。下面介绍如何使用YOLOv5训练智能货柜数据集。【实例9-9】使用YOLOv5m模型对智能货柜数据集进行训练、检测。1.准备环境2.准备数据集3.训练模型4.性能测试5.模型检测

02智能货柜商品检测【任务总结】

智能货柜商品图像检测是现代零售业技术创新的重要组成部分，旨在通过计算机视觉和机器学习技术自动识别和跟踪货柜内商品的状态、种类、数量及位置，从而优化库存管理、提升顾客购物体验。小李通过自己的努力，用所学的专业知识，出色完成了这个智能货柜商品图像检测的任务。在任务实施过程中，小李虽然遇到了一些挑战，例如，货柜内部即周围光照条件的变化，会影响图像质量；商品间的遮挡和重叠会增加检测难度；智能货柜需快速响应顾客操作等等。但他通过对数据集采取针对性的数据增强技术，顺利解决了这些难点。展望未来，他计划结合RFID、重量传感器等其他技术，形成多模态信息融合，进一步提升系统的可靠性和准确性。

03工件瑕疵图像分割9.3工件瑕疵图像分割【任务描述】为提升产品质量控制水平、降低次品率并加速生产流程，某金属件制造公司决定开发一套先进的工件瑕疵图像检测系统。该系统旨在自动检测生产线上的工件表面是否存在瑕疵，如划痕、裂纹、色差等。小张作为一名人工智能技术应用专业毕业的工程师，凭借其在计算机视觉领域的深厚积累，主动请缨承担起了该系统的核心——图像检测算法的研发与优化工作。他希望通过该项目的实施，达成以下关键目标：提高瑕疵检测精度：利用先进的图像处理和机器学习算法，精确识别并分类工件表面的各种瑕疵类型，避免漏检，提升产品质量。加快检测速度：优化图像处理流程与算法效率，减少计算时间，实现高速实时检测，以匹配或超越生产线的速度，避免成为生产瓶颈。降低误报率：通过深入研究光照条件、工件材质、纹理特性等因素对图像检测的影响，开发鲁棒性强的算法，减少因环境因素导致的误报，提高检测结果的可靠性。

03工件瑕疵图像分割【任务实施】9.3.1数据采集

金属件在工业生产中十分常见，随着生产技术和规模的飞速发展，品质要求也越来越高，工业生产中经常需要对金属件的成品或半成品进行质量检验，剔除不合格品。传统工业生产中的瑕疵检测一般是通过人眼观察人脑判断，如图9-46a)所示，不仅耗时费力，且难以保证一致性。目前常用的检验方法则是先通过传感器在线采集产品的图像，再经过计算机视觉技术分析判断是否有瑕疵，如图9-45b)所示。【实例9-10】利用MVS采集工件图像。1.打开MVS软件激活相机2.采集工件图像3.保存图像

03工件瑕疵图像分割9.3.2数据清洗

在本案例的瑕疵检测过程中，面临的主要问题有两个：一是部分瑕疵偏小。小尺寸的瑕疵在图像中具有低信噪比，难以实现精确检测；二是瑕疵部位、形状多样化。数据集中瑕疵样本有限，难以覆盖所有可能的瑕疵。因此，为了有助于这两个问题的解决，本案例的数据清洗在使用第6章图像清洗常用方法的基础上，主要聚焦于利用数据增强增加瑕疵样本数量，和使用AIGC技术生成新瑕疵。1.数据增强

数据增强有很多种方法。在9.2节介绍了色彩抖动、随机遮挡和图像混叠等。本节实例9-10介绍旋转、翻转、加噪和亮度调整。除此之外，数据增强还可通过合成的方法实现，见实例9-11。2.AIGC生成新瑕疵样本

所谓AIGC（ArtificialIntelligenceGeneratedContent,AIGC），是指使用人工智能技术生成的内容，包括文本、图像、音频和视频等。它包括多种技术，通常涉及到深度学习模型，如生成对抗网络（GANs）、变分自编码器（VAEs）和其他机器学习技术。本节利用条件变分自编码器CVAE（ConditionalVariationalAutoencoder）生成新瑕疵样本。

03工件瑕疵图像分割9.3.3数据标注在第8.2节和9.2节，我们了解了图像标注的常用方法，并学习了利用MakeSense完成图像检测任务的标注。但瑕疵检测不仅要检测到瑕疵，更要精确定位瑕疵大小，实现像素级的分割。在本节，我们继续学习利用LabelStudio完成图像分割任务的标注。【实例9-13】利用LabelStudio对工件瑕疵数据进行标注。1.安装LabelStudioLabelStudio是一款开源的数据标注工具，它允许用户通过直观简洁的界面来对音频、文本、图像、视频和时间序列等多种类型的数据进行标注，并能导出多种模型所需格式。此工具适用于原始数据处理或增强现有训练数据，以获得更精确的机器学习模型。LabelStudio有多种安装方式，这里介绍基于虚拟环境的安装过程。2.建立项目3.导入数据4.建立标签5.开始标注6.导出标注数据7.查看标注

03工件瑕疵图像分割9.3.4图像分割模型训练在工业场景中，产品外观瑕疵检测是质量监控管理中一个常见任务，它

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据采集、清洗与标注 课件 第9章数据处理全过程案例

文档简介

温馨提示

最新文档

评论

相关文档

数据采集、清洗与标注课件第9章数据处理全过程案例