版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能数据服务第二章数据采集技术第二章数据采集技术在人工智能系统的整个生命周期中,数据始终扮演着至关重要的角色。无论是基础算法的训练,还是模型部署后的推理与优化,数据的质量与获取方式都直接影响着最终应用的效果与可靠性。数据服务作为支撑人工智能发展的核心环节,其第一步就是对原始数据的高效采集与获取。随着AI技术在各行业的快速渗透,数据采集不再是简单的信息收集行为,而是一个涉及多源融合、格式规范、实时更新、合规控制等要素的复杂过程。不同应用场景对数据的要求差异显著,从网页文本到传感器信号,从结构化报表到非结构化图像,不同类型的数据采集手段各具特点,技术挑战和实施策略也不尽相同。接下来,我们将从数据采集的基本概念谈起,首先明确其定义、核心目标与在人工智能系统中的关键作用。概述2.1数据采集的基本概念2.2数据采集方法2.3数据格式与标准化2.4合规性管理2.5小结2.6习题2.7课后拓展3目录
目录2.1数据采集的基本概念2.1
数据采集的基本概念数据采集作为人工智能数据服务流程中的起点,其基本概念和目标决定了后续整个数据处理链条的效率与质量。在深入学习各类采集技术与实现路径之前,我们首先需要从整体上理解数据采集的内涵:它不仅关乎“获取数据”,更涵盖了“获取哪些数据”“为何而采”“如何采集”“如何保障”等关键问题。只有在明确这些基础认识的前提下,后续的采集策略设计与工程实现才能具备方向性与系统性。章节概述2.1.1
数据采集的定义及核心目标通过一定的技术手段和程序规范,从特定数据源中获取原始数据的过程。这些数据可以是结构化的(如表格数据)、半结构化的(如JSON、XML),也可以是非结构化的(如图像、视频、文本、语音等)。定义2.1.1
数据采集的定义及核心目标数据采集的核心目标与价值路径如图2-1所示。图2-1数据采集的核心目标与价值路径2.1.1
数据采集的定义及核心目标图2-2展示了数据采集分类维度之间的关系:图2-2数据采集分类结构图2.1.2
数据采集的体系分类数据采集是构建人工智能系统的首要环节。从工程实践的角度来看,数据采集可以根据数据特性、采集方式和应用场景等多个维度进行分类,这些分类方式相互关联又各有侧重,共同构成了完整的数据采集知识体系。概念2.1.2
数据采集的体系分类以智慧城市建设为例,既需要采集结构化的交通流量数据,也要处理非结构化的监控视频;既通过路况检测车主动获取特定区域信息,也利用卡口系统被动记录车辆通行情况;同时还要整合交通管理专业数据和气象等通用数据。建立全面的分类认知,根据具体需求设计出最优的采集方案,为后续的数据处理和模型训练奠定坚实基础。实际项目运用2.2数据采集方法2.2数据采集方法数据采集常见的方法包括:1.网络数据爬取2.物联网设备采集3.第三方API接入2.2.1网络数据爬取网络数据爬取是人工智能数据采集环节中最为常见且应用广泛的技术路径之一。主要应用构建训练集、扩展语料资源、收集行业信息等任务中。通过模拟人工浏览网页的行为,网络爬虫程序能够自动化地从网站页面中提取结构化或半结构化信息,从而为机器学习模型提供原始数据支持。一个标准的网络爬虫系统通常由请求下载模块(Downloader)、页面解析模块(Parser)与数据存储模块(Storage)三大核心组成。概念2.2.1网络数据爬取下面以八爪鱼爬取携程网站景点评论为例,简述网络爬取数据的流程。(1)首先,登录八爪鱼官网下载八爪鱼爬虫工具,登录界面如图2-3所示。图2-3
八爪鱼官网2.2.1网络数据爬取(2)双击安装文件,选择安装路径,如图2-4所示,安装八爪鱼爬虫工具。图2-4选择安装路径2.2.1网络数据爬取(3)安装完成后,勾选“运行Octopus”,点击“完成”,如图2-5所示。图2-5安装完成2.2.1网络数据爬取(4)首次运行软件,需选择登录方式,登录界面如图2-6所示。图2-6八爪鱼登录界面2.2.1网络数据爬取在八爪鱼桌面版的主界面中,用户可以通过左侧导航栏快速进入各项任务操作界面,实现网页数据的可视化采集与任务管理。左侧导航栏·新建:可新建任务或任务组,支持自定义任务。·任务:展示当前账号下的所有采集任务,包括用户自己创建的“自定义任务”与平台推荐的“模板任务”。用户可在此启动、编辑、删除、复制任务,也可查看任务运行历史记录。·模板:提供官方预设的常用网页采集模板,适合新手快速上手。例如:电商评论采集、新闻标题采集、百度百科条目抓取等。用户可一键使用或进行简单修改。·工具:集成了一些辅助功能,如账号登录管理、变量设置、代理设置、计划任务等,用于增强任务的稳定性与定时执行能力。·价格:显示当前账户所使用的版本及资源配额情况,并提供升级至高级版/企业版的入口,包括功能比较与费用说明。2.2.1网络数据爬取八爪鱼主页面的设计旨在兼顾新手上手效率与高级用户灵活性,通过图形化流程构建、模块化任务配置与丰富的模板资源,帮助用户在无需编程基础的前提下快速完成网页数据采集。(5)八爪鱼首页如图2-7所示。图2--7八爪鱼首页2.2.1网络数据爬取下面以携程旅行网站中越秀公园景点评论网页为例,找到目标爬取网页。(6)打开携程官网在顶部搜索栏中输入“越秀公园”,如图2-8所示。图2--8携程旅行网搜索“越秀公园”2.2.1网络数据爬取(7)网页跳转至“越秀公园”景点,越秀公园景点评分4.5分,图2-9所示。图2-9越秀公园景点网页2.2.1网络数据爬取(8)有3002条点评数据,向下滚动网页,即可查看点评数据,图2-10所示。图2-10越秀公园景点评论2.2.1网络数据爬取(9)复制携程越秀公园景点网址,返回八爪鱼软件,点击导航栏中“新建”-“自定义任务”,如图2-11所示。图2-11新建自定义任务2.2.1网络数据爬取(10)在任务网址栏输入携程越秀公园景点网址,并单击“保存设置”,如图2-12所示。图2-12将携程越秀公园网址输入八爪鱼2.2.1网络数据爬取(11)越秀公园景点网址在八爪鱼软件中打开,如图2-13所示。图2-13在八爪鱼中打开携程越秀公园景点网址2.2.1网络数据爬取(12)因评论数量较多,因此需要设置循环多页爬取:向下滚动当前网页,点击页面底部的“下一页”,在右侧操作提示中点击“循环点击下一页”,如图2-14所示。图2-14设置循环爬取“下一页”2.2.1网络数据爬取(13)单击鼠标左键,选中一个完整的评论,此时评论整体应呈现蓝色选中状态,在右侧操作提示中点击“选中全部子元素”,如图2-15所示。图2-15选择“选中全部子元素”2.2.1网络数据爬取(14)此时所有评论出现红色虚线框,呈现选中状态。如图2-16所示。图2-16所有评论为选中状态2.2.1网络数据爬取(15)在右侧操作提示中,点击“选中全部相似组”,即可在页面下方看到多条评论的数据览,如图2-17所示。图2-17评论数据预览2.2.1网络数据爬取(16)在右侧操作提示中,点击“元素中数据内容”,再单击页面右上角蓝色的“采集”按钮,将弹出采集模式选择页面,如图2-18所示。图2-18选择采集模式2.2.1网络数据爬取(17)选择本地采集,单击“普通模式”,数据采集开始。左上方圆圈内数字表示当前数据采集条数,下方页面数字表示当前的采集进度,如图2-19、2-20示。图2-19采集进度图示1—已采集数据3页50条图2-20采集进度图示2—已采集数据10页197条2.2.1网络数据爬取(18)如果需要完整数据,可等待采集结束。如果只需要一部分数据,可点击右上方“停止”按钮。采集停止页面如图2-21所示。图2-21采集停止页面2.2.1网络数据爬取(19)单击“导出数据”,如果有重复数据,八爪鱼软件会提示是否去重,如图2-22所示。图2-22提示去重数据页面2.2.1网络数据爬取(20)选择导出数据的文件类型或数据库类型,本案例选择excel。如图2-23所示。图2-23导出文件类型选择页面2.2.1网络数据爬取(21)选择文件保存的路径,并为数据文件命名为“广州越秀公园-携程评论”,如图2-24所示。图2-24选择文件路径及命名页面2.2.1网络数据爬取(22)根据数据量不同,需要等待数据导出,导出完成后即可查看或使用数据文件,如图2-25所示。点击“打开文件”,查看已导出的评论数据。图2-25
导出数据界面2.2.1网络数据爬取(23)在评论数据的excel中,可以查看到每条评论的评分、评论内容、评论日期、IP属地等相关信息,如图2-26所示。图2-26
导出的数据文件%截图2.2.2物联网设备采集·设备选型与部署:根据采集目标选择合适的设备类型(如环境监测、视觉采集、语音拾取等),并合理布设设备网络。·数据通信协议:不同设备之间常通过MQTT、CoAP、HTTP、LoRaWAN、NB-IoT等协议进行数据传输,需根据功耗、带宽与网络可达性合理选择。·边缘计算与预处理:为了减少数据传输压力和延迟,许多场景会在采集节点部署边缘计算模块,实现初步数据清洗、格式转换与特征提取。·数据平台接入:设备采集的数据需统一上传至IoT平台或大数据中心,并通过中间件系统进行汇聚与结构化管理。物联网采集关键环节2.2.3第三方API接入·地图与地理信息服务:如高德地图API、百度地图API、GoogleMapsAPI等,提供地理位置解析、路径规划、实时交通、地理围栏等服务。·社交媒体与舆情平台:如新浪微博开放平台、TwitterDeveloperAPI、知乎API(非官方)等,允许合法获取用户发言、评论互动与舆情热度数据。·金融数据接口:如聚宽、雪球、同花顺等平台提供股票行情、财务报表、宏观经济指标等API,供金融分析与建模使用。·天气与气象服务:如中国气象局API、OpenWeather、和风天气API等,提供历史与未来的气象数据、气象灾害预警等。·政务与公共数据接口:各地政府开设的“开放数据平台”通过API形式提供社保、教育、交通、环保等数据,支持科学研究和智慧城市建设。第三方API应用场景2.3数据格式与标准化2.3数据格式与标准化在人工智能数据服务体系中,原始数据的多样性决定了其在存储、传输、处理与分析过程中面临复杂的格式与标准问题。数据格式与标准化影响模型训练的效率与性能,关系到数据能否在不同系统间高效流通与复用。概念2.3.1
常见数据格式人工智能涉及的数据类型繁多,涵盖结构化、半结构化与非结构化三大类,其对应的数据格式各有特点。结构化数据是指具有明确行列结构的数据,常见于数据库与表格中。定义2.3.1
常见数据格式结构化数据格式·CSV(Comma-SeparatedValues):以逗号分隔的纯文本格式,广泛用于机器学习模型的数据输入,优点是可读性高、兼容性强;·XLS/XLSX(Excel):常见于业务场景,支持多表单与复杂格式,但对于大规模训练任务,转换为CSV或数据库格式更为高效;·SQLDump:关系型数据库的转储格式,用于系统迁移或批量处理。半结构化数据格式:这类数据具有一定的标签或结构信息,但不如表格严格。·JSON(JavaScriptObjectNotation):轻量级的数据交换格式,层级结构清晰,常用于WebAPI返回;·XML(eXtensibleMarkupLanguage):早期广泛用于文档结构表达,支持复杂标签定义,适合对数据结构有严格要求的系统;·YAML(YAMLAin'tMarkupLanguage):可读性较好,常用于配置文件或小规模数据注释。2.3.1
常见数据格式非结构化数据格式·图像:JPEG、PNG、BMP等格式,用于计算机视觉任务;·音频:WAV、MP3、FLAC等,用于语音识别、音频分类;·视频:MP4、AVI、MOV等,用于行为识别、视频摘要等;·文本:TXT、DOCX、PDF等,广泛用于NLP任务。2.3.2
元数据管理元数据分类·技术元数据:记录数据的结构信息(如字段名、类型、长度、编码格式等)和存储路径,常见于数据库与数据仓库系统;·业务元数据:提供字段的业务含义、取值范围、使用场景,帮助不同部门理解数据内容的一致性;·过程元数据:记录数据的产生过程、加工环节、处理工具、变换规则等,常用于数据血缘(DataLineage)分析;·安全元数据:描述数据的访问权限、分类等级、脱敏状态等信息,支持数据权限控制与合规管理。2.4合规性管理2.4
合理化管理合规性管理指的是确保数据的收集、使用、共享等活动符合相关法律法规和制度要求,保障数据安全和个人隐私。这一过程要求企业在技术实践与管理流程中同步考虑法律义务,建立完善的内部制度来防范风险。在我国,国家相继出台了《数据安全法》《个人信息保护法》等重要法规,对数据生命周期各环节提出了明确的合规要求。概念2.4.1
隐私保护技术隐私保护是数据合规管理的核心内容。中国的《中华人民共和国个人信息保护法》《中华人民共和国数据安全法》等法律对数据的采集、处理和共享设定了严格规范,要求企业既要遵守法律制度流程,也应结合必要的技术手段保障个人信息安全。定义2.4.2
数据授权与审计在人工智能项目中,应明确数据使用权限、获取合法授权、实施审计监督。数据作为关键资产,不同主体对其享有权益,需通过制度界定使用范围,确保处理过程留痕可查、责任可追溯。有效的数据授权与审计机制不仅响应法规要求,也是防范数据滥用、保障安全的关键举措。
概念2.4.2
数据授权与审计·权限界定:明确数据使用范围在数据采集与利用前,应明确数据使用权限,包括用途、访问对象及超范围界定。需遵循“目的限定”“最小必要”原则,若改变数据用途,需重新征得同意(依据《个人信息保护法》第十四条)。通过制度化权限管理,防止权限滥用与合规风险。·授权获取:确保合法使用数据处理须取得合法授权,包括用户同意和第三方数据许可。个人信息处理需自愿、知情同意(依据《个人信息保护法》第十三、十四条)。内部应设审批流程,重大数据项目需经权限审核后方可实施,确保合规可控。关键措施2.4.2
数据授权与审计·责任划分:明确各方职责在多方参与数据处理时,应通过合同明确责任边界。委托处理时,委托方需监督受托方合规操作。内部可推行“数据资产负责人”制度,指定各类数据的管理人,确保合规落实和快速响应安全事件。·访问控制:防止越权与滥用企业应依据“最小权限原则”,为员工分配最少必要的数据访问权限,并通过身份认证、权限分级、加密存储等技术手段防止越权访问。对数据提取、传输行为应设置审批与监控,保障敏感数据安全。关键措施2.4.2
数据授权与审计·日志审计:保障过程可控与可追溯系统需记录完整的数据操作日志,保存访问、修改、删除等行为记录,确保异常可追溯。企业应定期审计数据使用活动,发现并整改违规行为,必要时引入第三方独立审计,强化责任追究和规范操作。·数据资产管理与责任追溯通过建立数据台账、指定数据责任人,实现数据资源清晰可控。日志记录与权限管理形成完整操作链路,一旦发生安全事件,能够快速锁定责任人并追责。结合绩效考核与问责制度,形成技术与管理并重的合规闭环。关键措施2.5小结2.5小结本章系统介绍了人工智能数据采集的基本概念、常用方法、格式标准及合规要求。通过对网络爬取、物联网采集和API接入等主流技术路径的解析,读者可以全面了解数据从获取到入库的关键流程。同时,本章强调了数据格式统一与元数据管理的重要性,帮助提升数据处理效率与一致性。合规性方面,通过介绍隐私保护技术与授权审计机制,强化了数据采集过程中的安全与合法性意识。整体内容为后续数据预处理与标注等模块的学习奠定了基础。2.6习题2.6
习题一、选择题1.以下哪项不是数据采集的核心目标()A.保证数据的真实性和时效性B.提高数据模型的复杂度C.降低采集冗余和成本D.符合法律法规要求。2.在网络爬虫系统中,负责将网页结构化信息提取出来的组件是()A.下载器(Downloader)B.存储器(Storage)C.解析器(Parser)D.调度器(Scheduler)3.以下关于物联网数据采集的描述,错误的是()A.采集设备通常具有自动上报功能B.数据具有高度实时性和精度C.不需要考虑采集频率和稳定性D.常用于智慧城市、工业监控等
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 靶向PD-L1的抗体偶联药物在非小细胞肺癌中的疗效研究报告
- 自然语言处理(微课版)课件 第5-9章 情感分析-对话系统
- 一级建造师考试(机电工程管理与实务)题库含答案(2025年绵阳)
- 抚顺市一级建造师考试(机电工程管理与实务)题库含答案(2025年)
- 2025年广东梅州一级建造师考试(机电工程管理与实务)题库含答案
- 2026年从“五方面人员-驻村工作队员”中选拔乡镇领导班子成员考试卷附答案解析(廊坊)
- 2026年海南省遴选公务员考试职业能力倾向测试复习题及答案
- 小儿腮腺炎的中医护理方法
- 2026年浙大宁波理工学院公开招聘事业编制工作人员5人易考易错模拟试题(共500题)试卷后附参考答案
- 2026年泰州医药高新技术产业开发区质量安全监督站招考易考易错模拟试题(共500题)试卷后附参考答案
- 2026上半年四川遂宁产业投资集团有限公司招聘11人笔试历年备考题库附带答案详解
- 2026年镇江市交通运输系统事业单位人员招聘考试备考试题及答案详解
- 2026年昆明市政务服务中心(综合窗口)人员招聘考试备考试题及答案详解
- 2026年上海市高考语文备考之古诗鉴赏答题总结梳理
- 2026智能体原生网络AN白皮书
- 2026年中考道德与法治考前冲刺复习:常考考点答题模板分类汇编
- 2026中华全国供销合作总社直属事业单位招聘27人考试参考题库及答案解析
- 事故隐患排查治理基本知识
- 煤矿防治水知识培训
- 2026江铜铜箔科技股份有限公司第一批次春季校园招聘89人建设笔试参考题库及答案解析
- 2026年建安杯信息通信建设行业安全竞赛重点题库(新版)
评论
0/150
提交评论