版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据采集分析技术交底(标准范本)1前期准备阶段作业要求1.1需求确认规范本交底覆盖所有数据采集分析类项目的全流程作业,所有参与人员必须在作业前完成需求的书面确认,口头需求、未签字确认的需求一律不得作为作业依据。需求确认需覆盖3个核心维度:一是采集边界,明确数据来源系统、采集字段范围、采集频率、存储周期,严禁超范围采集未授权字段;二是分析维度,明确需求方需要的分析类型,是描述性统计分析、关联关系分析、趋势预测分析还是决策支持类分析,每个分析维度的具体计算口径必须提前达成一致;三是输出成果,明确是周期性报表、实时可视化看板、专项分析报告还是可落地的业务优化方案,以及成果的交付形式、交付周期。所有需求确认内容必须留存书面记录,由需求方对接人、项目技术负责人共同签字后存档,若后续出现需求变更,需求方必须提交书面变更申请,经项目组评估影响范围、调整作业计划后方可执行,禁止私自调整需求内容。序号核验项核验标准核验责任人核验记录备注1采集边界确认明确采集数据的来源、字段范围、采集频率、存储周期,无模糊表述,需求方签字确认项目对接人需填写确认文件编号涉及敏感数据的需额外附合规审核意见2分析维度确认所有分析维度的计算口径统一,比如留存率定义、同比环比统计周期、转化率核算逻辑,无歧义数据分析师需附口径说明文档编号预测类分析需明确精度要求3输出成果确认明确成果形式、交付节点、验收标准,避免出现“尽可能详细”“效果好”等模糊要求项目负责人需填写成果交付清单编号定制化开发的看板需附原型图4合规性前置审核采集的字段、用途符合《数据安全法》《个人信息保护法》及行业监管要求,无违规内容合规专员需填写合规审核意见书编号政务类、医疗类数据需额外附主管部门批文5资源配置确认采集服务器、存储资源、分析算力满足项目峰值需求,无资源缺口运维工程师需填写资源评估报告编号超10亿条数据的项目需提前扩容分布式存储集群1.2工具选型与调试要求工具选型优先选用合规授权、性能稳定的工具,禁止使用破解版、未授权的商业软件,避免版权纠纷。采集工具选型要求:API接口类采集优先选用支持断点续传、自动重试、流量控制的工具,轻量级采集可使用Pythonrequests、Scrapy框架,企业级采集可选用神策数据采集SDK、八爪鱼企业版,接口调用频率需控制在目标系统公布的限流上限的70%以内,单次请求超时时间设置为15s,重试次数不超过3次,每次重试间隔不低于10s,避免触发目标系统的反爬策略;物联网设备类采集需提前匹配设备的通信协议,MQTT、Modbus、OPCUA等协议的解析插件必须经过兼容性测试,采集终端固件统一升级到指定稳定版本,禁止使用测试版固件;线下调研类采集优先选用支持离线填报、自动同步的工具,比如问卷星企业版、金数据,填报字段设置必填校验、格式校验,避免无效数据提交。分析工具选型要求:100万条以内的小体量数据可使用Excel、Tableau桌面版,100万条-10亿条的中大体量数据使用PythonPandas、SparkSQL,10亿条以上的超大体量数据或者实时分析场景使用Hive、Flink实时计算引擎,所有工具的插件、依赖包必须经过病毒扫描,避免植入恶意代码。工具调试必须在测试环境完成至少3次全流程模拟作业,模拟数据量不低于实际采集量的20%,确认采集成功率≥99.5%、数据准确率≥99%、分析耗时满足交付要求后,方可进入正式作业环节,调试过程中产生的测试数据必须在调试完成后72小时内彻底删除,避免与正式数据混淆。1.3现场勘查与环境适配要求线下采集场景(工业设备数据、线下门店客流、政务窗口办事数据等)必须提前72小时完成现场勘查,确认3项核心条件:一是供电条件,采集终端需接入不间断电源,断电后UPS备用电源可维持至少4小时运行,避免断电导致数据丢失;二是网络条件,有线网络带宽不低于10Mbps,无线网络信号强度≥-70dBm,丢包率≤1%,偏远无网络覆盖的区域需配备4G/5G工业路由器,支持离线缓存数据,网络恢复后自动同步;三是安装条件,采集终端安装位置避开高温、高湿、强电磁干扰区域,工业场景禁止安装在电机、高压柜附近,门店场景禁止安装在空调出风口、阳光直射位置,安装高度符合现场安全要求,不能影响正常生产经营。线上采集场景需提前确认目标系统的访问权限,需要VPN、白名单授权的,提前将采集服务器的IP地址提交到目标系统的白名单中,测试访问正常后再启动采集作业,避免被防火墙拦截。2数据采集实施规范2.1分场景采集作业标准不同场景的采集作业必须遵循对应行业的监管要求,严禁违规作业:政务数据采集:严格遵循政务数据共享的相关规定,凡是涉及个人身份信息、生物识别信息、财产信息的敏感字段,必须提前获得个人授权或者政务主管部门的正式批文,采集过程全程留痕,所有操作日志保存至少3年,禁止采集超出需求范围的字段,比如需求仅需要用户办事时间、办事事项的,不得采集用户身份证号、手机号等敏感信息,确需采集的必须在采集前端做不可逆脱敏处理,手机号中间4位替换为星号,身份证号仅保留前6位和后4位,脱敏后的数据不得反向还原。互联网行为数据采集:必须在用户首次访问应用时弹出隐私授权弹窗,明确告知用户采集的字段、用途、存储周期,用户明确同意后才可启动采集,禁止在用户未授权的情况下后台采集用户剪切板内容、精准地理位置、通讯录等敏感信息,采集的行为数据包括页面访问路径、停留时长、点击事件,每个事件必须带唯一事件ID、用户匿名ID、毫秒级时间戳,禁止关联用户的真实身份信息,除非用户单独授权。工业物联网数据采集:采集频率根据设备的风险等级确定,高风险设备比如压力容器、化工反应釜的采集频率不低于1次/秒,普通生产设备的采集频率不低于1次/分钟,采集字段包括设备运行电压、电流、温度、压力、转速、开关机状态,每个字段必须带设备唯一编码、采集时间戳,时间误差不超过1秒,采集作业不得影响设备的正常运行,禁止向设备发送控制指令,除非获得设备运维部门的书面授权。线下调研数据采集:调研问卷不得设置诱导性问题,敏感问题比如收入、健康状况需设置为非必填,禁止强迫用户填写,调研数据必须匿名存储,不得关联用户的联系方式,调研完成后原始问卷数据保存周期不超过6个月,到期自动删除。序号场景类型采集频率敏感字段处理要求留痕要求备注1政务数据采集按需求方要求,最高不超过1次/小时前端不可逆脱敏,加密存储操作日志保存3年以上跨部门共享数据需附共享协议2互联网行为数据采集事件触发时实时采集匿名化处理,禁止关联真实身份采集规则留痕,保存1年以上需符合《网络安全法》相关要求3工业物联网数据采集高风险设备≥1次/秒,普通设备≥1次/分钟设备编码与生产数据隔离存储采集日志保存2年以上高危行业需符合安全生产监管要求4线下调研数据采集单次填报敏感字段非必填,匿名存储调研问卷留痕,保存6个月以上市场调研类数据不得用于其他用途2.2字段采集规范所有采集字段统一采用下划线命名法,全小写,禁止使用中文、特殊字符作为字段名,比如user_id、event_time、device_code,每个字段提前定义数据类型和校验规则:字符串类型明确最大长度,整型明确取值范围,浮点型明确保留小数位数,布尔型明确0/1对应的含义,时间戳统一采用yyyy-MM-ddHH:mm:ss.SSS格式,精确到毫秒。采集过程中禁止随意修改字段名、数据类型,确需调整的必须提交变更申请,经技术负责人批准后执行,同时同步更新字段映射表,避免后续分析出现字段不匹配的问题。序号字段名数据类型字段说明校验规则是否必填1data_id字符串每条采集记录的唯一标识32位UUID,无重复是2collect_timedatetime数据采集的时间精确到毫秒,不能为空是3source_code字符串数据来源的系统/设备编码长度不超过20位,符合编码规则是4data_status整型数据的状态标识0=正常,1=异常,2=待核验是5user_anon_id字符串用户匿名唯一标识长度32位,无真实身份关联否(非用户类场景无需填写)6device_code字符串设备唯一编码长度不超过20位,与设备台账一致否(非设备类场景无需填写)7event_type字符串事件类型编码符合预先定义的事件编码规则否(非事件类场景无需填写)2.3传输与存储要求数据传输必须采用加密协议,API传输采用HTTPS协议,物联网设备传输采用MQTTTLS加密协议,禁止使用HTTP明文传输,传输过程中每个数据包附带MD5校验值,接收端收到数据包后先校验完整性,校验不通过的自动发起重传请求,大体积数据采用分片传输,每个分片大小不超过10MB,避免传输失败导致全量重传。正式采集的数据必须存储在项目指定的服务器或者合规云存储中,禁止存储在个人电脑、私人云盘等非授权存储介质中,数据按敏感等级分类存储:一般数据存储在普通数据库,敏感数据存储在加密数据库,密钥由专人保管,访问权限仅开放给指定作业人员,数据存储周期严格按照需求确认的周期执行,到期后自动彻底删除,不可恢复。3数据预处理作业标准3.1数据清洗规范数据清洗需按顺序完成3个步骤,每一步完成后必须核验质量,不合格的重新清洗:第一步去重:按照data_id主键去重,无主键的按照唯一标识组合(比如用户匿名ID+时间戳+事件类型)去重,去重后的数据重复率必须≤0.01%,超过标准的要排查是否是采集工具配置问题导致的重复提交。第二步缺值处理:必填字段缺失的记录直接标记为无效数据,剔除出分析样本;非必填字段缺失的,若字段缺失率≤5%,采用同维度均值、中位数或者众数填充,若字段缺失率≥20%,直接舍弃该字段,不纳入分析维度,避免影响分析结果的准确性。第三步异常值处理:采用3σ原则或者箱线图法识别异常值,比如设备温度正常范围是20-80℃,若出现150℃或者-10℃的异常值,先核验是否是设备故障、采集误差导致的,若是则直接剔除,若属于正常的极端情况则保留,但要在分析报告中单独标注说明,异常值占比必须≤1%。3.2数据转换规则所有字段统一编码格式为UTF-8,禁止出现GBK、ISO-8859-1等其他编码导致的乱码,分类变量比如性别、设备状态、事件类型要做独热编码或者标签编码,数值型变量要做标准化或者归一化处理,比如收入字段范围是0-100万,年龄字段范围是0-100,统一标准化到0-1区间,避免不同维度的数值差异过大影响分析结果。跨系统采集的数据要统一计量单位,比如重量单位统一为千克,长度单位统一为米,货币单位统一为人民币元,避免出现单位不统一导致的计算错误。3.3数据标注要求用于机器学习建模的数据集,标注人员必须经过统一培训,掌握统一的标注规则,标注准确率≥95%,标注过程中采用交叉核验机制,每100条标注数据抽取10%做交叉检查,准确率低于90%的标注人员的所有标注数据必须重新标注,标注完成后要随机抽取20%的样本由资深标注人员做最终核验,合格后方可进入建模环节。序号核验项合格标准核验频率核验责任人1数据重复率≤0.01%每批次数据清洗完成后数据清洗人员2必填字段缺值率0每批次数据清洗人员3异常值占比≤1%每批次数据清洗人员4编码一致性100%UTF-8编码,无乱码每10批次技术负责人5标注准确率≥95%建模类数据集每批次标注组负责人4数据分析作业规范4.1描述性分析要求描述性分析首先要完成基础统计,包括总量、均值、中位数、最大值、最小值、方差、趋势变化,同比、环比计算必须统一口径:同比为与上一年同期对比,环比为与上一个统计周期对比,统计周期明确为日、周、月、季度,若统计周期内存在特殊影响因素,比如春节假期、疫情封控、大型促销活动,要在分析报告中单独说明,剔除特殊因素后再做对比,避免得出错误结论。所有统计数值保留2位小数,百分比保留1位小数,数值波动超过10%的必须说明波动原因,比如“本月销售额环比下降12.5%,主要原因是上月618大促透支了消费需求,本月无大型营销活动”,禁止只列数据不做解释。4.2关联分析与预测分析要求关联分析采用皮尔逊相关系数、斯皮尔曼相关系数,相关系数绝对值≥0.7的判定为强相关,≤0.3的判定为弱相关,不纳入关联结论,避免伪相关,比如“冰激凌销量与溺水死亡人数正相关”不能得出“冰激凌导致溺水”的结论,必须说明是气温升高这一共同因素导致的两类数据同步增长。预测分析采用至少2种模型对比验证,时间序列预测采用ARIMA和Prophet模型对比,分类预测采用逻辑回归和XGBoost模型对比,选择准确率、召回率、F1值更高的模型作为最终模型,模型准确率必须≥85%才可投入使用,模型每3个月用新的数据集重新训练迭代一次,避免模型过时失效,预测结果要标注置信区间,比如“预计下月用户增长12%-15%,置信度95%”,禁止给出绝对化的预测结论。4.3成果输出规范分析报告必须包含背景说明、数据来源、分析方法、分析结论、建议措施5个部分,所有结论必须有数据支撑,禁止出现“可能”“大概”“应该”等模糊表述,建议措施必须可落地,比如不能只写“要提升用户活跃度”,要写“建议针对停留时长超过3分钟但未下单的用户推送5元满减优惠券,优惠券有效期24小时,预计可提升转化率8%左右”。数据可视化选择适配的图表类型:趋势分析用折线图,占比分析用饼图或环形图,对比分析用柱状图,分布分析用散点图或直方图,禁止使用过于花哨、不易理解的图表,所有图表必须带标题、坐标轴说明、数据来源、单位,无单位的图表视为无效成果。5质量管控与核验要求5.1全流程质控节点设置全流程设置3个强制质控节点,未通过核验的不得进入下一个环节:第一个节点为采集完成节点,核验采集成功率和字段完整率,采集成功率≥99%、字段完整率≥99.5%为合格,低于标准的要排查是接口故障、网络问题还是采集工具配置问题,重新采集缺失的数据。第二个节点为预处理完成节点,按照数据预处理质量核验指标表的要求核验数据质量,不合格的重新清洗。第三个节点为分析完成节点,核验分析结论的准确性和建议的可行性,抽取至少20%的分析样本做交叉验证,确认结论与数据一致、逻辑通顺、建议可落地,不合格的重新分析。序号质控节点核验内容合格标准核验方式1采集完成节点采集成功率、字段完整率≥99%、≥99.5%系统自动核验+人工抽查1%的记录2预处理完成节点重复率、缺值率、异常值占比、编码一致性符合预处理质量标准系统自动核验+人工抽查5%的记录3分析完成节点结论准确性、建议可行性、成果规范性100%符合逻辑、可落地、格式规范项目负责人100%人工核验5.2问题追溯与整改所有发现的质量问题都要录入问题台账,明确问题原因、责任人、整改时限、整改结果,一般问题比如少量数据缺失,整改时限不超过24小时;重大问题比如超范围采集、分析结论错误,整改时限不超过72小时,整改完成后重新核验,合格后方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑幕墙工程中空玻璃气体层厚度要求制定方法选择
- LBS商家系统测试课程设计
- 13.5 能量量子化同步练习-2022-2023学年高二物理上学期(人教版2019必修第三册)
- 医院感染的诊断
- 外科骨折固定术后功能训练教程
- 预防医学科疫苗接种注意事项要点
- 儿童呼吸道抗病毒药应用
- 启动系统设计
- 电池拆卸设计讲解
- 景桥设计课程
- TSG08-2026《特种设备使用管理规则》全面解读课件
- 2024年贵州省贵阳市中考生物地理试题(含答案解析)
- 2024年江苏高考地理试卷试题真题及答案详解(精校打印版)
- DL-T5796-2019水电工程边坡安全监测技术规范
- 中成药学-第17章-安神中成药
- 第十一讲风能及其利用
- 课题评审活动策划方案
- 小学一年级数学看图列算式
- 国企廉洁从业培训-《严守纪律底线、坚持廉洁从业》课件
- “以字行腔”在中国民族声乐教学中的实践与运用
- 电动葫芦检查记录表
评论
0/150
提交评论