版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据收集与质量控制目录01数据收集方法02数据质量分析03数据分布与拆分数据收集方法01公开数据集由政府、学术机构等发布,数据经过处理,结构化存储,质量较高,如政府统计数据集。数据交易平台则将数据作为商品交易,涵盖市场调研、消费者行为等数据,但需在法律许可范围内进行。API接口是常见获取方式,通过发送请求到指定URL获取数据,如天气预报、新闻网站API。RSS订阅可获取订阅源最新信息,如博客、新闻网站更新。API接口与RSS订阅数据质量高,但可能存在更新不及时、数据维度有限等问题。需关注数据的时效性和适用性,确保满足分析需求。优势与局限公开数据集与交易平台(对接现有数据集)网络爬虫模拟人类浏览行为,自动访问互联网提取数据,可获取社交媒体等平台的公开信息。但需遵守法律法规,避免侵犯隐私和版权。网络爬虫技术网络爬虫
一个系统如果希望使用外部离线数据(通常是干净的结构化数据),会在系统中开发一个“数据导入”功能,离线读取外部数据文件。如图4-1所示,系统A产生的数据被保存在数据文件中,当系统B需要该数据时,会向A的团队提出申请,A的团队如果同意,就会导出该数据文件,发给B的团队,B的团队在自己的系统中写好“数据导入”程序,去读取该数据文件,从而获得数据,获得的数据会保存在B的系统中。文件导入数据导入
如果需要在线共享现有系统中的数据,比较有效的办法就是开发称为“数据接口”的程序,研究者们希望通过这个接口去实时获取现有系统的数据。如图4-2所示,程序A在运行过程中产生的数据可以被实时传输给程序B,程序B有一个专门接收这些数据的“接口”,通过这种方式,程序B可以实时共享程序A允许它共享的数据。文件导入共享数据01区块链技术构建去中心化的数据共享平台,数据加密存储和传输,通过智能合约实现安全交换。物联网设备如传感器、RFID可实时采集数据,广泛应用于工业生产、生活场景。区块链与物联网02微信公众号、小程序通过分析用户行为收集数据,如广告互动、挂号信息等,为数据分析提供丰富资源。微信公众号与小程序03调查法、观察法收集的数据需人工输入,如问卷调查、实地考查等。系统自身产生的数据也是重要来源,如学分制管理系统数据。人工输入与系统生成特殊数据收集方式数据质量分析02异常数据不一定是虚假数据,检查数据中是否有异常数据,了解异常数据所占的比例,是必不可少的环节。有人说:在中国所有股民中,炒股的战绩是一赚二平七亏(10%的投资者赚钱,20%的投资者平手,70%的投资者亏损)。在这种背景下,发现某股民A在一年之内没有亏损记录,且将100万资金通过炒股变成了30
000万,这些极小概率事件不足以作为分析事物普遍规律的样本(见图4-9),是希望检测出的,当分析股民盈利行为时,有可能将A视作异常数据。异常数据检测简单统计法基于数据分布特征,如均值、标准差等,将超出一定范围的数据点视为异常值。例如,某小学四年级学生身高数据中,1.02米的数据点超出3个标准差,可判断为异常值。统计方法异常数据检测异常数据检测异常数据检测如果某个数据点与均值的差异超过了一定数量的标准差,就可以将其视为异常值。一般来说,超过3个标准差的数据点可以被视为异常值。使用均值检测异常值的流程为:异常数据检测异常数据检测异常数据检测异常数据检测异常数据检测异常数据检测异常数据检测异常数据检测箱线图法异常数据检测该箱线图中以k=1.5来检测异常值,箱线图矩形盒的上下边分别对应上四分位数Q3与下四分位数Q1,红线代表数据集的中位数,蓝色虚线代表数据集的均值,箱线图顶端与末端线条分别对应除异常值外的最大值与最小值,红色实心点代表异常值。由此箱线图可知身高数据集的异常数据点为[1.02,1.71,1.81,1.07,1.68]。异常数据检测基于聚类的方法异常数据检测图4-11
散点图示例图4-12
首次分为两簇的效果图4-13
识别出异常值异常数据检测4.基于分布的方法
基于分布的方法假设数据点符合某种特定的分布,如正态分布、指数分布、对数正态分布等。该方法可以通过比较观察值和理论分布之间的差异来识别异常值。通常假设身高符合正态分布,针对案例4-1的分布情况如图所示。异常数据检测5.基于机器学习的方法基于决策树、支持向量机、神经网络等机器学习的方法训练模型来识别异常值,可以自动识别数据中的异常值,并将其作为独立的类别进行分类。以基于决策树的孤立森林算法为例展示异常值检测效果。从统计来说,相对聚集的点需要分割的次数较多,比较孤立的点需要分割的次数少,孤立森林利用分割次数来度量一个点是聚集的还是孤立的。算法中评分scores是用来衡量异常程度的指标,它表示数据点与其它数据点之间的孤立程度,即数据点在树中的分离程度,异常评分越低表示数据越异常。在构建孤立森林模型时,设置了异常点的比例,在本例中比例被设为0.1。异常值检测结果如图所示,其中anomaly为1表示正常,anomaly为-1表示异常。异常数据检测将结果可视化如图4-16所示,蓝色实心圆形为正常值,红色实心三角形为异常值,从图中可知异常值为[1.02,1.07,1.68,1.71,1.81]。
图4-16
基于孤立森林模型的分类示例异常数据检测数据集中样本数量悬殊会导致建模偏向多数类样本,忽视少数类样本,影响模型性能。如城市人口收入分析中,高收入样本多于低收入样本,易导致虚假结论。不均衡问题01通过统计指标和分析方法评估数据是否均匀分布,了解各部分差异性。数据均衡算法是解决不平衡问题的重要手段,可提高分类准确率。评估方法02过采样如SMOTE、ADASYN通过合成新样本增加少数类样本数量,欠采样如随机欠采样、基于聚类的欠采样减少多数类样本数量,组合采样则结合过采样和数据清洗,提高数据均衡性。采样算法03数据均衡性评估数据均衡性评估均衡性分析是通过不同统计指标和分析方法来评估数据是否均匀分布,评估数据各部分之间的差异性以及如何改善数据的均衡性。均衡性分析的结果能够更好地理解研究对象或数据的性质和特征,为相关的决策和应用提供依据和支持。数据均衡算法是解决数据不平衡问题的重要手段,可以提高分类准确率,主要思想是通过对数据集进行重采样,使得各个类别的样本数量相等或接近相等。数据均衡性评估1.过采样
过采样也被称为上采样,指对少数类样本进行复制或合成新的样本,使得少数类的样本数量与多数类的样本数量相等或接近相等,优点是可以保留所有的少数类样本信息,提高分类准确率,但缺点是可能会导致过拟合问题。数据均衡性评估(1)SMOTE及其衍生算法SMOTE(syntheticminorityover-samplingtechnique,合成少数类过采样技术)算法是一种基于随机过采样的方法,它通过在少数类样本之间进行插值来生成新的样本,基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中以平衡数据集。SMOTE利用k最近邻域算法创建合成数据。图4-20所示中分布着两种样本点,圆型表示数量多的样本,三角形表示数量少的样本,所以个图里选择三角形这一类样本进行扩充。图4-20
原始的不均衡样本示意
图4-21
SMOTE算法合成样本示意数据均衡性评估图4-20
原始的不均衡样本示意
图4-21
SMOTE算法合成样本示意数据均衡性评估SMOTE随机选取少数类样本用以合成新样本,而不考虑周边样本的情况,这样容易带来两个问题:第一,如果选取的少数类样本周围也都是少数类样本,则新合成的样本不会提供太多有用信息。第二,如果选取的少数类样本周围都是多数类样本,这类的样本可能是噪音,则新合成的样本会与周围的多数类样本产生大部分重叠,致使分类困难。数据均衡性评估(2)ADASYNSMOTE算法不能很好地处理类别之间的分布差异性,ADASYN(adaptivesyntheticsampling,自适应合成采样)在SMOTE算法的基础上进行了改进,使其可以自适应地生成新的样本,不仅可以减少原始不平衡数据分布带来的学习偏差,还可以自适应地将决策边界转移到难以学习的样本上。数据均衡性评估工作流程如下:计算每个少数类别样本的密度:使用近邻方法(例如K近邻)计算每个少数类别样本周围样本的密度,其中k是用户指定的参数。2)计算每个少数类别样本的样本生成比例:计算每个少数类别样本需要生成的合成样本的数量,生成比例与密度成正比;即该样本的k近邻中多数类样本的数量除以少数类样本自身的数量。3)为每个少数类别样本生成合成样本:对每个少数类别样本,根据计算得到的生成比例,生成一定数量的合成样本。合成样本的特征通常是原始样本特征与其近邻样本特征的差的加权和;4)将合成样本添加到原始数据集中:将生成的合成样本与原始数据集合并,形成新的平衡数据集。数据均衡性评估2.欠采样
欠采样是指从多数类中随机选择一部分样本,使得多数类的样本数量与少数类的样本数量相等或接近相等(见图4-23)。欠采样的优点是可以减少计算量,缩短训练时间,但缺点是可能会丢失一些重要信息,导致分类结果不准确,下面介绍集中常用欠采样算法。
欠采样的主要算法有如下几种。数据均衡性评估(1)随机欠采样随机欠采样(randomundersampler)是十分快捷的方式,从多数类样本中随机选取一些剔除掉,但随机欠采样会损失大量的数据,可能被剔除的样本可能包含着一些重要信息,导致后续建模模型质量并不是很好,目前较少使用。数据均衡性评估(2)基于聚类的欠采样通过生成聚类中心来进行欠采样(clustercentroids),使用K-Means聚类簇心代替一个多数类的聚类,从而对多数类进行欠采样。通过带有N个聚类的K-Means算法拟合到多数类,并以N个聚类质心的坐标作为新的多数样本,从而保留N个多数样本。如图4-24所示,通过聚类分析得到了5个簇,将这5个簇的簇心作为样本,其它的样本被忽视。意思就是“物以类聚,人以群分”,在每个群体里面选择一个代表作为样本。数据均衡性评估(3)浓缩最近邻浓缩最近邻算法(CondensedNearestNeighborRule,CNN)是一种用于不平衡分类的欠采样算法,旨在减少数据集中占多数的类的样本数量,从而改善分类模型的性能。该算法通过选择那些对分类决策影响较大的样本,同时尽量保留少数类样本,以达到平衡数据集的目的。具体的实现步骤如下:输入:不平衡的原始数据集输出:欠采样处理后的数据集步骤1:集合C初始化为所有的少数类样本,集合S为空,用于存放待处理的多数类样本。步骤2:随机选择一个多数类样本x加入集合C,将剩余的多数类样本放入集合S;步骤3:使用集合C训练一个1-NN的分类器,对集合S中的所有样本应用1-NN分类器进行分类;步骤4:将集合S中被误分类的样本加入集合C;重复步骤3、4,直到没有样本再加入到集合C。数据均衡性评估CNN算法通过保留所有少数类别样本和一部份多数类别样本的方式,来构建一个新的平衡数据集。数据均衡性评估3.组合采样不论是过采样和欠采样都会与原数据集存在一定的误差,过采样会导致很多样本的数据特征与原样本数据重叠导致难以分类清楚。数据清洗技术恰好可以处理掉重叠样本,所以可以将二者结合起来形成一个组合采样(见图4-26),先过采样再进行数据清洗。数据的可用性从一致性、准确性、完整性、时效性及实体同一性五个方面考察。一致性指数据间相容不矛盾,准确性指数据精准程度,完整性指数据满足操作要求,时效性指数据的及时有效性,实体同一性指同一实体描述统一。质量维度通过频数分析、交叉频数分析等初步了解数据分布情况,检验异常值。利用统计图形如折线图、条形图、饼图等直观展示数据特征,辅助数据质量评估。检验方法在金融数据分析中,通过数据质量检验发现数据中的错误和缺失值,及时进行修正和补充,确保数据的准确性和完整性,为风险评估和决策提供可靠依据。实际应用数据质量检验数据质量检验(1)数据的一致性:指数据信息系统中各相关数据信息之间相容、不产生矛盾。(2)数据的准确性:指数据信息系统中每个数据表示现实物体的精准程度。(3)数据的完整性:指数据集合包含的数据完全满足对数据进行各项操作的要求。(4)数据的时效性:是指在不同需求场景下数据的及时性和有效性。对应用系统而言,往往对数据时效性要求较高,过时的数据即使分析出来了也不会对实际应用产生有价值的影响。(5)实体的同一性:指同一实体在各种数据源中的描述统一。数据分布03数据分布分析频数分析涉及四分位数、百分位数、中位数、均值、标准差等统计量,了解数据取值分布情况。峰度反映分布的尖度,偏度反映分布的偏斜程度,通过这些统计量可初步认识数据特征。统计量分析在市场调研中,通过绘制消费者年龄分布的条形图,直观展示不同年龄段消费者的比例,为市场定位和产品推广提供依据。应用案例利用折线图、条形图、饼图等统计图形展示数据分布,直观呈现数据特征。选择合适的图形需根据数据特征、处理目的和个人喜好决定。图形展示数据分布分析1.峰度
峰度又称峰态系数,表示概率密度分布曲线在平均值处峰值高低的特征数。峰度反映了峰部的尖度,样本的峰度是和正态分布相比较而言的统计量。如图4-27所示,在相同的标准差下,峰度系数越大,分布就有更多的极端值,那么其余值必然要更加集中在众数周围,其分布必然就更加陡峭。数据分布分析2.偏度偏度(skewness)也称为偏态、偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。如图4-28所示,该数据分布的右尾比左尾长(即大部分数据集中在均值左侧,右侧有较长的尾部),偏度为正值,该分布为正偏度或右偏。数据集拆分04数据集分析
通常需要通过分析历史数据,找出其中的规律(即:训练模型),从而预测未来数据,如此,便需要大量的历史数据作为训练集,从中找出数据规律,但是,这个规律是否准确,依然需要历史数据作为测试集对模型的预测效果进行检验,当在历史数据上测试,得到的预测结果与实际发生的历史数据吻合时,认为模型训练结果比较好。这就意味着要将收集到的历史数据进行分割或者组合,从中得到训练集和测试集。训练集和测试集应尽量避免重合,否则,难以得到真实的测试结论。将历史数据分为训练集和测试集,通过训练集找出数据规律,用测试集检验模型预测效果,避免模型过拟合或欠拟合,确保模型的泛化能力。拆分目的留出法简单但性能评价不稳定,K折交叉验证可提高评估结果稳定性,分层抽样策略则保持数据类别比例一致,提高模型训练的代表性。拆分方法网格搜索与数据集拆分策略结合,通过尝试不同超参数组合,找到最优超参数,提高模型性能。如深度学习中通过网格搜索调整学习速率等超参数。超参数调整在图像识别项目中,采用K折交叉验证拆分数据集,结合网格搜索调整超参数,最终训练出准确率较高的图像识别模型,有效应用于实际场景。实践案例数据集拆分数据集拆分数据集拆分1.留出法留出法将数据随机分为两组,一组作为训练集,另外一组作为测试集(见图4-33)。利用训练集训练模型,利用测试集评估模型。优点是处理比较简单,不足之处是在测试集上的预测性能的高低与数据集的拆分情况有很大关系,性能评价结果不够稳定,难以准确评价模型的性能。数据集拆分数据集拆分3.数据集的分层抽样策略分层抽样策略也是将数据集划分为K份,但其特点在于:划分在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家装公司业务拓展经理的岗位职责及招聘策略
- 物流行业客户经理面试须知
- 初中生领悟教师情感支持与学业倦怠的关系-心理资本的中介及干预研究
- 银行分行经理业务发展规划及执行策略
- 餐饮业数据分析师工作手册与安排
- 技术团队组织架构及职能说明
- 私人银行部业务创新与发展规划
- 艺术画廊策展人助理的工作流程与面试要点解析
- 上汽集团财务管理流程分析及改善计划
- 停车水泥施工方案(3篇)
- 《构成基础(第2版)》技工中职全套教学课件
- DB45-T 2474-2022 木材加工企业消防安全技术规范
- 春季渣土车安全培训记录课件
- 油田消防常识培训
- 叉车货物转运安全培训课件
- 营养与膳食(第3版)课件 第一章.绪论
- 2025年江西公务员考试(财经管理)测试题及答案
- 完整版教育部发布《3-6岁儿童学习与发展指南》(全文)
- 2025年中国短波单边带电台市场调查研究报告
- N1叉车司机操作证考试题及答案(完整版)
- 动力电池电芯课件
评论
0/150
提交评论