版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章数据准备维度规约海量数据的较为复杂的分析和挖掘,需要满足:数据挖掘算法能够支持大量的、高维的数据的处理计算机硬件设备能够满足算法处理大量数据的要求计算时间不受到限制海量数据分析和挖掘数据集数据规约表示数据规约完整性有效性一致性2维规约大数据集也体现在它的属性数量上,有的数据集包含数以百计的属性,而其中有很大一部分与某项数据挖掘的任务并不相关,相对来说是冗余属性。例如,在对零售企业获取的顾客信息数据集进行分析时,他们的电话号码与购买意向、接受营销影响等方面的分析就不太相关。可以通过只选择与数据挖掘目标相关的那些属性的数据,来完成数据挖掘工作。3维规约维规约:通过删除不相关的属性(或维)减少数据集的复杂度和数据量。实际上,高维度数据中的信息往往主要包含在一个或几个低维度结构中,因此维规约技术是处理高纬数据的一个重要手段。4维规约好处提升数据挖掘算法效果使模型更容易理解更易实现可视化解决了维灾难问题维规约可删除主题不相关的特征,并降低噪声只涉及较少的变量或属性,能更清晰有效地对数据模型做出易于理解的评估和解释即使维规约没能将数据维度降为二维或三维的可视维度,但这时可以通过观察属性对二或三元组属性达到可视化,而这种组合的数目也大大减少了5维灾难维灾难:随着数据维度增加,很多数据分析、数据挖掘的应用变得非常困难从数据挖掘实践中可以得出,高维度数据的挖掘分析,会导致准确率降低,质量下降维度增加,则数据空间中,有效数据稀疏分类预测,无足够数据对象来创建模型,使模型准确率降低聚类分析,数据密度定义和距离定义失去意义,使模型质量下降其他数据分析算法也会遭遇不同的问题6维规约技术特征子集选择特征创建数据变换(下一小节)主成分分析因子分析线性判别分析7选择特征子集降低维度的一个有效的方法就是从整个数据集中选取一个子集来进行处理,而该子集具有原始数据集的特征,称为特征子集。8选择特征子集方法消除冗余存在冗余数据时,不会丢失信息例如数据中的各科成绩与总分商品销售额与消费税AgeMaritalstatusAddressIncomeIncomeCategoryCarpriceCarpricecategory5511272.00337.00356029153.00476.003281928.00213.901241426.00213.001251223.00111.301450976.00437.30344117144.00472.1034612075.00437.1034101026.00213.001290419.0019.601340089.00444.4035501772.00336.103280955.00328.202211220.0019.6015508283.00477.403350870.00335.403450448.00225.002210137.00218.402320028.00214.2019选择特征子集方法消除冗余消除不相关数据例如
学号、电话号码、邮政编码
太平洋彼岸蝴蝶翅膀扇动次数10选择特征子集方法消除冗余消除不相关数据系统方法经验方法(常识、行业领域知识)将所有可能的特征子集作为输入,用事先选定的数据挖掘算法进行处理,对处理结果进行比较评估,选取结果最好的那个子集作为特征子集。但是对于有n个属性的数据集,其子集的穷举组合有多达2n个,n值较大的情况下这样做已不现实。11选择特征子集方法方差选择法12方差选择法是基于统计学中的方差概念,计算数据集中各个特征属性的方差值,根据设定的阈值,选择方差大于该阈值的特征。方差较大的特征更有可能包含对目标变量有重要影响的信息,因此应予以保留;反之,方差较小的特征可能包含冗余或无关信息,可以选择舍弃,从而达到特征降维和提升模型性能的目的。例如,可删除方差为零的特征(即所有数据样本中具有相同值的特征),因为该特征无法解释目标变量的任何变化。选择特征子集方法方差选择法单因素特征选择13在统计测试方式中,主要方法有:1)卡方检验:计算特征与目标变量之间的卡方统计量,评估二者之间的独立性。卡方值越大,表示特征与目标变量的关联性越强。常用于分类问题;2)F检验:通过比较特征与目标变量的方差变化,评估特征的重要性。F值越大,表示特征对目标变量的影响越显著。常用于捕捉线性关系;3)互信息:计算特征与目标变量之间的互信息量,评估二者之间的共享信息。可用于检测非线性相关性。单因素特征选择,评估每个特征与目标变量之间的关系,分析其对目标变量的预测能力或重要性,从而选择出最具代表性的特征子集。该方法的核心在于对每个特征进行独立评估,而不考虑特征之间的相互作用。单因素特征选择通常通过统计测试或模型评估的方式,计算每个特征与目标变量之间的相关性或重要性得分,然后根据得分高低选择特征。选择特征子集方法方差选择法单因素特征选择14在统计测试方式中,主要方法有:1)卡方检验;2)F检验;3)互信息。Pima
Indians
DiabetesDataSet皮马印第安人糖尿病数据集选择特征子集方法方差选择法单因素特征选择15在统计测试方式中,主要方法有:1)卡方检验;2)F检验;3)互信息。Pima
Indians
DiabetesDataSet皮马印第安人糖尿病数据集选择特征子集方法方差选择法单因素特征选择16在统计测试方式中,主要方法有:1)卡方检验;2)F检验;3)互信息。Pima
Indians
DiabetesDataSet皮马印第安人糖尿病数据集选择特征子集方法方差选择法单因素特征选择17在模型评估方式中,主要方法有:1)基于单变量模型的评估:如使用单变量线性回归或逻辑回归模型,评估每个特征对目标变量的预测能力。通过模型的系数或重要性得分来选择特征。2)基于特征重要性的评估:某些机器学习模型(如随机森林、梯度提升树等)在训练过程中会计算每个特征的重要性,这些重要性得分可以直接用于特征选择。单因素特征选择忽略特征之间的相互作用,这可能导致重要信息丢失。对于非线性关系或复杂数据分布,该方法也可能无法准确评估特征的重要性。选择特征子集方法方差选择法单因素特征选择递归特征消除18递归特征消除的主要思想是反复构建模型,按照一定指标摘选出最好的(或者最差的)特征,再在剩余的特征上重复这个过程,直到遍历了所有的特征。在这个过程中被摘选的次序就是特征的排序。[例]使用RFE方法,对手写数字图像(8×8像素)中的各像素点的重要性进行分析。选择特征子集方法方差选择法单因素特征选择递归特征消除基于L1正则化的特征选择(线性模型的特征选择)19
选择特征子集方法方差选择法单因素特征选择递归特征消除基于L1正则化的特征选择(线性模型的特征选择)20糖尿病数据集age0sex0bmi504.75bp189.78s10s20s3-112.57s40s5438.80s60局部特征分析可将数据的局部抽取出来,用来代表和表征原始数据的特征,而该局部数据具有显著的特征性。21例如,在人脸识别处理时,就会采用局部特征分析的方法,选取具有代表性的眼睛、鼻子和嘴部的图像进行识别或甄别。局部特征分析在局部特征分析和数据抽取时,关键点在于如何确定数据中的有代表性的特征数据或属性,并且以最少的特征数据或属性来表征元数据的特征。22维规约处理时,可将数据中具有显著的特征性的局部抽取、生成或产生出来,用来代表和表征原始数据的特征。特征创建有时,所创建的特征属性能够更好的代表原数据所蕴含的意义23方法特征提取模式识别特征创建24方法特征提取空间映射时域-频域的映射多维空间映射特征创建傅里叶变换(Fouriertransform)小波变换(Wavelettransform)25方法特征提取空间映射特征构建(FeatureConstruction/CombiningFeatures)原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法由原特征构造的新特征可能比原特征更有用特征创
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年医院年度工作总结及计划范例(2篇)
- 2026年医疗合规软件开发合同
- 2026年工程托管餐饮供应链协议
- 村委员会日常工作制度
- 村庄垃圾清运工作制度
- 预约诊疗相关工作制度
- 领导人员调研工作制度
- 麻醉质控中心工作制度
- 湛江市坡头区2025-2026学年第二学期四年级语文第七单元测试卷(部编版含答案)
- 西宁市城西区2025-2026学年第二学期三年级语文期末考试卷(部编版含答案)
- 8.4 祖国的神圣领土-台湾省 课件-2025-2026学年八年级地理下学期人教版
- 乐鑫2025嵌入式社招跳槽涨薪必刷笔试题及答案
- 出口业务流程内控制度
- 2025年商丘职业技术学院单招综合素质考试试题及答案解析
- 劳动课《凉拌米粉》课件
- 人社系统执法课件
- 培训学校法人管理制度
- 大型企业集团税务管理体系搭建
- 小学学校保安培训课件
- 2023年同等学力申请硕士学位图书馆、情报与档案管理学2010-2022历年真题选编带答案难题含解析
- GB/T 1151-2023内燃机主轴瓦及连杆轴瓦技术条件
评论
0/150
提交评论