大数据应用基础-数据挖掘流程77.ppt

上传人：努*** IP属地：江西上传时间：2020-01-06 格式：PPT 页数：77 大小：2.83MB 积分：15 举报 版权申诉

已阅读5页，还剩72页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘流程大数据应用基础第三次课魏炜weiwei 数据挖掘的基本流程数据挖掘的基本流程高度重视以下同义词以下术语大致是同一个意思表格中的行个案实例记录样本点数据点表格中的列属性特征字段维度预测变量自变量数据预处理数据预处理的步骤主要包括数据集成数据清理数据归约抽样和属性筛选数据变换数据质量有很多方面问题数据准备在数据挖掘过程中数据准备工作占用的时间往往在一半甚至60 以上这些工作对提高数据挖掘结果的准确性是必不可少的因为没有高质量的数据就没有高质量的挖掘结果数据挖掘出现错误结果多半是由数据源的质量引起的因此应该重视原始数据的质量从源头上减少错误和误差尤其是减少人为误差数据准备的重要性数据准备工作占用的时间往往在60 以上数据集成数据挖掘或统计分析可能用到来自不同数据源的数据我们需要将这些数据集成在一起如果只有一个数据源这一步可以省略数据集成中的实体识别问题一个重要问题是实体识别问题在不同的数据源中相同的字段也许有不同的名称我们需要识别数据中能唯一标识实体的字段我们怎么能确定一个数据源中的customer id和另一个数据源中的customer number指的是同一个字段呢这里我们可以利用字段的元数据信息例如含义数据类型字段允许值的范围等从而避免在数据集成时出错如果我们确定这两个字段是一致的那么我们就能够把标识相同的客户当作同一个客户数据集成中的实体识别问题对于互联网企业来说一个需要注意的重要问题是如何能把PC端用户手机端用户给对应起来也就是说如何能保证用户在不同设备上登录你的网站时的访问记录都能汇总到一起而不是把这些访问记录当做是多个不同用户的访问记录数据集成中属性值不一致的问题同一个人的名字可能在一个数据库中登记为王思聪在另一个数据库中则登记为 SicongWang 数据集成中的数据值格式不一致问题对同一个实体来自不同数据源的属性值可能是不同的原因可能是各个数据源往往以不同的方式表示相同的数据或采用不同的度量等例如不同数据源中日期的格式不同日期有时是一个数值有时是以 XXXX年X月X日的字符串格式存储有时以 YY MM DD 的字符串格式存储又例如对同一个省份可能用了不同的名称还有同一个名字的属性sales 在一个数据库中是指一个区域的销量在另一个数据库中可能是指一个分店的销量数据集成中的数据值格式不一致问题重量在一个数据源中的单位可能是千克在另一处则是斤一种度量另一种度量数据集成中的属性冗余问题一个属性可能能由另一个或一组属性导出有些冗余可以被相关分析检测到我们通过相关系数或卡方检验了解两个属性是否是统计相关的数据探索在数据集成后需要数据探索 dataexploring 这个步骤不是数据预处理但对数据预处理很重要几乎很少有现成的数据能直接使用数据总是看上去不整洁例如有脏数据缺失值等怎样能知道数据的质量呢你需要把自己沉浸在数据中进行数据探索从而了解数据质量数据探索的方法在R中的summary 变量名这种指令在其他软件中有类似指令能提供诸多基本统计信息比如每个变量的值域区间最大值和最小值是否合理所有的值都落在期望的区间内吗平均值与中位数是相等的还是差别很大这有助于说明变量是否符合正态分布数据是对称的还是倾斜的每个变量的标准差是多少远离属性的均值超过两个或三个标准差的值可能是离群点有多少缺失值直方图箱图箱图散点图通过直方图能观察连续型变量的分布是否接近正态分布对于离散型变量则可以用频次分析通过箱图能观察到离群值比如识别出观测值特别高的个案通过散点图能了解属性之间是否有相关性数据清理数据预处理数据的重要程度大过算法本身无论专家多有经验无论算法再完美也不可能从一堆垃圾中发现宝石人们往往没有那么好的运气有现成的质量好的数据可以直接用现实世界的数据是杂乱的其中总是有这样或那样的问题经常保持对客户数据的怀疑之心所有的数据都是脏的例如有些数据是缺失的属性的值是空值有些是含噪声的属性的值是错误的或有孤立点数据有时同样的信息采用了多种不同的表示方式在编码或命名上存在不一致数据清理对于在商业中比较重要的字段系统开发者和系统使用者会尽量确保其正确性然而对于在商业中不太重要的字段人们往往不太重视确保其质量通过数据清理可以确保存入数据仓库中的信息是完整正确和格式一致的如果数据有误那么所得到的结果很可能有误导性但是数据挖掘者不应该太挑剔因为我们往往只能得到质量不好的数据数据清理如果你的企业中有数据仓库应弄清楚这些数据是怎样收集的这对理解数据质量很重要至少应该知道每个字段取值来自哪里合理的取值的范围为什么会有缺失值等这对数据清理很有帮助数据清理数据清理也叫数据清洗这一步主要针对缺失值数据噪声离群值缺失值缺失值很常见例如在销售表中的顾客信息当中也许除了名字外其他各个属性都有缺失值我们尤其不希望重要属性存在缺失值缺失值的成因分析师首先应该了解数据缺失的原因只有知道具体缺失原因后才能有的放矢产生缺失值的原因很多可能是这些数据并没被记录下来测量设备出现故障对数据错误地更新导致某些字段信息丢失被测量的对象头盖骨或植物损坏或死亡了有时还没来得及提供属性值缺失值的成因有时当你从外部数据源中追加人口统计信息到客户信息中时你没能找到一部分客户的此类信息很多时候最初收集数据时有些变量被认为不太重要因此留下空白例如银行并不特别需要知道客户的年龄所以年龄变量会存在许多缺失值被掩盖的缺失值有时用户不希望提交个人信息就会故意向字段输入不正确的值例如把生日设置为1月1日一个类似的例子是数据中很多客户在1911年出生为什么呢其实因为数据输入界面坚持要出生日期因此客服人员在不知道这个日期时就会键入6个 1 从而输入1911年11月11日缺失值的处理方法处理方式有多种有些有缺失值的变量实际上并不需要处理因为你其实知道缺失值的实际值是什么删除缺失值较多例如20 以上的属性都存在缺失值的个案即记录行实例元组尤其是关键的属性值缺失的个案剔除所有含有缺失值的个案此法适于有缺失值的个案的数量占比很小的情况下此法操作简单方便而且留下来的数据全是有完整记录的数据很干净但是丢弃所有包含缺失值的个案可能会引入偏差因为这些个案不一定是随机分布的删除有大量缺失值的变量此法适于那些缺失值占比例如超过20 较大的变量对于缺失值占比超过50 的变量则一般建议删除缺失值的处理方法人工填写缺失值此法工作量大对于海量数据可行性极低使用属性的中心度量来填充此类指标有平均值中位数众数等对于接近正态分布的变量来说平均值是最佳选择然而对于偏态分布的变量来说中位数是更好的指标此种方法偏差大因为这种替换毕竟是人为的替换属于不得已而为之的策略但其简单速度快适用于大数据集使用与给定个案同类的样本的属性的中心度量来填充此法与上一种方法类似例把顾客按信用风险程度分类则用具有相同信用风险的顾客的平均收入或收入中位数来替换收入中的缺失值缺失值的处理方法通过两个变量之间的相关关系来填充如果两个变量之间的相关系数足够高例如大于0 9 我们可以找到两者之间的线性相关关系模型一个公式我们可以通过这个公式来计算出一个值用于填充缺失值通过个案之间的相似性来填充此法假定如果两个个案是相似的那么其中一个个案在某变量上的缺失值很可能与另一个个案在这个变量上的值是相似的最常用的相似性度量指标是欧式距离我们可以用欧式距离来找到与含缺失值的个案最相似的10个个案用它们的中位数或均值来填充缺失值缺失值的处理方法对缺失值进行赋值 Imputation 此法通过回归模型决策树贝叶斯定理等去预测缺失值的最近似的替代值也就是把缺失数据所对应的变量当做目标变量把其他的输入变量作为自变量为每个有缺失值的字段分别建立预测模型这种方法最严谨但是成本较高还有一种办法是在不同的数据上建立多个模型例如对某几个变量没缺失值的客户建立一个模型而对这几个变量有缺失值的客户建立另一个模型数据噪声噪声数据即数据值错误不能反映真实的值数据噪声太多会导致数据价值大大降低产生原因可能是人们在输入个人数据时常常会故意制造一些错误人们在输入资料时操作失误在互联网营销中存在大量虚假的应用下载和使用以及虚假的好评差评数据收集的设备不稳定数据转化时存在逻辑错误有时数据过时了例如地址过时识别数据噪声还好噪声数据都是少数通过数据探索能很容易发现噪声数据比如在直方图中某些值出现的频率非常少我们就要怀疑这样的数据是否合理处理数据噪声对噪声数据我们的处理办法有最广泛应用的处理方式是数据平滑 Smoothing 最常用的数据平滑方法是分箱技术此法稍后在数据转换中会介绍其他平滑方法还有基于时间序列分析根据前一段历史趋势数据对当前数据进行修正删除带有错误的个案识别异常个案对于多维数据异常个案的识别可以通过聚类技术异常个案孤立点离群点 outlier 跟噪声数据不完全是一回事离群点能从表象上判别出来而噪声则是随机的取值是没有规律的噪声的取值不一定看起来异常而离群点虽然取值异常但不一定都是噪声对于取值正常的噪声点我们还没办法检测可以选取一些字段来对个案进行聚类从而识别出异常程度较高的个案即落在簇集合之外的个案处理异常个案特别要注意的是这些数据点不一定是噪声我们要从中剔除真正不正常的数据而保留看起来不正常但实际上真实的数据有时这些并非噪声的异常点包含着重要的信息例如信用卡用户恶意欺诈检测就需要保留异常点处理离群点的另一种办法是对变量进行标准化从而缩小值域对于时间序列数据和空间数据则采用其他方法进行异常点的检测识别异常值除了上述办法还可以仅凭单个变量所提供的信息来识别异常值对于异常值处理办法是一般建议剔除此外在聚类分析中可以采用随机抽样这样作为稀有事件的数据噪声和异常值能被抽进样本的概率会很小这样样本就比较干净判断方法如下对于类别型变量是否某个类别出现的次数太少太稀有比如其占比不到1 对于数值型变量是否某些取值太大比如一般的客户平均每天买2次而某几个客户每天买100次又如年龄为140岁无疑是个异常值重复数据重复数据主要有两种个案可能会重复比如输入数据时意外地多次输入了同一个个案属性也可能会冗余在集成多个数据库时同一个属性在不同的数据库中会有不同的字段名例如birthday和生日这时我们只要保留其中一个字段就可以这种冗余通常在数据集成的步骤中就解决了数据转换数据转换即数据变换 Datatransformation 主要是利用现有的字段进行运算来得到新的字段通常说到数据变换包括四种数据离散化采用分箱等方式产生衍生变量使变量分布更接近正态分布数据标准化数据转换离散化如果对连续变量进行离散化可以避免引入任何分布假设这样就不需要符合正态分布了数据转换离散化数据分箱 Binning 是对连续数据进行离散化增加粒度的主要办法这是一种很典型的数据变换它把一个连续性的数值字段根据其值分组转换成一个拥有几个不同类别的字段分箱的主要目的是去除噪声具体取值方式有按箱平均值平滑按箱中值平滑以及按箱边界值平滑举例假设有8 24 15 41 7 10 18 67 25等9个数分为3箱箱1 8 24 15箱2 41 7 10箱3 18 67 25按箱平均值求得平滑数据值箱1 16 16 16 平均值是16 这样该箱中的每一个值被替换为16 其他两个箱与此类似数据转换离散化对于决策树算法往往需要对连续变量进行离散化从而使输出的决策树通俗易懂具体办法可以是把各属性所在区间平均分成8份每一份对应1个离散值数据转换产生衍生变量具体有两种把非数值型数据转换成数值型例如把男转换成1 女转换成0 根据用户出生年月日得到其当前的年龄采用简单的数学公式产生更加有商业意义的衍生变量主要有均值占比比率等种类例如家庭人均年收入用户年均消费金额分析人员常常容易从现有的数据库中直接提取现成的字段而经常忘记一些衍生的新字段这需要有业务知识来支持数据转换使变量分布更接近正态分布最常见的改善变量分布的转换方法是对变量取对数 takelog 在实践中很多数值型变量的分布都偏斜不对称这会干扰模型的拟合影响变量的预测性能此种转换和分箱有异曲同工之处都具有提高变量的预测能力强化自变量与因变量的关系从而提高预测模型的拟合效果因此在实践中经常对这两种方式分别进行尝试采用其中的一种不过这种非线性转换的含义缺少清晰的商业逻辑商业应用者可能不太能理解数据标准化数据标准化 Datarescale 规范化是把区间较大的数据按比例缩放使之落入一个比较小的区间中比如0 1或 1 1 标准化可以提高涉及距离度量的算法的准确率和效率比如当创建一个聚类模型时我们需要确保所有字段都有近似的标度标准化能够避免出现聚类结果完全由某个具有很大变化范围的属性主导的情况数据标准化最常用的数据标准化方法有两种标准差标准化 Z scoretransformation 零均值法 Zero meannormalization 经过这种方法处理后的变量符合标准正态分布均值为0 标准差为1 最小最大值法 Min Maxtransformation Min Max标准化能把各变量的值归一化到 0 1 范围之内数据归约数据归约属于数据预处理但不属于数据清理这一步也叫数据简化数据归约 datareduction 在保持数据的完整性的前提下把需要分析的数据量大幅减小从而加快算法运行速度但能够产生几乎同样质量的分析结果包括两类属性筛选和数据归约数据归约抽样抽样可看作数据归约 numerosityreduction 的一种抽样的主要原因是如果数据全集的规模太大运算资源的消耗会很大而且运算时间很长另一个常见原因是在很多小概率稀有事件例如信用卡欺诈的预测建模中如果按原始数据来分析是很难得到有意义的预测的因此需要人为增加样本中稀有事件的浓度和在样本中的占比抽样需要注意尽量保持样本和总体的一致性例如样本中变量的值域和分布缺失值的分布都应该与总体尽量高度相似尽量采用简单随机抽样或分层随机抽样否则可能会有样本偏差 samplebias 数据归约不平衡数据的抽样在不平衡数据中两组群体的成员数量相差甚远例如对直邮促销做出响应者比无响应者少很多信用卡欺诈者比正常的信用卡持有者少很多流失可衡山的数量往往只有非流失客户数量的百分之几甚至千分之几如果两组群体的成员数量大致相当分类算法的性能最好对于偏斜数据在抽样方面通常可以采取几种办法使得两组群体占比更为平衡最常用的一种是对占比较少的实例进行过抽样 oversampling 其他方法有对占比较多的实例进行欠抽样从而得到一个虽然较小但是更平衡的样本添加一个加权因子让常见组的成员的权重小于罕见组的成员的权重这样抽样之后预测模型的效果往往更好数据归约属性筛选在互联网行业数据归约主要是维度归约 dimensionalityreduction 即特征归约变量筛选也就是把多维数据压缩成较少维度的数据这就需要进行特征选择 featureselection 即属性筛选按说信息比较多应该是好事才对所以我们尽量不使用特征归约因为这对于原始数据通常都是有损的但是过多的特征会使得机器学习的训练变慢有些数据挖掘算法比较复杂在高维度情况下运行的时间是天文数字不可能实现过多的输入变量容易带来过度拟合和共线性的风险这会降低分类模型的预测能力属性筛选的方法首先可以删除明显无价值的变量例如缺失值比例很高的变量以及常数变量还有取值太泛的类别型变量例如邮政编码然后可以结合业务经验进行筛选这是最关键最重要的筛选自变量的方法很多时候业务专家一针见血的商业敏感性可以有效缩小自变量的考察范围属性筛选的方法线性相关性最简单最常用的方法就是通过自变量之间的线性相关性指标进行初步筛选其中以Pearson相关系数最为常用如果多个自变量之间线性相关性很强只需要保留一个就可以了属性筛选的方法互信息线性相关系数可以检测出特征之间是否有线性相关关系但是它不适于检测非线性关系互信息则适合检测非线性关系它基于信息熵的概念计算出两个特征所共有的信息量即一个特征使另一个特征的不确定性减少的程度属性筛选的方法 R平方在上述步骤结束之后仍然可能有些特征它们虽然彼此之间独立并且和目标变量有一定的依赖关系但是把它们放在一起来看跟目标变量就没有依赖关系而另一些特征则虽然单独看起来跟目标变量没有依赖关系但把它们放在一起就能看出与目标变量有依赖关系 R平方 R Square 借鉴多元线性回归的算法来判断对目标变量有重要预测意义的自变量也就是找出哪些自变量能显著地解释目标变量的变异性属性筛选的方法特征抽取法这类方法不是要删减特征而是把原有的特征组合成少量特征可以分为线性的和非线性的线性的主成分分析非线性的多维标度法以上两种方法是典型代表但还有其他方法属性筛选的方法主成分分析主成分分析是最常用的特征抽取方法主成分分析 PCA 是用少量指标即主成分来表示原先较多的指标这少量指标尽可能多地反映原来较多指标的有用信息所保留下的方差尽量多且相互之间又是无关的每个主成分都是由多个原始变量线性组合而成的这种分析在基本未损失数据集的信息的情况下降低了数据集的维数 PCA适于处理稀疏数据 PCA的不足是会造成结论的可解释性上相对于原始变量而言更复杂属性筛选的方法还有其他一些属性筛选方法此处不详细讲例如聚类线性判别式分析 LDA 多维标度法 MDS 卡方检验小波变换适用于多维数据其典型应用是图像压缩后续步骤数据挖掘这是最核心的一步根据数据仓库中的数据用合适的数据挖掘算法进行分析得出有用的信息评估在这一步我们验证数据挖掘结果的正确性其中模型算法质量的评价是很重要的一部分对分类模型和聚类模型的评价方法是不同的分类模型很重视采用一些指标来进行模型评价和选择对分类模型通常采用的指标有 ROC曲线 Lift曲线其本质都是与预测的准确性有关的分类算法评估的主要宗旨主要宗旨就是减少误判假阳性和漏判假阴性在疾病预测欺诈识别等领域漏判带来的危害远大于误判当然误判会带来干预成本的提高比如会增加就诊成本分类算法评估一个比喻怀孕检测假阴性怀孕了但没检测出来分类算法评估混淆矩阵混淆矩阵 Confusionmatrix 例如 TP表示实际是正例预测也为正例的实例个数其他以此类推分类算法评估混淆矩阵可见预测正确的实例数量远远多于预测错误的实例数量分类算法评估 ROC曲线 FP 假阳性即实际是负例却预测成正例的个数TP 真阳性即实际是正例且预测成正例的个数横轴是假阳性率假正率即FPR FalsePositiveRate 或1 Specificity 即1 真负率即实际为负例预测为正例的概率即 FP FP TN 即实际为负例预测为正例的个数除以实际为负例的个数纵轴是真阳性率真正率即TPR TruePositiveRate 或Sensitivity 即实际为正例预测也是正例的概率即 TP TP FN 即实际为正例预测也为正例的个数除以实际为正例的个数分类算法评估 ROC曲线我们希望分类器的TPR尽量高 FPR尽量小即用尽量低的假阳性率为代价来换取尽量高的真阳性率所以我们希望ROC曲线离纵轴近分类算法评估 ROC曲线曲线下方的面积也叫AUC 越大越好一般超过0 7就说明分类器有一定效果我们经常用AUC来比较各种分类器的效果优先采用AUC面积比较大的模型分类算法评估 Lift曲线 Lift曲线显示了采用模型后与没采用模型相比的改进含义是分类器获得的正类数量和不使用分类器随机获取正类数量的比例后者是指不使用模型时正例在样本中的占比也叫randomrate 换言之 lift值是指如果使用分类器分类会使得正类产生的比例增加多少例如与直接随机抽取一些用户发放促销邮件相比采用分类器会给公司带来多少响应客户 Lift值在实践中可能是用得最多的它直观易懂它的重要的好处是直接显示对应于不同的促销目标群体规模的模型效果便于挑选适当的目标群体规模分类算法评估 Lift曲线横轴是样本大小在所有潜在用户中的占比纵轴是所得到的回应数量对角线表示的是不同大小的随机样本的结果我们用的不是随机样本而是通过数据挖掘模型选择出来的那些最可能做出回应的客户的样本我们希望得到的曲线在对角线上方而且越靠近左上角越好也就是用很少的样本就能得到很多回应从图中可见绿色线条代表的那个模型的表现比较好分类算法评估成本收益分析我们可以假定通过邮件推荐新产品时发邮件的费用是0 5元而一旦用户相应则会得到10元的收益那么发送多少封邮件比较合适呢如果给全部用户都发送会赔钱我们可以设置费用和收益的参数分类算法评估其他其他有代表性的模型评估的方法还有10折交叉验证 3折交叉验证 cross validation 在交叉验证中先要确定一个固定的折数 numberoffolds 比如3折那么数据将被大致均分成3部分每部分轮流用于测试而其余部分则用于训练重复此过程3次从而每个

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据应用基础-数据挖掘流程77.ppt

文档简介

温馨提示

最新文档

评论

大数据应用基础-数据挖掘流程77.ppt

文档简介

温馨提示

最新文档

评论

相关文档