数据挖掘基础培训_第1页
数据挖掘基础培训_第2页
数据挖掘基础培训_第3页
数据挖掘基础培训_第4页
数据挖掘基础培训_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘基础培训,浪潮通信 李文栋 2016年7月21日,数据挖掘发展,数据丰富和知识匮乏 - 信息爆炸、混沌信息空间、数据过剩,数据挖掘发展,数据挖掘概念,数据挖掘是啥? 数据挖掘(Data Mining,DM),简单的讲就是从大量数据中挖掘或抽取出知识,其表示形式有规则、概念、模式等; 又称为KDD(Knowledge Discovery from Database),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。,数据挖掘是多种学科交叉,数据挖掘技术分类,数据挖掘流程,数据挖掘算法,常用算法,回归算法,1、线性回归 2、逻辑回归,线性回归,假设要找一个y和x之

2、间的规律,其中x是鞋子价钱,y是鞋子的销售量。已知一些往年的销售数据(x0,y0), (x1, y1), . (xn, yn)做样本集, 并假设它们满足线性关系:y = a*x + b (其中a,b的具体取值还不确定),线性回归即根据往年数据找出最佳的a, b取值,使 y = a * x + b 在所有样本集上误差最小。 事实上一元变量的确很直观,但如果是多元就难以直观的看出来了。比如说除了鞋子的价格外,鞋 子的质量,广告的投入,店铺所在街区的人流量都会影响销量,我们想得到这样的公式:sell = a*x + b*y + c*z + d*zz + e。这个时候画图就画不出来了,规律也十分难找,

3、那么交给线性回归去做就好。需要注意的是,这里线性回归能过获得好效果的前提是y = a*x + b 至少从总体上是有道理的(因为我们认为鞋子越贵,卖的数量越少,越便宜卖的越多。另外鞋子质量、广告投入、客流量等都有类似规律);但并不是所有类型的变 量都适合用线性回归,前提是选好回归公式。总之:如果我们的公式假设是错的,任何回归都得不到好结果。,逻辑回归,上面我们的sell是一个具体的实数值,然而很多情况下,我们需要回归产生一个类似概率值的01之间的数值。比如某一双鞋子今天能否卖出去?或者某一个广告能否被用户点击?我们希望得到这个数值来帮助决策鞋子上不上架,以及广告展不展示这个数值必须是01之间,但

4、sell显然不满足这个区间要求。于是引入了Logistic方程,来做归一化。 逻辑回归就是被归一化以后的线性回归。,逻辑回归适用性,可用于概率预测,概率最高的TOP-N 仅能用于线性问题,,聚类算法,1、Kmeans 2、LDA主题模型,Kmeans,LDA主题模型算法,主题 在主题模型中,主题表示一个概念、一个方面,表现为一系列相关的单词,是这些单词的条件概率。形象来说,主题就是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性。,LDA思想,如果一篇文章10%和主题A有关,90%和主题B有关,那么和主题B相关的关键字出现的次数大概会是和主题A相关的关键字出现次数的9倍。主

5、题模型试图用数学框架来体现文档的这种特点,自动分析每个文档,并对文档内的词语进行统计,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。,LDA结果,关联规则算法,Apriori FPGrowth,Apriori,支持度:P(AB),既有A又有B的概率 置信度: P(B|A),在A发生的事件中同时发生B的概率p(AB)/P(A)例如购物篮分析:牛奶面包 例子:支持度:3%,置信度:40% 支持度3%:意味着3%顾客同时购买牛奶和面包 置信度40%:意味着购买牛奶的顾客40%也购买面包 如果事件A中包含k个元素,那么称这个事件A为k项集事件A满足最小支持度阈值的事件称为频

6、繁k项集。,Apriori图示,FPGrowth优势,Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数太多,效率比较低下。FPGrowth算法则只需扫描原始数据两遍,通过FP-tree数据结构对原始数据进行压缩,效率较高。,FPGrowth,推荐算法,1、ALS 2、协同过滤,ALS,对于一个users-products-rating的评分数据集,ALS会建立一个user*product的m*n的矩阵 其中,m为users的数量,n为products的数量 假设m*n的评分矩阵R,可以被近似分解成U*(V)TU为m*d的用户特

7、征向量矩阵V为n*d的产品特征向量矩阵d为user/product的特征值的数量,协同过滤,核心思想:大家一般更倾向于从口味比较类似的朋友那里得到推荐。 计算相似度,基于用户推荐,基于物品推荐,分类算法,1、朴素贝叶斯 2、决策树 3、随机森林,朴素贝叶斯,判断:X=(女性,年龄介于3145之间,不具学生身份,收入中等)会不会办理信用卡。,解:首先根据训练样本计算各属性相对于不同分类结果的条件概率: P(办卡)=7/10 P(不办卡)=3/10 P(女性|办卡)=5/7 P(女性|不办卡)=1/3 P(年龄=3145|办卡)=3/7P(年龄=3145|不办卡)=1/3 P(学生=否|办卡)=5

8、/7 P(学生=否|不办卡)=0/3 P(收入=中|办卡)=2/7 P(收入=中|不办卡)=2/3,其次,再应用朴素贝氏分类器进行类别预测: 计算 P(办卡)P(女性|办卡)P(年龄3145|办卡)P(不是学生|办卡)P(收入中|办卡) =15/3430.044 P(不办卡)P(女性|不办卡)P(年龄3145|不办卡)P(不是学生|不办卡)P(收入中等|不办卡)=0 0.0440,决策树,生成规则,判断一个特征对于当前数据集的分类效果。也就是按照这个特征进行分类后,数据集是否更加有序。 ID3 计算信息的增益率,然后选择增益率最大的属性进行分裂。,随机森林,随机森林顾名思义,是用随机的方式建立

9、一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输 入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本 为那一类。 按这种算法得到的随机森林中的每一棵都是很弱的,但是大家组合起来就很厉害了。我觉得可以这样比喻随机森林算法:每一棵决策树就是一个精通于某一个窄领域 的专家(因为我们从M个feature中选择m让每一棵决策树进行学习),这样在随机森林中就有了很多个精通不同领域的专家,对一个新的问题(新的输入数 据),可以用不同的角度去看待它,最终由各个专家,投票得到结果。,神经网络,1、CNN卷积 2、RNN循环 3、DNN深度,RNN,RNN按照时间展开,DNN,CNN,依然是一个分类器。黑盒 Deep Learning强大的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论