数据挖掘感想_第1页
数据挖掘感想_第2页
数据挖掘感想_第3页
数据挖掘感想_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、据挖掘感想通过学习一个学期的数据挖掘课对数据挖掘有了一定的理解, 也掌握 了,理解了一些数据挖掘中用到的重要的算法。 在这个数据膨胀的大 数据时代我们需要筛选, 查询数据, 处理数据。 我们看到的听到的都 是数据,在这互联网时代数据更多, 信息很多。 但是有些网站比如百 度,谷歌,雅虎等为我们的学习生活带来了很多便利。 我们为了更正 确更有效的利用和处理数据必须要利用数据挖掘技术, 因为有了这技 术我们以后的数字化生活变得更方便, 不会因为数据多, 信息多而感到反感。所以我真正的体会到了数据挖掘的优越性。 同时我学习一些算法过后也感觉到了其复杂性,因为数据挖掘算法众多, 掌握起来比较困难。我们

2、主要学习了贝叶斯分类算法,决策树分类算法等算法, 这些是比较简单并且利用比较广泛的算法。也学习了数据的概念, 数据理解包括收集原始数据、 数据描述、 数据探索分析和数据质量描述。 我们首 先收集大量的数据然后对此进行数据描述分类数据, 然后优化净化数 据,并对此进行分类整理,保存查询,搜索数据等。贝叶斯算法: 贝叶斯分类基于贝叶斯定理, 贝叶斯定理是由18世纪概率论和决策论的早起研究者 ThomasBayes发明的,故用其名字命名为贝叶斯定理。 分类算法的比较研究发现, 一种称为朴素贝 叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网 络分类器相媲美。 用于大型数据库, 贝叶斯分类法

3、也已表现出高准确 率和高速度。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN BAN和 GBN朴素贝叶斯分类是一种十分简单的分类算法, 思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现 的概率,哪个最大,就认为此待分类项属于哪个类。贝叶斯定理(Bayes theorem)是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解 说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。通常,事件A在事件B (发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确 定的关系,贝叶斯定理就

4、是这种关系的陈述。贝叶斯公式提供了从先验概率P(A)、P(B)和P(B|A)计算后验概率 P(A|B)的方法:P(A|B)二P(B|A)*P(A)/P(B),P(A|B)随着 P(A)和P(B|A)的增长而增长,随着P(B)的增长而减少,即如果 B独立于A时被观察到的可能性越大,那么 B对A的支持度越小。举例:一个天气估计问题?两个假设H: h1=晴天、h2=非晴天 ?可观察到的数据:温度高+和温度低- ?先验知识p(h)? 北京晴天的概率:P(h1)=? 非晴天:P (h2)=?观察到的概率P(D|h):?P(温度高I晴天)二?P(温度低I非晴天)二?问题:现在观察到温度低,判断是否非晴天?

5、极大似然计算P(非晴天I温度低)X P(温度低I非晴天)P(晴天I温度低)X P(温度低I晴天)答案:非晴天决策树:决策树:训练集:数据的集合,用于生成树(模型) 测试集:用于测试树(模型)的性能 决策树作用:主要就是训练数据除去脏数据通过训练集 算法指导下 生成决策树 新数据进行划分 否则是“三拍”决策N个分割属性的练集数据大量产生,技术的成熟提供基础数据大量产生这一点就不用说了,看看我们每个人一天的生活 里会有多大的比例泡在网上,再加上未来各种可穿戴设备,物联网 的普及,数据量之大难以想象。我主要想谈谈技术,也许技术这个 词不够专业,自己在编程,数据存储方面也不是特别了解,这里就 说说算法

6、这一部分。记得原先在数据结构和算法一开篇就提到 关于等差数列求和的计算机求和计算,我们从小就知道等差数列的 求和可利用算法公式,该算法利用了首尾两个数据和是一样的数据结构特征从而更简洁。告诉计算机进行求和命令可以是两种方法1.一项项的加,2.直接利用算法,利用第一个方式可能在数据量少的 时候计算速度与第二种相比不会有太大的差异,但如果数据量很大,后者的优越性将很明显。后来在接触到Apriori算法时候里用看到算法会用到一些剪枝手段减少计算机运算量的时候忍不住拍案 叫绝。另外,各式各样的统计软件的背后都有着大量的con tributors将自己的算法程序包分享到网上,供后来人更便捷的调用使用。互

7、 联网的这种集体智慧的共享创造方式让后来人站在前人的肩膀上, 走的更远。但是在调用这些算法的过程中还是要对算法本身有一些 原理上的理解,算法和数据结构是钥匙和锁,我们在实际操作的过 程中还需要根据具体的情况灵活和适当的使用,会在后面的分享里 细说。信息也是产品许多公司所拥有的客户信息不仅仅对自己有价值,同时对他人 也同样具有价值。如今很多的淘宝店铺之间也有了很多的消费者数 据的共享。互联网也改变了品牌和品牌之间的关系,一个拥有很多 青少年儿童数据的公司完全可以将自己的数据分享给做儿童食品的 公司,或者更进一步,分享彼此所拥有的平台。2.数据挖掘 for “ acti on able ” in

8、sightsdiscovery数据挖掘有很多不同的名称,例如KDD(k nowledge discoveryin database),或者 Bl(bus in ess in tellige nee),预测建模(p redictive model) 等,但针对我们业务感受,我更愿意把数据挖 掘定义为发现能够让品牌商产生真正落地行为的洞察或发现。以下 举两个在项目中的小例子:在电商的数据挖掘中,我们通过对消费者的表达研究了解消费 者购买产品的关注重点是什么,影响产品满意度的重要因素是什 么,其次我们会对消费者的线上购买行为数据进行研究,去看消费 者购买除了买自己品牌的商品同时还会购买哪些竞品品牌。结合这 表达和行为的洞察,再深入探究竞品的商品展示,宣传,品牌形 象,等等各方面和本品之间的差异点。这样品牌商在电商运营中更 能有方向性的去改进产品和消费者之间的沟通方式。所以,数据挖掘是在一项探测大量数据以发现有意义的模式和规则的业务流程,我们关注的重点在于发现的知识是否有意义,是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论