




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘感想通过学习一个学期的数据挖掘课对数据挖掘有了一定的理解, 也掌握 了,理解了一些数据挖掘中用到的重要的算法。 在这个数据膨胀的大 数据时代我们需要筛选,查询数据,处理数据。我们看到的听到的都 是数据,在这互联网时代数据更多,信息很多。但是有些网站比如百 度,谷歌,雅虎等为我们的学习生活带来了很多便利。 我们为了更正 确更有效的利用和处理数据必须要利用数据挖掘技术, 因为有了这技 术我们以后的数字化生活变得更方便, 不会因为数据多,信息多而感 到反感。所以我真正的体会到了数据挖掘的优越性。 同时我学习一些 算法过后也感觉到了其复杂性,因为数据挖掘算法众多,掌握起来比 较困难。我们主要学
2、习了贝叶斯分类算法, 决策树分类算法等算法,这些是比 较简单并且利用比较广泛的算法。 也学习了数据的概念,数据理解包 括收集原始数据、数据描述、数据探索分析和数据质量描述。我们首 先收集大量的数据然后对此进行数据描述分类数据,然后优化净化数 据,并对此进行分类整理,保存查询,搜索数据等。贝叶斯算法:贝叶斯分类基于贝叶斯定理,贝叶斯定理是由 1 18 8世纪概率论和决策论的早起研究者 ThomasThomas BayeBaye 锻明的,故用其 名字命名为贝叶斯定理。分类算法的比较研究发现,一种称为朴素贝 叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网 络分类器相媲美。用于大型数据库,
3、贝叶斯分类法也已表现出高准确率和高速度。目前研究较多的贝叶斯分类器主要有四种,分别是:NaiveNaive BayesBayes TANTAN BANBAN 和 GBMGBM朴素贝叶斯分类是一种十分简单的分类算法, 思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现 的概率,哪个最大,就认为此待分类项属于哪个类。贝叶斯定理(Bayestheorem)Bayestheorem)是概率论中的一个结果,它 跟随机变量的条件概率以及边缘概率分布 有关。在有些关于概率的解 说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。通常,事件 A A 在事件 B B (发生)的条件下
4、的概率,与事件 B B 在事件 A A 的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述贝叶斯公式提供了从先验概率 P(AP(A P(BWP(BW P(B|A)P(B|A)计算后验概率 P(A|B)P(A|B)的方法:P(A|B)=P(B|A)*P(A)/P(B)P(A|B)=P(B|A)*P(A)/P(B) , , P(A|B)P(A|B)随着 P(AP(A 诉日P(B|AP(B|A)的增长而增长,随着 P(BNP(BN 勺增长而减少,即如果 B B 独立于 A A 时 被观察到的可能性越大,那么 B B 对 A A 的支持度越小。举例:一个天气估计问题?两
5、个假设 H:H: h1=h1=青天、h2=h2=非晴天 ?可观察到的数据:温度高+和温度低- ?先验知识 p(h)p(h)P(AfB) =P(B|A)心P(B)?北京晴天的概率 0.99:0.99: P(h1)=0.99P(h1)=0.99?非晴天 0.01:0.01: P P(h2h2)=0.01=0.01?观察到的概率 P P(D|hD|h): :?P P(温度高| |晴天)=0.85=0.85?P P(温度低| |非晴天)=0.93=0.93?问题:现在观察到温度低,判断是否非晴天?极大似然计算P P(非晴天| |温度低)X X P P(温度低|非晴天)=0.93=0.93P P(晴天|
6、 |温度低)工工P P(温度低| |晴天)=0.15=0.15答案:非晴天决策树:决策树:训练集:数据的集合,用于生成树(模型)测试集:用于测试树(模型)的性能决策树作用:主要就是训练数据除去脏数据通过训练集算法指导下生成决策树 新数据进行划分否则是三拍”决策N个分割属性的训练集(pn = n!)种决策树方案-一怎么生成好的?哪个好?数据大量产生,技术的成熟提供基础数据大量产生这一点就不用说了,看看我们每个人一天的生活里 会有多大的比例泡在网上,再加上未来各种可穿戴设备,物联网的普 及,数据量之大难以想象。我主要想谈谈技术,也许技术这个词不够 专业,白己在编程,数据存储方面也不是特别了解,这里
7、就说说算法 这一部分。记得原先在数据结构和算法一开篇就提到关于等差数 列求和的计算机求和计算,我们从小就知道等差数列的求和可利用算 法公式,该算法利用了首尾两个数据和是一样的数据结构特征从而更 简洁。告诉计算机进行求和命令可以是两种方法1.一项项的加,2.直接利用算法,利用第一个方式可能在数据量少的时候计算速度与第二种相比不会有太大的差异,但如果数据量很大,后者的优越性将很 明显。后来在接触到Apriori算法时候里用看到算法会用到一些剪枝 手段减少计算机运算量的时候忍不住拍案叫绝。另外,各式各样的统计软件的背后都有着大量的contributors将白己的算法程序包分享到网上,供后来人更便捷的
8、调用使用。互联 网的这种集体智慧的共享创造方式让后来人站在前人的肩膀上,走的更远。但是在调用这些算法的过程中还是要对算法本身有一些原理上 的理解,算法和数据结构是钥匙和锁,我们在实际操作的过程中还需 要根据具体的情况灵活和适当的使用,会在后面的分享里细说。信息也是产品许多公司所拥有的客户信息不仅仅对白己有价值, 同时对他人也同样具有价值。如今很多的淘宝店铺之间也有了很多的消费者数据的 共享。互联网也改变了品牌和品牌之间的关系,一个拥有很多青少年儿童数据的公司完全可以将白己的数据分享给做儿童食品的公司,或者更进一步,分享彼此所拥有的平台。2.数据挖掘for “actionable ” insig
9、htsdiscovery数据挖掘有很多不同的名称,例如KDD(knowledgediscovery indatabase), 或者BI(businessintelligence),预测 建模(predictivemodel)等,但针对我们业务感受,我更愿意把数据挖掘定义为发现能够让品牌商产生真正落地行为的洞察或发现 下举两个在项目中的小例子:在电商的数据挖掘中,我们通过对消费者的表达研究了解消费者 购买产品的关注重点是什么,影响产品满意度的重要因素是什么, 其 次我们会对消费者的线上购买行为数据进行研究,去看消费者购买除 了买白己品牌的商品同时还会购买哪些竞品品牌。 结合这表达和行为 的洞察,再深入探究竞品的商品展示,宣传,品牌形象,等等各方面 和本品之间的差异点。这样品牌商在电商运营中更能有方向性的去改 进产品和消费者之间的沟通方式。所以,数据挖掘是在一项探测大量数据以发现有意义的模式和规 则的业务流程,我们关注的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 台面合同协议书
- 协议书转让合同
- 校园应急救护教育课件大全
- 视觉效果于异界广告中的应用试题及答案
- 茶树买卖合同协议书
- 签订劳动合同保密协议书
- 降价合同协议书
- 建设合同三方协议书范本
- 饭馆装修合同协议书
- 电商培训合同协议书范本
- 电工电子实训-DT830B
- 赴镇海炼化、燕山石化调研报告
- 小型自选商场商品管理系统设计报告
- MT/T 548-1996单体液压支柱使用规范
- GB/T 16911-2008水泥生产防尘技术规程
- 2022妊娠期及产褥期颅内出血的临床特点和治疗策略(全文)
- 中小学“学思行悟”课堂教学改革行动实施方案
- 中医对高脂血症的认识与防治
- 110kV电缆交流耐压试验方案
- 动力源开关电源说明书-dkd51系统维护手册
- 硬笔书法全册教案共20课时
评论
0/150
提交评论