


免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘建模:一个热门话题的解惑(续1) (二)数据挖掘不是什么 提出这个问题很容易,回答却没有看起来那么简单。比如,我可以说,数据挖掘不是售货机,投入一个硬币,吐出来一筒可乐输入一堆数据,产生一个方程.等等都无助于正确回答这个问题。那我们就索性从前文“数据挖掘是什么”,数据挖掘能干什么入手看看双刃剑的另一面。 第一部分“数据挖掘是什么”实际上写的比我计划要写的简单。仅仅给出了一个定义及几条注脚而已。但不管怎样最核心的东西毕竟写出来了。数据挖掘说到底是一种方法,“对观测到数据集合进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。”也就是说,它是对观测数据的次级处理,往往是数据的副产品。比如,物流中心的批销单(可以理解成订单)历史数据,本身的目的是为了处理发货和配送,但用数据挖掘,可以对客户进行分类或聚类,进而也许有助于销售预测。这样,“不是什么”的问题也就来了,它的确不是专门性进行的一项完整工作,也就是说,没有人会说:老王,我们准备预测一下下个月营业高峰什么时候出现,你弄些数据来挖一挖。没有数据,挖掘是扯淡的。很多数据挖掘项目失败,不在于实施者不懂算法,也往往不在于模型建立不合理不正确,而在于源头的数据就不准确不“原始”,为挖掘而挖掘。 定义的后一部分要求产生的结果是“新颖的”,那我们不多说,又一条“不是什么”可以这么理解:数据挖掘不是你先看一眼批销单,然后说我猜买克林顿与莱温斯基的人一定会买希拉里自传,我们挖一挖批销单库看看。当然这么说有的时候不能完全算错,因为毕竟科学探索还得要有想像力但数据挖掘一般说来结果都可能会让你大跌眼镜,不是你想当然想出来然后验证。最后再从另一个维度“数据挖掘能作什么”出发回答“数据挖掘不是什么”。任何严肃的数据挖掘教科书(我列几本,大家可以找找。J.Han ,Micheline Kambr,Data Mining-Concepts and Techniques;David Hand Principles of Data Mining; Michael J.A.Berry,Mastering Data Mining-The Art and Science of Customer Relationship Management;Adriaans,P.,and Zantige Data Mining)都覆盖到以下几个区域(后续文章会详细阐述):1 分类(Classification)分类首先要对一个新的客观事物特征进行描述,然后将客观事物的观察值分配到事先确定的类别之中。因此,数据挖掘不是先知,能预知新的类别(异常探测是另一个话题),必须是事先明确的类别,经过训练后将待分类数据归到类别标签下去。2 估计(estimaiton)分类处理的是离散的结果:如“是”与“不是”,“中国”,“日本”,而估计处理的是连续的结果,因此也可以看成分类的扩展,二者在实践中常常结合使用,比如银行要决定该给哪些顾客贷款,考虑的做法是将所有顾客放入一个模型,给每个客户一个从0到1的分数,即对贷款的响应概率。分类的任务转换成建立一个分数临界数值,根据对顾客响应概率的估计来对他分类。因此这一点不再阐述。3 预测(Prediction)有人认为预测不是一种独立的方法,任何预测都是分类或者估计,关键在于你强调什么。我的理解是区别点在于检验。分类理论上你是可以检验的,而预测你只能等到事情发生之后。但记住,数据挖掘同样不是未卜先知,一切的神秘都在数据里,玄机是跟分类和估计一样,都得通过训练数据建立先验的某种模型(如树或贝叶斯网络),然后在此基础和前提下预测。想想也是有道理的,现实生活中,我们太相信一些专家,学者的话,老吃哑巴亏,人家说今年房价一定升,咱就把攥的紧紧的钱拿出来去买房,结果好像别人的升,你的房子按兵不动啊。“专家”们的预测也是有前提和模型的,只是他的模型,只在书本或他脑子里,我们这些老百姓无缘听到,也可能人家根本不屑讲给我们这些听不懂的人。4 关联(AssociationRules)这是数据挖掘中最常见的一类问题。几乎所有的介绍数据挖掘概念的文章中动辄都拿这个为例,“啤酒和尿布”,“菜篮子分析”,“购物车”分析都是这一类问题的通俗说法。我先提醒大家一句,数据挖掘运算的结果,即便是frequent item(也就是有意义的那些关联项目)也可能是数目非常庞大的,需要进一步分析。不是挖一通然后眼睛一亮泪流满面向全世界宣布:买香烟最多的人买打火机也最多!5 聚类(clustering)聚类跟分类不同,对于数据会归于哪一“类”,事先是不知道的,完全是unsupervised学习过程,自然也就没有什么样本的概念。但同样提醒大家
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 沧州市人民医院肌力评定技术规范化操作考核
- 2025第二人民医院门诊麻醉技术考核
- 2025年衢州市卫生健康委员会衢州市妇幼保健院招聘编外人员1人模拟试卷及答案详解(全优)
- 邢台市中医院护士配置管理考核
- 沧州市中医院对比剂使用规范考核
- 北京市人民医院放射治疗技术演进与前沿动态综述题
- 邢台市中医院靶向药物治疗管理考核
- 2025第二人民医院老年病科住院医师晋升主治医师考核
- 2025湖南怀化学院高层次人才招聘100人模拟试卷有完整答案详解
- 2025年嘉兴市秀洲区教育体育局所属事业单位公开选聘工作人员2人考前自测高频考点模拟试题(含答案详解)
- 2025年辅警招聘考试试题库及答案(必刷)
- 烟花爆竹经营培训试题及答案
- 2025年医院精神科冲动伤人患者应急预案及演练脚本
- 车位退还协议书
- 手榴弹教学课件
- 工厂临时用工方案(3篇)
- 监理整改措施方案(3篇)
- 景区酒店融资方案(3篇)
- GB/T 9948-2025石化和化工装置用无缝钢管
- 下肢静脉血栓疑难病例护理讨论
- 黑色素瘤病理诊断
评论
0/150
提交评论