版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、(计算机类)笔试资料常见数据挖掘分析方法介绍本文标签: 数据分析 , 数据挖掘下面介绍十种数据挖掘 (Data Mining)的分析方法,以便于大家对模型的初步了解,这些都是 日常挖掘中经过常遇到的算法,希望对大家有用! (甚至有数据挖掘公司,用其中的一种算法就能独 步天下)1、基于历史的 MBR 分析(Memory-Based Reasoning ;MBR)基于历史的 MBR 分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性 (attribute),通常找寻最相似的案例来做比较。记忆基础推理法中有两个主要的要素,分别为了距离函数(distance function)与结
2、合函数 (combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结 合起来,以供预测之用。记忆基础推理法的优点是它容许各种型态的数 据,这些数据不需要服从某 些假设。另一个优点是其具备学习能力,它能藉则由旧案例的学习来获取关于新案例的知识。较令人 诟病的是它需要要大量的历史数据,有足够 的历史数据方能做良好的预测。此外记忆基础推理法在 处理上亦较为了费时, 不易发现最佳的距离函数与结合函数。 其可应该用的范围包括欺骗行为了的侦 测、客户反应该预 测、医学诊疗、反应该的归类等方面。2、购物篮分析(Market Basket Analysis )(
3、计算机类)笔试资料(计算机类)笔试资料购物篮分析最主要的目的在于找出什么样的东西应该该放在一起?商业上的应该用在藉则由顾 客的购买行为了来了解是什么样的顾客以及这些顾客为了什么买这些产品,找出相 关的联想 (association)规则,企业藉则由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可 藉则由此分析改变置物架上的商品排列或是设计 吸引客户的商业套餐等等。购物篮分析基本运作过程包含下列三点:(1)选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中 选择出真正有用的品项出来。(2)经过则由对共同发生矩阵(co-occurrence matrix)的探讨
4、挖掘出联想规则。(3) 克服实际上的限制: 所选择的品项愈多, 计算所耗费的资源与时间愈久 (呈现指数递增) , 此时必须运用一些技术以降低资源与时间的损耗。购物篮分析技术可以应该用在下列问题上:(1)针对信用卡购物,能够预测未来顾客可能购买什么。(2)对于电信与金融服务业而言,经过则由购物篮分析能够设计不同的服务组合以扩大利润。(3)保险业能藉则由购物篮分析侦测出可能不寻常的投保组合并且作预防。(4)对病人而言,在疗程的组合上,购物篮分析能作为了是否这些疗程组合会导致并且发症的判断依据。3、决策树(Decision Trees)决策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这
5、些法则则以一连串的 问题表示出来,经过则由不断询问问题最终能导出所需要的结果。典型的决策 树顶端是一个树根, 底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此 外,决策树可能有着不同的外型,例如二元 树、三元树或混和的决策树型态。(计算机类)笔试资料(计算机类)笔试资料4、遗传算法(Genetic Algorithm )遗传算法学习细胞演化的过程,细胞间可经过则由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经过 则由一连串类似产生新细胞过程的运作,利用适合函数(fitness function)决
6、定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集(cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经过网络的应该用。5、聚类分析(Cluster Detection )这个技术涵盖范围相当广泛,包含基因算法、类神经过网络、统计学中的群集分析都有这个功能。它的目标为了找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为了研究的开端。(计算机类)笔试资料(计算机类)笔试资料6、连接分析(Link Analysis)连接分析是以数学中之图形理论(graph theory)为了基
7、础,藉则由记录之间的关系发展出一 个模式,它是以关系为了主体,则由人与人、物与物或是人与物的关系发展出相当多的应该用。例如 电信服务业可藉 连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为了何,提出 有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于 企业的研究。7、OLAP 分析(On-Line Analytic Processing ;OLAP)严格说起来, OLAP 分析并且不算特别的一个数据挖掘技术,但是透过在线分析处理工具,使用 者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般, 透过图表或图形等方式显现, 对一般人而言,感觉会更友
8、善。这样的工具亦能辅助将数据转变成信息的目标。8、神经过网络(Neural Networks)神经过网络是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面 对新的例证,神经过网络即可根据其过去学习的成果归纳后,推导出新的结果,乃属于机器学习的一 种。数据挖掘的相关问题也可采类神经过学习的方式,其学习效果十分正确并且可做预测功能。9、判别分析(Discriminant Analysis )当所遭遇问题它的因变量为了定性 (categorical) ,而自变量 (预测变量) 为了定量 (metric) 时,判别分析为了一非常适当之技术,通常应该用在解决 分类的问题上面。若因变
9、量则由两个群体 所构成,称之为了双群体 判别分析 (Two-Group Discriminant Analysis);若则由多个群体构 成,则称之为了多元判别分析(Multiple Discriminant Analysis;MDA)。(1) 找出预测变量的线性组合,使组间变异相对于组内变异的比值为了最大,而每一个线性 组合与先前已经过获得的线性组合均不相关。(2) 检定各组的重心是否有差异。(3) 找出哪些预测变量具有最大的区别能力。(4) 根据新受试者的预测变量数值,将该受试者指派到某一群体。(计算机类)笔试资料(计算机类)笔试资料10、罗吉斯回归分析(Logistic Analysis )当判别分析中群体不符合正态分布假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年河北资源环境职业技术学院高职单招职业适应性考试备考题库有答案解析
- 2026年桂林山水职业学院高职单招职业适应性测试备考试题有答案解析
- 2026年黑龙江交通职业技术学院高职单招职业适应性考试参考题库带答案解析
- 外贸公司2025年报关服务合同协议
- 土地租赁解除合同协议2025年
- 2026年安阳职业技术学院单招综合素质考试备考题库带答案解析
- 2026年黑龙江幼儿师范高等专科学校单招职业技能考试模拟试题带答案解析
- 2026年湖南环境生物职业技术学院单招综合素质考试备考题库带答案解析
- 2026年安徽粮食工程职业学院单招职业技能笔试备考题库带答案解析
- 体检结果保密合同协议2025年
- 人力资源共享服务中心研究-深度研究
- 2006年江苏高考语文真题及答案
- 颈动脉斑块护理查房
- 布袋除尘器设备安装施工技术交底
- 蒋诗萌小品《谁杀死了周日》台词完整版
- 小数乘除法竖式计算题500道及答案
- 断路器本体防跳与微机保护装置中防跳回路关系的分析
- 2021-2022学年云南省曲靖市人教版四年级上册期末考试数学试卷【含答案】
- 2023年黑龙江省专升本考试生理学护理学专业测试题含解析
- 方言台词传声筒的题目库
- 仓库年度工作总结与明年计划设立安排
评论
0/150
提交评论