数据挖掘知识类型_第1页
数据挖掘知识类型_第2页
数据挖掘知识类型_第3页
数据挖掘知识类型_第4页
数据挖掘知识类型_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘、数据仓库和数据挖掘、西南科技大学管理学院课程教师:周中林my zhaonglin tel:1369813022 QQ:149587061,电子商务09专业课程,数据挖掘,本课程,NC挖掘数据挖掘融合了数据库、人工智能、机器学习、统计分析、模式发现、可视化技术、信息检索等多个领域的知识。本课程系统地介绍了数据挖掘的概念、理论和开发、数据挖掘技术及实际应用。数据挖掘、课程目标和本课程的学习将帮助您了解数据挖掘的基本概念、数据挖掘过程、数据仓库概念、OLAP和数据挖掘的关系。掌握数据挖掘的一般技术,如决策树、神经网络、关联规则、群集分析和统计学习。熟悉数据挖掘技术在典型行业中的应用方法,具

2、有使用数据挖掘技术解决问题的能力。数据挖掘、课程系统、数据挖掘概述数据仓库和OLAP技术数据挖掘技术数据挖掘应用程序数据挖掘工具数据挖掘示例、数据挖掘、学习方法、课堂教学和自主学习数据挖掘的基本概念和原理。充分利用互联网审查相关材料,进一步扩展知识方面常用的数据挖掘软件,提高数据挖掘的基本处理能力和执行能力。数据挖掘,成绩评价,考试分数由平时的出席及作业(10%)实验(20%)期末笔试(70%)组成。数据挖掘,参考资料,章节工厂,商务智能与数据挖掘,北京大学出版社,Michael j . a . berry(美国),数据挖掘技术市场营销、销售与客户关系管理领域应用,机械产业出版社王信等,SQL

3、 Server 2005数据挖掘实例分析,中国水利水电出版社奇喜宇等,010000 数据挖掘、第一章数据挖掘概述、数据挖掘、培训目标、数据挖掘的概念和流程识别了解可在数据挖掘中挖掘的知识类型和知识表示。 数据挖掘,教育要求,数据挖掘,比如,啤酒和尿布,啤酒和尿布能在超市里显示吗?沃尔玛怎么做的?数据挖掘,引用:啤酒和尿布,构建沃尔玛数据仓库,按周期统计产品销售信息,科学建模后提取决策层数据。每个周末位于一个地区的沃尔玛连锁店的啤酒和尿布销量很高,同时购买尿布和啤酒的记录引人注目。分析人士认为这不是偶然的,通过深入分析,他们发现通常周末购买尿布的人是男性,他们完成妻子承担的任务后,经常会去买一些

4、啤酒。结果出来后,沃尔玛的职员们把啤酒和尿布放在一起销售,尿布和啤酒的销售都增加了。从上面的例子可以很容易地看出数据管理的主要目的是获取信息和分析信息,以指导我们的行动或帮助我们做出决策。也可以称为数据挖掘、简介,以及在数据库中提取隐藏的有用信息数据挖掘的知识发现(Knowledge Discover Database,KDD)。从大量数据中提取可靠、新的、有效和可理解的模式的高级处理过程。、数据挖掘、本章内容、一、数据挖掘技术的起源2、数据挖掘的定义3、数据挖掘对象5、数据挖掘任务6、数据挖掘分类7、数据挖掘模型8、数据挖掘流程、数据挖掘技术、一、数据挖掘技术的起源、爆炸性知识不足数据挖掘技

5、术应用实例周报告的总信息量,数据挖掘,第一,数据挖掘技术的起源,80年代AI研究项目投资失败后,AI转移到实际应用程序时提出的。业务应用程序的新AI研究。(人工智能(AI)1989年8月在美国底特律举行的第11届国际人工智能联合会议研讨会上,Knowledge Discovery in Database,KDD(发现数据库中的知识)一词首次出现。之后,1991年、1993年、1994年举行了KDD研讨会,该研讨会将所有领域的研究人员和应用程序开发人员聚集在一起,重点关注数据统计、批量数据分析算法、知识表示、知识利用等。数据挖掘最初是在KDD中使用算法处理数据的阶段,逐渐演变为KDD的同义词。数

6、据挖掘,第一,数据挖掘技术的起源,现在人们经常不区分两者使用。KDD经常被称为数据挖掘,实际上两者是有区别的。在KDD中执行知识学习的步骤称为数据挖掘,数据挖掘是KDD中非常重要的处理步骤。数据挖掘是近年来兴起的客户关系管理(CRM)、业务智能(Business Intelligence,BI)等热点领域的关键技术之一。数据挖掘,第一,数据挖掘技术的起源,支持数据挖掘技术的基本批量数据检索功能强大的多处理器计算机数据挖掘算法,数据挖掘,第二,数据挖掘的定义,技术角度的定义数据挖掘是许多不完整、噪声大、模糊、随机地从实际应用数据中隐含出来的,以及此定义包含多个级别的含义。也就是说,数据源必须真实

7、、大、噪波。发现的是用户的兴趣知识。发现的知识应该可以接受,可以理解,可以使用。不需要发现全世界广为人知的知识,只支持特定的发现问题。数据挖掘,第二,数据挖掘的定义,对知识的解释,从广义上来说是理解,数据,信息也是知识的表现,但是人们把概念、规则、模式、规则和约束等看作是知识。这里所说的知识的发现并不是要求世界上广泛存在的真理的发现,也不是想发现新的自然科学定理和纯数学公式,而是任何机器定理的证明。实际发现的所有知识都是相对的,具有特定的前提和约束条件,在针对特定领域的同时,用户必须易于理解。最好用自然语言表达发现的结果。数据挖掘;第二,数据挖掘的定义;模式:提供数据特征或数据之间的关系;对数

8、据中包含的信息的更抽象的描述。模式可以按功能划分为预测和说明模式。在实际应用中,可以细分为关联模式、分类模式、群集模式和序列模式等。数据挖掘,第二,数据挖掘的定义,“从数据中发现有用的模式”总是以多种方式为人所知。数据挖掘知识提取信息发现信息获取数据考古。Oracle information harvesting(信息获取)数据考古(information harvesting)data extraction(information discovery)information(信息获取)数据考古)、数据挖掘、第二、数据挖掘的定义、业务视角的语义数据挖掘是一种新的业务信息处理技术,其特点是提取业

9、务数据库中的大量业务数据,转换、分析和其他建模过程,以支持业务决策。数据挖掘为企业提供的价值简单地说,数据挖掘是数据分析的深度方法之一。因此,数据挖掘可以根据企业的既定业务目标探索和分析大量企业数据,揭示隐藏的、未知的或已知的规律性,并进一步将其描述为建模的有效方法。数据挖掘、第二,从业务数据到业务信息的演化、数据挖掘、数据挖掘和其他科学关系、数据库系统、数据仓库、统计、机器学习、可视化、信息检索,以及数据挖掘作为与高性能计算相关的新的跨学科领域。它还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等领域有着密切的关系。数据挖掘、数据挖掘和其他科学的关系、受多个领

10、域影响的数据挖掘、数据挖掘和现有数据分析、数据挖掘和现有数据分析(如查询、报告、在线应用程序分析)的根本区别在于数据挖掘在没有明确假设的情况下挖掘信息和发现知识。从数据挖掘中获取的信息必须具有三个以前未知、有效和可用的特征。数据挖掘、数据挖掘、数据挖掘和数据仓库、数据挖掘的一种数据源数据挖掘是数据挖掘的数据仓库应用程序,数据仓库不是必需的。数据挖掘、数据挖掘和联机分析处理(OLAP)、OLAP分析建立了一系列假设,然后通过OLAP确认或推翻这些假设,最终得出自己的结论。OLAP分析过程本质上是演绎推理的过程。数据挖掘与OLAP的不同之处在于,数据挖掘不是用于验证假设模式(模型)的准确性,而是直

11、接在数据库中查找模型。他本质上是归纳的过程。数据挖掘和OLAP具有一定的互补性。数据挖掘、数据挖掘、机器学习和统计、数据挖掘利用人工智能(AI)和统计分析的进步带来的好处。数据挖掘不是为了取代传统的统计分析技术。相反,他是统计分析方法的扩展和扩展。数据挖掘是利用统计和人工智能技术的应用程序,封装了这些深入复杂的技术,使用户无需亲自掌握这些技术就可以执行相同的功能,更注重需要解决的问题、数据挖掘、数据挖掘的本质、深入数据分析方法。数据分析本身有很长的历史,但是历史数据收集和分析的一般目的是为了科学研究。另外,由于当时计算容量的限制,很难实现对大量数据的复杂分析。行业业务自动化的实现现在生成了大量

12、业务数据,这些数据是在业务运行过程中因业务需求自然生成的,而不是在业务部门为了分析目的而收集的。实施数据挖掘、数据挖掘的目的不再是为了简单的研究,而是为业务决策提供真正有价值的信息,从而获得收益。所有企业共有的问题之一是,企业数据量很大,其中几乎没有真正有价值的信息,因此需要从大量数据中进行深入分析,获取有助于提高商业运营和竞争力的信息,就像从矿石中淘金一样,数据挖掘也是以这个名字命名的。数据挖掘,第三,数据挖掘发现的知识类型,广义知识关联知识分类知识预测知识偏差知识。数据挖掘,广义知识,广义知识表示类别特性的一般描述知识。根据数据的微观特性,发现具有特征性、普遍性、高层次概念的、中关村、宏观

13、知识,反映同类的共同性质。广泛的知识是归纳和总结大量数据,提取具有普遍性和概括性的技术统计知识。技术统计是数据挖掘最基本的应用之一,经常与统计(如直方图、直方图、折线图、散布图等)一起使用。该月公司总利润,其他地区的销售比较等。广义知识的发现方法和实现技术有多种,如概念说明、多维数据分析、属性导向减少、概念分层等。数据挖掘,连接知识,数据连接是数据库中存在的重要的可发现知识类型。如果两个或多个变量的值之间有一定的规则性,则称为相关性。关联知识可分为简单关联规则、多级关联规则、多维关联规则、定量关联规则和基于约束的关联规则。举例来说,在购物篮分析中发现关联规则的算法主要包括Apriori算法、频

14、繁的模式树(FP- tree)、数据挖掘、案例:一家超市的数据挖掘应用程序,以及美国超市的这些系统。也就是说,在购买商品结算时,销售代表小姐扫描了产品后,电脑上显示了一些信息,销售代表亲切地询问。F6架子上有一次性纸杯。想购买吗?这句话并不是一般的促销。因为电脑系统很久以前就有了,如果购物车里有餐巾、一瓶可乐、沙拉,86%的人有可能买一次性纸杯。结果,你说,啊,谢谢,我只是没找到纸杯。不是什么神奇的科学占卜,而是利用数据挖掘的关联规则算法实现的系统。数据挖掘、分类知识、分类知识是反映同类之间共性的基于特征的知识和不同事物之间基于差异的特性知识。典型应用程序:客户细分。例如,银行根据客户的存款金

15、额、信用金额和消费金额将客户分类为不同的类别,分别处理不同类型的银行卡。算法包括决策树分类、贝叶斯分类、人工神经网络方法、粗糙集方法和遗传算法。数据挖掘,预测知识,预测知识意味着连续的预测值。也就是说,可以根据时间序列数据从历史数据和当前数据推断未来数据,或将时间视为关键属性。典型的例子是市场预测问题。数据挖掘在有关过去促销的数据中查找未来投资收益最多的用户,其他可预测的问题包括破产预报和确认对指定活动响应最多的组。不仅有基于统计学习的回归分析,还有基于现代智能计算的神经网络、遗传算法等多种时间序列分析。数据挖掘,偏差知识,偏差型知识是对差异和极端特例的解释,揭示了事物偏离日常生活的异常现象。在数据挖掘中,有时称为“孤立点”的偏差是用于发现“小模式”偏差知识挖掘的代表性应用程序,用于检测信用卡欺诈。基于统计的方法、基于距离的方法和基于偏离的方法、数据挖掘、案例:国内通信公司使用数据挖掘预测客户知识,2004年某通信公司邀请世界著名的咨询公司参与营销再造项目,在客户管理、网络/产品/服务管理、市场/财务管理三个业务领域使用数据挖掘。公司把数据挖掘的重点集中在客户管理上。在电信市场竞争日益激烈的今天,即使扩大客户群,电信运营商和其他分销商也必须密切监视现有客户,采取多种营销方式来保持这一点。电信公司希望通过数据仓库实施和数据挖掘应用程序,将业务分析系统用于客户分类、客户获取、客户行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论