尿布与啤酒与数据挖掘技术ppt课件_第1页
尿布与啤酒与数据挖掘技术ppt课件_第2页
尿布与啤酒与数据挖掘技术ppt课件_第3页
尿布与啤酒与数据挖掘技术ppt课件_第4页
尿布与啤酒与数据挖掘技术ppt课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、在一家超市,有个有趣在一家超市,有个有趣的景象:尿布和啤酒赫然摆的景象:尿布和啤酒赫然摆在一同出卖,但是这个在一同出卖,但是这个“奇奇异的举措却使尿布和啤酒异的举措却使尿布和啤酒的销量双双添加了。的销量双双添加了。 总部位于美国阿肯色州的世界著名商业零售连总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛锁企业沃尔玛Wal Mart拥有世界上最大的数拥有世界上最大的数据仓库系统。为了可以准确了解顾客在其门店的购据仓库系统。为了可以准确了解顾客在其门店的购置习惯,沃尔玛利对其顾客的购物行为进展购物篮置习惯,沃尔玛利对其顾客的购物行为进展购物篮分析,想知道顾客经常一同购置的商品有哪些。沃分析,想

2、知道顾客经常一同购置的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始买卖数尔玛数据仓库里集中了其各门店的详细原始买卖数据。在这些原始买卖数据的根底上,沃尔玛利用据。在这些原始买卖数据的根底上,沃尔玛利用NCR数据发掘工具对这些数据进展分析和发掘。数据发掘工具对这些数据进展分析和发掘。一个不测的发现是:一个不测的发现是:跟尿布一同购置最多的商品跟尿布一同购置最多的商品竟是啤酒!竟是啤酒! 这是数据发掘技术对历史数据进展分析这是数据发掘技术对历史数据进展分析的结果,反映数据内在的规律。那么这个结的结果,反映数据内在的规律。那么这个结果符合现实情况吗?能否是一个有用的知识?果符合现实情况吗?能

3、否是一个有用的知识?能否有利用价值?能否有利用价值? 沃尔玛派出市场调查人员和分析师对这沃尔玛派出市场调查人员和分析师对这一数据发掘结果进展调查分析。经过大量实一数据发掘结果进展调查分析。经过大量实践调查和分析,提示了隐藏在践调查和分析,提示了隐藏在“尿布与啤酒尿布与啤酒背后的美国人的一种行为方式:在美国,背后的美国人的一种行为方式:在美国,一些年轻父亲下班后经常要到超市去买婴儿一些年轻父亲下班后经常要到超市去买婴儿尿布,而他们中有尿布,而他们中有30%到到40%的人同时也为的人同时也为本人买一些啤酒。产生这一景象的缘由是:本人买一些啤酒。产生这一景象的缘由是:美国的太太们常叮嘱她们的丈夫下班

4、后为小美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。了他们喜欢的啤酒。 既然尿布与啤酒一同被购置的时机很多,既然尿布与啤酒一同被购置的时机很多,于是沃尔玛就在其一个个门店将尿布与啤酒于是沃尔玛就在其一个个门店将尿布与啤酒摆放在一同,结果,尿布与啤酒的销售量双摆放在一同,结果,尿布与啤酒的销售量双双增长。双增长。 按常规思想,尿布与啤酒风马牛不相及,按常规思想,尿布与啤酒风马牛不相及,假设不是借助数据发掘技术对大量买卖数据假设不是借助数据发掘技术对大量买卖数据进展发掘分析,沃尔玛是不能够发现数据内进展发掘分析,

5、沃尔玛是不能够发现数据内在这一有价值的规律的。在这一有价值的规律的。是什么让沃尔玛发现了尿布和啤酒之间是什么让沃尔玛发现了尿布和啤酒之间的关系呢?正是商家经过对超市一年多原始的关系呢?正是商家经过对超市一年多原始买卖数字进展详细的分析,才发现了这对神买卖数字进展详细的分析,才发现了这对神奇的组合。奇的组合。 数据发掘是从大量数据中寻觅其规律的技术,数据发掘是从大量数据中寻觅其规律的技术,主要有数据预备、规律寻觅和规律表示三个步骤。主要有数据预备、规律寻觅和规律表示三个步骤。但在详细施行数据发掘运用时,还要有一个步但在详细施行数据发掘运用时,还要有一个步骤就是结果评价。这是由于数据算法寻觅出来的

6、是骤就是结果评价。这是由于数据算法寻觅出来的是数据的规律,其中有些是人们感兴趣的有用的,还数据的规律,其中有些是人们感兴趣的有用的,还有一些能够是不感兴趣的没有用的。这就要对寻觅有一些能够是不感兴趣的没有用的。这就要对寻觅出的规律进展评价。例如:出的规律进展评价。例如:跟尿布一同购置最多跟尿布一同购置最多的商品是啤酒的商品是啤酒这样一条规律能否有用呢?这就需这样一条规律能否有用呢?这就需求市场调查和评价工程师根据实践情况做出评价判求市场调查和评价工程师根据实践情况做出评价判别。这是一个人工步骤,还难以自动化。别。这是一个人工步骤,还难以自动化。 数据发掘分为描画性和预测性两类。数据发掘分为描画

7、性和预测性两类。描画性数据发掘提供数据的普通规律描画性数据发掘提供数据的普通规律预测性数据发掘产生关于数据的预测。预测性数据发掘产生关于数据的预测。 关联分析:寻觅数据项之间感兴趣关联分析:寻觅数据项之间感兴趣的关联关系。例如:我们可以经过对的关联关系。例如:我们可以经过对买卖数据的分析能够得出买卖数据的分析能够得出86%买买啤酒啤酒的人同时也买的人同时也买尿布尿布这样一条这样一条啤酒啤酒和和尿布尿布之间的关联规那么。之间的关联规那么。 演化分析:描画时间序列数据随时演化分析:描画时间序列数据随时间变化的数据的规律或趋势,并对其间变化的数据的规律或趋势,并对其建模。包括时间序列趋势分析、周期建

8、模。包括时间序列趋势分析、周期方式匹配等。例如:经过对买卖数据方式匹配等。例如:经过对买卖数据的演化分析,能够会得到的演化分析,能够会得到89%情况股情况股票票X上涨一周左右后,股票上涨一周左右后,股票Y会上涨会上涨这这样一条序列知识。样一条序列知识。 聚类分析:根据最大化类内的类聚类分析:根据最大化类内的类似性、最小化类间的类似性的原那么似性、最小化类间的类似性的原那么将数据对象聚类或分组,所构成的每将数据对象聚类或分组,所构成的每个簇聚类可以看作一个数据对象个簇聚类可以看作一个数据对象类,用显式或隐式的方法描画它们。类,用显式或隐式的方法描画它们。也就是我们常说的物以类聚人以群分。也就是我

9、们常说的物以类聚人以群分。 分类分析:找出描画并区分数据类的模型分类分析:找出描画并区分数据类的模型可以是显式或隐式,以便可以运用模型预可以是显式或隐式,以便可以运用模型预测给定数据所属的数据类。测给定数据所属的数据类。例如:信誉卡公司可以将持卡人的信誉度例如:信誉卡公司可以将持卡人的信誉度分类为:良好、普通和较差三类。分类分析经分类为:良好、普通和较差三类。分类分析经过对这些数据类的分析给出一个信誉等级的显过对这些数据类的分析给出一个信誉等级的显式模型:式模型:信誉良好的持卡人是年收入在信誉良好的持卡人是年收入在30000元到元到50000元之间,年龄在元之间,年龄在30至至45岁之间,居岁

10、之间,居住面积达住面积达90M2 左右的人左右的人。这样对于一个新的。这样对于一个新的持卡人,就可以根据他的特征预测其信誉度。持卡人,就可以根据他的特征预测其信誉度。 异常分析:一个数据集中往往包异常分析:一个数据集中往往包含一些特别的数据,其行为和方式与含一些特别的数据,其行为和方式与普通的数据不同,这些数据称为普通的数据不同,这些数据称为异异常常。对。对异常异常数据的分析称为数据的分析称为异常异常分析分析。它在欺诈甄别、网络入侵检。它在欺诈甄别、网络入侵检测等领域有着广泛的运用。测等领域有着广泛的运用。 数据发掘运用领域非常宽广数据发掘运用领域非常宽广 先期将在数据先期将在数据积累比较充分

11、的领域银行、证券、电信等领域积累比较充分的领域银行、证券、电信等领域到运用,以后将在各行各业各领域中获得运用。到运用,以后将在各行各业各领域中获得运用。只需数据积累充分,就需求数据发掘技术。只需数据积累充分,就需求数据发掘技术。 数据发掘技术将被社会长期运用数据发掘技术将被社会长期运用 随着信息随着信息化任务的深化开展,计算机中积累的数据只会化任务的深化开展,计算机中积累的数据只会越来越多,人们会越来越注重对这些信息的发越来越多,人们会越来越注重对这些信息的发掘利用,所以对数据发掘技术的需求也会越来掘利用,所以对数据发掘技术的需求也会越来越大。当然,数据发掘技术本身会不断开展提越大。当然,数据发掘技术本身会不断开展提高,该技术将被长期运用。高,该技术将被长期运用。 v sqlserverdatamining vSQLServer2020_DMAddin.msiv解释:购置解释:购置Mountain Tire Tube的人经常也会购置的人经常也会购置Sport-100。v所选商品的销售情况:阐明有多少个事务包含了选所选商品的销售情况:阐明有多少个事务包含了选中的项。有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论