数据仓库与数据挖掘课程设计DOC_第1页
数据仓库与数据挖掘课程设计DOC_第2页
数据仓库与数据挖掘课程设计DOC_第3页
数据仓库与数据挖掘课程设计DOC_第4页
数据仓库与数据挖掘课程设计DOC_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、海量资源,欢迎共阅目录1.绪论.21.1项目背景.21.2提出问题.22数据库库房与数据集的看法介绍.22.1数据库房.22.2数据集.23数据库房.33.1数据库房的设计.3数据库房的看法模型设计.3数据库房的逻辑模型设计.33.2数据库房的成立.3数据库房数据集.3成立维表.44.数据挖掘操作.44.1数据预办理.4描绘性数据汇总.44.2决策树.45、实验心得.126、大总结.121.绪论1.1项目背景在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集办理,特别零售行业,于企业对产品的市场需求进行科学合理的解析,从而展望出将来的市场,拟定出高效的决策,给企业带来经济收益。1.2

2、提出问题海量资源,欢迎共阅关于商场的商品的购买时期和购买数量的如何决定,才能够使销售量最大,不积压商品,不缺货,对不同样时期季节和不同样人群拟定不同样方案,使企业收益最大,经过数据挖掘对数据进行决策树解析,关系解析,序次解析与决策解析等可以拟定出最正确方案。数据库库房与数据集的看法介绍2.1数据库房数据库房是为企业全部级其余决策拟定过程供应支持的全部种类数据的战略会集。它是单个数据储藏,出于解析性报告和决策支持的目的而创办。为企业供应需要业务智能来指导业务流程改进和监察时间、成本、质量和控制。数据库房是决策系统支持(dss)和联机解析应用数据源的结构化数据环境。数据库房研究和解决从数据库中获守

3、信息的问题。数据库房的特色在于面向主题、集成性、牢固性和时变性。2.2数据集数据集是指一种由数据所组成的会集。Dataset(或dataset)是一个数据的会集,平时以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。数据库房3.1数据库房的设计数据库房的看法模型设计看法模型的设计是整个看法模型开发过程的三阶段。设计阶段依照看法模型解析以及解析过程中收集的任何数据,完成星型模型和雪花型模型的设计。若是仅依赖ERD,那只能对商品、销

4、售、客户主题设计成以下列图的看法模型。这种模型适合于传统的数据库设计,但不适合于数据库房的设计。海量资源,欢迎共阅数据库房的逻辑模型设计逻辑建模是数据库房推行中的重要一环,因为它能直接反响出各个业务的需求,同时对系统的物理推行有重视要的指导作用,它的作用在于能够经过实体和关系勾勒出企业的数据宏图,数据库房的逻辑模型设计任务主要有:解析主题域,确定要装载到数据库房的主题、确认粒度层次划分、确认数据切割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。逻辑模型最后设计成就包括每个主题的逻辑定义,并将相关内容记录在数据库房的元数据中、粒度划分、数据切割策略、表划分和数据本源等。3.2数据库房的

5、成立数据库房数据集一般说来,一个数据集市是依照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。比方,财务部拥有自己的数据集市,用来进行财务方面的报表和解析,市场推行部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持供应辅助手段。数据集市多数采用多维数据库技术,这种技术对数据的解析而言也许是最优的,但必然不适合于大量数据的储藏,因为多维数据库的数据冗余度很高。为了提升速度,对数据集市中的数据一般都成立大量的索引。换言之,数据集市中经常靠对数据的预办理来换取运行时的高速度,当业务部门提出新的问题时,若是不在原来设计的范围内,则需要数据库管理员对数据库作好多调整和优化办理。

6、成立维表维是解析问题的角度,胸襟是要解析的问题。多维视图:用包括胸襟和维的表的数据结构能够创办一个多维视图,用试题和维创办的多维模型称为星型模型,星型模型生成的主要表格被称为事实表。事实表的属性值几乎都有连续值。事实表是规范化的。与维表不同样不是随时间的推移变化,而是不断变大。维表:星型模型也拥有特别小的表,用来装载描绘信息。维表是逆规范化的。若是把维表置于第二范式中,这样的表称为雪花模型。维表包括主键,平时对应事实表的外面键。若是维表的主键不在实事表海量资源,欢迎共阅中,这个主键字便被称作退化的维。创办维表:有3种方法:星型模型、雪花模型和星暴模型。星暴模型含有两张以上的事实表。基本有些充当

7、维事实表。星型模型:全部信息维都放在同一个维表中。维表信息包括一个唯一的表记符(ID)和经过这个维表成立的全部维所需的属性。星型模型由小的维表与大的事实表组成,多称为“小表和大表”。事实表一般是标准表。雪花模型:把信息分为3种标准格式。产品表、种类表、子种类表。把这些信息放到一起需要必然数据的连接。雪花模型比星型模型效率低,占空间少。全部的事实表都有一个与之相关的时间维表。4.数据挖掘操作4.1数据预办理描绘性数据汇总关于好多数据预办理任务,希望知道关于数据的中心趋势和离中趋势特征。中心趋势胸襟包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离

8、中趋势胸襟包括四分位数(quartiles)、四分位数极差(interquartilerange,IQR)和方差(variance)。这些描绘性统计量有助于理解数据的分布。4.2决策树(1)读取文本数据使用变量文件节点读取定界文本数据。能够从选项板中增加变量文件节点,方法是单击源选项卡找到此节点,也许使用收藏夹选项卡(默认情况下,其中包含此节点)。尔后,双击新增加的节点以打开相应的对话框。如图1所示。图1单击紧挨“导入文件”框右边以省略号“.”标记的按钮,阅读到系统中的Clementine安装目录。打开目标文件目录,尔后选择名为sales.xls的文件。选择从文件读取字段名,并注意已载入此对话

9、框中的字段和值。如图2所示。图2海量资源,欢迎共阅单击过滤选项,能够把用不到的信息给过滤掉。如图3所示。图3种类选项卡可帮助认识数据中的更多字段种类。还能够够选择读取值来查察各个字段的实质值,详细取决于在值列中的选择。此过程称为实例化。如图4所示。图4(2)增加表现在已载入数据文件,能够阅读一下某些记录的值。其中一个方法就是成立一个包括表节点的流。要将表节点增加到流中,可双击选项板中的表节点图标或将其拖放到工作区。如图5所示。图5双击选项板中的某个节点后,该节点将自动与流工作区中的选定节点相连接。其余,若是还没有连接节点,则能够使用鼠标中键将源节点与表节点相连接。要模拟鼠标中键操作,请在使用鼠

10、标时按下Alt键。如图6所示。图6要查察表,请单击工具栏上的绿色箭头按钮执行流,也许右键单击表节点,尔后选择执行。如图7所示。图7(3)创办分布图将分布节点增加到流,并将其与源节点相连接,尔后双击该节点以编写要显示的选项。选择商品名称作为要显示其分布的目标字段。尔后,在对话框中单击执行。如图8所示。图8最后图表将有助于查察数据的“结构”。结果表示,商品300g壶瓶枣和400g沁州黄卖的最多。如图9所示。图9其余,还能够够在“输出”选项卡中找到数据审察节点。如图10所示。图10增加并执行数据审察节点,同时快速阅读全部字段的分布图和直方图。如图所示。图11(4)创办散点图海量资源,欢迎共阅现在我们

11、来看一下有哪些因素会对商品销售(目标变量)产生影响。作为一名花销者,我们必然知道销售模式对销售数量有重视要的影响。所以创办一个关于商品名称和销售模式的散点图。将散点图节点放在工作区中,并将其与源节点相连接,尔后双击该节点对其进行编写。如图12所示。图12在“散点图”选项卡中,选择商品名称作为X字段,选择销售模式作为Y字段,并选择销售金额作为交叠字段。尔后单击执行。如图13所示。图13此散点图清楚地显示商品在零售和特价模式下销售金额的不同样。的销售模式下,销售金额明显高于零售模式下的销售金额。如图商品在特价14所示。图14(5)创办直方图因好多数据不能够够直接显示,所以我们要成立直方图,直方图能

12、够很清楚的显示数据。第一,将网络节点与您工作区中的源节点相连接。如图15所示。图15在“直方图”选项卡中,选择商品序号作为X字段,选择销售数量作为交叠字段。尔后单击执行。如图16所示。图16此直方图能够清楚地显示不同样商品销售数量的不同样。由图能够看出序号为1的商品销售数量最多,序号为9的商品销售数量最少。如图17所示。图175、实验心得在本次实验中,从头建工作流向到达获得最后结果,整个流程让我对数据挖掘中数据解析办理的基本方法有了深入的认识,特别是决策树模型应用的理解,同时,也学会了如何使用决策树经过建模和直观化显示发现数据库中的关系(即链接)以及利用这些链接与数据中的案例组相对应关系能够经

13、过建模可详细研究这些组并描绘其特色,增强了运用决策树模型和聚类解析模型的能力。经过此次学习让我意识到,关于数据我们不但要能利用统计来解析它的规律,也要能会经过数据挖掘软件来挖掘数据中间的潜藏信息,并且利用数据挖掘所获得的有利信息更好的服务于数据使用者。海量资源,欢迎共阅6、大总结坚持好一段时间,终于把完成了任务,经过这几次实验报告的实践操作,我收获很大,不仅学习相关数据挖掘的知识,关于SPSS认识更多,操作也比原来熟练多了。诚然过程中有点残害过,但当你战胜了,耐心去一步一步操作,那些烦躁的心情就会慢慢消失,还得要有耐心,认真的态度去操作,才能有结果。关系解析是一个很适用的数据挖掘模型,能够帮助

14、企业做好多很适用的产品组合介绍、优惠促销组合,同时也能指导货架摆放可否合理,还能够够找到更多的潜藏客户,的确真切的把数据挖掘落到实处。关系解析详细能用来做什么呢?能够一句话来概括:最大限度地从你口袋里面拿出更多的钱买我的产品。1.经过关系规则,推出相应的促销礼包或优惠组合套装,快速帮助提升销售额。如自行车针对不同样人群,来拟定有效的销售方案。2.零售商场或商场,能够经过产品关系程度大小,指导产品合理摆放,方便顾客最购买更多其所需要的产品。最常有的就是商场里面购买肉和购买蔬菜水果等货架会摆放得很近,目前就是好多人会同时购买肉与蔬菜,产品的合理摆放也是提升销售的一个要点。3.进行相关产品介绍也许优

15、选相应的关系产品进行精准营销。最常有的是你在亚马逊或京东购买产品的时候,旁边会出现购买该商品的人,有百分之多少还会购买以下的产品,快速帮助顾客找到其共同爱好的产品。物以类聚,人以群分。比方,穷人一般和穷人在一起,富人也喜欢和富人在一起。还有数据挖掘的人喜欢和数据挖掘的人打交道,都离不开这些鸟道理。4.搜寻更多潜藏的目标客户。比方:100人里面,购买A的有60人,购买B的有40人,同时购买A和B的有30人,说明A里面有一半的顾客会购买B,反推而言。若是推出近似B的产品,除了向产品B的用户介绍(因为新产品与B的功能收效比较近似)之外,还能够够向A的客户进行介绍,这样就能最大限度地搜寻更多的目标客户

16、。决策树解析法是常用的风险解析决策方法。该方法是一种用树形图来描绘各方案在将来收益的计算。比较以及选择的方法,其决策是以希望值为标准的。人们对将来可能会遇到好几种不同样的情况。每种情况均有出现的可能,人们目前无法确知,但是能够依照以前的资料来推断各种自然状态出现的概率。在这样的条海量资源,欢迎共阅件下,人们计算的各种方案在将来的经济收效只能是考虑到各种自然状态出现的概率的希望值,与将来的实质收益不会完好相等。决策树法是管理人员和决策解析人员经常采用的一种卓有收效的决策工具。它拥有以下优点:1.决策树列出了决策问题的全部可行方案和可能出现的各种自然状态,以及各可行方法在各种不同样状态下的希望值。2.能直观地显示整个决策问题在时间和决策序次上不同样阶段的决策过程。3.在应用于复杂的多阶段决策时,阶段明显,层次清楚,便于决策机构集体研究,能够周密地思虑各种因素,有利于作出正确的决策。自然,决策树法也不是十全十美的,它也有缺点,如使用范围有限,无法适用于一些不能够用数量表示的决策;对各种方案的出现概率的确定有时主观性较大,可能以致决策失误;等等展望解析法是依照客观对象的已知信息而对事物在将来的某些特色、发展情况的一种估计、测算活动。运用各种定性和定量的解析理论与方法,对事物将来发展的趋势和水平进行判断和推断的一种活动。展望

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论