《数据仓库与数据挖掘》课程设计报告模板_第1页
《数据仓库与数据挖掘》课程设计报告模板_第2页
《数据仓库与数据挖掘》课程设计报告模板_第3页
《数据仓库与数据挖掘》课程设计报告模板_第4页
《数据仓库与数据挖掘》课程设计报告模板_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、江西理工大学应用科学学院数据仓库与数据挖掘课程设计报告题目:某超市数据集的OLAP分析及数据挖掘系别:班级:姓名:二O二年六月目录一、建立数据仓库数据库结构和设置数据源11.任务描述2建立数据仓库数据库设置数据源二、销售数据OLAP分析任务描述设计星型架构多维数据集(Sales)设计存储和数据集处理OLAP分析三、人力资源数据OLAP分析1.任务描述设计父子维度的多维数据集(HR)3修改多维数据集(HR)的结构设计存储和数据集处理OLAP分析四、数据仓库及多维数据集其它操作1.任务描述设置数据仓库及多维数据集角色及权限查看元数据创建对策钻取6.建立远程Internet连接五、数据仓库高级操作任

2、务描述创建分区创建虚拟多维数据集DTS调度多维数据集处理备份/还原数据仓库六、数据挖掘任务描述创建揭示客户模式的决策树挖掘模型决策树挖掘结果分析创建聚类挖掘模型聚类挖掘结果分析创建基于关系数据表的决策树挖掘模型浏览“相关性网络”视图 一、建立数据仓库数据库结构和设置数据源1、任务描述数据仓库数据库是将要在其中存放多维数据集、角色、数据源、共享维度和挖掘模型的一种结构。然后跟预先设置好的ODBC数据源建立连接。2、建立数据仓库数据库展开树视图的AnalysisServers;单击服务器名或右击选择连接,与AnalysisServers建立连接;右击服务器名,然后单击“新建数据库”命令;在“数据库

3、”对话框中输入数据库名“教程DW”,单击确定;3、设置数据源展开刚创建的“教程DW”数据库,可看到如下项目:数据源、多维数据集、共享维度、挖掘模型、数据库角色右击“教程DW”数据库下的“数据源”文件夹,然后单击“新数据源”命令;在“数据链接属性”对话框中,单击“提供程序”选项卡,选择“MicrosoftOLEDBProviderforODBCDrivers”;单击“连接”选项卡,选择建好的ODBC数据源“FoodMart2000”;单击确定按钮关闭“数据链接属性”对话框屉嗾据陡揍性fx規供程序辻搖|raiJr|所有选斥洛弟坐辻检的埶JE:OLEDI棕洪稈序MediaeatalogEEULEDU

4、rrovid_erMdiCdt_:gTil-st-gc=cLDEOLEDEFr-:-ridsrMedi=CatalogVfebDDULIEDBProviderMicr-z-EoEt.Jc:4.OLZEEFr:-vidci:-Hi匚xcisoEtOLEDBProttj.drForE.vridei-f:rOi-it.1:kSeai_cRFroviderfor旨PCServerimplqPro1-!d-2fIMUL_n.Lihrr:v1-i-2ftor111i口it口jz:11Li1fqzt:rv0czirvicez确走|恥消|卒即左使用数据遞名称)V刷新r使用连接宇符串虹j图表1连接数据源销售数据

5、OLAP分析任务描述以多维方式建立数据模型可简化联机业务分析,提高查询性能。通过创建多维数据集,AnalysisManager可将存储在关系数据库中的数据转换为具有实际含义并且易于查询的业务信息。设计星型架构多维数据集(Sales)星型架构的多维数据集由一个事实数据表和链接到该事实数据表的多个维度表组成。下面针对FoodMart超市1998年的销售业务数据,建立一个多维数据集,以便按产品和顾客2个主题展开分析。具体操作如下:展开树窗格的“教程DW”,右击“多维数据集”,选择“新建多维数据集”一“向导”菜单命令,打开如下“多维数据集向导”对话框。向多维数据集添加度量值(事实):单击下一步,在“从

6、数据源中选择事实数据表”步骤中,展开“FoodMart”数据源,然后单击“sales_fact_1998”;单击下一步,设置多维数据集的度量值列:store_sales、store_cost、unit_sales;单击下一步,建立维度表。单击新建维度,打开“维度向导”对话框;向多维数据集添加时间维:选择维度类型为“星型架构:单个维度表”;单击下一步,选择维度表“time_by_day”;单击下一步,选择维度类型为“时间维度”;单击下一步,选择时间级别为“年、季度、月”;单击下一步,单击下一步,输入时间维名称:Time,并设为“共享”方式,单击完成,OK!向多维数据集添加产品维:再次单击新建维度

7、,打开“维度向导”对话框;选择创建维度的方式为“雪花架构:多个相关维度表”;单击下一步,选择维度表“Product”和“product_class”;单击下一步,查看连接方式,在这里可删除不要的连接,添加需要的连接单击下一步,依次选择product_category、product_subcategory和brand_name三个维度级别;单击下一步,指定成员键列步骤中,不需改变主键列;单击下一步,在“高级选项”步骤中,根据需要选择;单击下一步,输入产品维名称:Product,并设为“共享”方式,单击完成,OK!向多维数据集添加客户维度:再次单击新建维度,打开“维度向导”对话框;选择创建维度的

8、方式为“星型架构:单个维度表”;单击下一步,选择维度表“Customer”;单击下一步,选择维度类型为“标准维度”;单击下一步,依次选择Country、State_Province、City和lname四个维度级别;单击下一步,指定成员键列步骤中,不需改变主键列;单击下一步,在“高级选项”步骤中,根据需要选择;单击下一步,输入客户维名称:Customer,并设为“共享”方式,单击完成,OK!生成多维数据集:回到多维数据集向导对话框,这里已到了新建的4个维度;单击下一步,在“是否计算事实数据表行数提问时,单击是,开始计算。计算完成后,命名多维数据集为:Sales,单击完成,0K!关闭向导,随之启

9、动多维数据集编辑器,其中可看到刚刚创建的多维数据集。单击蓝色或黄色的标题栏,对表进行排列,使其符合下图所示的样子7蓋牯Stk-_dayYeek_oE_ye-wni3nih_of_y*arIU.-Wlertisc-aljeritionji-anerf显亡produci.adtLne_id.CTi3torer_Ld.jroriQlj:-n_atore_3dnti?r?_3-alssst-:-re=-:ostUJUt_34143pt1odd亡tproducl_cla53_iapr-?djcl;_idbr-Mid_pimieprodueI;jumieMJSEP5TO33_He:tklrecycl-it

10、lejattlojv_al305t4nr|卜CUEtOFiif_idiCCDUJil_TLiJllliirnailA.ddXAE.t血ddrpE.出*jl图表2“Sales多维数据集编辑器”窗口设计存储和数据集处理:设计好Sales多维数据集的结构之后,需要选择数据的存储模式(MOLAP、ROLAP或HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集。本例选择MOLAP作为存储模式,创建Sales多维数据集的聚合设计,然后从ODBC源中装载数据并按照聚合设计中的定义计算汇总值。展开树窗格,右击“Sales”多维数据集,选择“设计存储”菜单命令,弹出“存储设计向导”对话框

11、;也可在多维数据集编辑窗口中选择“工具设计存储”菜单命令,打开“存储设计向导”对话框;单击下一步,然后选择“MOLAP”作为数据存储类型;单击下一步,设置聚合选项为“性能提升达到”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。单击开始,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。单击下一步,选择“立即处理”,并单击完成,系统开始进行数据处理,处理聚合一般要花费较长一些时间。处理完成后点击关闭,回到AnalysisManager窗口。接下来就可浏览多维数据集的数据了。4.OLAP分析:联机分析处理(OLAP)是使用多维数据表达式(称为多

12、维数据集)提供对数据仓库数据进行快速访问的常用方法。多维数据集为维度表中的数据和数据仓库中的事实数J据表建立模型,并为客户端应用程序提供完善的查询和分析功能。11-GduxiJHh+rro-*tic:vEtorlvaEtorCo:-PSPlTi?匚UKtOTt*bPH-ifrCuetamavA1_1-ITS匚弓7i4DCV.X1B.日.-A+vn4-Je-工”亠Mixiuw丄WQ,2?5T1TZ.595口4UTJ-L1-金二.匚卓刁1L-UdA+CA曰屯?15.心1.”匕小+on3A5-ac-.=口51.5LAFA+TTAce-T-B-1510T.1?e-CiQ图表3OLAP分析图三、人力资源

13、数据OLAP分析任务描述:建立一个人力资源(HR)多维数据集,以进行雇员工资分析。先把Employee维度创建为父子维度,然后使用该维度以及常规维度来生成HR多维数据集设计父子维度的多维数据集(HR):展开“教程DW”,右击“共享维度”,选择“新建维度|向导”菜单命令,打开“新建维度向导”对话框。单击下一步,选择维度结构为“父子:单个维度表中相关的两列”;单击下一步,选择维度表employee;单击下一步,选择employee_id为成员键,选择supervisor_id为父键列,选择full_name为成员名。单击下一步,直到最后一步,输入维度名称:employee;单击完成,回到维度编辑器

14、。OK!修改多维数据集(HR)的结构展开“教程DW”,右击“多维数据集”,选择“新建多维数据集|向导”菜单命令,打开多维数据集向导对话框。点击下一步,选择salary(工资)作事实数据表;点击下一步,选择salary_paid、vacation_used为度量值列;点击下一步,选择Employee(雇员)、Store(商店)、Time(时间)作维度;点击下一步,在提示是否计算事实数据表行数时选“是”。最后输入人力资源多维数据集的名称NR,点击完成,OK!回到编辑器窗口,手工建立time_by_day表到salary表的联接,再建立store表到employee表中的联接,删除多余的联接。最后如

15、下图所示。设计存储和数据集处理设计好Sales多维数据集的结构之后,需要选择数据的存储模式(MOLAP、ROLAP或HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集。本例选择MOLAP作为存储模式,创建Sales多维数据集的聚合设计,然后从ODBC源中装载数据并按照聚合设计中的定义计算汇总值。展开树窗格,右击“Sales”多维数据集,选择“设计存储”菜单命令,弹出“存储设计向导”对话框;也可在多维数据集编辑窗口中选择“工具|设计存储”菜单命令,打开“存储设计向导”对话框;单击下一步,然后选择“MOLAP”作为数据存储类型;单击下一步,设置聚合选项为“性能提升达到”,并

16、输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。单击开始,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。遜:|停止|證附|眈衆口图表4性能与大小单击下一步,选择“立即处理”,并单击完成,系统开始进行数据处理,处理聚合一般要花费较长一些时间。处理完成后点击关闭,回到AnalysisManager窗口。接下来就可浏览多维数据集的数据了。OLAP分析联机分析处理(OLAP)是使用多维数据表达式(称为多维数据集)提供对数据仓库数据进行快速访问的常用方法。多维数据集为维度表中的数据和数据仓库中的事实数据表建立模型,并为客户端应用程序提供完善的查询和分析

17、功能。四、数据仓库及多维数据集其它操作1任务描述多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。角色是保护多维数据集内对象和数据安全的主要方法,可以在多维数据集的不同粒度级别上设置安全性。要定义安全性必须先创建角色,然后向这些角色授予权限。我们要创建Sales和HR角色分别用于访问多维数据集Sales和HR。Management角色用于管理整个数据仓库。2设置数据仓库及多维数据集角色及权限多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。角色是保护多维数据集内对象和数据安全的主要方

18、法,可以在多维数据集的不同粒度级别上设置安全性。要定义安全性必须先创建角色,然后向这些角色授予权限。本例中,我们要创建Sales和HR角色分别用于访问多维数据集Sales和HR。Management角色用于管理整个数据仓库。具体操作如下:2.1创建多维数据集角色:展开“多维数据集”文件夹,右击“Sales”多维数据集,并选择“管理角色”命令,打开“多维数据集角色管理器”;目前还没角色显示在角色列表中。点击新建,打开新建角色对话框,并输入角色名:Marketing,表示市场部;在“成员资格”选项卡中单击添加按钮,接着在“添加用户和组”对话框中,添加该角色的网络用户名(如hzm),单击确定回到新建

19、对话框框框;其它选项可暂不设定,直接点确定,回到角色管理器窗口,角色Marketing就已在列表中了。在这里可以看到各个角色的权限,也可修改它们的权限。关闭角色管理器。然后用同样的方法创建多维数据集HR的角色HR。2.2创建数据库角色:数据库角色是可在数据库范围内使用的角色,可指派给该数据库的一个或多个多维数据集。本例中我们可以为经理创建一个数据库角色,然后将其指派到Sales和HR两个多维数据集。具体操作如下:在“教程DW”数据库下右击“数据库角色”,然后选择“管理角色”命令,打开“数据库角色管理器”窗口;这里显示了“教程DW”数据库中现有角色的列表(包括刚建的Marketing和HR多维数

20、据集角色);单击新建,在弹出的对话框中输入角色名:Management,然后为该角色添加用户或组(如admin),并勾选多维数据集Sales和HR。最后点击关闭退出3查看元数据元数据是关于数据属性和数据结构的信息,此信息显示在AnalysisManager右窗格中。查看多维数据集的元数据:展开“多维数据集”文件夹,单击某多维数据集,再单击右窗格的“元数据”;查看维度的元数据:展开“共享维度”文件夹,单击一个维度,再单击右窗格的“元数据”。4创建对策对策是指由最终用户启动的、在所选多维数据集或其某部分上执行的操作。AnalysisServices管理员可以定义以下几种类型的对策:命令行、URL、

21、OLEDB语句或多维表达式(MDX)语句。本例假设市场部想要针对上一节中创建的Sales多维数据集,能在分析过程的某一点跳转到Internet,以便能够搜索并找到关于某个特定客户的信息。操作步骤如下:展开“教程DW”数据库,右击“Sales”多维数据集,然后选择“编辑”命令,打开多维数据集编辑器;右击“对策”文件夹,然后选择“新建对策”命令,启动对策向导,点击下一步;在“目标”框中选择“此多维数据集中的某一维度”,并单击“Customer”,点击下一步;保持“对策类型”列表不变,继续单击下一步;在“定义对策语法”步骤中键入:“ HYPERLINK / /results.asp?q二”+Cust

22、omer.,意思是“通过浏览器调用MSN搜索引擎搜索Customer维度中的当前客户的信息。图表5对朿语法图(6)继续单击下一步,输入对策名称:CustomerInfo,点击完成。OK!5钻取本例假设市场部希望对商店和客户按从上到下进行分析,最终深化到关系数据库中的事务级别。为此,我们要在Sales多维数据集内启用钻取,然后浏览数据并深化到事务。具体操作如下:展开“教程DW”数据库,右击“Sales”多维数据集并选择“编辑”命令,打开多维数据集编辑器;单击“工具|钻取选项”菜单命令,打开“钻取选项”对话框;选择“启用钻取”复选框,并单击全选以选中所有列,然后单击确定,关闭对话框;接下来为不同的

23、角色分配钻取权限。右击“Sales”多维数据集,并选择“管理角色”命令,打开角色管理器;单击前面创建的“Management”角色,然后在“钻取”列中单击.按钮,打开角色权限设置对话框;选中“允许钻取”复选框,然后单击确定返回角色管理器;这时可看到“Management”角色已获得钻取权。关闭角色管理器,回到分析管理器,右击“Sales”多维数据集,并选择“浏览数据”命令,打开数据浏览器;双击展开统计列以显示不同级别的聚集数据。右击某数据(如USA-CA-Berkeley的销售额)并选择“钻取”命令,稍等将打开明细数据查看窗口,显示原始数据源中的明细数据。MaaehjaeLauaIFioduc

24、iCritetorr-PioductStiIjm:etorr孔ndBaneStoreSaLesSioreCost血ffi育Pa-Ddu-c-t有froduel合计L.&44.冊5.GO&5乩畑9GD.kLii音ib4瓦E.E18,43T43+CooIilheOilCoolinE.Oi1咅iJ1BL625.BOT.4E20-Dod.s-Sanets合计3,920.DT1,59.ME4=1KF.9ZBQCDFi965.5514T251&.2钻瞬也单元屢性疋EJL1DLB7E.:SillierfTE.BSpica合计14.215.9单兀计算51逞.1+Su踽!f去43D.2?比T:=:5.50Pio

25、duct晋计3tBlE.5:L久匕辭訓图表6钻取6建立远程Internet连接SQLServerAnalysisServices能让用户借助客户端工具,通过Internet连接访问分析服务器数据库和多维数据集。本示例介绍通过HTTP从Excel连接到分析服务器并访问多维数据集的操作。具体步骤如下:准备:在分析服务器上安装Web服务(如IIS),从分析服务器的bin文件夹中复制Msolap.asp文件到默认站点文件夹(C:Inetpubwwwroot)中;启动客户端Excel,选择“数据|数据透视表和数据透视图报表”菜单命令;在向导第1步中选择“外部数据源”,然后单击下一步;在向导的第2步,单击

26、获取数据,打开“选择数据源”对话框,然后选择“OLAP多维数据集”选项卡,并选中“新数据源”,然后单击确定;在接下来的对话框中,输入数据源名称:RemoteSales,在驱动程序列表中选择“MicrosoftOLEDBProviderforOLAPServices8.”,然后单击连接;在接下来的对话框中,选中“分析服务器”并输入URL(如http:/Localhost,然后单击下一步;从连接到的远程分析服务器上选择数据库列表(如教程DW),然后单击完成,回到上级对话框;选定包含所需数据的多维数据集(如Sales),然后单击确定,最后一步点击完成,回到Excel工作表;(9)接下来就可以在客户端

27、电子表格中执行OLAP了。五、数据仓库高级操作任务描述多维数据集的数据可以存储在一个或多个分区上,在创建多维数据集时系统会自动为其分配一个默认分区。合理地将一个逻辑多维数据集划分为多个单独的物理分区,常常可以改进查询的性能,但不正确地分区也可能导致错误。创建分区多维数据集的数据可以存储在一个或多个分区上,在创建多维数据集时系统会自动为其分配一个默认分区。合理地将一个逻辑多维数据集划分为多个单独的物理分区,常常可以改进查询的性能,但不正确地分区也可能导致错误。为多维数据集创建分区的步骤如下:(1)展开“Sales”多维数据集,右击“分区”文件夹,然后选择“新建分区”命令,打开分区向导,单击下一步

28、;(2)在“指定数据源和事实数据表”步骤中,单击更改,然后选择“FoodMard”数据源的sales_fact_1997表,然后单击确定;(3)继续单击下一步,在“选择数据切片(可选)”步骤中,选择“Time”维度,展(4)开“所有Time”级别并选择1997,继续单击下一步;(5)在“指定分区类型”步骤中,选择“本地”并单击下一步;完KE(6)输入分区名称:Sales97,并选择“从现有的分区(Sales)中复制聚合设计”和“完成时处理分区”,最后单击完成;11笛|定MlLd保垢車fiS什也9r就诛i十汨:K:lM后苒设计棗含tyr;肽讥TTfru:Ai竺代拦岂讪i-r:Jii滙呗便f如在持

29、乘合井谨两泊区.mI:则计呂冷哲UJq图表7分区(7)处理完成后单击关闭,97年多维数据集将位于另一个名为Sales97的分区上了。将来99、2000、的数据也可分别存储在不同的分区上,这样既便于管理,也可提高查询的效率,特别对大型数据集,效果更加明显。3.创建虚拟多维数据集虚拟维度是基于物理维度内容的逻辑维度。这些内容可以是物理维度中的现有成员属性,也可以是物理维度的表中的列。使用虚拟维度可基于成员属性对多维数据集数据进行分析。其优点是不占用磁盘空间或处理时间。下面创建一个带有YearlyIncome(年收入)成员属性的虚拟维度,然后将这个新创建的维度添加到Sales多维数据集中。操作步骤如

30、下:(1)右击“共享维度”文件夹,选择“新建维度|向导”菜单命令;单击下一步,选择“虚拟维度:另一个维度的成员属性”,再单击下一步;在“选择带有成员属性的维度”步骤中,单击“Customer”维度,再单击下一步;在“选择虚拟维度的级别步骤中,添加“Lname.YearlyIncome成员属性后再单击下一步,在“高级选项”步骤中直接单击下一步;在“完成”步骤中,输入维度名称“YearlyIncome”;单击完成。关闭向导。新建的虚拟维度“YearlyIncome已在共享维度列表中了。接下来就可向现有多维数据集添加虚拟维度了。4.DTS调度多维数据集处理本例为Sales、HR和ExpenseBud

31、get三多维数据集创建自动化过程,确保在每天早上3点钟从OLTP和ERP导入前一天的新增业务数据。处理完成后再给管理员和关键用户发送电子邮件通知他们处理任务已顺利完成。具体操作如下:选择“开始|程序MicrosoftSQLServer|企业管理器菜单命令,启动SQLServer企业管理器;逐级展开,直到看到“数据转换服务”文件夹下的“本地包”,右击“本地包”并选择“新建包”命令,打开DTS包窗口,接下来为2个多维数据集定义处理任务;点击DTS包窗口的左窗格中的“AnalysisServices处理任务”图标,并将其拖动到空白窗格中,弹出“AnalysisServices处理任务”对话框;在对话

32、框中,给第1个任务输入名称为Sales,并输入相应的描述,如Sales任务;展开树窗格的“教程DW”数据仓库,单击“Sales”多维数据集,然后在右窗格选择处(5)理选项,选择“完整处理”;同样的方法为“HR”多维数据集创建另1个处理任务:HR任务;接下来指定任务执行的顺序:按住Ctrl键,依次选择Sales任务和HR任务,然后选择“工作流|完成时”菜单命令;将左窗格中的“发送电子邮件”图标拖至右窗格中,弹出“发送邮件任务属性”对话框,设置好相关参数后点确定,然后设置其处理顺序。最后以“Cubes处理”为名保存该包。回到企业管理器窗口,刚创建的包位于“本地包”文件夹中,接下来要为该包设置执行时

33、间;右击“Cube处理”包,选择“调度包”命令,弹出“作业调度”对话框;在“每月”频率下,设置“第末一天,每1个月”,在“每日频率”下设置:“一次发生于:3:00:00AM”,单击确定;至此,多维数据集定期处理任务已定制完成,可以退出企业管理器了。OK!5.备份/还原数据仓库5.1以下3种情况可能需要对数据仓库进行存档:5.1.1创建数据仓库的压缩备份;数据仓库不再用于日常分析了,先存档后删除,以后需要时还可还原;将数据仓库从一台服务器复制到另一台服务器。5.1.2具体操作如下:(1)在AnalysisManager树窗格中右击“教程DW”,然后单击“将数据库存档命令,打开存档对话框;(2)输

34、入存档文件(.cab)保存位置及文件名,如d:ProgramFilesMicrosoftAnalysisServicesSamples教程.cab,最后点击存档。0K!图表8备份5.2删除/还原数据仓库在要删除的数据仓库(如“教程DW”)上右击,然后选择“删除”命令,提示确认时点击是,该数据仓库将被删除。删除数据仓库之前最好先存档!(2)利用数据仓库的存档CAB文件可将其还原到任一台分析服务器上。具体操作如下:右击AnalysisManager的服务器名,然后选择“还原数据库”,在接下来的对话框中选择存档文件,最后点击还原,稍等,存档的数据仓库就会被还原。六、数据挖掘任务描述将通过实例介绍如何

35、创建用于揭示客户模式的数据挖掘模型。这里将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft决策树”算法在客户群中找出会员卡选择模式。将需要挖掘的维度设置为客户,将Member_Card属性设置为挖掘算法识别模式的参考信息。然后从人口统计特征列表中确定模式:婚姻状况、年收入、在家子女数和教育程度。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式设计新的会员卡,实际上就是对会员卡重新分类创建揭示客户模式的决策树挖掘模型展开“多维数据集”文件夹,右击“Sales”多维数据集,然后选择“新建挖掘模型”命令,打开挖掘模型向导;在“选择数据挖掘技术”步骤中,选择“M

36、icrosoft决策树”,然后单击下一步;在“选择事例”步骤中,选择维度为Customer,级别选择Lname,然后单击下一步;在“选择被预测实体”步骤中,选择“事例级别的成员属性”,并选择“MemberCard”,继续单击下一步;(5)在“选择训练数据步骤中,取消Customer维度的Country、StateProvince和City聚集成员前的勾V,继续单击下一步;Brand.KameCustomer口CouiLtryStatePrevinceCityggiLnaine-E|Z1成员雇性C-&rL(i&rMaritaiStatusEducation00S图表9勾选成员(6)接下来输入新维

37、度名“CustomerPatterns,“虚拟多维数据集名“TrainedCube,继续单击下一步;福型名利型):您吊璽擞什虫?在最后的步骤输入模型名“Customerpatternsdiscovery,并选择“保存并开始处理”,然后单击完成;C-uxiorTiHrpi-t-Lilixc-o-varrL保存伯在不址理c*-保存井弁姑牡理1X1址理恂鈕細矣瞿弁用却g垢训亡却fa型图表10模型向导处理完成后,单击关闭,然后“OLAP挖掘模型编辑器”将打开,最大化编辑器窗口,右窗格中就能看到生成的决策树。右窗格分为4个区域,分别以不同的方式显示挖掘结果。决策树挖掘结果分析在“内容详情”窗格的决策树区

38、域中,颜色深浅代表“事例”的密度点击某节点能从“特性”框查看其出现的事例数,从这里还看到不同类型客户选择金、银、铜及普通卡的比例(偏好)情况。树的第一个级别yearlyincome”,说明该属性的重要性最高(信息增益率最大),其中年收入为35万的人最多。在右下角设置“树颜色基于:Golden,则可方便地看出偏好选择金卡的客户群为:年收入15万以上的已婚簇。从特性框中可以看出其购买金卡的概率达到45.09%,另外还有47.4%购买了银卡。再往下展开决策树可以看到,购买金卡的主要为已婚簇,未婚簇则购买银卡为主。同样也可以查看其它卡的客户类型及分布情况。市场部可以根据上述决策树挖掘结果来确定最可能选择

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论