数据仓库与数据挖掘课程设计某超市数据集的olap分析及数据挖掘_第1页
数据仓库与数据挖掘课程设计某超市数据集的olap分析及数据挖掘_第2页
数据仓库与数据挖掘课程设计某超市数据集的olap分析及数据挖掘_第3页
数据仓库与数据挖掘课程设计某超市数据集的olap分析及数据挖掘_第4页
数据仓库与数据挖掘课程设计某超市数据集的olap分析及数据挖掘_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、江西理工大学应用科学学院数据仓库与数据挖掘课程设计报告题目: 某超市数据集的OLAP分析及数据挖掘 系别: 经济管理系 班级: 信息管理与信息系统091班 姓名: 01号 陆叶萍 二一二年六月目 录一、建立数据仓库数据库结构和设置数据源3任务描述3建立数据仓库数据库3设置数据源3二、销售数据OLAP分析3任务描述3设计星型架构多维数据集(Sales)3设计存储和数据集处理5OLAP分析6三、人力资源数据OLAP分析6任务描述6设计父子维度的多维数据集(HR)7修改多维数据集(HR)的结构7设计存储和数据集处理8OLAP分析8四、数据仓库及多维数据集其它操作8任务描述8设置数据仓库及多维数据集角

2、色及权限8查看元数据9创建对策10钻取11建立远程 Internet 连接12五、数据仓库高级操作12任务描述12创建分区13创建虚拟多维数据集13DTS调度多维数据集处理14备份/还原数据仓库 15六、数据挖掘15任务描述15创建揭示客户模式的决策树挖掘模型15决策树挖掘结果分析16创建聚类挖掘模型17聚类挖掘结果分析18创建基于关系数据表的决策树挖掘模型18浏览“相关性网络”视图19一、建立数据仓库数据库结构和设置数据源1任务描述 数据仓库数据库是将要在其中存放多维数据集、角色、数据源、共享维度和挖掘模型的一种结构。然后跟预先设置好的ODBC数据源建立连接。2建立数据仓库数据库右击计算机属

3、性计算机名复制“dzsw129”,开始Microsoft SQL ServerAnalysis ServersAnalysis Manager;右击Analysis Servers,“注册服务器”,粘贴服务器名“dzsw129”;展开树视图的Analysis Servers下的dzsw129; 单击服务器名或右击选择连接,与Analysis Servers建立连接; 右击服务器名,然后单击“新建数据库”命令; 在“数据库”对话框中输入数据库名“Winnie”,单击;展开刚创建的“Winnie”数据库,可看到如下项目:数据源、多维数据集、共享维度、挖掘模型、数据库角色.3. 设置数据源右击“Wi

4、nnie”数据库下的“数据源”文件夹,然后单击“新数据源”命令; 在“数据链接属性”对话框中,单击“提供程序”选项卡,选择“Microsoft OLE DB Provider for ODBC Drivers”;单击“连接”选项卡,选择建好的ODBC数据源“FoodMart 2000”;单击按钮关闭“数据链接属性”对话框。OK! 二、销售数据OLAP分析1任务描述 以多维方式建立数据模型可简化联机业务分析,提高查询性能。通过创建多维数据集,Analysis Manager 可将存储在关系数据库中的数据转换为具有实际含义并且易于查询的业务信息。星型架构的多维数据集由一个事实数据表和链接到该事实数

5、据表的多个维度表组成。2设计星型架构多维数据集(Sales)下面针对FoodMart2000超市1998年的销售业务数据,建立一个多维数据集,以便按产品和顾客2个主题展开分析。具体操作如下:展开树窗格的“winnie”,右击“多维数据集”,选择“新建多维数据集”“向导”菜单命令,打开如下“多维数据集向导”对话框。向多维数据集添加度量值(事实) :单击,在“从数据源中选择事实数据表”步骤中,展开“FoodMart2000”数据源,然后单击“sales_fact_1998”; 单击,设置多维数据集的度量值列: store_sales、store_cost、unit_sales;单击,建立维度表。单

6、击,打开“维度向导”对话框; 向多维数据集添加时间维:选择维度类型为“星型架构:单个维度表”;单击,选择维度表“time_by_day”;单击,选择维度类型为“时间维度”;单击,选择时间级别为“年、季度、月”;单击,单击,输入时间维名称: Time,并设为“共享”方式,单击,OK! 向多维数据集添加产品维:再次单击,打开“维度向导”对话框;选择创建维度的方式为“雪花架构:多个相关维度表”; 单击,选择维度表“Product”和“product_class”;单击,查看连接方式,在这里可删除不要的连接,添加需要的连接;单击,依次选择product_category、product_subcate

7、gory和brand_name三个维度级别;单击,指定成员键列步骤中,不需改变主键列;单击,在“高级选项”步骤中,根据需要选择;单击,输入产品维名称: Product,并设为“共享”方式,单击,OK! 向多维数据集添加客户维度:再次单击,打开“维度向导”对话框;选择创建维度的方式为“星型架构:单个维度表”; 单击,选择维度表“Customer”;单击,选择维度类型为“标准维度”;单击,依次选择Country、State_Province、City和lname四个维度级别;单击,指定成员键列步骤中,不需改变主键列;单击,在“高级选项”步骤中,根据需要选择;单击,输入客户维名称: Customer

8、,并设为“共享”方式,单击,OK! 向多维数据集添加商店维:再次单击,打开“维度向导”对话框;选择创建维度的方式为“星型架构:单个维度表”; 单击,选择维度表“Store”;单击,选择维度类型为“标准维度”;单击,依次选择store_country、store_state、store_city和store_name四个维度级别;单击,指定成员键列步骤中,不需改变主键列;单击,在“高级选项”步骤中,根据需要选择;单击,输入商店维名称: Store,并设为“共享”方式,单击,OK! 生成多维数据集:回到多维数据集向导对话框,这里已到了新建的4个维度;单击,在“是否计算事实数据表行数提问时,单击,开

9、始计算。 计算完成后,命名多维数据集为:Sales,单击,OK!关闭向导,随之启动多维数据集编辑器,其中可看到刚刚创建的多维数据集。单击蓝色或黄色的标题栏,对表进行排列,使其符合下图所示的样子: 向多维数据集Sales中添加维度:选择“插入|表”菜单命令,弹出“选择表”对话框; 选择“promotion”表,单击,然后单击“关闭”; 右击“promotion”表中的“promotion_name”列,然后选择“作为维度插入”命令,一个 名为“promotion Name”的维度就建好了,该维度为非共享的。 在树窗格中重命名刚插入的维度为“Promotion”。关闭编辑器,保存修改。3设计存储和

10、处理多维数据集 展开树窗格,右击“Sales”多维数据集,选择“设计存储”菜单命令,弹出“存储设计向导”对话框;也可在多维数据集编辑窗口中选择“工具|设计存储”菜单命令,打开“存储设计向导”对话框; 单击,然后选择“MOLAP”作为数据存储类型 ;单击,设置聚合选项为“性能提升达到”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。单击,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。单击,选择“立即处理”,并单击,系统开始进行数据处理,处理聚合一般要花费较长一些时间。处理完成后如图:然后点击,回到Analysis Manager窗口。接下来

11、就可浏览多维数据集的数据了。 4OLAP分析浏览“salary”多维数据集,通过浏览数据发现,所有的customer人数为1,079,人,Canada人为98,045.46人,Mexico人为430,293.59,USA人为550,808.55。其中在高收入水平中,USA的比例比较大,其次是Mexico。三、人力资源数据OLAP分析1任务描述 以进行雇员工资分析。先把Employee维度创建为父子维度,然后使用该维度以及常规维度来生成HR多维数据集。父子维度的多维数据集单个维度表中相关的两列,其中一列确定维度的成员,另一列确定成员的父代。2设计父子维度的多维数据集(HR)展开“winnie”,

12、右击“共享维度”,选择“新建维度|向导”菜单命令,打开“新建维度向导”对话框。单击,选择维度结构为“父子:单个维度表中相关的两列”;单击,选择维度表 employee;单击,选择employee_id为成员键,选择supervisor_id为父键列,选择full_name为成员名。单击,直到最后一步,输入维度名称: employee;单击,回到维度编辑器。OK!3修改多维数据集(HR)的结构展开“winnie”,右击“多维数据集”,选择“新建多维数据集|向导”菜单命令,打开多维数据集向导对话框。点击,选择salary(工资)作事实数据表;点击,选择salary_paid、vacation_us

13、ed为度量值列;点击,选择Employee(雇员)、Store(商店)、Time(时间)作维度;点击,在提示是否计算事实数据表行数时选“是”。最后输入人力资源多维数据集的名称NR,点击,OK!回到编辑器窗口,手工建立time_by_day表到salary表的联接,再建立 store表到employee表中的联接,删除多余的联接。最后如下图所示。4设计存储和数据集处理展开树窗格,右击“HR”多维数据集,选择“设计存储”菜单命令,弹出“存储设计向导”对话框;也可在多维数据集编辑窗口中选择“工具|设计存储”菜单命令,打开“存储设计向导”对话框;单击,然后选择“MOLAP”作为数据存储类型 ;单击,设

14、置聚合选项为“性能提升达到”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。单击,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。单击,选择“立即处理”,并单击,系统开始进行数据处理,处理聚合一般要花费较长一些时间。处理完成后点击,回到Analysis Manager窗口。5OLAP分析浏览“HR”多维数据集,通过浏览数据发现,所有部门的人员一共为616人,其中Store Temporary Check部门中的人数最多,占143人,其次是Store Temporary Store部门,占140人。最少的为HQ Human Resources

15、部门,只有一个人,其次是HQ Information System部门和HQ Marketing部门,都有3个人。在雇佣薪水中,总工资为39431.67美元。其中HQ General Management部门薪水最高,平均每人465美元,而最低的为Store Temporary Check部门,平均每人的薪水为40.由此说明,人数最多部门,都是底层收入水平。底层收入的人为多数。四、数据仓库及多维数据集其它操作1任务描述多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。角色是保护多维数据集内对象和数据安全的主要方法,可以在多维数据集的不同粒

16、度级别上设置安全性。要定义安全性必须先创建角色,然后向这些角色授予权限。我们要创建Sales和HR角色分别用于访问多维数据集Sales和HR。Management角色用于管理整个数据仓库。 2设置数据仓库及多维数据集角色及权限创建多维数据集角色:展开“多维数据集”文件夹,右击“Sales”多维数据集,并选择“管理角色”命令,打开“多维数据集角色管理器”;目前还没角色显示在角色列表中。点击,打开新建角色对话框,并输入角色名:Marketing,表示市场部;在“成员资格”选项卡中单击按钮,接着在“添加用户和组”对话框中,添加该角色的网络用户名(如:AdminIstrator),单击回到新建对话框框

17、框;其它选项可暂不设定,直接点,回到角色管理器窗口,角色Marketing就已在列表中了。在这里可以看到各个角色的权限,也可修改它们的权限。角色管理器。然后用同样的方法创建多维数据集HR的角色HR。创建数据库角色: 在“winnie”数据库下右击“数据库角色”,然后选择“管理角色”命令,打开“数据库角色管理器”窗口;这里显示了“winnie”数据库中现有角色的列表(包括刚建的Marketing和HR多维数据集角色);单击,在弹出的对话框中输入角色名:Management,然后为该角色添加用户或组(如admin),并勾选多维数据集Sales和HR。最后点击退出。3查看元数据元数据是关于数据属性和

18、数据结构的信息,此信息显示在 Analysis Manager 右窗格中。查看多维数据集的元数据:展开“多维数据集”文件夹,单击某多维数据集(如:Sales),再单击右窗格的“元数据”;得到如图:查看维度的元数据:展开“共享维度”文件夹,单击一个维度,再单击右窗格的“元数据”。 跟上面耳朵步骤一样。4创建对策展开“winnie”数据库,右击“Sales”多维数据集,然后选择“编辑”命令,打开多维数据集编辑器;右击“对策”文件夹,然后选择“新建对策”命令,启动对策向导,点击; 在“目标”框中选择“此多维数据集中的某一维度”,并单击“Customer”,点击 ;保持“对策类型”列表不变,继续单击;

19、在“定义对策语法”步骤中键入:” :/search.msn /results.asp?q=” + C,意思是“通过浏览器调用MSN 搜索引擎搜索Customer维度中的当前客户的信息。继续单击,输入对策名称:Customer Info,点击完成。OK!下面是触发对策的操作步骤:展开“winnie”数据库,右击“Sales”多维数据集,选择“浏览数据”命令,打开“多维数据集浏览器”窗口;双击,逐级展开Customer,直到显示某客户(如USACALos AngelesJohnson)为止,然后在该客户上右单并选择“Customer Info”对

20、策,这时浏览器将启动并打开搜索页: :/search.msn /results.asp?q=Johnson,以便在Internet上搜索客户Johnson的信息。其它对策的创建和触发过程类似。 对策结果如下:5钻取展开“winnie”数据库,右击“Sales”多维数据集并选择“编辑”命令,打开多维数据集编辑器;单击“工具|钻取选项”菜单命令,打开“钻取选项”对话框;选择“启用钻取”复选框,并单击以选中所有列,然后单击,关闭对话框; 接下来为不同的角色分配钻取权限。右击“Sales”多维数据集,并选择“管理角色”命令,打开角色管理器;单击前面创建的“Management”角色,然后在“钻取”列中

21、单击 按钮,打开角色权限设置对话框;选中“允许钻取”复选框,然后单击返回角色管理器; 这时可看到“Management”角色已获得钻取权。关闭角色管理器,回到分析管理器,右击“Sales”多维数据集,并选择“浏览数据”命令,打开数据浏览器; 双击展开统计列以显示不同级别的聚集数据。右击某数据(如USACABerkeley的销售额)并选择“钻取”命令,稍等将打开明细数据查看窗口,显示原始数据源中的明细数据。OK!6建立远程 Internet 连接SQL Server Analysis Services 能让用户借助客户端工具,通过Internet连接访问分析服务器数据库和多维数据集。具体步骤如下

22、:准备:进入C盘;启动客户端 Excel,选择“数据|数据透视表和数据透视图报表”菜单命令; 在向导第1步中选择“外部数据源”,然后单击; 在向导的第2步,单击,打开“选择数据源”对话框,然后选择“OLAP多维数据集”选项卡,并选中“”,然后单击;在接下来的对话框中,输入数据源名称:RemoteSales,在驱动程序列表中选择“Microsoft OLE DB Provider for OLAP Services ”,然后单击;在接下来的对话框中,选中“分析服务器”并输入URL(如 :/Localhost,然后单击;从连接到的远程分析服务器上选择数据库列表(如Winnie),然后单击,回到上级

23、对话框; 选定包含所需数据的多维数据集(如Sales),然后单击,最后一步点击,回到Excel工作表;接下来就可以在客户端电子表格中执行OLAP了。 五、数据仓库高级操作1任务描述将企业数据拆分为操作环境数据和分析环境数据后,历史数据就可归并到分析环境的数据仓库中以便于进行决策分析,可专用于各种复杂分析,为高层决策者服务。2创建分区展开“Sales”多维数据集,右击“分区”文件夹,然后选择“新建分区”命令,打开分区向导,单击;在“指定数据源和事实数据表”步骤中,单击,然后选择“FoodMart”数据源的sales_fact_1997表,然后单击; 继续单击,在“选择数据切片(可选)”步骤中,选

24、择“Time”维度,展开“所有Time”级别并选择1997,继续单击; 在“指定分区类型”步骤中,选择“本地”并单击; 输入分区名称:Sales 97,并选择“从现有的分区(Sales)中复制聚合设计”和“完成时处理分区”,最后单击;进行处理。处理完成后单击,97年多维数据集将位于另一个名为Sales 97的分区上了。将来99、2000、的数据也可分别存储在不同的分区上,这样既便于管理,也可提高查询的效率,特别对大型数据集,效果更加明显。3创建虚拟多维数据集展开FoodMart 2000数据仓库,右击“多维数据集”文件夹并选择“新建虚拟多维数据集”命令,打开向导; 单击,选择虚拟多维数据集要包

25、括的逻辑多维数据集:Sales、Warehouse,然后单击;选择虚拟多维数据集的度量值:Store Sales、Warehouse Cost,继续单击;选择虚拟多维数据集的维度:Warehouse、Time、Store,继续单击;最后输入虚拟多维数据集名:Cost versus Sales,选择“立即处理”并单击。处理完成后将打开虚拟多维数据集编辑器,在这里可对其修改设置,也可浏览其数据。关闭编辑器回到管理器,在新建的虚拟多维数据集Cost versus Sales上右击选择“浏览数据”,即可在独立的浏览窗口OLAP,操作与逻辑多维数据集一样,但它并不占据磁盘空间,类似于数据库视图。4、DT

26、S调度多维数据集处理选择“开始|程序|Microsoft SQL Server|企业管理器”菜单命令,启动SQL Server企业管理器;逐级展开,直到看到“数据转换服务”文件夹下的“本地包”,右击“本地包”并选择“新建包”命令,打开DTS包窗口,接下来为2个多维数据集定义处理任务;点击DTS包窗口的左窗格中的“Analysis Services处理任务”图标,并将其拖动到空白窗格中,弹出“Analysis Services 处理任务”对话框; 在对话框中,给第1个任务输入名称为Sales,并输入相应的描述,如Sales任务;展开树窗格的“winnie”数据仓库,单击“Sales”多维数据集,

27、然后在右窗格选择处理选项,选择“完整处理”;同样的方法为“HR”多维数据集创建另1个处理任务:HR任务;接下来指定任务执行的顺序:按住键,依次选择Sales任务和HR任务,然后选择“工作流|完成时”菜单命令;将左窗格中的“发送电子邮件”图标拖至右窗格中,弹出“发送邮件任务属性”对话框,设置好相关参数后点,然后设置其处理顺序。最后以“Cubes处理”为名保存该包。回到企业管理器窗口,刚创建的包位于“本地包”文件夹中,接下来要为该包设置执行时间;右击“Cube处理”包,选择“调度包”命令,弹出“作业调度”对话框;在“每月”频率下,设置“第末一天,每1个月”,在“每日频率”下设置:“一次发生于:3:

28、00:00AM”,单击;OK!5备份/还原数据仓库具体操作如下:在Analysis Manager树窗格中右击“Winnie”,然后单击“将数据库存档”命令,打开存档对话框;输入存档文件(.cab)保存位置及文件名,如d:Program FilesMicrosoft Analysis ServicesSampleswinnie.cab,最后点击。删除/还原数据仓库在要删除的数据仓库(如“Winnie”)上右击,然后选择“删除”命令,提示确认时点击,该数据仓库将被删除。删除数据仓库之前最好先存档!利用数据仓库的存档CAB文件可将其还原到任一台分析服务器上。具体操作如下:右击Analysis Ma

29、nager 的服务器名,然后选择“还原数据库”,在接下来的对话框中选择存档文件,最后点击,稍等,存档的数据仓库就会被还原。六、数据挖掘1任务描述将需要挖掘的维度设置为客户,将Member_Card属性设置为挖掘算法识别模式的参考信息。然后从人口统计特征列表中确定模式:婚姻状况、年收入、在家子女数和教育程度。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式设计新的会员卡,实际上就是对会员卡重新分类。2创建揭示客户模式的数据挖掘模型 展开“多维数据集”文件夹,右击“Sales”多维数据集,然后选择“新建挖掘模型”命令,打开挖掘模型向导;在“选择数据挖掘技术”步骤中,选择“

30、Microsoft决策树”,然后单击;在“选择事例”步骤中,选择维度为Customer, 级别选择Lname,然后单击;在“选择被预测实体”步骤中,选择“事例级别的成员属性”,并选择“Member Card”,继续单击;在“选择训练数据”步骤中,取消Customer维度的Country、State Province和City聚集成员前的勾,继续单击;接下来输入新维度名“Customer Patterns”, “虚拟多维数据集名“Trained Cube”,继续单击;在最后的步骤输入模型名“Customer patterns discovery”,并选择“保存并开始处理”,然后单击;处理完成后,

31、单击,然后“OLAP挖掘模型编辑器”将打开,最大化 编辑器窗口,右窗格中就能看到生成的决策树。右窗格分为4个区域,分别以不同的方式显示挖掘结果。3决策树挖掘结果分析说明该属性的重要性最高(信息增益率最大),其中年收入为35万的人最多。从下特性框中可以看出其购买金卡的概率达到44.44%,另外还有48.15%购买了银卡。其中他们的年收入多数为大于15万,再往下展开决策树可以看到,购买金卡的主要为已婚簇,未婚簇则购买银卡为主。在所有调查的人数中,年收入为3万5万的人数最多,在这群人中,购买铜卡的人数占72.97%,在家中孩子的数量大多数=2.25.在普通卡中,年收入1万3万的低收入人数较多。4创建

32、聚类挖掘模型 右击“Sales”多维数据集,然后选择“新建挖掘模型”命令,打开新建挖掘模型向导;在“选择数据挖掘技术”步骤中,选择“Microsoft聚集”,单击;在“选择事例”步骤中,选择维度“Customer”,级别为“Lname”,单击;在“选择训练数据”步聚中,清除“Customer”维度的Country、State Province和City复选框(因为没有必要使用汇总级别划分客户群),然后在“度量值”维度中选择“Store Sales”,单击;输入挖掘模型的名称“Customer segmentation”,选中“保存,但现在不处理”,然后单击。 进入挖掘模型编辑器,在这里还可对模

33、型的相关参数作进一步修改。展开属性窗格,将“Cluster Count”的值由10改为3。保存更改,然后选择“工具 | 处理挖掘模型”菜单命令,处理完成之后就可看到聚集的结果了。聚类结果窗口由4个窗格组成:中间是“内容详情”窗格, 以树形图显示聚类结果;“内容选择区”窗格显示树的完整视图;其下是“特性”窗格,可以查看各簇的统计特性,还可以选择不同的成员属性进行查看;再下面是“节点路径”,列出了各簇的节点路径。5、聚类挖掘结果分析通过分析,市场部可以知道:Cluster1主要由中等收入的客户构成, 其中年收入为1万5万为55.47%,用Bronze card最多,占43.11%,而且全部已婚。Cluster2主要由中等收入的客户构成,其中年收入为3万5万为64.79,用Bronze card最多,占79.97%,单身占78.72. Cluster3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论