




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息 学院本科教学实验讲义(实验)课程名称:数据仓库与数据挖掘贵州财经学院教务处制2008 年9 月 实验项目一 数据挖掘软件Weka的使用一、实验内容、目标及要求(一)实验内容1熟悉挖掘软件Weka的集成环境;2进入挖掘软件Weka的工作环境;3数据格式的转换、数据准备;4根据事例数据进行关联规则挖掘(购物篮分析)、分类和回归、聚类分析。(二)实验目标1熟悉Weka的上机过程,在Weka环境下学习如何实现数据预处理、分类、关联、聚类等,实现简单的数据挖掘事例;2通过实现简单的数据挖掘,初步了解Weka的使用特点3掌握数据预处理的方法、数据格式的转换方法;4、熟悉该软件中各参数的意义及设置方法;5基本掌握关联分析、聚类分析、关联规则的方法。(三)实验要求1预习数据挖掘软件Weka环境的基本操作过程。2完成实验内容的各个环境,并认真撰写实验报告。3初步掌握数据挖掘软件Weka实现简单的数据挖掘并进行分析。二、实验准备(一)运行环境说明WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http:/www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。(二)基础数据设置及说明1数据格式arff及说明WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。图1所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的“weather.arff”文件,在WEKA安装目录的“data”子目录下可以找到。在Windows记事本打开这个文件时,可能会因为回车符定义不一致而导致分行不正常。推荐使用UltraEdit这样的字符编辑软件察看ARFF文件的内容。识别ARFF文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽略。以“%”开始的行是注释,WEKA将忽略这些行。除去注释后,整个ARFF文件可以分为两个部分。第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从“data”标记开始,后面的就是数据信息了。三、实验基本操作流程及说明(一)系统界面及说明工作界面如下:本图显示的是使用3.5版Exploer打开bank-data.csv的情况。我们根据不同的功能把这个界面分成8个区域。1区域1的几个选项卡是用来切换不同的挖掘任务面板。2. 区域2是一些常用按钮。包括打开数据,保存及编辑功能。在这里把bank-data.csv另存为bank-data.arff。 3. 区域3中“Choose”某个“Filter”,可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。 4. 区域4展示了数据集的一些基本情况。 5. 区域5中列出了数据集的所有属性。勾选一些属性并“Remove”就可以删除它们,删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。 在区域5中选中某个属性,则区域6中有关于这个属性的摘要。注意对于数值属性和分类属性,摘要的方式是不一样的。图中显示的是对数值属性“income”的摘要。 6. 区域7是区域5中选中属性的直方图。若数据集的最后一个属性(我们说过这是分类或回归任务的默认目标变量)是分类变量(这里的“pep”正好是),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据,在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。 7. 区域8是状态栏,可以查看Log以判断是否有错。右边的weka鸟在动的话说明WEKA正在执行挖掘任务。(二)操作步骤1数据准备(1)将*.xls文件转换为*.csv文件Excel的XLS文件可以让多个二维表格放到不同的工作表(Sheet)中,只能把每个工作表存成不同的CSV文件。打开一个XLS文件并切换到需要转换的工作表,另存为CSV类型,点“确定”、“是”忽略提示即可完成操作。 (2)*.csv文件转换为*.arff文件将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。在WEKA 3.5中提供了一个“Arff Viewer”模块,我们可以用它打开一个CSV文件将进行浏览,然后另存为ARFF文件。 进入“Exploer”模块,从上方的按钮中打开CSV文件然后另存为ARFF文件亦可。2标准实验21 Simple(简单)模式211打开新数据(1)在点击 New 后,就定义了一次试验的默认参数。(2)可以通过绝对路径或相对路径添加数据集文件。后者使得在不同的机器上运行试验更加方便,因此你在点击 Add new.之前,应该勾选 Use relative paths (使用相对路径)。(3)点击 Open 后,文件将显示在数据集列表中。如果选中一个目录点击 Open,那么将递归的添加所有 ARFF 文件。从列表删除文件时,可选中那些文件,然后点击 Delete selected。(4)迭代控制为了获得统计上有意义的结果,默认的迭代数量是10。在10折交叉验证的情形下,这意味着对一个分类器要进行100次调用从训练集计算它,并在测试集上测试。(5)选择算法用Choose按钮打开GenericObjectEditor来选择别的分类器。有的分类器仅针对某种特定类型的属性(attribute)和目标属性(class),使用Filter. 按钮能够加亮显示它们。点击Remove filter,加亮显示又会被取消。使用 Add new. 按钮继续添加其他的算法,如 J48 决策树。在设置好分类器的参数后,可点击 OK 将之添加进算法列表。(5)运行试验要运行当前试验,需点击试验环境窗口中的 Run 标签页。当前试验将使用 ZeroR 和 J48 算法在Iris 数据集上执行十次10折的分层交叉验证。3分类与回归(1)使用C4.5决策树算法对bank-data建立起分类模型。(2)用“Explorer”打开训练集“bank.arff”,观察一下它是不是按照前面的要求处理好了。(3)切换到“Classify”选项卡,点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。(4)打开树型框下方有一个“Filter.”按钮,点击可以根据数据集的特性过滤掉不合适的算法。勾选“Binary attributes”“Numeric attributes”和“Binary class”。点“OK”后回到树形图,选择“trees”下的“J48”。(5)点击“Choose”右边的文本框,弹出新窗口为该算法设置各种参数。点“More”查看参数说明,点“Capabilities”是查看算法适用范围。这里把参数保持默认。(6)选上“Cross-validation”并在“Folds”框填上“10”。(7)点“Start”按钮开始让算法生成决策树模型。4分析结果41 设置Weka 包含一个试验结果分析器,用来分析发送InstancesResultListener 的 试验结果。以下显示的试验使用了 3 个算法,ZeroR,OneR 和 J48,运行10次训练和测试来为试验中的 Iris 数据作分类,66% 的数据用于训练,34% 用于测试。在完成试验设置后,运行该试验。然后选择 Experiment 环境窗口顶部的Analyse 标签页来分析结果。点击 Experiment 以分析当前试验结果。在 Source 面板中显示可用的结果行的数量(有30个结果)。这个试验包含运行了10次,用了 3 个算法,1 个数据集,总共 30 个结果行。先前的试验文件可以通过点击 File,选择适当的 .arff 结果文件来载入。同样,可从数据库载入发送到数据库的结果(使用DatabaseResultListener)。从 Comparison field (比较范围)选择 Percent_correct 属性,点击 Perform test,对3个算法进行比较。试验中使用的算法显示在列,使用的数据集显示在行。对于各个算法,用百分比表示的正确率显示在各数据集所在的行:ZeroR 是33.33%, OneR 是94.31% ,J48 是94.90%。符号 v 或 * 表示一个特定结果在指定的显著水平(significance level,目前是0.05)下优于(v) 或不如(*)基准算法 (这里是ZeroR)。OneR 和 J48 的结果统计上优于 ZeroR所建立的基准。除了第一列,每列的底部有一个总计(xx/ yy/ zz),它表示在试验所用的数据机上,算法比的基准算法优越 (xx),等同 (yy),不如(zz) 的次数。在这个例子中,仅有一个数据集,OneR 比ZeroR 好一次,从来没有等同或差于 ZeroR (1/0/0), J48 也比该数据集上的 ZeroR 好。待估属性的标准差可通过选择 Show std deviations 复选框,并再次点击 Perform test生成。iris行开始处的值(10) 表示需要计算标准差的待估属性的个数(此时就是运行的次数)。四、实验测评与考核1完成实验的基本操作,确定实验目的、要求是否达到;2能否对数据挖掘软件Weka进行操作,其基本功能是否掌握;3通过软件的实例数据进行关联分析、分类处理操作,实施考核;4实验完成后,应根据实验情况写出实验报告。实验项目二 数据仓库的构建一、实验内容、目标及要求(一)实验内容以SQL Server2000为系统平台,设计、建立数据库,并以此为基础创建数据仓库。1设计并建立学生数据仓库;2利用数据转换服务(DTS)实现异构数据库之间的数据转换(选做);3具体要求: 1) 数据仓库的建模;2) 数据仓库的创建;3)访问与操纵数据。(二)实验目标1理解数据库与数据仓库之间的区别与联系;2掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法;3掌握数据仓库建立的基本方法及其相关工具的使用。(三)实验要求1学习SQL Server系统的基本操作及其工作流程,如服务启动,数据库注册等;使用DTS工具进行元数据管理;;2使用MDS工具进行数据仓库元数据及其框架的管理;3使用ODBC数据源管理工具建立系统数据源连接,并应用Analysis Server工具建立数据仓库和数据源(模拟案例);4察看、编辑数据仓库的基本模型(即事实表与维度表之间的关系);5实验完成后,应根据实验情况写出实验报告。二、实验准备(一)运行环境说明基于NT的局域网络,服务器与客户端安装MS SQL Server2000 服务系统以及Analysis Services系统。(二)基础数据设置及说明三、实验基本操作流程及说明(一)系统界面及说明(二)操作步骤1 启动SQL Server 服务启动 SQL Server 实例时即启动了 SQL Server 服务。启动 SQL Server 服务之后,用户便可与服务器建立新连接。SQL Server 服务可在本地或远程作为 Microsoft Windows NT 4.0 或 Windows 2000 服务启动和停止。SQL Server 服务若是默认实例,则被称为 MSSQLServer;若是命名实例,则被称为 MSSQL$instancename。2 注册服务器 右击一个服务器或服务器组,然后单击新建 SQL Server 注册命令。 在服务器框中,键入服务器名。 若要指定 SQL Server 企业管理器(作为客户端)与运行正在注册的 Microsoft SQL Server 实例的服务器之间的连接,请执行下列操作之一: 单击使用 Windows 身份验证 -或-单击使用 SQL Server 身份验证 在服务器组列表中,单击一个服务器组。 执行下列一个或多个操作: l 选择在控制台中显示 SQL Server 服务器的状态复选框以打开服务轮询。l 选择显示系统数据库和系统对象复选框以显示所有系统数据库和对象。l 选择在连接时自动启动 SQL Server复选框以自动启动 SQL Server 实例。 重复步骤 1 到 5,在SQL Server 企业管理器中注册每个服务器。 3 设计表设计数据库时,应先确定需要什么样的表,各表中都有哪些数据以及各个表的存取权限等等。在创建和操作表的过程中,将对表进行更为细致的设计。l 设计时应注意: l 表所包含的数据的类型。l 表的各列及每一列的数据类型(如果必要,还应注意列宽)。l 哪些列允许空值。l 是否要使用以及何时使用约束、默认设置或规则。l 所需索引的类型,哪里需要索引,哪些列是主键,哪些是外键。4 修改表表创建之后可以修改许多已定义的选项,包括: 添加、修改、删除列。例如,列的名称、长度、数据类型、精度、小数位数以及为空性均可进行修改,不过有一些限制而已。注意:l 可添加或删除 PRIMARY KEY 和 FOREIGN KEY 约束。l 可添加或删除 UNIQUE 和 CHECK 约束及 DEFAULT 定义(对象)。l 可使用 IDENTITY 或 ROWGUIDCOL 属性添加或删除标识符列。虽然 ROWGUIDCOL 属性也可添加至现有列或从现有列删除,但是任何时候在表中只能有一列可具有该属性。l 表及表中所选定的列已注册为全文索引。5建立系统数据源连接 Microsoft Windows NT 4.0 用户:单击“开始”按钮,指向“设置”,单击 “控制面板”,然后双击“数据源 (ODBC)”。 Windows 2000 用户:单击“开始”按钮,指向“设置”,单击“控制面板”,然后双击“管理工具”,再双击“数据源 (ODBC)”。 在“系统 DSN”选项卡上单击“添加”按钮。 选择“Microsoft Access 驱动程序 (*.mdb)”,然后单击“完成”按钮。 在“数据源名”框中,输入“教程”,然后在“数据库”下,单击“选择”。 在“选择数据库”对话框中,浏览到“C:Program FilesMicrosoft Analysis ServicesSamples”,然后单击“FoodMart 2000.mdb”。单击“确定”按钮。 6建立数据库和数据源 如何建立数据库结构 在 Analysis Manager 树视图中展开“Analysis Servers”。 单击服务器名称,即可建立与 Analysis Servers 的连接。 右击服务器名称,然后单击“新建数据库”命令。 在“数据库”对话框中的“数据库名称”框中,输入“教程”,然后单击“确定”按钮。 在 Analysis Manager 树窗格中展开服务器,然后展开刚才创建的“教程”数据库。 建立数据源在 Analysis Manager 树窗格中,右击“教程”数据库下的“数据源”文件夹,然后单击“新数据源”命令。 在“数据链接属性”对话框中,单击“提供者”选项卡,然后单击“Microsoft OLE DB Provider for ODBC Drivers”。 单击“连接”选项卡,然后从“使用数据源名称”列表中单击“教程”。 单击“测试连接”以确保一切工作正常。在“Microsoft 数据链接”对话框中应出现一条消息,说明连接成功。在消息框中单击“确定”按钮。 单击“确定”按钮关闭“数据链接属性”对话框。7建立多维数据集您现在的身份是 FoodMart Corporation 的数据库管理员。FoodMart 是一家大型的连锁店,在美国、墨西哥和加拿大有销售业务。市场部想要按产品和顾客分析 1998 年进行的所有销售业务数据。使用存储在公司数据仓库中的数据,您就能建立多维数据结构(多维数据集),以便在市场分析人员查询数据库时获取快速的响应。建立一个多维数据集,用于进行销售分析。 打开多维数据集向导在 Analysis Manager 树窗格中,“教程”数据库下,右击“多维数据集”文件夹,单击“新建多维数据集”菜单,然后单击“向导”命令。 向多维数据集添加度量值度量值是要进行分析的数据库中的量化值。常用的度量值为销售、成本和预算数据。度量值根据多维数据集不同的维度类别进行分析。 在多维数据集向导的“欢迎”步骤,单击“下一步”按钮。 在“从数据源中选择事实数据表”步骤,展开“教程”数据源,然后单击“sales_fact_1998”。 单击“浏览数据”按钮可以查看“sales_fact_1998”表中的数据。数据浏览完毕后,关闭“浏览数据”窗口,然后单击“下一步”按钮。 若要定义多维数据集的度量值,在“事实数据表数据列”下,双击“store_sales”。对“store_cost”和“unit_sales”列重复此步骤,然后单击“下一步”按钮。 建立时间维度在向导的“选择多维数据集的维度”步骤,单击“新建维度”命令。此操作将调用维度向导。 在“欢迎”步骤,单击“下一步”按钮。 在“选择维度的创建方式”步骤,选择“星型架构:单个维度表”选项,然后单击“下一步”按钮。 在“选择维度表”步骤,单击“time_by_day”。单击“浏览数据”按钮可以查看包含在“time_by_day”表中的数据。 查看完“time_by_day”表后,单击“下一步”按钮。 在“选择维度类型”步骤,选择“时间维度”选项,然后单击“下一步”按钮。 接下来,将定义维度的级别。在“创建时间维度级别”步骤,单击“选择时间级别”,单击“年、季度、月”,然后单击“下一步”按钮。 在“选择高级选项”步骤,单击“下一步”按钮。 在向导的最后一步,输入“Time”作为新维度的名称。 单击“完成”返回到多维数据集向导。 在多维数据集向导中,现在应能在“多维数据集维度”列表中看到“Time”维度。 建立产品维度 再次单击“新建维度”命令。在“欢迎进入维度向导”步骤,单击“下一步”按钮。 在“选择创建维度的方式”步骤,选择“雪花架构: 多个相关维度表”选项,然后单击“下一步”按钮。 在“选择维度表”步骤,双击“Product”和“product_class”将它们添加到“选定的表”。单击“下一步”按钮。 在维度向导的“创建和编辑联接”步骤,显示在上一步选定的两个表以及它们之间的联接。单击“下一步”按钮。 l 若要定义维度的级别,在“可用的列”下,按顺序双击“product_category”、“product_subcategory”和“brand_name”。 双击每列后,其名称显示在“维度级别”下。在选择了所有三列后,单击“下一步”按钮。 l 在“指定成员键列”步骤,单击“下一步”按钮。 l 在“选择高级选项”步骤,单击“下一步”按钮。 l 在向导的最后一步,在“维度名称”框中,输入“Product”,并保持“与其它多维数据集共享此维度”复选框为选中状态。单击“完成”按钮。 l 现在应能在“多维数据集维度”列表中看到“Product”维度。 建立客户维度 单击“新建维度”命令。 在“欢迎”步骤,单击“下一步”按钮。 在“选择创建维度的方式”步骤,选择“星型架构: 单个维度表”选项,然后单击“下一步”按钮。 在“选择维度表”步骤,单击“Customer”,然后单击“下一步”按钮。 在“选择维度类型”步骤,单击“下一步”按钮。 若要定义维度的级别,在“可用列”下,按顺序双击“Country”、“State_Province”、“City”和“lname”列。双击每一列后,其名称将显示在“维度级别”下方。选择完所有四个列之后,单击“下一步”按钮。 在“指定成员键列”步骤,单击“下一步”按钮。 在“选择高级选项”步骤,单击“下一步”按钮。 在向导的最后一步,在“维度名称”框中,输入“Customer”。保持“与其它多维数据集共享此维度”复选框的选中状态。单击“完成”按钮。 在多维数据集向导中,现在应能在“多维数据集维度”列表中看到“Customer”维度。 完成多维数据集的生成 在多维数据集向导中,单击“下一步”按钮。 在“事实数据表行数”消息给出提示时,单击“是”按钮。 在多维数据集向导的最后一步,将多维数据集命名为“Sales”,然后单击“完成”按钮。 向导将关闭并随之启动多维数据集编辑器,其中包含刚刚创建的多维数据集。单击蓝色或黄色的标题栏,对表进行排列,使其符合下图所示的样子。 四、实验测评与考核1完成实验的基本操作,确定实验目的、要求是否达到;2掌握设计、开发一般数据集市的基本方法;3分组完成学生数据仓库的设计及开发工作;4实验完成后,应根据实验情况写出实验报告。实验项目三 多维数据组织与分析(OLAP)一、实验内容、目标及要求(一)实验内容1运用Analysis Server工具进行维度、度量值以及多维数据集的创建(模拟案例)。2使用维度浏览器进行多维数据的查询、编辑操作。3对多维数据集进行切片、切块、旋转、钻取操作。(二)实验目标1理解维(表)、成员、层次(粒度)等基本概念及其之间的关系;2理解多维数据集创建的基本原理与流程;3理解并掌握OLAP分析的基本过程与方法;(三)实验要求1熟悉掌握Analysis Server工具的使用方法;2利用实验软件,认真完成规定的实验内容;3真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出多维数据组织模型及其OLAP操作过程;4实验完成后,应根据实验情况写出实验报告。二、实验准备(一)运行环境说明基于NT的局域网络,服务器与客户端安装MS SQL Server 服务系统、Analysis Services系统以及Crystal Report系统。(二)基础数据设置及说明三、实验基本操作流程及说明(一)系统界面及说明(二)操作步骤1编辑多维数据集 使用多维数据集编辑器向现有的 Sales 多维数据集添加维度。可以使用以下两种方法启用多维数据集编辑器: 在 Analysis Manager 树窗格中右击一个现有的多维数据集,然后单击“编辑”命令。 使用多维数据集编辑器直接创建新的多维数据集。除非您是高级用户,否则不建议使用本方法。 如果您是从上一节的操作接着下来的,则应该已经在多维数据集编辑器中。 在多维数据集编辑器的“架构”窗格中,可以看到事实数据表(黄色标题栏)及联接的维度表(蓝色标题栏)。在多维数据集编辑器树窗格中,可以在层次树中预览多维数据集的结构。通过单击左窗格中底部的“属性”按钮,可以编辑多维数据集的属性。 使用存储设计向导设计存储在 Analysis Manager 树窗格中,在“教程”数据库下展开“多维数据集”文件夹,右击“Sales”多维数据集,然后单击“编辑”命令。 在“欢迎”步骤中单击“下一步”按钮。 选择“MOLAP”作为数据存储类型,然后单击“下一步”按钮。 在“设置聚合选项”下单击“性能提升达到”。在此框中输入“40”作为指定百分比。 此操作指示 Analysis Services 将性能提升到 40%,而不管需要多大的磁盘空间。管理员可以用此优化能力平衡查询性能需求和存储聚合数据所需磁盘空间大小。单击“启动”按钮。 在 Analysis Services 设计聚合时,您可以查看向导右边的“性能与大小”图。从中可以看出增加性能提升对使用额外磁盘空间的需求。完成设计聚合的进程之后,单击“下一步”按钮。 2浏览多维数据集数据使用多维数据集浏览器对 Sales 数据进行切片和切块。 如何使用多维数据集浏览器查看多维数据集数据 在 Analysis Manager 树窗格中,右击“Sales”多维数据集,然后单击“浏览数据”命令。 出现多维数据集浏览器,显示由多维数据集的一个维度和度量值组成的网格。其它四个维度显示在浏览器的上方。 如何替换网格中的维度 要用另一个维度替换网格中的维度,拖动上方框中的维度,然后直接将该维度放在要与其交换的列上。确保在此过程中,指针的形状为双端箭头。 使用这种拖放方法,选择“Product”维度按钮并将其拖动到网格上,然后直接放在“Measures”上方。“Product”维度和“Measures”维度在多维数据集浏览器中将交换位置。 注意: 如果想将维度添加到网格,而不是用另一个维度进行替换,则将该维度拖动到网格的中间。 按时间筛选数据单击“Time”维度旁边的箭头。 展开“所有 Time”和“1998”节点,然后单击“Quarter 1”。将对网格中的数据进行筛选,使筛选出的数据为仅反映该季度情况的数字。 l 使用拖放方法交换“Product”和“Customer”维度。单击“Product”并将其拖到“Country”维度上。 l 双击网格中包含“Baking Goods”的单元。多维数据集展开以包括子类别列。 l 完成后,单击“关闭”按钮关闭多维数据集浏览器。3编辑多维数据集使用多维数据集编辑器可以对现有多维数据集进行更改。 使用多维数据集编辑器向现有的 Sales 多维数据集添加维度两种方法启用多维数据集编辑器: l 在 Analysis Manager 树窗格中右击一个现有的多维数据集,然后单击“编辑”命令。l 使用多维数据集编辑器直接创建新的多维数据集。除非您是高级用户,否则不建议使用本方法。在多维数据集编辑器的“架构”窗格中,可以看到事实数据表(黄色标题栏)及联接的维度表(蓝色标题栏)。在多维数据集编辑器树窗格中,可以在层次树中预览多维数据集的结构。通过单击左窗格中底部的“属性”按钮,可以编辑多维数据集的属性。 向现有多维数据集添加维度 在多维数据集编辑器中,在“插入”菜单上单击“表”命令。 在“选择表”对话框中,单击“promotion”表,单击“添加”按钮,然后单击“关闭”按钮。 若要定义新的维度,请双击“promotion”表中的“promotion_name”列。 在“映射列”对话框中选择“维度”选项,然后单击“确定”按钮。 l 在树视图中选择“Promotion Name”维度。 l 在“编辑”菜单中单击“重命名”命令。 l 键入“Promotion”,按 ENTER 键。 l 保存所做的更改。 4钻取多维数据在 Sales 多维数据集内启用钻取,然后浏览数据并深化到事务。 启用多维数据集的钻取功能 在 Analysis Manager 树窗格中,在“教程”数据库下,展开“多维数据集”文件夹,右击“Sales”多维数据集,然后单击“编辑”命令。 在多维数据集编辑器中,单击“工具”菜单中的“钻取选项”命令。 在“多维数据集钻取选项”对话框中选择“启用钻取”复选框。 单击“全选”,然后单击“确定”按钮。 保存,然后关闭多维数据集编辑器。 给角色提供钻取权限 在 Analysis Manager 树窗格中,在“教程” 数据库下,展开“多维数据集”文件夹,右击“Sales”多维数据集,然后单击“管理角色”命令。 多维数据集角色管理器出现,显示 Sales 多维数据集现有角色的列表。 在多维数据集角色管理器中,单击“Management”角色,然后在“钻取”列中单击扩展按钮(“.”)。 (还可以单击“编辑”。) “编辑多维数据集角色”对话框出现。选中“允许钻取”复选框。 单击“确定”按钮。 在多维数据集角色管理器中,“Management”角色显示钻取已启用。 关闭多维数据集角色管理器。 使用分析管理器深化到源系统 在 Analysis Manager 树窗格中,在“教程”数据库下,展开“多维数据集”文件夹,右击“Sales”多维数据集,然后单击“浏览数据”命令。 多维数据集浏览器出现,显示在多维数据集内汇总的数据。通过双击“USA”、“WA”和“REDMOND”级别,展开“Country”级别。为了更好地查看数据,可能需要最大化“多维数据集浏览器”窗口。右击“Abbey”的单位销售额,然后单击“钻取”命令。 “钻取数据”对话框显示源系统中的事务,这些事务在 Analysis Services 中创建了该单元值。 关闭“钻取数据”对话框。 关闭多维数据集浏览器。四、实验测评与考核1完成实验的基本操作,确定实验目的、要求是否达到;2在学生数据仓库的基础上,完成使用维度浏览器进行多维数据的查询、编辑操作。;3在学生数据仓库的基础上,对多维数据集进行切片、切块、旋转、钻取操作;4实验完成后,应根据实验情况写出实验报告。实验项目四 数据挖掘一、实验内容、目标及要求(一)实验内容将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft 决策树”算法在客户群中找出会员卡选择模式。请将要挖掘的维度(事例维度)设置为客户,再将 Member_Card 成员的属性设置为数据挖掘算法识别模式时要使用的信息。然后选择人口统计特征列表,算法将从中确定模式:婚姻状况、年收入、在家子女数和教育程度。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式设计新的会员卡,使其适应申请各类会员卡的客户类型。(二)实验目标1理解数据挖掘的基本概念及其过程;2理解数据挖掘与数据仓库、OLAP之间的关系3理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。(三)实验要求1基于模拟案例,使用Analysis Services工具浏览数据挖掘维度和多维数据集;2基于模拟案例,运用决策树方法建立关系挖掘模型;3对挖掘结果运用Crystal Report系统工具进行展现;4实验完成后,应根据实验情况写出实验报告。二、实验准备(一)运行环境说明基于NT的局域网络,服务器与客户端安装MS SQL Server 服务系统、Analysis Services系统以及Crystal Report系统。(二)基础数据设置及说明三、实验基本操作流程及说明(一)系统界面及说明(二)操作步骤1创建揭示客户模式的数据挖掘模型 在 Analysis Manager 树视图中,展开“多维数据集”文件夹,右击“Sales”多维数据集,然后选择“新建挖掘模型”命令。 打开挖掘模型向导。在“选择数据挖掘技术”步骤中的“技术”框中选择“Microsoft 决策树”。单击“下一步”按钮。 在“选择事例”步骤中,在“维度”框中选择“Customer”。在“级别”框中,确保选择了“Lname”。单击“下一步”按钮。 在“选择被预测实体”步骤中,选择“事例级别的成员属性”。然后在“成员属性”框中选择“Member Card”。 单击“下一步”按钮。 在“选择训练数据”步骤中,滚动到“Customer”维度,清除“Country”、“State Province”和“City”框(因为不需要在聚集级别上而只需要在单独的客户级别上确定客户模式)。单击“下一步”按钮。 在“创建维度和虚拟多维数据集(可选)”步骤中,在“维度名称”框中输入“Customer Patterns”。然后在“虚拟多维数据集名称”框中输入“Trained Cube”。单击“下一步”按钮。 在最后的步骤中,在“模型名称”字段中键入“Customer patterns discovery”。确保选择了“保存并开始处理”。单击“完成”按钮。 出现一个窗口,显示模型正在处理之中。处理完成之后,出现一则消息,说明“已成功完成处理”,然后单击“关闭”按钮。2读取客户决策树 现在已在 OLAP 挖掘模型编辑器中。可以使用编辑器编辑模型属性或者浏览其结果。最大化 OLAP 挖掘模型编辑器。 决策树显示于右窗格中。其中包括四个窗格。中间的“内容详情”窗格 (1) 显示焦点所在的决策树的部分。“内容选择区”窗格 (2) 显示树的完整视图。该窗格使您可以将焦点设置到树的其它部分。其它的两个窗格分别是“特性”窗格 (3)(特性信息可以用“合计”选项卡以数值方式查看或者用“直方图”选项卡以图形方式查看)和与焦点所在节点相关联的“节点路径”区域 (4)。 在“内容详情”窗格的决策树区域中,颜色代表“事例”的密度(在本事例中为:客户的密度)。颜色越深则节点中包含的事例就越多。 单击“全部”节点。该节点为黑色,因为它代表 (7632) 事例的 100%。7632 代表 1998 年活动的客户数目(即 Sales 多维数据集中有事务记录的客户)。这个数字也说明在 1998 年并非所有的客户都是活动的,因为我们从“Customer”维度的“Lname”级别中所包含的 9991 个客户中只得到 7632 个事例。 特性窗格显示“全部”节点中,所有事例的 55.83%(或者说 4263 个示例)可能选择铜卡 (Bronze);11.50% 可能选择金卡 (Golden);23.32% 可能选择普通卡 (Normal);9.34% 可能选择银卡 (Silver)。如果没有显示百分比,则可以调整“特性”窗格中“合计”面板的“可能性”列的大小。 如果选择了树的不同节点,此百分比将会更改。让我们调查一下哪些客户可能选择金卡。若要执行此操作,则需要重新画出树以便勾画出金卡的高密度区。在右下角的“树颜色基于”字段中选择“Golden”。该树显示另一种颜色模式。可以看出“Customer.Lname.Yearly Income = $150K+”节点的密度高于其它任何节点。 树的第一个级别由“yearly income”属性决定。树的组织由算法决定,其基础是该属性在输出中的重要性。这意味着“yearly income”属性是最重要的因素,它将决定客户可能选择的会员卡的类型。选择“Customer.Lname.Yearly Income = $150K+”节点。该特性窗格显示收入较多的客户中,45.09% 的客户可能会选择金卡。这个百分比要比“全部”节点中的 (11.50%) 高得多。当继续在树中做进一步调查时,让我们调查一下这些百分比是如何演化的。 双击“Customer.Lname.Yearly Income = $150K+”节点。 该树现在只显示“Customer.Lname.Yearly Income = $150K+”节点下的子树。 选择“Customer.Lname.Marital Status = M”节点。在“节点路径”窗格中,可以看到包含于该节点的客户的完整的特征定义:收入高于 150000 美元且已婚的客户。该“特性”窗格现在显示:与上一级别 (45.09%) 相比,较高百分比 (81.05%) 的客户可能会选择金卡。 我们再返回到顶层,进行一种与此不同的调查,即调查可能选择普通卡的客户。若要返回顶层节点,可以单击从“Customer.Lname.Yearly Income = $150K+”节点左面伸出来的线(方法 1)或者使用“内容选择区”回到树的顶部(方法 2)。 在“树颜色基于”字段中选择“Normal”。树刷新节点的颜色之后,可以看到“Customer.Lname.Yearly Income = $150K+”节点的颜色非常浅;这意味着这些客户选择普通卡的可能性非常小。另一方面,可以看到“Customer.Lname.Yearly Income = $10K $30K”节点的颜色非常深。这意味着这些客户选择普通卡的可能性非常高。“特性”窗格显示在此年收入范围内的客户中,91.92% 的客户可能会选择普通卡。树还显示已无法对此节点进行进一步调查。这意味着在树的这个分支中,年收入是决定客户选择普通卡的可能性的唯一因素。 可以查看树的其它分支并调查客户选择一种卡而不选择另一种卡的可能性。市场部可以使用此信息来确定最可能选择某种类型卡的客户的特征。根据这些特征(收入、子女数、婚姻状况等等),可以重新定义会员卡服务和方案以便更好地适应其客户。完成对决策树的分析之后,请关闭 OLAP 挖掘模型编辑器3浏览数据挖掘维度 在 Analysis Manager 树视图中,展开“共享维度”文件夹,右击“Customer patterns”维度,然后单击“浏览维度数据”命令。 维度浏览器打开。展开“全部”成员维度。 选择“Customer.Lname.Yearly Income = $150K+
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年人在线养生课程课件
- 外研版八年级英语上册Unit 4 Digital life学情评估卷(含答案)
- 上海市徐汇区某中学2024-2025学年六年级(五四制)下学期数学期末考试试卷(含解析)
- CN120197997A 一种融合多源数据的矿区碳排放智能评估方法及系统
- CN120197411A 一种医疗器械使用寿命监测方法及系统
- 人教版八年级英语下册复习专练:完形填空专练(含答案)
- 期末核心考点突破提升培优卷-三年级数学下学期(西师大版)含答案解析
- 2025叉车工职业发展规划与劳动合同
- 2025年度城市综合体项目房屋代销合作协议书
- 2025版摊铺机租赁及运输服务合同
- DB32/T 1086-2022 高速公路建设项目档案管理规范(修订)
- 教师资格证《教育知识与能力》中学-必背知识点
- 配料保密协议
- 特种设备安全管理实施细则
- 托管运营合同范文
- 显微根管治疗的护理配合
- 电气工程专业导论
- 汽车机械基础课件 项目三 汽车构件静力学分析
- 浙江省七彩阳光联盟2024-2025学年高三上学期8月返校联考语文试题 含解析
- 丰巢快递柜场地租赁协议(2024版)
- 人美版八年级上册初中美术全册教案
评论
0/150
提交评论