数据仓库与数据挖掘试验报告_第1页
数据仓库与数据挖掘试验报告_第2页
数据仓库与数据挖掘试验报告_第3页
数据仓库与数据挖掘试验报告_第4页
数据仓库与数据挖掘试验报告_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、上机目的及内容目的:.理解数据挖掘的基本概念及其过程;.理解数据挖掘与数据仓库、OLAP之间的关系.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。内容:将创建一个数据挖掘模型以训练销售数据,并使用Microsoft决策树”算法在客户群中找出购买自行车模式。请将要挖掘的维度(事例维度)设置为客户,再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。然后算法将使用决策树从中确定模式。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式选择潜在的客户发送自行车促销信息。要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出模型及操作过程。实验完成后,应根据实验情况写出实验报告。二、实验原理及基本技术路线图(方框原理图或程序流程图)关联分析:关联分析是从数据库中发现知识的一类重要方法。时序模式:通过时间序列搜索出重复发生概率较高的模式。分类:分类是在聚类的基础上对已确定的类找出该类别的概念描述,代表了这类数据的整体信息,既该类的内涵描述,一般用规则或决策树模式表示。三、所用仪器、材料(设备名称、型号、规格等或使用软件)台PC及MicrosoftSQLServer套件四、实验方法、步骤(或:程序代码或操作过程)及实验过程原始记录(测试数据、图表、计算等)创建AnalysisServices项目打开BusinessIntelligenceDevelopmentStudio。在“文件”菜单上,指向“新建”,然后选择“项目”。确保已选中“模板”窗格中的“AnalysisServices项目”。在“名称”框中,将新项目命名为AdventureWorks。单击“确定”。更改存储数据挖掘对象的实例在BusinessIntelligenceDevelopmentStudio的“项目”菜单中,选择“属性”。在“属性页”窗格的左侧,单击“部署”。在“目标”选项部分,验证数据库名称是否为localhosto如果使用的是其他实例,请键入该实例的名称。单击“确定”。创建数据源在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。|系统将打开数据源向导。在“欢迎使用数据源向导”页面中,单击“下一步”按钮。在“选择如何定义连接”页上,单击“新建”向AdventureWorks数据库中添加连接。系统将打开“连接管理器”对话框。在“连接管理器”的“提供程序”列表中,选择“本机OLEDB\MicrosoftOLEDBProviderforSQLServer”。在“服务器名称”列表中,键入或选择承载AdventureWorksDW的服务器的名称。在“登录到服务器”组中,选择身份验证方法,并输入凭据。在“选择或输入数据库名称”列表中,选择AdventureWorksDW,再单击“确定”按钮。单击“下一步”按钮进入向导的下一页。在“模拟信息”页中,选择“使用服务帐户”,再单击“下一步”。请注意,在“完成向导”页中,数据源名称默认为AdventureWorksDW。单击“完成”。新的数据源AdventureWorksDW将显示在解决方案资源管理器的“数据源”文件夹中。创建数据源视图

在解决方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”。系统将打开数据源视图向导。在“欢迎使用数据源视图向导”页上,单击“下一步”。在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的AdventureWorksDW数据源。单击“下一步”。若要创建新数据源,请单击“新建数据源”,启动数据源向导。在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中:单击“下一步”。在“完成向导”页上,默认情况下,系统将数据源视图命名为AdventureWorksDW0单击“完成”。系统将打开数据源视图设计器,显示AdventureWorksDW数据源视图。1.创建用于目标邮件方案的挖掘结构1.在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。在“欢迎使用数据挖掘向导”页上,单击“下一步”。在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft决策树”。单击“下一步”。在“选择数据源视图”页上,请注意已默认选中AdventureWorksDW。在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。单击“下一步”。在“指定表类型”页上,选中vTargetMail表旁边“事例”列中的复选框,再单击“下一步”。在“指定定型数据”页上,确保已选中CustomerKey列旁边Key列中的复选框。如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。选中BikeBuyer列旁边的“输入”和“可预测”。单击“建议”打开“提供相关列建议”对话框。只要选中至少一个可预测属性,即可启用“建议”按钮。“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。值大于的列将被自动选中,以包括在模型中。阅读建议,然后单击“取消”忽略建议并保留向导设置的原始值。选中以下各列旁边的“输入”复选框:AgeCommuteDistanceEnglishEducationEnglishOccupationFirstNameGenderGeographyKeyHouseOwnerFlagLastNameMaritalStatusNumberCarsOwnedNumberChildrenAtHomeRegionTotalChildrenYearlyIncome单击“下一步”。在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并确定数值列是否包含连续或离散值的算法。例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如1=<$25,000;2=从$25,000到$50,000)。单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey应作为文本处理,因为对此标识符进行数学运算是不对的。列 内容类型 数据类型

AgeContinuousLongBikeBuyerDiscreteLongCommuteDistanceDiscreteTextCustomerKeyKeyLongEnglishEducationDiscreteTextEnglishOccupationDiscreteTextFirstNameDiscreteTextGenderDiscreteTextGeographyKeyDiscreteTextHouseOwnerFlagDiscreteTextLastNameDiscreteTextMaritalStatusDiscreteTextNumberCarsOwnedDiscreteLongNumberChildrenAtHomeDiscreteLongRegionDiscreteTextTotalChildrenDiscreteLongYearlyIncomeContinuousDouble单击“下一步”。在“将数据拆分为定型集和测试集”页上,对于“测试数据百分比”,请保留默认值30。对于“测试数据集中的最大事例数”,请键入1000。单击“下一步”。在“完成向导”页上的“挖掘结构名称”中,键入TargetedMailing。在“挖掘模型名称”中,键入TM_Decision_Tree。选中“允许钻取”复选框。单击“完成”。测试挖掘模型的准确性映射输入列如果使用外部数据测试挖掘模型,则必须确保挖掘结构中的列与输入数据中的列匹配。为此,可以使用“指定列映射”对话框。如果直接映射列名,则数据挖掘设计器将自动创建关系。若要删除两列之间的映射,请选择将“挖掘结构”表中的列链接到“选择输入表”表中的列的行,再按Delete键。还可以通过单击“选择输入表”中的列并将其拖到“挖掘结构”中相应的列来手动创建映射。将输入列映射到挖掘结构在数据挖掘设计器中的“挖掘准确性图表”选项卡的“输入选择”选项卡中,选择选项“指定其他数据集”。单击“指定其他数据集”选项右侧的(…)按钮。此时将打开“指定列映射”对话框。如果您要测试的结构未显示在“挖掘结构”窗格中,请单击“选择结构”并选择目标邮件。在“选择输入表”框中,单击“选择事例表”。系统将打开“选择表”对话框。在此对话框中选择包含表或需要使用的表的数据源视图,然后选择该表。用于确定模型准确性的数据必须包含可以映射到可预测列的列。为了实现本教程的教学目标,您需要对用于处理模型的输入列使用相同的数据并对数据应用筛选器。但是,理想情况下,您将使用用于处理该模型的数据中保留的测试数据集。在“选择输入选择”选项卡上选择选项“使用挖掘结构测试事例”,将选择该数据作为输入。在“数据源”列表中,确保已选中AdventureWorksDW。在“表/视图名称”列表中,选择vTargetMail,再单击“确定”。挖掘结构中的列会自动映射到输入表中具有相同名称的列。筛选输入行如果选择“指定其他数据集”选项,则可以通过使用显示事例表列和嵌套表列的一组对话框生成筛选条件。可以从运算符、类型值的列表中进行选择,并连接条件与逻辑运算符,以创建限制测试所用事例的复杂条件。对测试数据应用筛选器在数据挖掘设计器中的“挖掘准确性图表”选项卡的“输入选择”选项卡上,单击“打开筛选器编辑器”。|此时将打开“vTargetMail数据集筛选器”对话框。在此网格内,输入转换为将应用于源表的WHERE子句的条件,以限制用于测试的事例。在“挖掘结构列”下,单击网格内顶部的行。选择vTargetMail。单击“值”单元。此时将打开“筛选器”对话框,该对话框可帮助您对vTargetMail表设置条件。在第一行中,单击“挖掘结构列”下的网格,然后从列的列表中选择Age。单击Age旁边的“运算符”框,并选择>(大于)运算符。在同一行单击“值”框,并键入20。单击“表达式”窗格以刷新该表达式,并验证它是否正确。单击“确定”。再次单击“确定”,关闭“筛选数据集”对话框。“输入选择”选项卡中的“筛选表达式”窗格会显示刚才创建的筛选表达式vTargetMail:([Age]>20)。当制作提升图时,模型将仅使用其年龄大于20的客户进行测试。显示模型的提升在“选择要在提升图中显示的可预测的挖掘模型列”下,确保已在每个模型的“可预测的列名”列表中选中BikeBuyer。在“预测值”列中,选择1。对于具有相同可预测列的每个模型,将自动填充相同的值。显示模型的准确性在“选择要在提升图中显示的可预测的挖掘模型列”下,确保已在每个模型的“可预测的列名”列表中选中BikeBuyer。将“预测值”列保留为空。查看提升图若要查看提升图,请切换到“挖掘准确性图表”的“提升图”选项卡。当您单击该选项卡时,便会对服务器和数据库的挖掘结构和输入表或测试数据运行预测查询。预测结果随后会与已知的实际值进行比较,并将绘制在图上。有关如何使用该图的详细信息,请参阅提升图(AnalysisServices-数据挖掘)。创建查询创建预测查询的第一步是选择挖掘模型和输入表。选择模型和输入表1. 在数据挖掘设计器”挖掘模型预测”选项卡的“挖掘模型”框中,单击“选择模型”。系统将打开“选择挖掘模型”对话框。2.在整个树中导航到“目标邮件”结构,展开该结构并选择TM_Decision_Tree,再单击“确定”。2.在“选择输入表”框中,单击“选择事例表”。系统将打开“选择表”对话框。在“数据源”中,选择AdventureWorksDW。在“表/视图名称”中,选择ProspectiveBuyer表,再单击“确定”。选择输入表之后,预测查询生成器便会根据各列的名称在挖掘模型和输入表之间创建默认映射。生成预测查询在“挖掘模型预测”选项卡上的网格内的“源”列中,单击第一个空行中的单元格,然后选择ProspectiveBuyer。在ProspectiveBuyer行的“字段”列中,选择ProspectAlternateKey。这会将唯一标识符添加到预测查询中,以便标识谁可能购买自行车,以及谁不可能购买自行车。在“源”列中,单击下一个空行,然后选择TM_Decision_Tree。在TM_Decision_Tree行的“字段”列中,选择BikeBuyer。这将会输出Microsoft决策树模型中作为预测目标的列。在“源”列下,单击下一个空行,然后选择“预测函数”。在“预测函数”行的“字段”列中,选择PredictProbability。预测函数提供有关模型如何进行预测的信息。PredictProbability函数提供有关正确预测的概率信息。您可以在“条件/参数”列中指定预测函数的参数。在PredictProbability行的“条件/参数”列中,键入[TM_Decision_Tree].[BikeBuyer]。这将指定PredictP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论