




免费预览已结束,剩余43页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘基础教程2第 1 课:准备 Analysis Services 数据库3第 2 课:生成 Targeted Mailing 结构9第 3 课:添加和处理模型16第 4 课:浏览 Targeted Mailing 模型21第 5 课:测试模型33第 6 课:创建和使用预测40数据挖掘基础教程欢迎使用 MicrosoftAnalysis Services 数据挖掘基础教程。MicrosoftSQL Server 提供了一个用来创建和处理数据挖掘模型的集成环境。在本数据挖掘基础教程中,您将完成一个用于目标邮寄活动的方案,在此方案中您将创建三个模型,用来分析客户购买行为并确定潜在购买目标。本教程说明了 MicrosoftSQL ServerAnalysis Services 中所包含的数据挖掘算法、挖掘模型查看器和数据挖掘工具的使用方法。虚构公司 Adventure Works Cycles 用于所有的示例。熟练使用数据挖掘工具后,建议您完成数据挖掘中级教程,该教程说明了预测、市场篮分析、时序、关联模型、嵌套表以及顺序分析和聚类分析的使用方法。教程方案在本教程中,您是 Adventure Works Cycles 的一名员工,需要根据历史购买情况来详细了解该公司的客户,然后使用这些历史数据进行可用于营销的预测。公司以前从未进行过数据挖掘,因此您必须创建一个专门用于数据挖掘的新数据库并建立几个数据挖掘模型。学习内容本教程将讲述如何创建和使用数种不同类型的数据挖掘模型。还将述如何创建挖掘模型的副本以及如何对掘模型应用筛选器。随后,您将处理新模型并使用提升图评估该模型。在该模型完成之后,将使用钻取功能从基础挖掘结构检索其他数据。在 SQL Server 2008 中,Microsoft 引入了几个新功能,可帮助您开发自定义数据挖掘模型并且更有效地使用结果。维持测试集 - 现在,当创建挖掘结构时,可以将挖掘结构中的数据分为定型集和测试集。挖掘模型筛选器 - 现在,可以将筛选器附加到挖掘模型,并在定型和测试期间应用筛选器。钻取到结构事例和结构列 - 现在,可以从挖掘模型中的通用模式方便地移到数据源中的可行详细信息。本教程分为以下几课:第 1 课:准备 Analysis Services 数据库 在本课程中,您将学习如何创建新的 Analysis Services 数据库,添加数据源和数据源视图,以及准备将用于数据挖掘的新数据库。第 2 课:生成 Targeted Mailing 结构 在本课中,您将学习如何创建可用作目标邮寄方案一部分的挖掘模型结构。第 3 课:添加和处理模型 在本课中,您将学习如何向结构中添加模型。您创建的模型是用如下算法生成的:l Microsoft 决策树l Microsoft 聚类分析l Microsoft Naive Bayes第 4 课:浏览 Targeted Mailing 模型 在本课中,您将学习如何使用查看器浏览和解释在每个模型中发现的内容。第 5 课:测试模型 在本课中,您将创建某个 Targeted Mailing 模型的副本,添加一个挖掘模型筛选器以将定型数据限制在特定客户集,然后评估该模型的可行性。第 6 课:创建和使用预测 在本数据挖掘基础教程的最后一课中,您将使用该模型预测哪些客户最有可能购买自行车。随后,您将钻取到基础事例以获取联系信息。要求请确保已安装下列软件:l Microsoft SQL Server 2008 R2l Microsoft SQL Server Analysis Services l AdventureWorksDW2008R2 数据库。第 1 课:准备 Analysis Services 数据库您是 Adventure Works Cycles 的一名新员工,需要使用 SQL Server 2008 设计一个商业智能应用程序。Adventure Works Cycles 希望利用您的 Analysis Services 数据挖掘经验发现有关已经购买自行车的人的兴趣和可行信息。然后,他们希望您预测哪些预期客户将来最有可能购买自行车。 在 SQL Server 中设计此应用程序时,首先根据 Analysis Services 项目模板在 Business Intelligence Development Studio 中创建 SQL ServerAnalysis Services 项目。创建 Analysis Services 项目后,再定义一个或多个数据源。然后,根据选自数据源的表和视图,定义名为“数据源视图”的元数据视图。在本课中,您将创建一个 Analysis Services 项目,定义一个单个数据源,并向数据源视图添加一个表子集。本课程包括以下任务:l 创建 Analysis Services 项目l 创建数据源l 创建数据源视图创建 Analysis Services 项目每个 MicrosoftSQL ServerAnalysis Services 项目都可为单个 Analysis Services 数据库中的对象定义架构。Analysis Services 数据库包含挖掘结构和挖掘模型、联机分析处理 (OLAP) 多维数据集和补充对象(例如数据源和数据源视图)。在本教程中,我们将使用 AdventureWorksDW2008R2数据库。默认情况下,Analysis Services 使用新项目的 localhost 实例。如果使用命名实例或者另一台服务器,则必须首先创建和打开该项目,然后更改实例名称。创建 Analysis Services 项目1. 打开 Business Intelligence Development Studio。2. 在“文件”菜单上,指向“新建”,然后选择“项目”。3. 确保已选中“项目类型”窗格中的“商业智能项目”。4. 确保已选中“模板”窗格中的“Analysis Services 项目”。5. 在“名称”框中,将新项目命名为 ASDataMining2008。6. 单击“确定”。更改存储数据挖掘对象的实例1. 在 Business Intelligence Development Studio 中,选择“项目”菜单中的“属性”。2. 在“属性页”窗格左侧的“配置属性”下,单击“部署”。3. 在“属性页”窗格右侧的“目标”下,确保“服务器”名称为 localhost。如果使用的是其他实例,请键入该实例的名称。单击“确定”。创建数据源“数据源”是一种数据连接,在项目中保存和管理,并部署到 MicrosoftSQL ServerAnalysis Services 数据库。除了其他所有必需的连接属性外,数据源还包含源数据所在的服务器和数据库的名称。重要提示数据库的名称为 AdventureWorksDW2008R2。 创建数据源1. 在“解决方案资源管理器”中,右键单击“数据源”文件夹,然后选择“新建数据源”。2. 在“欢迎使用数据源向导”页面中,单击“下一步”按钮。3. 在“选择如何定义连接”页上,单击“新建”向 AdventureWorksDW2008R2 数据库中添加连接。4. 在连接管理器中的“访问接口”列表中,选择“本机 OLE DBSQL Server Native Client 10.0”。5. 在“服务器名称”框中,键入或选择安装了 AdventureWorksDW2008R2 的服务器的名称。例如,如果是在本地服务器上承载该数据库,请键入 localhost。6. 在“登录到服务器”组中,选择“使用 Windows 身份验证”。重要提示实施者应尽可能使用 Windows 身份验证,因为它提供的身份验证方法比 SQL Server 身份验证更加安全。而提供 SQL Server 身份验证只是为了向后兼容。7. 在“选择或输入数据库名称”列表中,选择 AdventureWorksDW2008R2,然后单击“确定”。8. 单击“下一步”。9. 在“模拟信息”页中,单击“使用服务帐户”,再单击“下一步”。在“完成向导”页中,请注意数据源名称默认为 Adventure Works DW2008R2。10. 单击“完成”。此时,解决方案资源管理器的“数据源”文件夹中将出现刚创建的新数据源 Adventure Works DW2008R2。创建数据源视图数据源视图是基于数据源生成的,定义用来填充数据仓库的数据的子集。您可以使用数据源视图来修改数据的结构,使它与项目的关系更密切。通过数据源视图,可以选择与特定项目相关的表,建立表之间的关系,并添加计算列和命名视图,而不必修改原始的数据源。创建数据源视图1. 在解决方案资源管理器中,右键单击“数据源视图”并选择“新建数据源视图”。2. 在“欢迎使用数据源视图向导”页中,单击“下一步”。3. 在“选择数据源”页的“关系数据源”下方,选择在上一个任务中创建的 Adventure Works DW2008R2数据源。单击“下一步”。注意若要创建数据源,请单击“新建数据源”,启动数据源向导。4. 在“选择表和视图”页上,选择下列对象,然后单击右箭头键,将它们包括在新数据源视图中: ProspectiveBuyer (dbo) - 预期自行车购买者的表 vTargetMail (dbo) - 有关以前的自行车购买者的历史数据的视图5. 单击“下一步”。6. 在“完成向导”页上,系统默认将数据源视图命名为 Adventure Works DW2008R2。将该名称更改为 Targeted Mailing,然后单击“完成”。新数据源视图随即在“Targeted Mailing.dsv 设计”选项卡中打开。第 2 课:生成 Targeted Mailing 结构Adventure Works Cycles 的市场部希望通过向目标特定客户发送邮件的方式来提高销售量。公司的数据库 AdventureWorksDW2008R2 包含一个现有客户列表和一个潜在的新客户列表。公司希望通过调查现有客户的特征来发现适用于潜在客户的模式。Adventure Works Cycles 希望使用发现的模式来预测哪些潜在客户最有可能购买自己的自行车。在本课程中,您将使用“数据挖掘向导”来创建 Targeted Mailing 结构。完成本课程中的任务之后,您将创建一个具有一个模型的挖掘结构。由于创建结构涉及到很多步骤和重要的概念,因此我们将此过程分成以下三个任务:l 创建目标邮件挖掘模型结构l 指定数据类型和内容类型l 为结构指定测试数据集创建目标邮件挖掘模型结构创建目标邮件方案的第一步是使用 Business Intelligence Development Studio 中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。在本任务中,您将基于 Microsoft 决策树算法创建初始挖掘结构。若要创建此结构,需要首先选择表和视图,然后标识将用于定型的列和将用于测试的列。创建用于目标邮件方案的挖掘结构1. 在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。2. 在“欢迎使用数据挖掘向导”页上,单击“下一步”。3. 在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。4. 在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策树”。注意如果收到警告,告知无法找到数据挖掘算法,则项目属性可能配置不正确。当项目尝试从 Analysis Services 服务器检索数据挖掘算法列表却找不到服务器时,就会出现此警告。默认情况下,BI Development Studio 会将 localhost 用作服务器。如果要使用其他实例或命名实例,则必须更改项目属性。5. 单击“下一步”。6. 在“选择数据源视图”页上的“可用数据源视图”窗格中,选择 Targeted Mailing。可单击“浏览”查看数据源视图中的各表,然后单击“关闭”返回该向导。7. 单击“下一步”。8. 在“指定表类型”页上,选中 vTargetMail 的“事例”列中的复选框以将其用作事例表,然后单击“下一步”。稍后您将使用 ProspectiveBuyer 表进行测试,不过现在可以忽略它。9. 在“指定定型数据”页上,您将为模型至少标识一个可预测列、一个键列以及一个输入列。选中 BikeBuyer 行中的“可预测”列中的复选框。注意请注意窗口底部的警告。只有在至少选中一个“输入”列和一个“可预测”列后,才能导航至下一页。10. 单击“建议”打开“提供相关列建议”对话框。只要选中至少一个可预测属性,即可启用“建议”按钮。“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。显著相关的列(置信度高于 95%)将被自动选中以添加到模型中。查看建议,然后单击“取消”忽略建议。注意如果单击“确定”,所有列出的建议都将在向导中标记为输入列。如果仅同意其中的某些建议,则必须手动更改值。11. 确认在 CustomerKey 行中已选中“键”列中的复选框。注意如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。12. 选中以下行中“输入”列中的复选框。可通过下面的方法来同时选中多个列:突出显示一系列单元格,然后在按住 Ctrl 的同时选中一个复选框。 Age CommuteDistance EnglishEducation EnglishOccupation Gender GeographyKey HouseOwnerFlag MaritalStatus NumberCarsOwned NumberChildrenAtHome Region TotalChildren YearlyIncome13. 在该页的最左侧的列中,选中以下行中的复选框。 AddressLine1 AddressLine2 DateFirstPurchase EmailAddress FirstName LastName确保这些行仅选择了左侧列中的复选标记。这些列将添加到结构中,但不会包含在模型中。但是,模型生成后,它们将可用于钻取和测试。14. 单击“下一步”。指定数据类型和内容类型您已经选择了要用于生成结构和为模型定型的列,现在可以对向导设置的默认数据类型和内容类型进行任何必要的更改。检查和修改每列的内容类型和数据类型1. 在“指定列的内容和数据类型”页上,单击“检测”运行用来确定每列的默认数据类型和内容类型的算法。2. 查看“内容类型”和“数据类型”列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey 应作为文本处理,因为对此标识符进行数学运算是不对的。列内容类型数据类型Address Line1DiscreteTextAddress Line2DiscreteTextAgeContinuousLongBike BuyerDiscreteLongCommute DistanceDiscreteTextCustomerKeyKeyLongDateLastPurchaseContinuousDateEmail AddressDiscreteTextEnglish EducationDiscreteTextEnglish OccupationDiscreteTextFirstNameDiscreteTextGenderDiscreteTextGeography KeyDiscreteTextHouse Owner FlagDiscreteTextLast NameDiscreteTextMarital StatusDiscreteTextNumber Cars OwnedDiscreteLongNumber Children At HomeDiscreteLongRegionDiscreteTextTotal ChildrenDiscreteLongYearly IncomeContinuousDouble3. 单击“下一步”。为结构指定测试数据集在数据挖掘向导的最后几个屏幕上,您将把数据拆分成测试集和定型集。随后您将命名您的结构并针对模型启用钻取。指定测试集 在创建挖掘结构时将数据分成定型集和测试集,可以立即评估以后创建的挖掘模型的准确性。指定测试集1. 在“创建测试集”页上,将“测试数据百分比”保留其默认值:30。2. 对于“测试数据集中的最大事例数”,请键入 1000。3. 单击“下一步”。指定钻取 可以针对模型和结构启用钻取。该窗口中的复选框针对命名模型启用钻取,并允许您从用来为模型定型的模型事例检索详细信息。如果基础挖掘结构也已经配置为允许进行钻取,则可以从模型事例和挖掘结构返回详细信息(其中包括挖掘模型中所不包含的列)。命名模型和结构并指定钻取1. 在“完成向导”页上的“挖掘结构名称”中,键入 Targeted Mailing。2. 在“挖掘模型名称”中,键入 TM_Decision_Tree。3. 选中“允许钻取”复选框。4. 查看“预览”窗格。请注意,仅显示出那些选作“键”、“输入”或“可预测”的列。您选择的其他列(例如,AddressLine1)不能用于生成模型,但是将在基础结构中可用,您可以在处理和部署模型之后查询这些列。5. 单击“完成”。第 3 课:添加和处理模型您在上一课中创建的挖掘结构包含一个基于 Microsoft 决策树算法的挖掘模型。为了确定目标邮寄的客户,您将创建两个附加模型,然后处理和部署这些模型。在本课中,您将创建一组挖掘模型,这些模型将提示潜在客户列表中最有可能购买产品的客户。若要完成本课程中的任务,您需要使用 Microsoft 聚类分析算法和 Microsoft Naive Bayes 算法。本课程包含以下任务:l 向 Targeted Mailing 结构中添加新模型l 处理 Targeted Mailing 结构中的模型向 Targeted Mailing 结构中添加新模型在本任务中,将使用数据挖掘设计器的“挖掘模型”选项卡定义两个附加模型。您将使用 Microsoft 聚类分析算法和 Microsoft Naive Bayes 算法创建模型。之所以选择这两种算法,是因为它们能够预测离散值(例如,自行车购买行为)。创建聚类分析挖掘模型1. 切换到 Business Intelligence Development Studio 中数据挖掘设计器的“挖掘模型”选项卡。请注意,设计器显示两列,一列是挖掘结构,另一列是在前一课中创建的 TM_Decision_Tree 挖掘模型。2. 右键单击“结构”列,选择“新建挖掘模型”。3. 在“新建挖掘模型”对话框中的“模型名称”中,键入 TM_Clustering。4. 在“算法名称”中,选择“Microsoft 聚类分析”。5. 单击“确定”。新模型现在显示在数据挖掘设计器的“挖掘模型”选项卡中。此模型是用 Microsoft 聚类分析算法生成的,它将具有相似特征的客户进行分类并预测每个分类的自行车购买行为。虽然您可以修改新模型的列用法和属性,但在本教程中不需要对 TM_Clustering 模型进行任何更改。创建 Naive Bayes 挖掘模型1. 在数据挖掘设计器的“挖掘模型”选项卡中,右键单击“结构”列,并选择“新建挖掘模型”。2. 在“新建挖掘模型”对话框中的“模型名称”下,键入 TM_NaiveBayes。3. 在“算法名称”中,选择 Microsoft Naive Bayes,再单击“确定”。此时将显示一条消息,说明 Microsoft Naive Bayes 算法不支持 Age 和 Yearly Income 列,这些都是连续列。4. 单击“是”,以确认此消息并继续下面的操作。新模型将显示在数据挖掘设计器的“挖掘模型”选项卡中。虽然您可以在此选项卡中修改所有模型的列用法和属性,但在本教程中不需要对 TM_NaiveBayes 模型进行任何更改。处理 Targeted Mailing 结构中的模型必须先部署 Analysis Services 项目并处理挖掘结构和挖掘模型,才能浏览或使用创建的挖掘模型。“部署”是将项目发送到服务器并在该服务器上的该项目中创建任意对象。“处理”是指用关系数据源的数据填充 Analysis Services 对象的步骤或一系列步骤。模型经过部署和处理后才能使用。确保与 HoldoutSeed 一致 部署项目并处理结构和模型后,数据结构中各行将根据随机数种子随机分配给定型集和测试集。通常,随机数种子是根据数据结构的属性计算的。为了实现本教程教学目的,为确保您的结果与此处所述相同,我们将随机指派一个固定的“维持种子”:12。维持种子用来初始化随机抽样的种子,并确保以大体相同的方式对所有挖掘结构及其模型中的数据进行分区。此值不影响定型集内的事例数,而是将确保分区能够重复。设置 HoldoutSeed1. 在 Business Intelligence Development Studio 的数据挖掘设计器中,单击“挖掘结构”选项卡或“挖掘模型”选项卡。Targeted Mailing MiningStructure 显示在“属性”窗格中。2. 确保按 F4 可以打开“属性”窗格。3. 确保 CacheMode 已设置为 KeepTrainingCases。4. 为 HoldoutSeed 输入 12。部署并处理模型 在数据挖掘设计器中,可以处理挖掘结构、与挖掘结构关联的特定挖掘模型,或者结构以及与该结构关联的所有模型。在本任务中,我们将同时处理结构和所有模型。部署项目并处理所有挖掘模型1. 在“挖掘模型”菜单上选择“处理挖掘结构和所有模型”。如果更改了结构,系统将提示您在处理模型之前生成和部署项目。单击“是”。2. 在“处理挖掘结构 - Targeted Mailing”对话框中单击“运行”。“处理进度”对话框将打开以显示有关模型处理的详细信息。模型处理可能需要一些时间,具体取决于您的计算机。3. 模型处理完成后,在“处理进度”对话框中单击“关闭”。4. 在“处理挖掘结构 - ”对话框中单击“关闭”。第 4 课:浏览 Targeted Mailing 模型处理完项目中的各模型后,可以在 Business Intelligence Development Studio 中浏览它们以查找所关注的趋势。由于挖掘模型的结果比较复杂并且原始格式的结果难以理解,因此以可视化方式调查数据通常是了解算法在数据内发现的规则和关系的最简单方法。浏览还可以帮助您了解模型的行为以及在部署之前发现哪个模型的性能最佳。您创建的每个模型都列在数据挖掘设计器的“挖掘模型查看器”选项卡中。用于在 Analysis Services 中生成模型的每种算法将返回不同类型的结果。因此,Analysis Services 为每种算法提供了单独的查看器。Analysis Services 还提供了一个适用于所有模型类型的一般查看器。一般内容树查看器显示详细的模型内容信息,该信息因使用的算法不同而不同。在本课中,您将使用三个模型来查看相同的数据。每个模型类型基于不同的算法,为观察数据提供了不同角度。决策树模型告诉您影响自行车购买的各因素。聚类分析模型按照包括客户的自行车购买行为的属性和其他所选属性来对客户进行分组。Naive Bayes 模型使您可以浏览不同属性之间的关系。最后,一般内容树查看器显示模型的结构并提供更加丰富的详细信息,其中包括提取的公式和模式以及群集或特定树中事例的计数。单击下列主题,浏览挖掘模型查看器。 浏览决策树模型 浏览聚类分析模型 浏览 Naive Bayes 模型浏览决策树模型Microsoft 决策树算法预测哪些列影响了您基于定型集内的其余列做出的自行车购买决策。Microsoft 决策树查看器提供了以下选项卡,用于浏览决策树挖掘模型:l 决策树l 依赖关系网络“决策树”选项卡 在“决策树”选项卡上,可以检查构成挖掘模型的所有树模型。由于本教程项目中的 Targeted Mailing 模型仅包含单个可预测属性 (Bike Buyer),所以只需查看一个树。如果存在更多树,则可以使用“树”框来选择其他树。检查决策树查看器中的 TM_Decision_Tree 模型会看出,在预测自行车购买行为时,年龄是最重要的因素。有趣的是,按年龄对客户进行分组之后,每个年龄节点的决策树的下一个分支都有所不同。通过浏览“决策树”选项卡,我们可以得出如下结论:没有汽车或者有一辆汽车、年龄在 34 到 40 的购买者购买自行车的可能性非常大,居住在太平洋地区、没有汽车或者有一辆汽车的更年轻的单身客户购买汽车的可能性也非常大。在“决策树”选项卡中浏览模型1. 在“数据挖掘设计器”中,选择“挖掘模型查看器”选项卡。默认情况下,设计器将打开添加到结构中的第一个模型(在本例中为 TM_Decision_Tree)。2. 使用放大镜按钮调整树的显示大小。默认情况下,Microsoft 树查看器仅显示树的前三个级别。如果树级别不到三个,则查看器仅显示现有级别。可以使用“显示级别”滑块或“默认扩展”列表查看更多级别。3. 将“显示级别”滑到第四条。4. 将“背景”值更改为 1。通过更改“背景”设置,可以迅速查看每个节点中 Bike Buyer 的目标值为 1 的事例的数量。请注意,在这种特定的情况下,每个事例均表示一个客户。值 1 指示该客户之前购买了自行车;值 0 指示该客户尚未购买自行车。节点的底纹颜色越深,节点中具有目标值的事例所占的百分比越大。5. 将光标放在标记为“全部”的节点上。将出现显示以下信息的工具提示: 事例总数 非自行车购买者事例的数量 自行车购买者事例的数量 缺少 Bike Buyer 值的事例的数量或者,将光标放在树中的任何节点上,查看从上级节点到达该节点所需的条件。还可以在“挖掘图例”中查看同样的信息。6. 单击“Age =38 且 45”的节点。直方图将显示为一个穿过该节点的窄水平条,并表示此年龄范围中以前买过自行车的客户(粉色)和没有买过自行车的客户(蓝色)的分布情况。查看器显示:没有汽车或者有一辆汽车、年龄在 34 到 40 的客户有可能购买自行车。再进一步考察发现,实际年龄在 38 到 40 的客户购买自行车的可能性会增加。由于您在创建结构和模型时启用了钻取,因此,可以从模型事例和挖掘结构中检索详细的信息,其中包括挖掘模型中所不包含的列(例如,emailAddress 和 FirstName)。钻取到事例数据1. 右键单击某个节点,然后依次选择“钻取”和“仅限模型列”。每个定型事例的详细信息将以电子表格方式显示。这些详细信息来自您在生成挖掘结构时选作事例表的 vTargetMail 视图。2. 右键单击某个节点,然后依次选择“钻取”和“模型和结构列”。将显示同一个电子表格,并在末尾处附加结构列。“依赖关系网络”选项卡“依赖关系网络”选项卡显示决定挖掘模型预测能力的各个属性之间的关系。依赖关系网络查看器进一步证实了我们的发现:年龄和地区是预测自行车购买行为的重要因素。在“依赖关系网络”选项卡中浏览模型1. 单击 Bike Buyer 节点以确定它的依赖关系。依赖关系网络的中间节点 (Bike Buyer) 表示挖掘模型中的可预测属性。粉色阴影指示所有属性都会对自行车购买行为产生影响。2. 调整“所有链接”滑块可确定影响最大的属性。向下滑动滑块时,将只保留对 Bike Buyer 列影响最大的属性。通过调整滑块,可以发现年龄和地区是预测个人自行车购买行为的最主要因素。浏览聚类分析模型Microsoft 聚类分析算法将事例分组为包含类似特征的分类。在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。Microsoft 分类查看器提供了以下选项卡,用于浏览聚类分析挖掘模型:l 分类关系图l 分类剖面图l 分类特征l 分类对比“分类关系图”选项卡 “分类关系图”选项卡显示挖掘模型中的所有分类。分类之间的线条表示“接近程度”,其明暗度取决于分类之间的相似程度。每个分类的实际颜色表示分类中变量和状态的出现频率。在“分类关系图”选项卡中浏览模型1. 使用“挖掘模型查看器”选项卡顶部的“挖掘模型”列表,可切换到 TM_Clustering 模型。2. 在“查看器”列表中,选择“Microsoft 分类查看器”。3. 在“明暗度变量”框中,选择 Bike Buyer。默认变量是 Population(全部),但可将其更改为模型中的任意属性,以发现其包含的成员具有所需属性的分类。4. 在“状态”框中选择 1,可以浏览那些购买自行车的事例。“密度”图例描述了在“明暗度变量”和“状态”中选定的属性状态对的密度。在此示例中,明暗度最深的分类就是自行车购买者百分比最高的分类。5. 将鼠标悬停在明暗度最深的分类上。工具提示将显示具有 Bike Buyer = 1 属性的事例所占的百分比。6. 选择密度最高的分类,右键单击该分类,然后选择“重命名分类”并键入 BikeBuyersHigh 以用作日后标识。单击“确定”。7. 查找明暗度最浅(也就是密度最低)的分类。右键单击该分类,然后选择“重命名分类”并键入 BikeBuyersLow。单击“确定”。8. 单击 BikeBuyersHigh 分类,并将其拖到窗格的适当区域,以便清楚地查看它与其他分类的连接。选择某个分类时,将此分类连接到其他分类的线条将突出显示,以便您方便地查看此分类的所有关系。如果该分类处于未选定状态,则可以通过线条的暗度来确定关系图中所有分类之间关系的紧密程度。如果明暗度较浅或无明暗度,则表示分类的相似程度较低。9. 使用网络左侧的滑块,可筛选掉强度较低的链接,找出关系最接近的分类。Adventure Works Cycles 市场部可能希望将相似的分类组合在一起,以便确定提供目标邮件的最佳方法。“分类剖面图”选项卡 “分类剖面图”选项卡提供 TM_Clustering 模型的总体视图。“分类剖面图”选项卡对于模型中的每个分类都包含一列。第一列列出至少与一个分类关联的属性。查看器的其余部分包含每个分类的某个属性的状态分布。离散变量的分布以彩色条显示,最大条数在“直方图条”列表中显示。连续属性以菱形图显示,表示每个分类中的平均偏差和标准偏差。在“分类剖面图”选项卡中浏览模型1. 将“直方图”条数设置为 5。在我们的模型中,任意一个变量的最大状态数均为 5。2. 如果“挖掘图例”妨碍了“属性配置文件”的显示,请移开图例。3. 选择 BikeBuyersHigh 列,并将其拖到 Population 列的右侧。4. 选择 BikeBuyersLow 列,并将其拖到 BikeBuyersHigh 列的右侧。5. 单击 BikeBuyersHigh 列。“变量”列按照其对该分类的重要性来进行排序。滚动浏览该列,查看 Bike Buyer High 分类的特征。例如,他们上下班路程较短的可能性较大。6. 双击 BikeBuyersHigh 列中的 Age 单元格。“挖掘图例”显示更详细的视图,您可以看到这些客户的年龄范围,也可以看到他们的平均年龄。7. 右键单击 BikeBuyersLow 列并选择“隐藏列”。 “分类特征”选项卡 使用“分类特征”选项卡,您可以更加详细地检查组成分类的特征。您可以一次浏览一个分类,而不是比较所有分类的特征(就像在“分类剖面图”选项卡中那样)。例如,如果从“分类”列表中选择 BikeBuyersHigh,则可以看到此分类中的客户的特征。尽管显示方式与分类剖面图查看器不同,但查找结果却是相同的。注意 除非设置了 holdoutseed 的初始值,否则在您每次处理模型时,结果都会有所不同。有关详细信息,请参阅 HoldoutSeed 元素。“分类对比”选项卡 使用“分类对比”选项卡,可以浏览区分分类的特征。当您从“分类 1”和“分类 2”列表中各选择一个分类后,查看器会计算这两个分类之间的区别,并显示各分类最独特的属性的列表。在“分类对比”选项卡中浏览模型1. 在“分类 1”框中,选择 BikeBuyersHigh。2. 在“分类 2”框中,选择 BikeBuyersLow。3. 单击“变量”按字母顺序排序。BikeBuyersLow 和 BikeBuyersHigh 分类中的客户之间的其他一些显著差异包括年龄、汽车拥有情况、子女数量和所在地区。浏览 Naive Bayes 模型Microsoft Naive Bayes 算法提供了多种方法,用于显示自行车的购买和输入属性之间的交互。Microsoft Naive Bayes 查看器提供了以下选项卡,以便在浏览 Naive Bayes 挖掘模型时使用。依赖关系网络、 属性配置文件、属性特征、属性对比以下各部分说明如何浏览其他挖掘模型。 浏览决策树模型 浏览聚类分析模型依赖关系网络 “依赖关系网络”选项卡的工作方式与 Microsoft 树查看器的“依赖关系网络”选项卡的工作方式相同。查看器中的每个节点代表一个属性,而节点之间的线条代表关系。在查看器中,您可以查看影响可预测属性 Bike Buyer 的状态的所有属性。在“依赖关系网络”选项卡中浏览模型1. 使用“挖掘模型查看器”选项卡顶部的“挖掘模型”列表切换到 TM_NaiveBayes 模型。2. 使用“查看器”列表切换到“Microsoft Naive Bayes 查看器”。3. 单击 Bike Buyer 节点以确定它的依赖关系。粉色阴影指示所有属性都会对自行车购买行为产生影响。4. 调整滑块可标识影响最大的属性。向下滑动滑块时,将只保留对 Bike Buyer 列影响最大的属性。通过调整滑块,可以发现影响最大的几个属性为:拥有汽车的数量、通勤距离以及子女总数。 属性配置文件 “属性配置文件”选项卡说明输入属性的不同状态如何影响可预测属性的结果。在“属性配置文件”选项卡中浏览模型1. 在“可预测”框中,确认已选中 Bike Buyer。2. 如果“挖掘图例”妨碍“属性配置文件”的显示,请将它移开。3. 在“直方图”条框中,选择 5。在我们的模型中,任意一个变量的最大状态数均为 5。系统会列出影响该可预测属性的状态的属性以及输入属性的每个状态的值及其在该可预测属性的每个状态中的分布。4. 在“属性”列中,查找 Number Cars Owned。请注意,自行车购买者(标为 1 的列)与非自行车购买者(标为 0 的列)的直方图的差异。如果一个人拥有的汽车数量为 0 或 1,则此人很有可能会购买自行车。5. 双击自行车购买者(标为 1 的列)列中的 Number Cars Owned 单元格。“挖掘图例”将显示一个更为详细的视图。 属性特征 使用“属性特征”选项卡,可以选择属性和值,以查看所选值事例中出现其他属性值的频率。在“属性特征”选项卡中浏览模型1. 在“属性”列表中,确认已选中 Bike Buyer。2. 将“值”设置为 1。在查看器中,您将看到,家中无子女、通勤距离较近和居住在北美洲地区的客户更有可能购买自行车。属性对比 使用“属性对比”选项卡,可以调查自行车购买的两个离散值与其他属性值之间的关系。由于 TM_NaiveBayes 模型只有 1 和 0 两个状态,因此您无需对查看器进行任何更改。在查看器中,您会看到,没有汽车的人一般会购买自行车,而有两辆汽车的人一般不会购买自行车。第 5 课:测试模型现在您已使用目标邮件方案定型集处理了模型,您还将针对测试集来测试模型。由于测试集内的数据已经包含了自行车购买的已知值,因此可以方便地确定模型的预测是否准确。Adventure Works Cycles 市场部将使用性能最佳的模型来确定目标邮件活动的客户。在本课中,您将首先通过对测试集进行预测来测试模型。接下来,您将针对筛选的数据子集来测试模型。Analysis Services 提供多种确定挖掘模型准确性的方法。在本课中,我们将了解一下“提升图”。验证是数据挖掘过程中的重要步骤。在将挖掘模型部署到生产环境之前,了解目标邮件挖掘模型针对实际数据的性能很重要。本课程包含以下任务:测试提升图的准确性、测试筛选后的模型测试提升图的准确性在数据挖掘设计器的“挖掘准确性图表”选项卡上,可以计算每个模型的预测准确性,还可以将每个模型的结果直接与其他模型的结果进行比较。这种比较方法称为“提升图”。通常,用提升图或分类准确性对挖掘模型的预测准确性进行度量。在本教程中,我们将只使用提升图。在本主题中,您将完成下列任务: 选择输入数据 选择模型、可预测列和值选择输入数据 测试挖掘模型准确性的第一步是选择将用于测试的数据源。您将根据测试数据测试模型的准确性,然后将它们与外部数据一起使用。选择数据集1. 切换到 Business Intelligence Development Studio 中的数据挖掘设计器的“挖掘准确性图表”选项卡,并选择“输入选择”选项卡。2. 在“选择要用于准确性图表的数据集”组框中,选择“使用挖掘结构测试事例”,以便使用您在创建挖掘结构时保留的测试数据来测试模型。选择模型、可预测列和值 下一步是选择要包含在提升图中的模型、用于比较模型的可预测列以及要预测的值。注意 “可预测列名称”列表中的挖掘模型列限制为用法类型设置为 Predict 或 Predict Only 而且内容类型为 Discrete 或 Discretized 的列。显示模型的提升1. 在数据挖掘设计器的“输入选择”选项卡上,在“选择要在提升图中显示的可预测的挖掘模型列”下选中“同步预测列和值”复选框。2. 在“可预测列名称”列中,确认为每个模型都选择了 Bike Buyer。3. 在“显示”列中,选择每个模型。默认情况下,系统会选中挖掘结构中的所有模型。可以决定不包含某一模型,但对于本教程,请选中所有模型。4. 在“预测值”列中,选择 1。对于具有相同可预测列的每个模型,将自动填充相同的值。5. 选择“提升图”选项卡以显示提升图。当您单击该选项卡时,便会对服务器和数据库的挖掘结构和输入表或测试数据运行预测查询。结果将绘制在图上。输入“预测值”时,提示图会绘制随机推测模型和理想模型。您创建的挖掘模型将处于这两种极限情况之间,即介于随机推测模型和精确无误的预测模型之间。与随机推测相比,任何提高均被视为“提升”。6. 使用图例可以查找表示理想模型和随机推测模型的彩色线。您将注意到 TM_Decision_Tree 模型提供最大的提升,其表现优于聚类分析模型和 Naive Bayes 模型。测试筛选后的模型由于已经确定 TM_Decision_Tree 模型是最准确的,您应该在 Adventure Works Cycles 目标邮递活动的上下文中对该模型进行评估。Adventure Works Cycles 市场部希望了解男式自行车购买者和女式自行车购买者的特征是否存在差异。这些信息将帮助他们决定使用哪些杂志进行广告宣传,以及在邮件中推广哪些产品。在本课程中,您将创建一个按性别筛选的模型。随后,您即可以方便地创建该模型的副本,而且只需更改筛选条件即可基于不同的性别生成新模型。使用筛选器 通过筛选,您可以轻松地创建基于数据子集生成的模型。筛选器只应用于该模型,而且不会更改基础数据源。事例表的筛选器 首先,您将复制 TM_Decision_Tree 模型。复制决策树模型1. 在 Business Intelligence Development Studio 中,在解决方案资源管理器中选择 ASDataMining2008。2. 单击“挖掘模型”选项卡。3. 右键单击 TM_Decision_Tree 模型,然后选择“新建挖掘模型”。4. 在“模型名称”字段中,键入 TM_Decision_Tree_Male。5. 单击“确定”。然后为模型创建一个筛选器,用于根据客户的性别选择客户。创建挖掘模型的事例筛选器1. 右键单击 TM_Decision_Tree_Male 挖掘模型以打开快捷菜单。- 或 -选择该模型。在“挖掘模型”菜单上,选择“设置模型筛选器”。2. 在“模型筛选器”对话框的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司多人合伙协议书范本
- 催款居间服务协议书范本
- 分包方物业服务合同范本
- 难点解析-京改版数学9年级上册期末测试卷【完整版】附答案详解
- 期货从业资格之《期货法律法规》考前冲刺测试卷讲解带答案详解(培优b卷)
- 期货从业资格之期货投资分析题库练习备考题及答案详解【新】
- 难点详解人教版7年级数学上册期末试题含完整答案详解【有一套】
- 期货从业资格之《期货法律法规》考试彩蛋押题及答案详解(基础+提升)
- 期货从业资格之期货投资分析模拟题库讲解有答案详解
- 兰州资源环境职业技术大学病理与病理生理期末考试历年机考真题集含答案详解【巩固】
- GB/T 45997-2025科技成果五元价值评估指南
- 理论中心组学习教育交流发言(五个进一步到位)
- 小学食堂供餐管理方案(3篇)
- 企业产学研用管理办法
- 2025年版义务教育体育与健康课程标准题库及答案(教师培训考试专用七套)
- 2025广东省中考数学试卷
- 工程事业部运营管理办法
- 2025汽车智能驾驶技术及产业发展白皮书
- 苯职业病防护课件
- 2025年铸牢中华民族共同体意识基本知识测试题及答案
- 2025年湖北省中考道德与法治真题(解析版)
评论
0/150
提交评论