数据挖据模型-算法分析第二课.docx_第1页
数据挖据模型-算法分析第二课.docx_第2页
数据挖据模型-算法分析第二课.docx_第3页
数据挖据模型-算法分析第二课.docx_第4页
数据挖据模型-算法分析第二课.docx_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖据模型-算法分析第二课第 2 课:生成目标邮件方案Adventure Works 的市场部希望通过向特定客户发送邮件的方式来提高销售量。公司希望通过调查已知客户的特性来找到可应用于潜在客户的模式。公司希望使用已发现的模式来预测哪些潜在客户最有可能购买自己的产品。此外,市场部还希望在公司数据库的现有客户当中发现所有逻辑分组,例如具有相似的人数统计标准和购买模式的客户。公司的数据库 Adventure Works DW 包含一个现有客户列表和一个潜在的新客户列表。在本课程中,您将创建一个目标邮件方案。完成本课程中的任务之后,您便会具有: 一组挖掘模型,这些模型能够提供潜在客户列表中最有可能购买产品的客户的建议。 当前客户的聚类分析。若要完成本课程中的任务,您需要使用 Microsoft Naive Bayes 算法、Microsoft 决策树算法和 Microsoft 聚类分析算法(Analysis Services 数据挖掘)。本课程包含以下主题: 创建目标邮件挖掘模型结构(数据挖掘教程) 创建目标邮件方案的第一步是使用 Business Intelligence Development Studio 中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。在本教程中,您将创建数个基于这种初始挖掘结构的模型。第一个模型将在您完成该向导时与结构一起创建,且基于 Microsoft 决策树算法。有关详细信息,请参阅: 数据挖掘向导(Analysis Services - 数据挖掘), 数据挖掘设计器, Microsoft 决策树算法创建用于目标邮件方案的挖掘结构1. 在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。2. 在“欢迎使用数据挖掘向导”页上,单击“下一步”。3. 在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。4. 在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策树”。注意:如果收到警告,告知无法找到数据挖掘算法,则项目属性可能配置不正确。当项目尝试从 Analysis Services 服务器检索数据挖掘算法列表,但却无法找到服务器时,就会出现此警告。默认情况下,BI Development Studio 会将本地主机用作服务器。如果要使用其他实例或命名实例,则必须更改项目属性。 5. 单击“下一步”。6. 在“选择数据源视图”页上,请注意已默认选中 Adventure Works DW。在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。7. 单击“下一步”。8. 在“指定表类型”页上,选中 vTargetMail 表旁边“事例”列中的复选框,再单击“下一步”。9. 在“指定定型数据”页上,确保已选中 CustomerKey 列旁边 Key 列中的复选框。如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。10. 选中 BikeBuyer 列旁边的“输入”和“可预测”。11. 单击“建议”打开“提供相关列建议”对话框。只要选中至少一个可预测属性,即可启用“建议”按钮。“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。值大于 0.05 的列将被自动选中,以包括在模型中。12. 阅读建议,然后单击“取消”忽略建议并保留向导设置的原始值。注意:如果单击“确定”,将使用所有列出的建议,并将选定的列标记为向导中的输入列。如果仅同意其中的某些建议,则必须手动更改值。 13. 选中以下各列旁边的“输入”复选框: Age CommuteDistance EnglishEducation EnglishOccupation FirstName Gender GeographyKey HouseOwnerFlag LastName MaritalStatus NumberCarsOwned NumberChildrenAtHome Region TotalChildren YearlyIncome 14. 单击“下一步”。15. 在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并确定数值列是否包含连续或离散值的算法。例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如 1 = $25,000;2 = 从 $25,000 到 $50,000)。16. 单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey 应作为文本处理,因为对此标识符进行数学运算是不对的。列 内容类型 数据类型 Age Continuous Long BikeBuyer Discrete Long CommuteDistance Discrete Text CustomerKey Key Long EnglishEducation Discrete Text EnglishOccupation Discrete Text FirstName Discrete Text Gender Discrete Text GeographyKey Discrete Text HouseOwnerFlag Discrete Text LastName Discrete Text MaritalStatus Discrete Text NumberCarsOwned Discrete Long NumberChildrenAtHome Discrete Long Region Discrete Text TotalChildren Discrete Long YearlyIncome Continuous Double 17. 单击“下一步”。18. 在“将数据拆分为定型集和测试集”页上,对于“测试数据百分比”,请保留默认值 30。19. 对于“测试数据集中的最大事例数”,请键入 1000。单击“下一步”。20. 在“完成向导”页上的“挖掘结构名称”中,键入 Targeted Mailing。21. 在“挖掘模型名称”中,键入 TM_Decision_Tree。22. 选中“允许钻取”复选框。23. 单击“完成”。 修改目标邮件模型(数据挖掘教程) 您在上一任务中创建的初始挖掘结构包含一个基于 Microsoft 决策树算法的单一挖掘模型。在本任务中,将使用数据挖掘设计器的“挖掘模型”选项卡定义两个附加模型。您将使用 Naive Bayes 算法和聚类分析算法来创建模型。有关详细信息,请参阅: 数据挖掘设计器, 在数据挖掘设计器中管理挖掘模型, Microsoft 聚类分析算法(Analysis Services 数据挖掘), Microsoft Naive Bayes 算法创建 Microsoft 聚类分析模型创建聚类分析挖掘模型1. 切换到 Business Intelligence Development Studio 中数据挖掘设计器的“挖掘模型”选项卡。请注意,设计器显示两列,一列是挖掘结构,另一列是在本课程的上一任务中创建的初始挖掘模型。2. 右键单击“结构”列,选择“新建挖掘模型”。此时,系统将打开“新建挖掘模型”对话框。3. 在“模型名称”中,键入 TM_Clustering。4. 在“算法名称”中,选择“Microsoft 聚类分析”。5. 单击“确定”。 新模型将显示在数据挖掘设计器的“挖掘模型”选项卡中。使用 Microsoft 聚类分析算法生成的模型可对连续属性和离散属性进行分类和预测。虽然您可以修改新模型的列用法和属性,但在本教程中不需要对 TM_Clustering 模型进行任何更改。创建 Microsoft Naive Bayes 模型创建 Naive Bayes 模型1. 在数据挖掘设计器的“挖掘模型”选项卡中,右键单击“结构”列,并选择“新建挖掘模型”。此时,系统将打开“新建挖掘模型”对话框。2. 在“模型名称”中,键入 TM_NaiveBayes。3. 在“算法名称”中,选择 Microsoft Naive Bayes。单击“确定”。此时将显示一条消息,说明 Microsoft Naive Bayes 算法不支持 Age、Geography Key 和 Yearly Income 列,这些都是连续列。若要在 Naive Bayes 模型中使用这些列,必须对其进行离散化。在本教程中,将忽略这些列。4. 单击“是”,以确认此消息并继续下面的操作。此时在“挖掘模型”选项卡中将显示新模型。虽然您可以在此选项卡中修改所有模型的列用法和属性,但在本教程中不需要对 TM_NaiveBayes 模型进行任何更改。处理挖掘模型现在,挖掘模型的结构和参数都已完成设置,可以部署并处理模型了。有关详细信息,请参阅: 处理数据挖掘对象 部署项目并处理挖掘模型1. 在“调试”菜单上选择“启动调试”。也可按 F5 启动调试。Analysis Services 数据库将部署到服务器上,而挖掘模型也将得到处理。如果数据库已经部署到服务器上,则可以使用下列步骤仅处理挖掘模型。在项目已部署完成时处理挖掘模型1. 在 BI Development Studio 的“挖掘模型”菜单上,单击“处理挖掘结构和所有模型”。“处理挖掘结构 - ”对话框打开。2. 单击“运行”。此时,系统将打开“处理进度”对话框,以显示有关模型处理的信息。模型处理可能需要一些时间,具体取决于您的计算机。3. 处理完毕后,在“处理进度”和“处理挖掘结构 - ”对话框中单击“关闭”。 浏览目标邮件模型(数据挖掘教程) 处理了项目中的模型后,可使用数据挖掘设计器中的“挖掘模型查看器”选项卡查看这些模型。可使用该选项卡顶部的“挖掘模型”列表检查挖掘结构中的各个模型。下列各部分说明了在查看器中浏览挖掘模型的方式。 Microsoft 决策树模型 Microsoft 聚类分析模型 Microsoft Naive Bayes 模型 Microsoft 一般内容树查看器 Microsoft 决策树模型当您为 Adventure Works DM 教程项目切换到“挖掘模型查看器”选项卡时,默认情况下,该设计器将打开已添加到结构中的第一个模型。可以通过从“挖掘模型”列表中选择模型名称来查看不同的模型。用于在 Analysis Services 中生成模型的每种算法将返回不同类型的结果。因此,Analysis Services 为每个算法提供了单独的查看器。Analysis Services 还提供了一个适用于所有模型类型的一般查看器。当您从列表中选择某个挖掘模型时,系统会使用该模型的相应查看器,在“挖掘模型查看器”选项卡上显示该模型。在本例中,对于决策树模型,使用的是 Microsoft 树查看器。此查看器包含两个选项卡,即“决策树”和“依赖关系网络”。决策树在“决策树”选项卡上,可以检查构成挖掘模型的所有树模型。由于本教程项目中的目标邮件模型仅包含单个可预测属性 (Bike Buyer),所以只需查看一个树。如果存在更多树,则可以使用“树”框来选择其他树。默认情况下,Microsoft 树查看器仅显示树的前三个级别。如果树级别不到三个,则查看器仅显示现有级别。可以使用“显示级别”滑块或“默认扩展”列表查看更多级别。有关如何配置查看器的详细信息,请参阅使用 Microsoft 树查看器查看挖掘模型。修改树1. 将“显示级别”滑块滑动到 5。2. 将“背景”列表更改为 1。通过更改“背景”设置,可以迅速查看每个节点中 Bike Buyer 值为 1 的事例的数量。请注意,在这种特定的情况下,每个事例均表示一个客户。值 1 指示该客户之前购买了自行车;值 0 指示该客户尚未购买自行车。节点的底纹颜色越深,表示节点中具有目标值的事例越多。决策树中的每个节点可显示下列信息: 要从某节点的前一个节点访问该节点所需的条件。可以在“挖掘图例”中查看完整节点路径,也可以将光标停留在节点上以显示 InfoTip。 按畅销程度说明可预测列的状态分布的直方图。可以使用“直方图”控件控制直方图中显示的状态数。 事例集中度,前提是已在“背景”控件中指定了可预测属性的状态。通过右键单击节点,再选择“钻取”,可查看每个节点支持的定型事例。依赖关系网络“依赖关系网络”选项卡可以显示决定挖掘模型预测能力的各个属性之间的关系。依赖关系网络的中间节点 (Bike Buyer) 表示挖掘模型中的可预测属性。周围的每个节点各表示一个会影响可预测属性的结果的属性。可使用该选项卡左侧的滑块控制显示的链接的强度。向下移动滑块时,仅显示最强链接。单击网络中的单个节点,然后参考选项卡底部的颜色图例,可查看所选节点预测哪些节点,它本身又是由哪些节点预测的。Microsoft 聚类分析模型使用“挖掘模型查看器”选项卡顶部的“挖掘模型”列表,可切换到 TM_Clustering 模型。该模型的查看器(Microsoft 分类查看器)包含四个选项卡:“分类关系图”、“分类剖面图”、“分类特征”和“分类对比”。默认情况下,查看器初次打开时将显示“分类关系图”选项卡。有关如何配置 Microsoft 分类查看器的详细信息,请参阅使用 Microsoft 分类查看器查看挖掘模型。分类关系图使用“分类关系图”选项卡,可以浏览算法发现的分类之间的关系。分类之间的线条表示“接近程度”,其明暗度取决于分类之间的相似程度。每个分类的实际颜色表示分类中变量和状态的出现频率。可以在节点顶部的“明暗度变量”和“状态”框中选择变量和状态。默认变量是 Population,不过可将其更改为模型中的任何属性,以发现包含所需属性的成员的分类。通过使用网络左侧的滑块,可筛选掉强度较低的链接,找出具有最接近关系的分类。例如,将“明暗度变量”设置为 Bike Buyer,将“状态”设置为 1。颜色最深的分类就是包含的自行车购买者的密度最大的分类。如果您将鼠标停在该分类上,则可以看到具有 Bike Buyer = 1 属性的事例所占的百分比。选择具有最高百分比的分类,右键单击该分类并将其重命名为 Bike Buyers High 以供日后标识。随后可以查找具有最浅阴影(和最低百分比)的分类,右键单击该分类,然后将其命名为 Bike Buyers Low。选择某个分类时,将此分类连接到其他分类的线条将突出显示,以便于您查看此分类的所有关系。如果该分类处于未选定状态,则可以通过线条的暗度来确定关系图中所有分类之间关系的紧密程度。浅灰色线条指示关系较弱,深灰色线条指示关系较强。分类剖面图“分类剖面图”选项卡提供 TM_Clustering 模型的总体视图。“分类剖面图”选项卡对于模型中的每个分类都包含一列。第一列列出至少与一个分类关联的属性。查看器的其余部分包含每个分类的某个属性的状态分布。离散变量的分布以彩色条显示,最大条数在“直方图条”列表中显示。连续属性以菱形图显示,表示每个分类中的平均偏差和标准偏差。分类特征使用“分类特征”选项卡,您可以更加详细地检查组成分类的特征。例如,如果您在本教程中使用“分类”列表显示 Bike Buyers High,则您可以看到此分类中客户的特征:他们通常过去已购买过自行车,上下班路程很短或者没有汽车。注意:如果您根据用作初始种子值的数据生成模型,则分类输出可能会发生变化。因此,每次生成模型时,您可能会发现结果会稍有不同。 分类对比使用“分类对比”选项卡,可以浏览区分分类的特征。当您从“分类 1”和“分类 2”列表中各选择一个分类后,查看器会计算这两个分类之间的区别,并显示各分类最独特的属性的列表。例如,对 TM_Clustering 模型中的 Bike Buyers High 和 Bike Buyers Low 进行比较。Bike Buyers High 包含的自行车购买者的密度最高,Bike Buyers Low 包含的自行车购买者的密度最低。Bike Buyers Low 和 Bike Buyers High 分类中的客户间的差异包括汽车拥有情况和上下班路程。Microsoft Naive Bayes 模型使用“挖掘模型查看器”选项卡顶部的“挖掘模型”列表,可切换到 TM_NaiveBayes 模型。该模型的查看器(Microsoft Naive Bayes 查看器)包含四个选项卡:“依赖关系网络”、“属性配置文件”、“属性特征”和“属性对比”。有关如何使用 Microsoft Naive Bayes 查看器的详细信息,请参阅使用 Microsoft Naive Bayes 查看器查看挖掘模型。依赖关系网络“依赖关系网络”选项卡的工作方式与 Microsoft 树查看器的“依赖关系网络”选项卡的工作方式相同。查看器中的每个节点代表一个属性,而节点之间的线条代表关系。在查看器中,您可以查看影响可预测属性 (Bike Buyer) 的状态的所有属性。向下滑动滑块时,将只显示对 Bike Buyer 列影响最大的属性。通过调整滑块,可以发现拥有的汽车数是决定某个人是否购买自行车的最主要因素。属性配置文件“属性配置文件”选项卡说明输入参数的不同状态对可预测属性结果的影响。在“可预测”框中,确保已选中 Bike Buyer。系统在列出影响该可预测属性状态的属性的同时,还列出每个输入属性状态的值及其在可预测属性的每个状态中的分布。属性特征使用“属性特征”选项卡,可以选择属性和值,以确定所选值事例中出现其他属性值的频率。在“属性”列表中,确保已选中 Bike Buyer,并在“值”列表中选择 1。在查看器中,您将看到,购买自行车的大都是通勤距离在零到一英里之间的人以及居住在北美地区的人。属性对比使用“属性对比”选项卡,可以查看所选可预测属性的两个离散值与其他属性值之间的关系。由于 TM_NaiveBayes 仅有 1 和 0 两个状态,所以您无需更改查看器。在查看器中,您会看到,没有汽车的人一般会购买自行车,而有两辆汽车的人一般不会购买自行车。一般内容树查看器此查看器可用于所有模型,无论算法和模型类型为何均为如此。“一般内容树查看器”可以从“查看器”下拉列表中找到。内容树是挖掘模型的表示形式,由一系列节点组成,其中每个节点都表示与数据的某一子集相关的已发现的知识。节点可以包含一种模式、一组规则、一个群集或共享某些特性的日期范围的定义。根据算法和可预测属性的类型的不同,节点的具体内容也会不同,但内容的通用表示形式是相同的。您可以展开每个节点以查看详细信息的递增级别,并可以将任何节点的内容复制到剪贴板。有关详细信息,请参阅使用 Microsoft 一般内容树查看器查看模型详细信息。 测试挖掘模型的准确性(数据挖掘教程) 当您针对目标邮件方案生成、处理并仔细检查挖掘模型之后,便可以对这些模型进行测试,以确定它们执行预测的性能以及其中哪个模型的性能更好。在数据挖掘设计器的“挖掘准确性图表”选项卡上,您可以计算每个模型的预测精度,还可以将每个模型的结果直接与其他模型的结果进行比较。这种比较方法称为“提升图”。“挖掘准确性图表”选项卡将预测与已知的结果进行比较。然后将比较的结果进行排序并绘制成图。同时还将在该图上绘制一个“理想模型”,即始终都能准确预测结果的理论模型。可以将实际模型的结果与理想模型的结果进行比较,以查看这些模型的预测准确性。有关提升图工作原理的详细信息,请参阅提升图(Analysis Services - 数据挖掘)。提升图可以区分同一结构中几乎相同的两个模型,从而帮助您确定哪个模型能够提供最佳的预测,因此提升图非常重要。您还可以使用提升图来确定在特定情况哪类算法可执行最佳预测。有关如何使用“挖掘准确性图表”选项卡的详细信息,请参阅验证数据挖掘模型(Analysis Services 数据挖掘)。在本主题中,您将完成下列任务: 选择输入数据 映射输入列 筛选输入行 选择模型、可预测列和值 查看提升图 选择输入数据测试挖掘模型准确性的第一步是选择将用于测试的数据源。如果选择选项“使用挖掘结构测试事例”,则可以使用创建挖掘结构时保留的测试数据测试模型。此选项很好用,在测试若干关联的模型并需要对所有模型使用同一测试集时尤其如此。如果选择选项“使用挖掘模型测试事例”,则可以对在生成挖掘模型中使用的事例的子集上的模型进行测试。可以通过创建应用于定型和测试模型的筛选器来定义此子集。筛选器将和挖掘模型一起保存。如果选择选项“指定其他数据集”,则可以将外部数据源用作测试数据源。然后选择数据源视图,将外部数据中的列映射到挖掘模型中的列(如下面一节中所述),然后还可以对传入数据定义筛选器。注意:如果创建模型时未保留测试数据集,但仍需要为测试使用原始结构数据,则可以选择选项“指定其他数据集”,然后选择用于创建该结构的数据源视图。此解决方法还可以对数据集应用筛选器以仅测试某些事例。 映射输入列如果使用外部数据测试挖掘模型,则必须确保挖掘结构中的列与输入数据中的列匹配。为此,可以使用“指定列映射”对话框。如果直接映射列名,则数据挖掘设计器将自动创建关系。若要删除两列之间的映射,请选择将“挖掘结构”表中的列链接到“选择输入表”表中的列的行,再按 Delete 键。还可以通过单击“选择输入表”中的列并将其拖到“挖掘结构”中相应的列来手动创建映射。将输入列映射到挖掘结构1. 在数据挖掘设计器中的“挖掘准确性图表”选项卡的“输入选择”选项卡中,选择选项“指定其他数据集”。2. 单击“指定其他数据集”选项右侧的 () 按钮。此时将打开“指定列映射”对话框。如果您要测试的结构未显示在“挖掘结构”窗格中,请单击“选择结构”并选择目标邮件。3. 在“选择输入表”框中,单击“选择事例表”。系统将打开“选择表”对话框。在此对话框中选择包含表或需要使用的表的数据源视图,然后选择该表。用于确定模型准确性的数据必须包含可以映射到可预测列的列。为了实现本教程的教学目标,您需要对用于处理模型的输入列使用相同的数据并对数据应用筛选器。但是,理想情况下,您将使用用于处理该模型的数据中保留的测试数据集。在“选择输入选择”选项卡上选择选项“使用挖掘结构测试事例”,将选择该数据作为输入。4. 在“数据源”列表中,确保已选中 Adventure Works DW。5. 在“表/视图名称”列表中,选择 vTargetMail,再单击“确定”。挖掘结构中的列会自动映射到输入表中具有相同名称的列。筛选输入行如果选择“指定其他数据集”选项,则可以通过使用显示事例表列和嵌套表列的一组对话框生成筛选条件。可以从运算符、类型值的列表中进行选择,并连接条件与逻辑运算符,以创建限制测试所用事例的复杂条件。对测试数据应用筛选器1. 在数据挖掘设计器中的“挖掘准确性图表”选项卡的“输入选择”选项卡上,单击“打开筛选器编辑器”。2. 此时将打开“vTargetMail 数据集筛选器”对话框。在此网格内,输入转换为将应用于源表的 WHERE 子句的条件,以限制用于测试的事例。3. 在“挖掘结构列”下,单击网格内顶部的行。选择 vTargetMail。4. 单击“值”单元。此时将打开“筛选器”对话框,该对话框可帮助您对 vTargetMail 表设置条件。5. 在第一行中,单击“挖掘结构列”下的网格,然后从列的列表中选择 Age。6. 单击 Age 旁边的“运算符”框,并选择 (大于)运算符。7. 在同一行单击“值”框,并键入 20。8. 单击“表达式”窗格以刷新该表达式,并验证它是否正确。单击“确定”。9. 再次单击“确定”,关闭“筛选数据集”对话框。“输入选择”选项卡中的“筛选表达式”窗格会显示刚才创建的筛选表达式 vTargetMail: (Age 20)。当制作提升图时,模型将仅使用其年龄大于 20 的客户进行测试。在本教程中筛选器应用于外部测试数据。但是,如果需要基于多个标准反复测试相同的基本模型(如年龄范围),则比较简单的做法是创建模型的多个副本并对每个副本应用不同的模型筛选器。如果创建挖掘结构时保留了测试集,但是还希望使用模型筛选器,请选择选项“使用挖掘模型测试事例”。模型筛选器将自动应用到测试数据。有关筛选器如何用于定型和测试挖掘模型的详细信息,请参阅为挖掘模型创建筛选器(Analysis Services 数据挖掘)。选择模型、可预测列和值下一任务是选择需要包含在提升图中的模型以及选择用于比较模型的可预测列,还可以选择要预测的值。默认情况下,系统会选中挖掘结构中的所有模型。可以决定不包含某一模型,但对于本教程,请选中所有模型。可以创建两种类型的准确性图表。如果选择一个可预测值,您将会看到一个显示模型提升性能的图表。如果没有包含可预测值,则该图表将显示模型的准确性。注意:“可预测的列名”列表中列出的挖掘模型列只限于那些使用类型设置为 Predict 或 Predict Only 的列。这些列必须还基于内容类型为 Discrete 或 Discretized 的挖掘结构列。 显示模型的提升1. 在“选择要在提升图中显示的可预测的挖掘模型列”下,确保已在每个模型的“可预测的列名”列表中选中 Bike Buyer。2. 在“预测值”列中,选择 1。对于具有相同可预测列的每个模型,将自动填充相同的值。显示模型的准确性1. 在“选择要在提升图中显示的可预测的挖掘模型列”下,确保已在每个模型的“可预测的列名”列表中选中 Bike Buyer。2. 将“预测值”列保留为空。如果已选中“同步预测列和值”复选框,则会对挖掘结构中的每个挖掘模型同步可预测的列。在某些高级的方案中,可能需要生成这样的一个提升图:该提升图包含不基于同一挖掘结构列但却包含相同数据的两个挖掘模型中的一个可预测列。如果已清除“同步预测列和值”复选框,则可以选择任意有效的可预测列和值。然后将所有结果绘制成图,而不必考虑这些结果是否有意义。查看提升图若要查看提升图,请切换到“挖掘准确性图表”的“提升图”选项卡。当您单击该选项卡时,便会对服务器和数据库的挖掘结构和输入表或测试数据运行预测查询。预测结果随后会与已知的实际值进行比较,并将绘制在图上。有关如何使用该图的详细信息,请参阅提升图(Analysis Services - 数据挖掘)。 创建预测(数据挖掘教程) 测试完挖掘模型的准确性并确定对这些模型满意之后,便可使用数据挖掘设计器中“挖掘模型预测”选项卡上的预测查询生成器来创建数据挖掘扩展插件 (DMX) 预测查询。预测查询生成器与访问查询生成器类似;可以使用拖放操作生成查询。预测查询生成器包含下列视图: 设计 查询 结果 使用“设计”和“查询”视图,可以生成并检查查询。然后可以在“结果”视图中运行查询并查看结果。有关如何使用预测查询生成器的详细信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论