数据挖掘实验报告_第1页
数据挖掘实验报告_第2页
数据挖掘实验报告_第3页
数据挖掘实验报告_第4页
数据挖掘实验报告_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘概念和分析实验报告准备日期: 2009年11月27日目录一、相关名词解释31.1数据仓库31.2数据挖掘31.3决策树31.4计时31.5相互关联规则4二、实验环境4三、实验准备5四、实验内容5五、实验阶段55.1了解和应用数据挖掘相关名词55.2此实验的数据库环境熟悉的环境55.3准备55.3.1创建Analysis Services项目55.3.2创建数据源65.3.3创建数据源视图85.4挖掘阶段105.4.1 Microsoft决策树挖掘技术为目标邮件方案创建挖掘结构105.4.2 Microsoft计时挖掘技术-预测单个自行车销售量145.4.3 Microsoft asso

2、ciative rules挖掘技术-创建市场篮方案155.4.4演示Microsoft计时分析和群集分析挖掘技术客户如何浏览Adventure Works网站175.5分析数据挖掘结果195.5.1 Microsoft决策树挖掘技术-分析目标邮件方案的挖掘结果195.5.2 Microsoft计时挖掘技术-分析每个自行车模型的销售预测结果205.5.3 Microsoft associative rules挖掘技术-生成市场篮方案结果分析215.5.4 Microsoft计时分析和群集分析挖掘技术演示客户如何浏览Adventure Works网站分析结果22一、相关名词说明1.1数据仓库a)英

3、文名称为Data Warehouse,可以缩写为DW。数据仓库是用于决策支持系统和联机分析应用程序数据源的结构化数据环境。研究并解决从数据仓库数据库中获取信息的问题。数据仓库的特征是主题、整合、稳定性和时间变性。b)数据仓库系统是一个信息提供平台,它从业务处理系统获取数据,主要用星形模型和雪花模型组织数据,并为用户提供从数据获取信息和知识的多种方式。c)从功能结构的角度来看,数据仓库系统必须至少包括三个关键部分:数据收集、数据存储和数据访问。1.2数据挖掘a)数据挖掘是从大量数据中获取有效、新颖、潜在、有用、最终可理解的模式的不寻常过程。数据挖掘的广泛观点:数据挖掘是从存储在数据库、数据仓库或

4、其他存储库中的大量数据中“挖掘”有趣知识的过程。在数据库中,数据挖掘也称为知识库(KDD),被视为数据库中知识发现过程的基本步骤。知识发现过程包括以下步骤:(1)数据整理,(2)数据整合,(3)数据选择,(4)数据转换,(5)数据挖掘,(6)模式评估,(7)知识表示。数据挖掘可以与用户或知识库交互。1.3决策树a)决策树是使用二叉树图表示处理逻辑的工具。直观清晰地表达处理的逻辑要求。特别适用于判断因素少、逻辑组合关系不复杂的情况。b)决策树提供了一种方法,用于显示在某种条件下可以获得的值等规则。例如,贷款申请确定了申请的风险大小,它是决策树的基本组成部分,如决策节点、分支和树叶。c)在数据挖掘

5、中,决策树是分析数据的常用技术,也可以用于预测,就像上述银行员工用于预测贷款风险一样。常用算法为CHAID、CART、Quest和C5.0。1.4计时A) Microsoft时间系列算法是Microsoft SQL server 2005 analysis services(ssas)提供的回归算法,用于创建数据挖掘模型以预测连续列,例如方案中的产品销售量预测。其他Microsoft算法(例如决策树模型)创建了依赖给定输入列预测可预测列的模型,而时序模型的预测仅基于创建模型时从原始数据集导出的算法,下图(图1.1)显示了预测单个时间销售的典型模型。图1.1图表图中显示的模型由两部分组成。也就是

6、说,历史记录信息显示为红色,预测信息显示为蓝色。红色数据表示算法用于生成模型的信息,蓝色数据表示模型生成的预测。由红色数据和蓝色数据的组合形成的直线称为“序列”。每个预测模型必须包含用于区分事例系列(系列列)不同点的列。例如,图表中的数据显示了几个月的历史和预测销售系列,因此数据将作为案例系列列出。B) Microsoft计时算法的重要功能是可以执行交叉预测。也就是说,如果使用两个单独但相关的系列对该算法定型,则可以使用结果模型根据其他序列的行为预测一个序列的结果,例如,一个产品的实际销售可能会影响另一个产品的预测销售。1.5关联规则a)数据关联是数据库中可能存在的重要知识类型。如果两个或多个

7、变量的值之间有一定的规则性,则称为相关性。关联可以分为简单关联、时序关联和因果关系。关系分析的目的是在数据库中查找隐藏的关系网络。由于有时不知道数据库中数据的关联函数,即使知道也不确定,因此关联分析创建的规则具有可靠性。关联规则挖掘在大量数据中发现了项目集之间有趣的连接或相关连接。关联规则挖掘是近年来业界广泛研究的数据挖掘中的一个重要课题。b)关联规则挖掘过程主要包括两个阶段。第一步是首先在数据集中查找所有高频项目组,第二步是从这些高频项目组中生成关联规则。1.Apriori算法:使用候选集查找频繁的要素集2.基于分割的算法Fp-树频率集算法1.6时序分析和聚类分析A) Microsoft顺序

8、分析和群集分析算法是Microsoft SQL server 2005 analysis services(ssas)提供的顺序分析算法。算法将相同的顺序分组到组或类中,以查找最常用的顺序。这些顺序可以采用多种格式,例如:1.描述用户访问站点时的单击路径的数据。2.客户用于说明将项目添加到在线零售商购物车的顺序的数据。二、实验环境1.此数据挖掘实验使用SQL server 2005 development版本。2.示例数据仓库包含在SQL server 2005中的Adventure Works DB和Adventure Works DW是。三、实验准备1.建立Analysis Service

9、s专案。2.建立资料来源。3.建立资料来源检视表。四、实验内容1.Microsoft决策树挖掘技术;微软计时挖掘技术;Microsoft关联规则挖掘技术;微软时序分析和聚类分析挖掘技术;五、实验阶段5.1了解和应用数据挖掘相关名词5.2此实验的数据库环境的熟悉环境在安装SQL server2005的过程中,必须安装所有完整的数据库示例。5.3准备工作5.3.1创建Analysis Services项目5.3.1.1 .打开Microsoft SQL server management studio,连接数据库,然后验证是否存在两个数据库:Adventure Works和Adventure Wo

10、rks DW,如下图所示。5.3.1.2。打开Microsoft Visual Studio,单击“文件”-“新建项目”-“Analysis Services项目”,然后将项目重命名为Adventure Works,如下图所示。5.3.1.3。单击确定完成Analysis Services项目的创建。5.3.2创建数据源5.3.2.1。在解决方案浏览器中,在“数据源”文件夹上单击鼠标右键,然后选择“新建数据源”。将打开数据源向导。在数据源向导的欢迎页面上,单击“下一步”按钮。5.3.2.2 .单击“新建”按钮将连接添加到AdventureWorks数据库中。5.3.2.3。(1)在连接管理器的

11、提供程序列表中,选择默认的ole db Microsoft ole db provider for SQL server。(2)数据库服务器名称本地服务器也是localhost中选择所需的构件。(3)使用SQL server身份验证;(4)在“选择或输入数据库名称”列中,选择“Adventure Works DW数据库”。(5)测试成功后,单击“测试”按钮继续,然后单击“下一步”。5.3.2.4。在仿真信息页面上,选择默认值,然后单击下一步。5.3.2.5。在向导的“完成”页面上,数据源的默认名称为Adventure Works DW。5.3.2.6。单击“完成”。新数据源Adventure

12、Works DW将显示在解决方案资源管理器的“数据源”文件夹中。5.3.3创建数据源视图5.3.3.1。在解决方案导航器中的数据源视图上单击鼠标右键,选择“新建数据源视图”,然后在“启动数据源视图向导”页面上单击“下一步”。5.3.3.2。在“选择数据源”页面的“关系数据源”下,默认选择上一个任务中创建的Adventure Works DW数据源。单击下一步。在“选择表和视图”页中,选择以下表,然后单击右箭头键将这些表包含在新数据源视图中:(1)dbo。ProspectiveBuyer(2) dbo.vasscsequqliness(3) dbo.vasscseqorders(4)dbo.vT

13、argetMail(5)dbo.vTimeSeries5.3.3 .在向导的“完成”页面上,数据源视图默认命名为Adventure Works DW。单击“完成”。在5.3.3.4系统上,将打开数据源视图设计器,其中显示Adventure Works DW数据源视图。单击“完成”按钮后,将出现如下所示的Adventure Works DW数据源视图:5.4挖掘阶段5.4.1 Microsoft决策树挖掘技术为目标邮件方案创建挖掘结构5.4.1.1 .在解决方案浏览器中,右键单击“结构挖掘”,然后选择“新建挖掘结构”。在数据挖掘向导欢迎使用页中,单击下一步。5.4.1.2。在选择定义方法页上,确

14、保已选择“从现有关系数据库或数据仓库”,然后单击下一步。“选择数据挖掘技术”页面上的“您要使用什么数据挖掘技术?”在下面,选择“Microsoft decision tree”。5.4.1.3。在“选择数据源视图”页面上,确保默认情况下已选中“Adventure Works DW”。在数据源视图中,单击浏览查看表,然后单击关闭返回向导。5.4.1.4。在“指定表格类型”页面上,选中vTargetMail表格旁边“案例”列中的复选框,然后单击“下一步”。5.4.1.5(1)在“指定定型数据”页面上,确保选中CustomerKey列旁边Key列中的复选框。(2)在BikeBuyer列旁边,选择“输

15、入和可预测”。(3) Age、CommuteDistance、EnglishEducation、EnglishOccupation、FirstName、Gender、GeographyKey、house5.4.1.6(1)在“完成向导”页面的挖掘结构名称中,输入Targeted Mailing。(2)在挖掘模型名称中,输入TM_Decision_Tree。(3)选中“允许钻取”复选框。单击“完成5.4.1.7”将显示以下挖掘视图5.4.2 Microsoft计时挖掘技术-预测单个自行车销售量5.4.2.1与决策树相同的几个先前步骤。5.4.2.2选择数据挖掘技术页面上的“您要使用什么数据挖掘技术?”在中,选择“Microsoft计时”。在“指定5.4.2.3表类型”页面上,选中vTimeSeries表旁边的“事例”复选框,然后单击“下一步”。5.4.2.4(1)在“定型数据”页面上,选中TimeIndex和ModelRegion列旁边的“键”复选框。(2)选择“数量”列旁边的“可输入”和“可预测”复选框。5.4.2.5(1)在“完成向导”页面的挖掘结构名称中,输入Forecasting。(2)输入Forecasting作为挖掘模型名称,然后单击“完成”。5.4.3 Microsoft associative r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论