




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于MovieClick的SQL Server数据挖掘实验报告 学号: 81020497 姓名: 陈关胜 学号: 81020508 姓名: 张艳岩 学号: 81020500 姓名: 高 贞 二 0一 一 年 六 月基于MovieClick的SQL Server数据挖掘实验报告 一、 实验目的:熟悉常见软件的数据挖掘功能,利用SQL Server 2005数据挖掘软件实现大规模数据集上的分类、聚类等挖掘功能,深入理解数据挖掘技术的应用。二、 实验内容: 利用SQL Server 2005数据挖掘软件对数据集MovieClick进行了实现如下的挖掘方法:1)分类:决策树、贝叶斯、神经网络、SVM2)聚类:k-means、EM三、 实验用设备仪器及材料:1)软件需求:使用WindowsXP2)硬件需求:对于硬件方面的要求,建议配置是Pentium III 450以上的CPU处理器,64MB以上的内存,200MB的自由硬盘空间。我实验使用了2G内存,Intel Core(TM)2 Duo CPU ,双核,硬盘150G的笔记本电脑。3)开发工具:SQL Server商务智能开发应用工具四、 SQL Server数据挖掘实施过程:本实验是利用SQL Server数据挖掘对大规模数据集MovieClick进行挖掘,以便从大量繁杂的数据中获取隐含中其中的信息。实验过程如图1。设置数据源创建或编辑挖掘模型模型训练查看挖掘结果模型评价预测模型评估图1 SQL Server数据挖掘实施过程五、 实验方法及步骤:1. 在网上找到本次实验所需的大规模数据集MovieClick(如图2所示),为实验做好充分的准备。图2 MovieClick数据集2. 导入数据集,将格式为Access 2000的数据集导入SQL Server挖掘软件,具体步骤为:1)打开Microsoft SQL Server Management Studio,右击“数据库”新建一个数据库,并命名为 MovieClick,如图3所示。图3 新建MovieClick数据库2)右击MovieClick数据库,选择“任务”,然后“数据导入”,准备打开导入向导。如图4所示。图4 MovieClick数据库的数据导入在“欢迎使用SQL Server导入和导出向导”对话框,单击“下一步”按钮,如图5所示。图5 SQL Server导入和导出向导在“选择数据源”的下拉列表,选择Microsoft Access,“文件名”选择E:课件数据挖掘 MovieClick.adb, 如图6所示。图6 选择数据源在“选择目标”中,选择服务器名称和数据库,如图7所示。图7 选择目标数据源在指定“选择表或查询”中选择“复制一个或多个表或视图的数据”,如图8所示。图8 选择表或查询在“选择源表和视图”中列表本实验中所需要的表,如图9所示。图9 选择源表和视图保存并执行导入,完成导入,成功执行,如图10,图11所示。图9 保存并执行包图10 执行成功3)SQL Server数据仓库事实表与多维数据的的建立建立Analysis Services项目打开Business Intelligent Development Studio,在文件中新建一个Analysis Services项目,命名为MovieClick,如11所示。图11 建立数据库Analysis Services项目定义数据源,右击“数据源”,单击“新建数据源”,准备打开“数据源向导”对话框,如图12所示,在“欢迎使用数据源向导”页上,单击“下一步”按钮。将显示“选择如何定义连接”页,单击“新建”按钮,如图13所示。图12 新建数据源图13 选择如何定义连接在“提供程序”列表中,确保已选中“本机 OLE DBMicrosoft OLE DB Provider for SQL Server”。在“服务器名称”文本框中,键入 PC2011032619KQL,并确保已选中“使用 Windows 身份验证”。在“选择或输入数据库名称”列表中,选择 Movieclick,如图14所示。在显示“模拟信息”页上,可以定义 Analysis Services 用于连接数据源的安全凭据。在本实验中,选择 Analysis Services 服务帐户,单击“下一步”,如图15所示。随后出现“完成向导”页,数据源名称为“Movieclick”,如图16所示。图14 连接管理器图15 数据模拟图16 完成向导建立数据源视图。在解决方案资源管理器中,右键单击“数据源视图”,再单击“新建数据源视图”。此时将打开数据源视图向导,在“欢迎使用数据源视图向导”页中,单击“下一步”。 此时将显示“选择数据源”页。“关系数据源”下的 Movieclick数据源已被选中。如图17所示。然后进入“名称匹配”页,选择通过匹配列创建逻辑关系,外部匹配选择“与主键同名”,如图18所示。图17 选择数据源图18 名称匹配单击 ,将选中的表添加到“包含的对象”列表中,在本实验中我们选择了Actos表,Channels表,Criteria表,Directors表和movies表(如图19所示)。然后单击下一步,完成视图的添加。最后以“Customer ID”为关键字建立表之间主外键的关系,如图20所示。图19 选择表和视图图20 建立表之间主外键的关系4)建立挖掘结构,本实验以“决策树”挖掘方法为例进行分析的。使用数据挖掘向导新建一个挖掘结构。如图21所示。图21 数据挖掘向导选择进行挖掘的数据集,选择“从现有关系数据库或数据仓库”,如图22所示。图22 选择定义关系选择挖掘的方法(这里选择 “决策树” 方法):挖掘技术采用微软的决策树数据挖掘算法,如图23所示。图23 选择数据挖掘技术选择数据源视图:就是刚刚创建的Movieclick数据源视图,如图24所示。图24 选择数据源视图指定表的类型:指定事例表和嵌套表,把Customers指定为事例表,其余的均指定为嵌套表,如图25所示。图25 指定表类型指定定型数据:指定一些表/列为输入部分或可预测部分,例如,我们分析要把住房卖给谁,可预测这部分就选择Home Ownership,如图26所示。图26 指定定型数据指定列的内容和数据类型(直接点击测试按钮,系统会自动进行配置):指定数据类型是为告诉数据挖掘引擎数据数据源中的数据是数值还是文本以及应如何处理数据;内容类型描述列中包含的内容的行为,如图27所示。图27 指定列的类型和数据类型完成挖掘结构的创建:指定挖掘结构的名称为:Movieclick;挖掘模型的名称为:Dtmovie,如图28所示。图28 完成向导完成后得到数据源视图:完成挖掘结构和挖掘模型的构建,如图29所示。图29 数据源视图5)处理模型:现在开始模型的训练。选择挖掘结构下的Movieclick.dmn,右击选择“处理”:模型的处理就是模型的训练,如图30所示。图30 选择处理选择后弹出下面的窗口:弹出对象列表的窗口,如图31所示。图31 对象列表单击“运行”按钮:出现处理进度窗口,开始模型训练的过程,处理成功后,单击“关闭”按钮,退出窗口,如图32所示。图32 处理进度单击模型查看器,查看“决策树”结果(如图33所示):选择决策树算法得到的训练结果。从根节点到叶结点的一个过程,其实,就是它的一条规则。图33 决策树结果点击挖掘模型,这里显示了已经创建的模型,右击可以添加新的数据挖掘模型,如图34所示。图34 添加新的数据挖掘模型添加“贝叶斯”挖掘模型:用贝叶斯算法来进行数据挖掘,如图35所示。图35 新建数据模型添加成功:添加“贝叶斯”挖掘模型成功,如图36所示。图36 添加贝叶斯挖掘模型添加“聚类分析”挖掘方法,最后的结果为如图37所示。图37 聚类分析结果六、实验结果分析:1决策树试验结果:1)决策树:这是决策树方法挖掘出来的规则。从根节点到叶结点代表着不同的规则。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则。图38 决策树分析结果2)依赖关系网络所有链接:依赖关系网络显示了模型中的输入属性和可预测属性之间的依赖关系。通过决策树算法分析的依赖关系强度不同的每一类的特性。例如房屋所有者的依赖属性包括年龄、车子和卧室等。图39 决策树所有链接最强链接:决策树算法分析出来的依赖关系最强的特性,表现了个类间关联性的最强属性。在实验中,房屋所有者依赖关系最强的属性就是卧室的数量。图40 决策树最强链接内容查看器:存储了经过训练所得到的这些模式,以表的形式来展现的,可以用来查看不同的规则。图41 决策树内容查看器2“贝叶斯”试验结果1)依赖关系网络所有链接:贝叶斯是根据各个变量之间的概率关系,使用图论方法表示变量集合的联合概率分布的图形模型。它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。本例中通过贝叶斯算法分析的依赖关系强度不同的每一类的特性。例如房屋所有者的依赖强弱程度不同的众多属性图42 贝叶斯所有链接最强链接:通过贝叶斯算法所得到的依赖程度最强的属性,它用概率测度的权重来描述数据间的相关性,从而得到最强的相关性。在实验中,房屋所有者依赖关系最强的属性就是卧室的数量,与决策树方法作出的结果实相符的。图43 贝叶斯最强链接2)属性配置文件:可以了解每个变量的特性分布情况。属性特征可以看出不同群分类的基本特性概率。属性对比就是呈现属性之间的特性对比。图44就是通过贝叶斯算法所得到的属性配置文件,可以分析缺失的和现在的比例。图44 贝叶斯属性配置文件3)属性特征:贝叶斯算法所得到的数据集的属性特征。它们的属性对应的值以及所对应的概率,从中可以分析对我们有用的信息。图45 属性特征4)属性对比:属性对比就是呈现属性之间的特性对比。在图46中,规则可以查看算法中产生的关联规则,我们可以通过此来了解关联规则内容以及其支持度和置信度。图46 贝叶斯属性对比5) 内容查看器:存储了经过贝叶斯算法训练所得到的这些模式,以表的形式来展现的,可以用来查看贝叶斯条件下的不同的规则。图47 贝叶斯内容查看器3“聚类分析”试验结果1)分类关系图所有链接:通过聚类分析所得到的强弱程度不同的所有链接。分类关系图可以显示挖掘模型中的所有分类,分类之间连线的明暗程度表示分类的相似程度。在此示例中,明暗度最深的分类8就是房屋拥有者百分比最高的分类。图48聚类分析所有链接最强链接 :它是根据依赖程度最强的关系来确定最强链接的。在本实验中,聚类分析最强链接是分类一和分类二。 图49聚类分析最强链接2)分类剖面图:分类剖面图提供算法创建的分类的总体视图,显示了分类中的每个属性以及属性的分布。第一列列出至少与一个分类关联的属性。查看器的其余部分包含每个分类的某个属性的状态分布。离散变量的分布以彩色条显示,最大条数在“直方图条”列表中显示。连续属性以菱形图显示,表示每个分类中的平均偏差和标准偏差。如图 50所示,缺失的和现有的状态之间的对比。图50聚类分析分类剖面图3)分类特征:分类特征可以检查分类的组成特征。使用“分类特征”选项卡,您可以更加详细地检查组成分类的特征。 您可以一次浏览一个分类,而不是比较所有分类的特征(就像在“分类剖面图”选项卡中那样)。在本例中,我们可以分析变量所对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年厦门第一中学招聘心理教师笔试真题
- 2024年泸州市招聘中小学教师笔试真题
- 课堂纪律管理提升策略计划
- 2024年北京市杂技学校招聘笔试真题
- 职业生涯发展对财务的影响计划
- 保安工作全面提升计划
- 开展社团比赛与评比活动方案计划
- 2025届甘肃省嘉峪关市名校数学七下期末监测试题含解析
- 内蒙古鄂尔多斯市名校2025届数学八下期末学业水平测试试题含解析
- 数据处理工具及技巧试题及答案
- DB11 637-2015 房屋结构综合安全性鉴定标准
- 大国兵器学习通超星期末考试答案章节答案2024年
- 24秋国家开放大学《马克思主义基本原理》专题测试参考答案
- 下月监理工作计划模板
- 经阴道全子宫切除术专家共识(2024年版)解读
- 陕西省2024年中考地理试卷(附解析)
- 压力管道分部工程竣工报告
- 土地互换永久合同范本
- 血源性传染病职业暴露的预防处理
- 新版高中物理必做实验目录及器材-(电子版)
- 毒理学习题集(含答案)
评论
0/150
提交评论