[工学]sqlserer2008r2数据挖掘.doc_第1页
[工学]sqlserer2008r2数据挖掘.doc_第2页
[工学]sqlserer2008r2数据挖掘.doc_第3页
[工学]sqlserer2008r2数据挖掘.doc_第4页
[工学]sqlserer2008r2数据挖掘.doc_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SQL Server 2008 r2实践报告 SQL Server 2008 r2的数据挖掘实践报告 一、SQL Server 2008 r2的安装过程1.1 下载SQL Server 2008 r2.网址为:/dl/download/1/E/6/1E626796-588A-495C-917B-321093FB98EB/2052/SQLFULL_x86_CHS.exe。(32位)/dl/download/1/E/6/1E626796-588A-495C-917B-321093FB98EB/2052/SQLFULL_x64_CHS.exe?lcid=2052&ptype=pcare。(64位)SQL Server 2008 R2 序列号:数据中心版:PTTFM-X467G-P7RH2-3Q6CG-4DMYBDDT3B-8W62X-P9JD6-8MX7M-HWK38企业版:R88PF-GMCFT-KM2KR-4R7GB-43K4BGYF3T-H2V88-GRPPH-HWRJP-QRTYB标准版:CXTFT-74V4Y-9D48T-2DMFW-TX7CYB68Q6-KK2R7-89WGB-6Q9KR-QHFDW开发版:MC46H-JQR3C-2JRHY-XYRKY-QWPVMFTMGC-B2J97-PJ4QG-V84YB-MTXX8工组版:XQ4CB-VK9P3-4WYYH-4HQX3-K2R6QWEB版:FP4P7-YKG22-WGRVK-MKGMX-V9MTM本次实验中装的为企业版,cpu字长为32位。1.2 安装(1) 解压缩后点击setup.exe后开始安装,出现下面的界面:(2) 选择右边的第一个,全新安装或向现有的安装添加功能。检查成功后会出现下面的页面。此时只需添上面给出的序列号就行,这次试验装的是企业版,所以选了如图所示的序列号。(3) 接下来会出现这个界面,问你是否接受许可条款。选择接受后点下一步。(4) 安装支持文件,点击安装即可。等待安装。(5) 安装支持文件完成后会安装支持规则,它是确定您在安装SQL Server安装程序支持文件时可能发生的问题。必须更正所有失败,安装程序才能继续。如下图,下图显示全部通过,若出现问题,则需根据实际问题进行更改。(6) 设置角色,选SQL Server功能安装,点下一步(7) 功能选择。选择你要使用的功能,在这里我点了全选。然后进入下一步。(8) 安装规则。没有错误则进行下一步。(9) 实例配置。这不基本不用更改什么东西,除非你对数据库很熟练并且有更高的要求。(10) 磁盘空间要求。选择你要安装的磁盘即可。本次试验中选择了D盘。然后进入下一步(11) 服务器配置。这里需要注意一下账号名的选择,起初账户名为空,进入不到下一步,选择账户名后就行了。(12) 数据库引擎配置。这里最好是选混合模式,为以后编程方便,否则会出现很多问题,设置混合模式后可以用两种身份登录,一种是windows身份验证模式,一种是server身份验证模式,指定密码即可(密码有要求)。然后选添加当前用户即可。然后进入下一步。(13) 安装配置规则这里遇到问题,可能是原来安装过sql server 2008,卸载时没卸载干净。可进行以下步骤进行清除,清除后页面有重新检测按钮,点击即可。若还是清除不了,则建议重装系统。i) 卸载-删除C:Program FilesMicrosoft SQL Server这整个文件夹,-regedit打开注册表-删除HKEY_LOCAL_MACHINESOFTWAREMicrosoftMicrosoft SQL Server主键-删除HKEY_CURRENT_USERSoftwareMicrosoftMicrosoft SQL Server主键-windows服务如果还在,还需要删除服务.-HKEY_LOCAL_MACHINESYSTEMCurrentControlSetServices 直接删除相关的键值便可-重新启动计算机ii) 如果机器上装有VS的话,要把VS自带的SQL * EXPRESS卸载;同时删除XML4和MSXML6,到控制面板/添加删除程序。iii) 关闭所有杀毒软件,尽量关闭防火墙(14) 安装完成,关闭即可。二、数据挖掘2.1相关知识介绍这次实验用SQL Server 2008 r2 进行数据挖掘。在进行实验之前先了解下相关的术语。i) OLAP(online analytical processing)联机分析处理。它表示为了分析活动而设计和优化的数据结构。ii) Microsoft BI解决方案的核心组件a) SSAS(SQL Server Analysis Service)。它为数据仓库提供了存储和查询OLAP多维数据集数据的机制。还提供了精密的OLAP多维数据集开发人员和管理人员界面。b) BIDS(Business Intelligence Development Studio)。SSAS的开发界面。它是在Visual studio环境中打开的。开发SSAS多维数据集并不需要安装完整的Visual Studio环境。如果开发机上没有visual studio环境,那么安装SSAS时,BIDS会将其作为独立组件安装。如果开发机上有Visual Studio环境,那么BIDS会作为现有Visual Studio实例的组件安装。(注意:如果要在使用SSAS的计算机上运行完整版的Visual Studio 2008,则必须安装visual studio 2008的Service Pack 1)下面开始我们的实验,此次实验此次实验用了两个数据集一个是northwind,一个是癌症信息。第一个是很多书的测试数据集,从网上可以下载。第二个也是书上的范例,可从http:/下载。2.2实验步骤及内容2.2.1 聚类分析首先将数据集导入到SQL Server 2008数据库中,SQL server2008中配有专门的导入数据工具。点击后进入如下界面:点击下一步会进入以下页面:这是选择要导入的数据源,数据源那有很多格式,本实验就这两种数据格式进行展示;i) 若实验数据存储形式为xsl(癌症),则选择Microsoft Excel,截图如下:接下来的执行为:ii) Northwind本身为sql数据,只需打开执行即可,执行前先建立一个Northwind的数据库。到此数据导入完毕,下面进行数据挖掘。在 Analysis Services 中开发数据挖掘解决方案时,应首先创建 Analysis Services 项目。在该项目中,定义将用于分析的数据源,然后建立包括处理数据所使用的算法和自定义指令的模型。您还可以继续在该项目中测试和完善模型。对解决方案感到满意之后,可以将它部署到其他服务器或者在应用程序中使用它,以便提供预测和分析。具体步骤如下:(1) 创建Analysis Services项目。开发数据挖掘解决方案时,先使用BIDS创建Analysis Services项目。每个数据挖掘项目都包含以下4种对象:数据源;基于数据源的数据源视图;定义如何在模型中使用数据的挖掘结构;以及创建和存储模式的挖掘模型。(2) 添加数据源。在数据源上点击右键,建立新的数据源。会出现如下界面点击下一步,进入如下界面:点新建按钮,新建一个数据连接。确定后进入下面的界面(注意要选第二个)点击下一步后进入下面的界面:(3) 建立数据源视图。主要目的是当有多个表时可直观的看到各表之间的联系。步骤截图如下:结果如下:(4) 创建挖掘结构。点击右键选择新建挖掘结构。会出现下面的画面:我的实验是用癌症的数据库来做聚类分析,所以挖掘技术选聚类分析。接下来选择要挖掘的数据源。下面开始进入指定表类型。本次分析模型的建立是使用癌症表。因此,我们在表癌症建模数据集的后面勾选事例选项。而嵌套选项的意义是,若表间存在关联性,即要利用索引键或主键等使窗体相互连接,则可在主表后勾选【事例】,而在附表后勾选【嵌套】,使两张窗体字段可以同时进入模型。本实例只分析一张表,只勾选事例即可。如下图:下一步进入指定定型数据。在这个步骤中,我们要指定本次分析模型建立所需要的依变量Y以及自变量X。下图显示,每个列个属性有键,输入,可预测这三种情况,根据你要分析的情况选择。键:该列用作行的唯一标识符。输入:此设置表示将列作为模型的源数据。可预测:此设置表示此列仅作为模型的输出。当选择键和可预测后,可点击建议来选择输入。如图所示:点击下一步后进入指定数据行的内容和数据类型对话框。在这个步骤下确认数据属性是否正确无误。i) 数据类型:是一种数据挖掘类型的匹配,可能的值有Text、Long、Boolean、Double、Date。在创建数据挖掘结构的时候会自动检测并分配数据类型。ii) 内容类型:是数据的附加属性,挖掘模型算法通过它来理解数据的行为。可能的值有Continuous(连续型变量)、Cyclical(循环型变量)、Discrete(离散型变量)、Discretized(由连续型经过切割而成的离散型变量)、Ordered(顺序型变量)注意:先确定数据类型,然后在模型中确定合适的内容类型接下来进入创建测试集,【测试数据百分比】是指定位测试集保留的事例百分比,【测试数据集中的最大事例数】限制测试集中的事例总数。最后一步进入完成向导。在挖掘结构名称输入挖掘结构的名称和挖掘模型的名称。(5) 处理。模型建立完成最后要执行模型的处理。鼠标右键点击挖掘结构的模型,点击处理。处理模型后,程序会询问是否建立和部署项目。点【是】。进入处理挖掘结构癌症如下图。点选【运行】后如下图:若处理成功界面如下:BIDS挖掘结构设计器的下共有5个选项卡。在对癌症进行聚类分析后内容分别为:i) 挖掘结构。ii) 挖掘模型iii) 挖掘模型查看器。下面又四个选项卡分别为:a) 分类关系图。展现各分类间的关联性的强弱。最左边有个滑动条,越往上,链接越多,最下面就是关联性最强。b) 分类剖面图。点击每个变量的分类,会出现相应的挖掘图例。如下图:c) 分类特征。主要呈现每一类的特征。如下图d) 分类对比。主要呈现出两分类间特征的比较。2.2.2 关联规则下面简单再演示一下关联规则的过程。这次对northwind数据库进行挖掘。前面的步骤都一样,下面只展现一下结果。在指定表类型时选取Customers表为事例,挖掘模型结构如下。Customer ID为键,contact Title为预测列,其他为输入。挖掘模型查看器中的内容为:a) 规则。查看Apriori算法中生成的关联规则。用户可通过此查看器了解关联规则内容

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论