数据仓库与数据挖掘--实验一-数据仓库的构建_第1页
数据仓库与数据挖掘--实验一-数据仓库的构建_第2页
数据仓库与数据挖掘--实验一-数据仓库的构建_第3页
数据仓库与数据挖掘--实验一-数据仓库的构建_第4页
数据仓库与数据挖掘--实验一-数据仓库的构建_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

昆明理工大学信息工程与自动化学院学生实验报告( 2015 2016 学年 第 1 学期 )课程名称:数据库仓库与数据挖掘 开课实验室:信自楼234 2015年11月12日年级、专业、班计科122学号4姓名邹华宇成绩实验项目名称实验一 数据仓库的构建指导教师周海河教师评语该同学是否了解实验原理:A.了解B.基本了解C.不了解该同学的实验能力:A.强 B.中等 C.差 该同学的实验是否达到要求:A.达到B.基本达到C.未达到实验报告是否规范:A.规范B.基本规范C.不规范实验过程是否详细记录:A.详细B.一般 C.没有 教师签名: 年 月 日一、实验目的、内容与要求目的:1理解数据库与数据仓库之间的区别与联系; 2掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法; 3掌握数据仓库建立的基本方法及其相关工具的使用。内容:以SQL Server为系统平台,设计、建立数据库,并以此为基础创建数据仓库。要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。实验完成后,应根据实验情况写出实验报告。二、实验原理及基本技术路线图(方框原理图)数据库(DataBase,DB)是长期存储在计算机内、有组织的、统一管理的相关数据的集合。DB能为各种用户共享,具有较小的冗余度、数据间联系紧密而又有较高的数据独立性等特点。构成的三要素是数据结构、数据操作、约束性条件。数据仓库是在原有关系型数据库基础上发展形成的,但不同于数据库系统的组织结构形式,它从原有的业务数据库中获得的数据形成当前基本数据层,经过综合后形成轻度综合数据层,轻度综合数据再经过综合后形成高度综合数据层。数据仓库结构包括当前基本数据(current detail data)、历史基本数据(older detail data)、轻度综合数据(lightly summarized data)、高度综合数据(highly summarized data)和元数据(meta data)。数据仓库系统由数据仓库、仓库管理和分析工具3部分组成,结构形式如下图所示:关系数据库数据文件其他数据数据建模抽取、转换装载(ETL)元数据系统管理综合数据当前数据历史数据查询工具OLAP工具DM工具C/S工具数据仓库的逻辑数据模型是多维结构的数据视图,也称多维数据模型。对于逻辑数据模型,可以使用不同的存储机制和表示模式来实现多维数据模型。目前使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。ETL过程在开发数据仓库时,占去70%的工作量。ETL过程的主要步骤概括为:(1)决定数据仓库中需要的所有的目标数据;(2)决定所有的数据源,包括内部和外部的数据源;(3)准备从源数据到目标数据的数据映射关系;(4)建立全面的数据抽取规则;(5)决定数据转换和清洗规则;(6)为综合表制定计划;(7)组织数据缓冲区域和检测工具;(8)为所有的数据装载编写规程;(9)维度表的抽取、转换和装载;(10)事实表的抽取、转换和装载。三、所用仪器、材料(设备名称、型号、规格等)操作系统平台:Win 7数据库平台:Microsoft SQL Server 2008四、实验方法、步骤本次实验使用Microsoft SQL Server的示例数据库Adventure Works,用其用户订单模型相关数据建立数据仓库。Adventure Works由来:Adventure Works Cycles,Adventure Works示例数据库所基于的虚构公司,是一家大型跨国生产公司。公司生产金属和复合材料的自行车,产品远销北美、欧洲和亚洲市场。公司总部设在华盛顿州的伯瑟尔市,拥有 290 名雇员,而且拥有多个活跃在世界各地的地区性销售团队。1、登录Microsoft SQL Server 2008登录名:localhost2、使用SQL语句构建数据库(1)还原数据库(2)建立数据-建立数据USE cd CREATE DATABASE DW ON PRIMARY ( NAME = NDW, FILENAME = NG:DW.mdf ) LOG ON ( NAME = NDW_log, FILENAME = NG:DW_log.ldf )GO(3)建立数据库:数据库新建数据库(4)建维表USE DW-1、建维表/*1.1 订单方式*/CREATE TABLE DIM_ORDER_METHOD (ONLINEORDERFLAG INT,DSC VARCHAR(20)/*1.2 销售人员及销售地区*/CREATE TABLE DIM_SALEPERSON(SALESPERSONID INT,DSC VARCHAR(20),SALETERRITORY_DSC VARCHAR(50)/*1.3 发货方式*/CREATE TABLE DIM_SHIPMETHOD (SHIPMETHODID INT,DSC VARCHAR(20)/*1.4 订单日期*/CREATE TABLE DIM_DATE(TIME_CD VARCHAR(8),TIME_MONTH VARCHAR(6),TIME_YEAR VARCHAR(6),TINE_QUAUTER VARCHAR(8),TIME_WEEK VARCHAR(6),TIME_XUN VARCHAR(4)/*1.5 客户*/CREATE TABLE DIM_CUSTOMER (CUSTOMERID INT,CUSTOMER_NAME VARCHAR(100),CUSTOMERTYPE VARCHAR(20),AGE INT,SEX VARCHAR(2),MaritalStatus VARCHAR(10),YearlyIncome VARCHAR(50),Education VARCHAR(50),Occupation VARCHAR(50),NumberCarsOwned INT,TotalChildren INT,COUNTRY_NAME VARCHAR(100),STATEPROVINCE_NAME VARCHAR(100),CITY_NAME VARCHAR(100)/*1.6 订单状态*/CREATE TABLE DIM_ORDER_STATUS(STATUS INT ,DSC VARCHAR(30)/*1.7 客户价值*/CREATE TABLE V_SUBTOTAL_VALUES(ORDER_VALUES_ID INT,DSC VARCHAR(30),MIN_VALUE INT,MAX_VALUE INT)(5)建维度表的ETL-二、维度表的ETL-INSERT INTO DIM_ORDER_METHODVALUES (0,销售人员)INSERT INTO DIM_ORDER_METHODVALUES (1,客户在线)INSERT INTO DIM_SHIPMETHODSELECT ShipMethodID,NAME FROM cd.Purchasing.ShipMethodINSERT INTO DIM_SALEPERSONSELECT A.SalesPersonID,B.Name FROM cd.Sales.SalesPerson A,cd.Sales.SalesTerritory BWHERE A.TerritoryID=B.TerritoryIDINSERT INTO DIM_ORDER_STATUSVALUES(1,处理中)INSERT INTO DIM_ORDER_STATUSVALUES(2,已批准)INSERT INTO DIM_ORDER_STATUSVALUES(3,预订)INSERT INTO DIM_ORDER_STATUSVALUES(4,已拒绝)INSERT INTO DIM_ORDER_STATUSVALUES(5,已发货)INSERT INTO DIM_ORDER_STATUSVALUES(6,已取消)INSERT INTO V_SUBTOTAL_VALUESVALUES(1,0-100,0,100 )INSERT INTO V_SUBTOTAL_VALUESVALUES(2,100-500,100,500 )INSERT INTO V_SUBTOTAL_VALUESVALUES(3,500-1000,500,1000 )INSERT INTO V_SUBTOTAL_VALUESVALUES(4,1000-2000,1000,2000 )INSERT INTO V_SUBTOTAL_VALUESVALUES(5,2000-5000,2000,5000 )INSERT INTO V_SUBTOTAL_VALUESVALUES(6,5000以上,5000, )declare day dateTIMESET day=2001-01-01while day2005-01-01BEGINinsert into DIM_DATESELECT CONVERT(CHAR(8),day,112),CONVERT(CHAR(6),day,112),CONVERT(CHAR(4),day,112)+年,第+CAST(DATEname(QUARTER , day) AS VARCHAR(1)+季度,DATEname(weekday , day),case WHEN DATEPART(DAY,day)11 THEN 上旬 WHEN DATEPART(DAY,day)=B.MIN_VALUE AND A.SubTotalB.MAX_VALUE-缺省值处理INSERT INTO DIM_CUSTOMERselect DISTINCT CUSTOMERID,未知,商店,0,N,N,未知,未知,未知,0,0,未知,未知,未知 from FACT_SALEORDERwhere CUSTOMERID not in (SELECT CUSTOMERID FROM dbo.DIM_CUSTOMER )执行SQL语句后五、实验过程原始记录(数据、图表、计算等)将还原后的数据库(cd)的数据转到建立好数据库(DW)维度表和事实表后,如图:六、实验结果、分析和结论(误差分析与数据处理、成果总结等。)通过本次实验,我掌握

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论