第6章-商务智能基础:数据库和信息管理_第1页
第6章-商务智能基础:数据库和信息管理_第2页
第6章-商务智能基础:数据库和信息管理_第3页
第6章-商务智能基础:数据库和信息管理_第4页
第6章-商务智能基础:数据库和信息管理_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章商务智能基础:数据库与信息管理开篇案例:惠普能否从企业数据仓库中挖掘成功HP的CIO:RandyMott(兰迪莫特)惠普有大量的数据,存放在多个应用程序和数据库中,分布于全球各地的不同部门和不同领域。然而,众多的系统和应用程序却无法提供所需要的完整且前后一致的信息。惠普的CIO决定:建立数据仓库,即在全公司建立一个可共享的信息库,用于提供统一而且准确的商业信息。该数据仓库取代了17种不同的数据库技术,通过连接目前正在使用的1.4万个数据库,使不同地区和部门的员工都可以在第一时间获取所需数据。HP最终将这一数据仓库系统发展为独立产品:Neoview,并销售给其他企业6.1传统文件环境下的数据整理6.1.1文件组织术语和概念字段记录某个数据库中的一份表文件,该文件存储了选修《管理信息系统》课程的10级物流专业的同学名单。每列是一个字段,每行为一个记录。从数据库原理的角度来看,表中反映了“学生”这一类实体集(EntitySet),表中的每一行是该类型中的一个具体的实体,每个实体都具有学号、姓名、专业名称等属性6.1.2传统文件环境的问题数据冗余与混乱程序--数据依赖欠缺弹性安全性低缺乏数据共享与实用性同样的这样一张表,如果在学校的学生处、教务处分别存储一份,可能会立即产生各种问题。6.2使用数据库管理数据6.2.1数据库管理系统有了DBMS,用户和程序员不需要直接和数据库打交道,只需要通过各种应用程序去调用数据库即可。这极大地简化了工作量。例如:在网上发布一条微博,用户完全不必关心这条微博存储在哪台网站服务器上的哪个存储区域,以何种格式存储……这一切均由DBMS完成。1、DBMS如何解决传统文件环境带来的问题2、关系型数据库管理系统层次型DBMS网型DBMS关系型DBMS,它是严格的、标准的二维表格关键字(PrimaryKey)外关键字(ForeignKey)3、关系型DBMS操作4、面向对象数据库管理系统选择投影联接6.2.2DBMS的优势VisualFoxpro中的数据定义Access中的数据定义SQLServer中的数据定义SQL语言是几乎所有关系型数据库的通用语言,要深入掌握SQL语言并不容易,为此,许多DBMS允许用户以可视化方式创建查询,然后为用户自动生成对应的SQL语言并执行。如图是在Access中完成一次交叉表查询,生成的SQL语句从功能上看属于数据操纵语言。例如,有某个关系如下学生(学号、姓名、性别、年龄、籍贯、入学分)在该关系中,不同记录之间,只有学号是不能重复的,而其他的都存在出现重复项的可能,因此学号就是该关系的关键字。又如学生的选课关系:学号课程号成绩1001A1891002A1781001A2891002A278学号、课程号、成绩三项都有可能重复,因此其中的单独某项不能作为关键字,只能取属性的集合作为关键字。经过简单分析可以得出,只有学号+课程号的组合不可能出现重复项,即该关系的关键字是(学号、课程号)6.2.3设计数据库规范化和实体联系图编号姓名电话市话手机在Word和Excel中均允许制作如上的表头,但在数据库中是不允许的关系数据库规定:每个属性是不可再分的。若违反这一规定,则称其为不满足第一范式(1NF)。达到第一范式是关系数据库的最基本要求。再看右表:学号姓名籍贯课程号成绩1001张三合肥A1871002李四芜湖A1921001张三合肥A2851002李四芜湖A276显然该关系满足第一范式如前所述,该关系的关键字是(学号、课程号)但是:学生的姓名和籍贯被重复存储了,这是不必要的,究其原因在于:学号本身就可以直接决定姓名和籍贯,无须借助于课程号来实现。这就迫使我们要对该关系做出分解,即:关系1:学生(学号、姓名、籍贯)关系2:选课(学号、课程号、成绩)分解后可知:上述情况消失了。(虽然学号仍被重复存储了,但这是为了更好地使用数据库而做出的一种妥协)如果某个关系存在这种情况:关系的关键字是属性的组合,但是其中某个属性又可以独立地决定其他属性,则称该关系不满足于第二范式。换言之:若某关系的关键字是单个属性,则该关系必然满足第二范式。学号姓名系别系主任1001赵大英语老张1002钱二英语老张1003孙三贸易老李1004李四贸易老李经分析可知:左表中的关键字是学号,由于是单属性,因此其必然满足第二范式。但是:“系主任”仍然出现了重复存储的现象。此外,若英语系的学生全部毕业,数据删除,同时也就抹去了“老张是英语系的系主任”这件事实。造成信息丢失。究其原因:由于“学号”对“系主任”的决定作用是通过“系别”来传递的,即在实质上,“系别”对“系主任”存在着决定关系。导致了这一问题的出现,其解决办法仍是将原有关系分解,可分解为:关系1:学生(学号、姓名、系别)关系2:系资料(系别,系主任)外关键字消除这种传递后,得到的关系即满足第三范式。关系模式是一个逐级包含的过程:即若某个关系满足高级别的范式要求,则其必然满足低级别的范式要求。将关系的模式从低级别向高级别转化,此过程称为关系的规范化。规范化过程中要注意:不能丢失原关系所包含的相关信息。再来了解一下什么是参照完整性:左图是Access中的截图,图中:Suppliers和Quatations依据SNO字段实施了参照完整性。类别为:一对多两张表成功实施参照完整性后,在左表中的SNO字段可对应右表的多条记录,但是右表的SNO字段中不得出现左表的SNO字段中未出现的值。(但反过来是允许的)实体--联系图,又称为E-R图E-R图中包括:实体、属性和联系三种基本图素。约定:“实体”用方框表示,“联系”用菱形框表示,“属性”用椭圆框表示,框内填入相应的实体、联系及属性的标识。两个实体间可有3种不同联系方式数据库的分布左图:集中式数据库右图:分布式数据库6.3利用数据库提升商业运作水平和决策能力6.3.1数据仓库案例:美国国内税务署利用数据仓库揭露税务诈骗美国国内税务署(IRS)美国国内税务署(IRS)是征税和执行税法的部门。自19世纪60年代成立以来,IRS处理的数据随着人口的增长呈现数量级递增。2006年,IRS处理了近1.34亿份纳税申报单,税收额高达1.2万亿美元。IRS和Sybase软件公司合作,建立了数据仓库,极大地提高了效率,通过追征拖欠税款的纳税人,也提高了税收额。这一系统运行良好,对税务诈骗者的审查次数越来越多,而诚实守信纳税者受审查的次数越来越少。6.3.2商务智能、多维数据分析和数据挖掘博彩业的Harrahs(哈拉斯)借助于商业智能,判断高价值客户,并制定鼓励他们更多投资的方案通过联系分析处理(OLAP)和多维数据分析,用户可以不同方法分析同一数据,从而得到对该数据从不同层面进行解释的结果6.3.3数据库与万维网6.4管理数据资源6.4.1制定信息政策6.4.2确保数据质量案例分析:注:由于书P207的案例《美国反恐监视名单数据库的难题》并不符合国情,故更换为此案例。背景知识:20世纪90年代中期,利用假单证、假批文、假印章进行的"三假"走私、骗汇、骗税违法犯罪活动十分猖獗。据不完全统计,1997年全国海关共查获"三假"走私案案值为人民币15亿元,1998年达到21亿元。"三假"走私骗汇、骗税对国家经济造成了严重损害。按照国家外汇管理有关规定,企业出口

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论