




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1信息管理学
InformationManagement教材:《信息管理学教程》滕佳东著.大连:东北财经大学出版社,2005主讲:王名扬办公室:信息学院404办公电话:821915252第一节数据资源管理第二节数据通信与计算机网络第五章信息管理技术3信息技术(InformationTechnology,IT)同信息一样,是非常流行的术语。现代信息管理从一开始便与信息技术紧密相联。从某种意义上说,现代信息管理必须以现代信息技术为依托。
信息技术是能够扩展人类信息器官功能的,帮助完成信息的获取(收集、识别和提取)、传输(变换、存储和传递)、加工(处理和检索)、再生(分析)和利用等的一类技术的总称。前言4人的信息器官可以分为:
感觉器官:视觉、听觉、嗅觉和触觉等;承担对外界信息的获取功能。
神经系统:导入神经网络、中间传导神经网络和导出神经网络;承担信息的传递功能。
思维器官:人的大脑;承担信息的认知和再生功能。
效应与执行器官:操作器官(手)、行走器官(脚)、语言器官(嘴、喉、舌);承担信息的执行或施用功能。5与人的信息器官对应,信息技术也可以分成四大类:①感测技术(Collection):用于信息获取,其延长的是感觉器官采集信息的能力,可以将人类的感觉器官延伸到人力所不能及的微观世界和宏观世界中去提取信息。②通信技术(Communication):用于信息传递,其延长的是传导神经系统传递信息的能力,包括信息的时间和空间的传递。6③
计算机技术(Computer):用于信息认识和再生,其延长的是思维器官处理信息和决策的能力,包括计算机硬件和软件技术、人工智能、专家系统和人工神经网络等技术。④
控制技术(Control):用于信息执行,其延长的是效应器官的应用信息的能力,包括服务调节技术和自动控制技术。7这四种技术结合起来,称为“4C”技术。
其中,计算机技术和通讯技术是整个信息技术的核心。如果说计算机技术是现代社会的“大脑”,那么通信技术就是现代社会的“中枢神经系统”。对于信息管理领域来说,信息处理技术和通信技术是最重要的两种信息技术工具。本章主要从信息处理技术和通信技术两个角度来讲解信息管理领域用到的信息技术。8第一节数据资源管理
随着信息社会的发展,数据成为一种重要的组织资源,数据资源管理是管理活动最基本的内容,也是信息系统最基本的功能。虽然数据处理一般不涉及非常复杂的数学计算,但因要求处理的数据量很大,所以需要专门的技术支持。9在信息系统中,数据资源管理指的是对数据的收集、加工、检索、存储、传输、利用和维护的过程。它的主要任务是实现对数据的合理组织、维护和存取,处理好应用程序和数据之间的关系。10(一)数据组织的基本概念数据只有经过组织才能成为有价值的信息数据的组织数据的逻辑组织数据的物理组织11(1)数数据据的的逻逻辑辑组组织织任何何信信息息系系统统都都有有一一个个数据据组组织织的的层层次次体体系系,在在该该层层次次体体系系中中,,每每一一后后继继层层次次都都是是其其前前导导层层次次数数据据组组合合的的结结果果,,最最终终所所形形成成的的是是一一个个综综合合的的数据据库库。12(1)数数据据的的逻逻辑辑组组织织在信信息息系系统统中中形形成成的的数数据据的的逻逻辑辑组组织织层层次次如如下下图图::图1数据据的的逻逻辑辑组组织织层层次次13数据据项项:组组成成数数据据库库系系统统的的有有意意义义的的最小小单位,用于描描述一个数据据处理对象的的某些属性,处于最底层层,具有不可分割性。如:若数据处理的的对象是公司司员工,公司司员工的属性性包括员工姓姓名、工作证证号、职位、、月份和薪金金,则在数据据库系统中,,可通过设置置数据项表示示这些属性。14记录:是与数据处理理的某一具体体对象相关的的数据项的集合合,用于表示一一个具体的数数据处理对象。如:如果把每一个个员工的所有有数据项排列列在一起就形形成了这个员员工的一条记记录,每一条记录录都有主关键键字,即唯唯一标标示一一条记记录的的属性性。如,在在公司司员工工记录录中,,工作作证号号可以以作为为员工工记录录的主主关键键字。。15文件::是与某某个特特定的的主题题相关关的同同类记录的的集合合,用于于表示示一个个数据据处理理的对象集集。如,员员工薪薪金文文件包包含有有关员员工薪薪金的的记录录。文件件按其其各记记录的的长度度是否否相同同又可可分为为:①定长记记录文文件:是指文文件中中所有有记录录的长长度都都相同同。②变长记记录文文件:是指文文件中中各记记录的的长度度不相相同。。如,姓姓名、、单位位地址址、文文章的的标题题等,,有长长有短短,并并不完完全相相同。16数据库库:按一定定方式式组织织起来来的逻逻辑相相关的的文件集集合。如,公公司员员工数数据库库中可可包含含员工工薪金金文件件、员员工工工作考考核文文件、、员工工个人人资料料文件件这三三个不不同的的文件件。数据库库是数数据组组织的的最高形形式,也是是应用用最广广泛的的数据据组织织的管管理方方法和和技术术。17(2)数据据的物物理组组织数据的的物理组组织指的是是数据据在存存储设设备上上的物理存存取方式,,依赖赖于存存取的的介质。在基于于计算算机的的信息息系统统中,,文件件是数数据库库组织织的基基础,,任何何对数据库库的操操作最最终都都要转转化为为对文文件中中数据据的操作作。不同的的数据据物理理组织织形式式对应应着不不同的的数据据处理理方式式,同同时也也将直直接影影响着着整个个系统统的存存取效效率。。18如企业的的人事事系统统存储了了大量量的职职工数数据,,这些些数据据一般般不会会经常常改动动,其其主要要目的的是进进行查询,采用用的组组织形形式应应尽量量使查查询响响应的的时间间变短短。而商店的的销售售系统统,存储储大量量的销销售数数据,,每天天结束束后要要进行行相关关的统统计操操作,,其主主要目目的是是对数数据的的相关关处理,采用用的组组织形形式应应使数数据处处理的的效率率高。。对于这这两种种用途途,数数据的的物理理组织织形式式应是是怎样样的呢呢?提出问问题??19数据的的存取取方式式有顺序存存取和和直接接存取取。①顺序存存取:按照数数据存存储的的顺序序来访访问。顺序存存取的的文件件的逻辑顺顺序与与物理理顺序序一致致,一个个逻辑辑上连连续的的文件件信息息被存存放在在连续续变化化的物物理块块或物物理记记录中中,数数据在在存储储设备备上占占有一一段连连续的的存储储空间间。如:磁磁带顺序存存取存存放的的文件件结构构简单单,便便于程程序设设计;;但缺缺点是是操作作效率率低,,若文文件较较大,,对记记录的的查询询、插插入操操作所所花费费的时时间较较长。。数据的的存取取方式式20②直接存存取:不需要要经过过其他他的数数据而而直接接访问问所需需要的的数据据的方方式。直接存存取的的文件件只能能存储储在磁磁盘等等随机机存储储设备备上,,其逻逻辑顺顺序与与物理理顺序序不一一致。。只要要确定定了某某个记记录的的存储储地址址,就就可直直接对对其进进行存存取操操作,,而不不必考考虑和和其他他记录录之间间的关关系。。如磁盘盘、光光盘、、U盘等。。21对商店的的销售售数据据,逻辑辑上需需要销销售数数据按按时间间先后后排列列,这这样便便于对对数据据进行行统计计分析析,因因此,,商店店销售售系统统采取取的存存取方方式可可以采采用顺序存存取方式。。对企业人人事系系统,,要求数数据的的存取取效率率高,,查询询速度度快,,插入入、删删除简简单,,因此此,可可以采采取直接存存取方式。。答案是是:销销售数数据—顺序存存取;;人事数数据—直接存存取你想到到了吗吗?问题的的答案案22(二))数据据组织织的发发展过过程数据管理技技术的发展展,与计算算机硬件和和软件技术术发展有密密切的关系系,并随着着信息处理理需求的发发展而不断断发展。。总起来讲,,数据组织织的发展经经历了四个个阶段:人工管理阶段(1946年-20世纪50年代中期之之前)文件系统管理阶段((20世纪50年代后期到到60年代中期))数据库阶段(20世纪60年代后期-80年代中期之之前)高级数据库库阶段(20世纪80年代中期))23(1)人工管管理阶段(20世纪50年代中期前前)人工管理阶阶段又称为为数据库系系统的简单应用阶阶段。在20世纪50年代中期以以前,计算算机主要用用于科学计计算。外部存储器器大多采用用的是顺序序存取设备备,如磁带带、卡片等等,没有磁磁盘等直接接存取设备备。软件只有汇汇编语言,,没有操作作系统软件件,更没有有数据管理理方面的软软件,数据据的管理者者是人。24特点①数据和程序序依赖性强强,数据均由应应用程序直直接管理:数据是面面向应用的的,每一个个应用程序序都自带数数据,数据据和程序紧紧密相连,,成为程序序的一个重重要组成部部分。②数据不能长长期保存:主要原因因是这个时时候的计算算机主要用用于计算,,将原始数数据连同程程序一起输输入内存,,计算完毕毕后输出结结果,同时时释放数据据空间。且且没有软件件系统对数数据进行管管理。③数据无法法共享:数据完完全分散散,大量量重复,,数据存存在的形形式和时时间长短短完全依依赖于所所依附的的应用程程序,数数据之间间的相关关性无法法处理。。25数据程序无独立性数据不能长期保存数据无法共享人工管理阶段人工管理理阶段26(2)文件管管理阶段段(20世纪50年代后期期到60年代中期期)计算机应应用范围围逐渐扩扩大,不不光用于于计算,,还用到到了信息息管理上上。计算机硬硬件有了了磁盘、、磁鼓等等直接存存取的存存储设备备,数据据可长期期存储在在这些外外部存储储器的磁磁盘上。。软件领域域有了高高级语言言和操作作系统,,操作系系统中的的文件系统统作为专专门的数数据管理理软件,这使得得数据不不再属于于某个特特定的程程序,具具备一定定的独立立性,但但是由于于此时文文件结构构的设计计仍然是是基于某某些特定定的用途途,程序序也基于于某些特特定的物物理结构构和存取取方法,,因此数数据和程程序的依依赖关系系没有从从根本上上改变。。27特点①数据、程序分分开存储:数据被组织成成文件的形式式保存在外存存上,实现了了以文件为单单位的数据共共享,文件可可保存,可反反复使用。②数据、程序仍仍相互依赖:程序和数据分分离,但数据据和应用程序序独立性不高高,因为文件件系统的逻辑辑结构是对应应于某个具体体的应用程序序的,为某个个应用所组织织的数据与其其它应用所组组织的数据不不兼容,若文文件结构发生生变化,则相相应的应用程程序也要进行行修改。28③数据冗余和数数据不一致:数据文件是面面向应用的,,多个文件间间无相关性,,同样的数据据可能存放在在不同的文件件中,造成数数据冗余的现现象。如,宿舍管理理处,财务处处,学生管理理处都会保存存学生文件,,而像学生名名、性别、联联系方式等数数据项几乎在在每个文件中中都重复出现现。导致在更新新时容易产生生数据的不一一致。④管理困难:各个数据文件件相互独立,,分散保管,,文件所有者者很难对它们们进行管理。。文件之间的的联系只有通通过程序才能能实现。当用用户需要的信信息来自不同同文件时,就就需要对多个个不同文件的的信息内容进进行提取、比比较、组合。。29文件管理阶段数据程序分开存储数据程序相互依赖数据冗余度大数据不一致性文件管理阶段段30(3)数据库阶段(20世纪60年代后期到80年代早期)随着组织管理理规模的扩大大,处理的数数据量急剧增增加,文件系系统的数据冗冗余和数据不不一致使得数数据管理变得得非常困难,,数据库系统统和大容量外外存设备的出出现又使数据据管理技术得得到了进一步步发展。数据库技术是是在文件系统统上发展起来来的一种理想想的数据管理理技术,是一一个相关数据据的集合,可可实现数据被被多个应用程程序共享。如如,它可以将一个个单位或一个个部门所需的的数据综合组组织在一起,,由数据库管管理系统软件件实现对数据据库的定义,,操作和管理理。31特点①采用复杂杂的数据模型型表示数据结结构:数据库中数据据模型不仅描描述了数据自身的特特征,还描述了数据间的关系系,使数据结构构化,这是数数据库和文件件系统的本质质区别。②数据冗余余度小,能够够实现数据共共享:数据库系统允允许多个用户户或多个应用用程序同时访访问数据库中中的相同数据据,数据不再再面向特定的的某个或多个个应用,而是是面向整个系统统,相关数据集集合可由多个个应用程序共共享,节省了了存储空间,,避免了数据据间的不一致致现象。32③具有较高高的数据独立立性:数据库系统提提供了三层数据抽象象(视图级抽象象、概念级抽抽象、物理级级抽象)能力力和三种数据库模模式(外模式、模模式和内模式式),实现了了数据的物理理独立性和逻逻辑独立性。。数据和程序序相互独立,,数据的存取取和交换均由由数据库管理理系统统一管管理,用户以以简单的逻辑辑结构操作数数据而无需考考虑数据的物物理存储结构构。④为用户提提供了方便的的接口:用户可以使用用查询语言如如SQL或终端命令访访问数据库,,也可以用程程序指令操作作数据库。33⑤提供统一一的数据控制制功能:为了适应数数据共享的环环境,数据库库管理系还提提供了以下四四种数据控制制功能:并发控控制::控制多多个事事务的的并发发运行行,避避免并并发程程序间间相互互干扰扰,保保证每每个事事务产产生正正确的的结果果。数据恢恢复::当数据据库由由于意意外故故障被被破坏坏时,,系统统有能能力把把数据据库回回复到到最近近某已已知的的正确确状态态。数据完完整性性:通过完完整性性约束束保证证数据据的正正确性性、有有效性性和相相容性性,如如将数数据控控制在在有效效的范范围内内,如设定定工资资的范范围;数据安安全性性:为不同同用户户设置置不同同权限限,保保证数数据的的安全全。34数据程序完全独立数据可以共享数据模型表示数据结构数据库阶段数据库库阶段段35图2银行文文件处处理系系统示例::银行行事务务处理理客户财务报表帐户核对处理存款处理分期贷款处理贷款分析报告客户票据存款文件帐户核对文件帐户核对程序存款程序客户交易分期贷款程序分期贷款文件36客户交易处理数据库管理系统核对帐户程序存款帐目程序分期贷款程序客户数据库..图3银行数数据库库系统统37(4)高级数数据库库阶段段(20世纪80年代中中期至至今)随着管管理环环境的的变化化,企企业中中的数数据和和信息息的类类型发发生了了变化化;而而随着着多媒媒体技技术和和网络络技术术的成成熟,,企业业中的的数据据和信信息的的处理理方式式也发发生了了变化化,从从而导导致数数据库库技术术出现现了新新的发发展趋趋势,,这些些新趋趋势允允许组组织在在不同同的场场所对对数据据进行行处理理,允允许数数据库库中存存放声声音,,图像像等,,并允允许在在大量量的,,杂乱乱无章章的数数据中中找出出某些些相关关性。。这使使得数数据库库技术术发展展到了了高级级数数据据库库阶段段。。38①分分布布式式数数据据库库分布布式式数数据据库库是是由由一一组组物理理位位置置分分散散的数数据据库库构构成成的的,,它它们们在在逻辑辑上上属属于于同同一一个个系系统统。分布布式式数数据据库库系系统统可可以以简简单单地地被被看看成成是是““数数据据库库系系统统+计算算机机网网络络””,,但但它它又又不不是是二二者者的的简简单单结结合合,,而而是是两两种种技技术术的的互互为为渗渗透透与与融融合合。。它要要管管理理的的不不是是单单个个数数据据库库系系统统,,而而是是分分布布在在许许多多不不同同地地域域上上的的多个数据据库系统统。使用计计算机网网络也不不仅仅是是为了简简单的传传输文件件,而是是为了更更能适应应于一个个特定组组织高效效地管理理信息。。39分布式数数据库系系统具有有分布性和和逻辑协协调性的特点。。分布性:是指数据据不是存存放在单单一场地地为单个个计算机机配置的的存储设设备上,,而是按全局需需要将数数据划分分成一定定结构的的数据子子集,分散的存存储在各个节节点上,,提高了了数据的的处理效效率。逻辑协调调性:是指各节节点上的的数据子子集,相相互间由由严密的的约束规规则加以以限定,,它们既既相互独独立又逻逻辑相关关,在逻辑上形形成一个个整体。40需关注的的问题::分布式数数据库的的性能取取决于高质量的的网络通通信线路路,线路的的脆弱会会严重影影响分布布式数据据库的运运行功效效。同时由于于远程数数据库要要不断从从中央数数据库取取数据,,这样就就牵涉到到一个敏敏感的数数据的安安全性保保护的问问题,也也需要建建立有效效的手段段加以保保证。41②多媒媒体数据据库随着信息息数量和和多媒体体数据的的引入,,信息的的管理和和检索变变得越来来越困难难,给数数据库技技术带来来了新的的挑战。。20世纪80年代,由由于计算算机在处处理声音音和图像像信息方方面的发发展,出出现了声声音文件件和图像像文件,,于是就就诞生了了多媒体体数据处处理的新新方法--多媒体数数据库。42多媒体是指多种种媒体,,如数字字,正文文,图形形,图像像和声音音的有机机集成。。多媒体数数据库,,是指在数数据库中中不仅可可以存储储文本和和数据,,而且还还可以存存储图像,音音频和视视频信息息以及这些些不同类类型数据据间的复复杂关系系。43③数数据仓仓库随着市市场竞竞争的的加剧剧和信信息社社会需需求的的发展展,从从大量量数据据中提提取((检索索和查查询等等)制制定相相应策策略的的信息息就显显得越越来越越重要要。如,超超市的的经营营者希希望知知道哪哪些商商品经经常被被同时时购买买;保保险公公司想想知道道购买买保险险的客客户的的一般般特征征;医医学研研究人人员希希望从从已有有的成成千上上万份份病历历中找找出患患有某某种疾疾病的的病人人的共共同特特征,,从而而为治治愈这这种疾疾病提提供帮帮助等等。1.为什么么要建建立数数据仓仓库??45从数据据库到到数据据仓库库管理信信息的的处理理类型型:(1)事务务型处处理::业务操操作处处理,,用来来协助助企业业对相相应事事件或或事务务的日常商商务活活动进行处处理。。是事事件驱驱动、、面向向应用用的,,通常常是对对一个个/组记录的增增、删、改改以及简单单查询等,,以满足组组织特定的的日常管理理需要;(2)分析型处处理:用于管理人人员的决策分析,例如DSS、EIS和多维数据据分析等。。帮助决策策者分析数数据以察看看趋向、判判断问题。。分析型处处理经常要要访问大量量的历史数数据,支持持复杂的查查询分析。。1)数据库的的局限数据库作为为数据资源源,主要用用于管理业业务中的事务处理。如,电信部部门的计费费数据库用用于记录客客户的通信信消费情况况;银行的的数据库用用于记录客客户的账号号、密码、、存入和支支出等一系系列业务行行为。数据库中存存放的数据据基本上是是保存当前数据,并随业务务的变化随随时更新数数据库中的的数据。不同的管理理业务需要要建立不同的数据库。例如,银行行中储蓄业业务、信用用卡业务分分别要建立立储蓄数据据库和信用用卡数据库库。1)数据库的的局限当事务型处处理环境和和分析型处处理环境在在同一个数据库系统统中,事务型处理理对数据的的存取操作作频率高,,操作处理理的时间短短,而分析析型处理可可能需要连连续运行几几个小时,,从而消耗大量的的系统资源源。决策型分析析数据的数数据量大,,这些数据据有来自企企业内部的的,也有来来自企业外外部的。来来自企业外外部的数据据又可能来来自不同的的数据库系系统(异构),在分析析时如果直直接对这些些数据操作作会造成分分析的混乱乱。对于外外部数据中中的一些非非结构化数数据,数据据库系统常常常是无能能为力的。。482)操作型与与分析型环环境的分离离要摆脱传统统数据库面面临的困境境,必须将将用于事务处理的的数据环境境和用于数数据分析的的数据环境境分离:(1)事务型处处理:以传统数据库为中中心进行企业的的日常业务务处理,其其使用人员员通常是企企业的具具体操作人人员;处理理企业业务务的细节信息,以实实现企业的的业务运营营;(2)分析型处处理:分析数据背背后的关联联和规律,,为企业决决策提供可可靠依据,,其使用人人员通常是是企业的中中高层管理理者,或从从事数据分分析的工程程师;处理理企业的宏观信息,而非非具体细节节,以为企企业的决策策者提供支支持信息。。49分离示意图图502)操作型与与分析型环环境的分离离操作型处理理和分析型型处理的分分离,划清清了数据处处理的分析析型环境与与操作型环环境之间的的界限,从从而由原来来的以单一一数据库为为中心的数数据环境发发展为以数数据库为中中心的业务务处理系统统和以数据据仓库为基基础的分析析系统。企业的生产产环境,也也由以数据据库为中心心的环境发发展为以数据仓库为为中心的环境。5152转换同时进进行的集成成2.什么是数据据仓库?数据仓库((DataWarehouse)数据仓库是是为构建分析型数据据处理环境而出现现的一种数数据存储和和组织技术术。用来保保存从多个个数据库或或其它信息息源选取的的数据,并并为上层应应用提供统统一用户接接口,完成成数据查询询和分析。。在数据仓库库的发展过过程中,许许多人作出出重要贡献献:Devlin&Murphy(1988):发表关关于数据仓仓库论述的的最早文章章;WilliamH.Inmon(1993):《BuildingtheDataWarehouse》》,首次系统统阐述数据据仓库的思思想、理论论,被尊为为“数据仓库之之父”。数据仓库((DataWarehouse)数据仓库的的定义很多多,但却很很难有一种种严格的定定义:它是一个提提供决策支支持功能的的数据库,,它与公司司的操作数数据库分开开维护。为统一的历历史数据分分析提供坚坚实的平台台,对信息息处理提供供支持。数据仓库是是一个面向向主题的、、集成的、、随时间而而变化的、、不容易丢丢失的数据据集合,支支持管理部部门的决策策过程3.数据仓库有有哪些特点点?数据仓库的的关键特征征关键特征::面向主题;集成的;随时间而变化化的(时变的);不容易丢失的的(稳定的)。58面向主题面向主题,是是数据仓库显显著区别于关关系数据库系系统的一个特特征;给出数据仓库库中数据组织织的基本原则则,数据仓库库中所有数据据都是围绕某某一主题组织织、展开的;;主题在逻辑上上对应的是企企业中某一宏观分析析领域所涉及的分析对对象;要能刻画分分析对象所涉涉及的企业各各项数据,以以及数据间的的联系。如,一个生产产企业的数据据仓库所组织织的主题可能能是产品订货货分析和货物物发运分析,,而按应用组组织的话可能能为财务子系系统、供应子子系统、销售售子系统、人人力资源子系系统和生产调调度子系统等等。典型的主题领领域:客户、、产品、交易易、账目等。。59面向主题关注决策者的的数据建模与与分析,而不不是集中于组组织机构的日日常操作和事事务处理。60集成性一个数据仓库库是通过集成成多个异种数数据源来构造造的;关系数据库,,一般文件,,联机事务处处理记录数据仓库中的的综合数据不不能从原有的的数据库系统统直接得到,,需使用数据据清理和数据据集成技术对对数据进行处处理:统一元数据中中矛盾之处::确保命名约约定、编码结结构、属性度度量等的一致致性。当数据被移到到数据仓库时时,它们要经经过转化:进进行数据综合合和计算。61随时间而变化化的(时变的的)数据仓库从历历史的角度来来提供信息::时间范围比操操作数据库系系统要长的多多操作数据库系系统:主要保存当前前数据;数据仓库:从历史的角度度提供信息((比如过去5-10年)62数据不易丢失失(稳定的))尽管数据仓库库中的数据来来自于操作数数据库,但他他们却是在物物理上分离保保存的操作数据库的的更新操作不不会出现在数数据仓库环境境下。只进行两种数数据访问:数据的初始装装载;查询操作。数据仓库与传传统数据库的的区别比较项目传统数据库数据仓库总体特征高效的事务处理提高决策支持存储内容当前数据为主历史的、存档的、归纳的数据面向对象普通的业务处理人员高级的决策管理人员功能目标面向业务操作面向主题,注重分析主要任务联机事务处理OLTP联机分析处理OLAP汇总情况原始数据,不做汇总多层次汇总数据库设计实体-联系模型(ER)和面向应用的数据库设计星型/雪花模型和面向主题的数据库设计数据视图当前的,企业内部的数据演化的、集成的数据访问模式事务操作只读查询数据规模较小(100MB~1GB)较大(10GB以上)数据访问量数十条记录数百万条记录响应要求很高的实时性对实时性要求不高度量事务吞吐量查询吞吐量、响应时间64数据集市(DataMart)的产生数据仓库的局局限:企业级应用,,涉及的范围围和投入的成成本非常巨大大;而企业的部门门/工作组常要求求在企业内部部获得一种适适合自身应用用、容易使用用,且自行定定向、方便高高效的开放式式数据接口工工具。这种需求使得得“数据集市”应运而生。。65数据集市的定定义业界对数据集集市的定义差差别较大,但但普遍认为::数据集市是一一种更小、更集中中的数据仓库库(子集);它为企业提供供了一条部门门/工作组级的分分析商业数据据的廉价途径径。与数据仓库相相比,数据集集市的数据量量要小得多。。66数据集市与数数据仓库的区区别数据仓库:企业级的,能为整个个企业各个部部门的运行提提供决策支持持手段;数据集市:微型的数据据仓库,通常常有更少的数数据,更少的的主题区域,,更少的历史史数据,因此此是部门级的,只能为某某个局部范围围内的管理人人员服务,因因此被称为““部门级数据仓仓库”。67数据集市的分分类数据集市有两两种类型:独立型数据集集市:为满足企业内内部各部门的的分析需求而而建立的微型型数据仓库。。可实施集成成,以构建完完整的数据仓仓库。从属型数据集集市:其内容不直接接来源于外部部数据源,而而是从中央数数据仓库中得得到。在数据据仓库内部,,数据根据分分析主题,被被划分为若干干子集,而面面向某一具体体主题在逻辑辑上或物理上上划分形成的的子集,就是是从属型数据据集市。68独立型数据集集市从属型数据集集市69数据仓库是信信息技术领域域谈论的一个个热门话题。。数据据仓仓库库概概念念是是对对数数据据库库概概念念的的进进一一步步深深化化。。数数据据仓仓库库的的建建立立并不不是是要要取取代代数据据库库,,它它建建立立在在一一个个较较全全面面和和完完善善的的信信息息应应用用基基础础之之上上,,用用于于支支持持高高层层决决策策的的分分析析。。注意意::70数据据仓仓库库是是现现有有的的数数据据库库系系统统中中的的数数据据和和其其它它一一些些外外部部数数据据的的一一次次重重组组,,重重组组时时要要以以数数据据仓仓库库能能更更好好地地为为决决策策分分析析应应用用提提供供数数据据支支持持为为原原则则。。简单单地地说说,,数数据据仓仓库库就就是是一一个个为为特定定的的决决策策分分析析而而建建立立的的数数据据仓仓储储。71(三三))商商务务智智能能技技术术如何何对对数数据据进进行行快快速速和和准准确确分分析析,,从从而而为为企企业业做做出出更更好好的的商商业业决决策策,,带带来来竞竞争争优优势势,,这这是是商商务务智智能能研研究究的的问问题题。。任何好的的商务决决策都需需要事实实和数字字支持。。一个决决策的正正确程度度取决于于所使用用的事实实和数字字的正确确程度。。随着竞竞争的加加快,需需要在较较短的时时间内做做出决策策。因此此,在该该时间段段内,能能够尽可可能多地地获得相相关信息息就变得得越来越越关键。。72在这些实实践的需需求下,,人们发发明了许许多数据据分析的的技术。。总起来来讲,数数据分析析技术的的发展可可分为三个阶段段:(1)报表查查询;(2)联机分分析处理理(OLAP);(3)数据挖挖掘。73(1)联机分析析处理OLAP联机分析析处理((On-LineAnalysisProcessing),简写写为OLAP。OLAP是关系数数据库的的奠基人人在1993年提出来来的,主主要用于于对大量量多维数据据的动态综综合,分分析和归归纳。74①什么么是多维维分析“多维分析析”是OLAP中的一个个主要操操作。维是人们观观察数据据的特定定角度。。如,一个个企业在在考虑产产品的销销售情况况时,通通常从时时间、地地区和产产品的不不同角度度来深入入观察产产品的销销售情况况。这里里的时间间、地区区和产品品就是维维。而这这些维维的不不同组组合和和所考考察的的度量量指标标构成成的多多维数数组则则是报报表分分析的的基础础,可可形式式化表表示为为(地地区、、时间间、产产品、、销售售额))。75多维分分析是指对对以多多维形形式组组织起起来的的数据据通过过各种种分析析动作作,剖剖析数数据,,使用用户能能从多个角角度、、多侧侧面地观察察数据据库中中的数数据,,从而而深入入理解解包含含在数数据中中的信信息。。76切片和和切块块(sliceanddice)切片::在多维维视图图中,,如果果某个个维度度上的的取值值选定定了一一个固定值值,原视视图就就降低低了一一个维维度,,可能能就把把原来来的三三维视视图变变成了了二维维,四四维变变成了了三维维,即即进行行了切片操作。。切块::如果某某个维维度上上的取取值范范围缩缩小到到一个个区间,原视视图的的维度度没有有降低低,但但内容容减少少了,,即进进行了了切块操作。。②多多维分分析的的方法法77切片与与切块块78钻取(drill)多维视视图中中的每每个维维度的的取值值可以以分层层,如时间间维的的取值值可以以按年年-季-月-日分层层;地地区可可以按按州-国家-地区-城市分分层。钻取就是按按某个维度度上的不同同取值层次次变换多维维视图,钻钻取包括向上钻取(rollup)和向下钻取(drill
down)。rollup:在某一维上上将低层次次的细节数数据概括到到高层次的的汇总数据据,或者减减少维数;;drill
down:从汇总数数据深入到到细节数据据进行观察察或增加新新维。如从月份到到年为向上上钻取,反反之为向下下钻取。79钻取80旋转(rotate)变换维的方方向,即在表格格中重新安安排维的放放置(例如如行列互换换)。通过对多维维视图中各各个坐标的的旋转变化化可以得到到不同视角角的数据。。如,从分析析产品在不不同月份的的销售情况况,旋转为为某月份哪哪些产品的的销售情况况较好。81旋转/转轴82(2)数据挖掘DM数据挖掘(DataMining,DM)是从数据据库中抽取取隐含的,,以前未知知的,具有有潜在应用用价值的信信息的过程程。数据挖掘建立在数据据仓库基础之上,,面向非专专业用户,,支持即兴兴的随机查查询,能自自动分析数数据,对它它们进行归归纳性推理理和联想,,寻找数据据间内在的的某些关联联,从中发发掘出潜在在的,对信信息预测和和决策行为为起着十分分重要作用用的模式,,从而建立立新的业务务模型,以以帮助决策策者制定市市场策略,,做出正确确决策。83数据挖掘的的主要方式式:①分类(classification)分类是从大大量数据中中找出不同同类别对象象的特征,,从而对新新加入的对对象能自动动分类。首先从数据据中选出已已经分好类的训训练集,在该训练练集上运用用数据挖掘掘分类的技技术,建立立分类模型型,对那些些没有分类类的数据进进行分类。。因此,分分类是一种种“有监督”的学习习。例如银行会会根据各类类客户的数数据特征,,把客户分分为低、中中、高信誉誉度三类,,以后就能能快速判断断一个新客客户的信用用类别;还还可用于预预测可能流流失投奔竞竞争对手的的客户等。84数据分类过过程数据分类是是一个两步步的过程:1)建立分类类模型:机器学习过过程,通过过某种分类类算法对训训练集进行行训练,得得到分类模模型;“有指导的的学习”、、“有监督督的学习””假定每个个元组属属于一个个预定义义的类,,由一个个称为类标号属属性的属性确确定;训练数据据集:为为建立分分类模型型而被分分析的数数据元组组2)使用模模型进行行分类:测试数据据集:用用于评估估模型的的预测准准确率。。模型在在测试集集上的准准确率是是正确被被模型分分类的测测试样本本所占的的百分比比。如认为模模型的准准确率可可以接受受,就可可以用它它来对类类标号未未知的数数据元组组或对象象进行分分类。85图分类示意意图86分类过程程的第一一步:学学习建模模87分类过程程的第二二步:分分类测试试88②聚类(clustering)聚类是一一个将数数据集划划分为若若干组((class)或类((cluster)的过程程,并使使得同一一个组内内的数据据对象具具有较高高的相似似度;而而不同组组中的数数据对象象是不相相似的。。相似或不不相似是是基于数数据描述述属性的的取值来来确定的的,通常常利用各各数据对对象间的的距离来进行表表示。例如通过过聚类将将超市的的客户划划分成互互不相交交的客户户群,以以后超市市可以为为不同的的客户群群推荐不不同的目目标商品品;对租租VCD影碟的客客户进行行聚类,,可能得得到属于于不同的的文化群群的客户户。聚类与分分类的主主要区别别:聚类是一一种无(教师师)监督督的学习方方法。与与分类不不同,其其不依赖赖于事先先确定的的数据类类别,以以及标有有数据类类别的学学习训练练样本集集合。因此,聚聚类是观观察式学学习,而而不是示示例式学学习。聚类分类监督(指导)与否无指导学习(没有预先定义的类)有指导学习(有预先定义的类)是否建立模型或训练否,旨在发现空间实体的属性间的函数关系。是,具有预测功能例:扑克克牌的划划分(聚聚类)扑克牌的的划分属属于聚类类问题。。在不同同的扑克克游戏中中基于不不同相似似性度量量(花色、点点数或颜颜色),对扑克克牌进行行划分。。聚类与分分类的主主要区别别:(b)(a)(c)(d)图十六张牌牌基于不不同相似似性度量量的划分分结果例:垃圾圾邮件的的识别((分类))垃圾邮件的识识别属于分类类问题,所有有训练用邮件件预先被定义义好类标号信信息,即训练练集中的每封封邮件预先被被标记为垃圾圾邮件或合法法邮件信息,,需要利用已已有的训练邮邮件建立预测测模型,然后后利用预测模模型来对未来来未知邮件进进行预测。聚类与分类的的主要区别::93③关联规则则发现(associationrulediscovery)关联规则发现现是在大量数数据中找出有有关联的数据据,或者找出出同时发生的的事件。如:超市中客客户在购买A的同时,经常常会购买B,即A=>B。典型应用:““啤酒与尿布布”。超市货架的组组织——“啤酒与尿布”货架的组织会会影响商品的的销售!超市商品按什什么原则摆放放?尿布与啤酒被被摆在一起。。为什么?原来,美国的的妇女通常在在家照顾孩子子,所以她们们经常会嘱咐咐丈夫在下班班回家的路上上为孩子买尿尿布,而丈夫夫在买尿布的的同时又会顺顺手购买自己己爱喝的啤酒酒。这种现象象就是卖场中中商品之间的的关联性,研究“啤酒与尿布”关联的方法就就是购物篮分分析,购物篮分析析是沃尔玛秘秘而不宣的独独门武器,购购物篮分析可可以帮助超市市在销售过程程中找到具有有关联关系的的商品,并以以此获得销售售收益的增长长!关联销售!关联规则挖掘掘典型例子:购购物篮分析如,在同一次次购物中,如如果顾客购买买牛奶,则他他同时购买面面包(和什么么类型的面包包)的可能性性有多大?“啤酒与尿布””基本概念1)支持度(support):支持度是模式式为真的任务务相关的元组组(或事务))所占的百分分比。对于形形如“”的关联联规则则,支支持度度定义义为::其中,,A、B是项目目的集集合。。示例::假定任任务相相关数数据由由AllElectronics的计算算机部部的事事务数数组成成,一一个支支持度度为30%的关联联规则则:意味着着在计计算机机部的的所有有顾客客中,,有30%同时购购买了了计算算机((A)和软软件((B)。2)置信信度(certainty):每个发发现的的模式式都有有一个个表示示其有有效性性或值值得信信赖性性的度度量。。对于于形如如“”的关联联规则则,其其有效效性度度量为为置信信度,,定义义为::其中,,A、B是项目目的集集合。。示例::假定任任务相相关数数据由由AllElectronics的计算算机部部购买买物品品的事事务数数组成成,一一个置置信度度为85%的关联联规则则:意味着着买计计算机机(A)的顾顾客中中,有有85%也同时时购买买了软软件((B)。基本概概念3)强关关联规规则::置信度度表示示规则则的可可信度度;支持度度表示示模式式在事事务数数据库库中的的出现现频率率;同时满满足用用户定定义的的最小小置信信度和和最小小支持持度阈阈值的的关联联规则则,称称为强强关联联规则则(strongassociationrule),并并被认认为是是有趣趣的。。基本概概念100④时时序模模式发发现((sequentialpatterndiscovery)时序模模式发发现主主要寻寻找事事件发发生的的时序序关系系,如如通过过对超超市数数据的的跟踪踪分析析,可可能会会寻找找出类类似于于如下下的时时序模模式::客户户在购购买A后,隔隔一段段时间间,会会购买买B。101背景::有一家家叫做做“体体育精精品””的体体育用用品公公司,,公司司总部部在悉悉尼,,并在在其他他7个国家家中设设有销销售办办事处处。且且在不不同的的销售售地点点都建建立起起管理理本地地域内内销售售信息息的信信息系系统。。为了了增增加加销销售售,,销销售售副副总总裁裁决决定定通通过过奖奖励励的的方方式式来来进进行行促促销销,,销售售额额最最多多的的地地区区和和销销售售最最多多的的产产品品将受到奖奖励。这这位副总总裁要求求首席信信息官((CIO)写出相相关的调调查报告告。综合案例例:用商商务智能能技术提提高你的的商务决决策水平平102分析:对CIO来说,这这项任务务看起来来很简单单,但在在生成这这些报告告之前有有许多工工作要做做,并且且特别需需要在短短时间内内解决::数据的整整合:销售数数据存储储在不同同地区不不同类型型的数据据库中。。数据的格格式与单单位:在不同同的地区区,数据据的存储储格式不不一致,,且营业业额数据据的单位位也不一一致,采采用的是是所在国国家的货货币单位位。103(1)数据仓仓库的应应用首先,所所有的数数据都必必须集中中到总部部,形成成存储整整个企业业所有相相关信息息的数据仓库库。相对而而言,公公司中的的单个部部门用的的信息库库可被称称作数据集市市。借助于数据仓库库工具,如IBMVisualWarehouseV3.1,这些任任务可以以很快定定时地自自动完成成。我们们得到美美国的西西雅图是是销售额额最高的的地区,,而山地地车是最最畅销的的产品。。负责销售售头盔的的副总裁裁看到上上面的报报告,他他决定看看看新建建的数据据仓库能能否给他他提供更更多的信信息来帮帮助他提提高销售售额。CIO建议采用用在线分析析处理OLAP的方法。。104(2)OLAP的应用CIO帮助副总总裁用OLAP方法来进进一步分分析数据据,下面面的多维维分析涉涉及五个个维度,,即产品、销销售、数数量、地地区和时时间。副总裁裁想要知知道的是是:(1)1月份,头头盔在什什么地区区销售最最好?(2)1月份,哪哪个国家家的头盔盔销售在在该畅销销地区处处于领先先地位??(3)在领先先的国家家中,哪哪个城市市的头盔盔销售收收入最高高?105要回答这这些问题题,CIO必须要用用到OLAP中钻取和和切片的的方法。。切片:固定1月份、头头盔和销销售,相相当于去去掉了三三个维度度(产品,销销售,时时间),只在在数量和和地区两两个维度度上进行行分析。。钻取:确定了地地区后,,采取下下钻的方方法,将将该地区区按国家家展开,,分析哪哪个国家家的销售售最高??继续下下钻,从从城市维维度进行行分析。。106按地区划划分的头头盔销售售数据数据分析析:107数据分析析:按地区和和国家划划分的头头盔销售售数据108数据分析析:按地区、、国家和和城市划划分的头头盔销售售数据109最终我们们可以得得到类似似下面这这样的结结论:(1)1月份,头头盔在欧欧洲地区区销售最最好;(2)1月份,德德国是欧欧洲头盔盔最畅销销的国家家;(3)德国汉汉诺威是是头盔最最畅销的的城市。。110这位副总总裁同时时发现,,尽管山山地车在在西雅图图销售最最多,但但头盔的的销售却却不尽如如人意。。头盔与与山地车车的比例例大约是是1:5。但他还注注意到,,在汉诺诺威该比比例却几几乎是1:1,这时他他记起来来,在西西雅图的的商店里里山地车车和头盔盔放置得得不像在在汉诺威威那样近近。他决定在在西雅图图的商店店里把这这2种产品摆摆放在一一起,并并每天查查看头盔盔和山地地车的销销售状况况。111数据分析析:山地车和和头盔销销售的比比较112这说明在在山地车车和头盔盔之间存存在着关关联,通通过多维分析析的方法,,我们可可以发现现这些关关联,但但是如果果想要发发现更多多的关联联,这样样做会非非常浪费费时间。。而数据挖挖掘可以以系统地地帮助我我们解决决这些问问题。113(3)数据挖挖掘的应应用数据挖掘掘不仅能能够允许许用户确确定假设设,而且且还帮助助用户发发现新的的信息,,如上面面提及的的关联。。IBM的IntelligentMinerfordata和IntelligentMinerfortext是一种数数据挖掘掘工具。。前者用用来对数数据进行行搜寻,,如公司中中的交易易数据;后者则则用于对对文本数数据的搜搜寻,如在图书书馆中进进行检索索。IntelligentMiner中包含6种主要算算法:关关联、顺顺序模型型、预测测模型、、分类、、聚类和和偏差识识别。114前面提到,副副总裁发现山山地车和头盔盔的销售不是是1:1,还存在其他他类似的问题题吗?CEO可能想到的问问题如下:(1)对购买山地地车的客户来来说,什么是是最可能会同同时购买的商商品?(2)购买气瓶的的顾客1年内回来充气气多少次?115IntelligentMinerfordata可以使用关联算法来回答第一个个问题。关联联算法用以发发现产品之间间的联系。对对第一个问题题的回答是::头盔,可能能性为92%;手套,可能能性为62%;新款铃铛,,可能性为23%;速度计,可可能性为13%。根据上面的答答案,它会给给销售人员一一个目录,列列出在销售某某一具体产品品时所建议的的前3名关联产品。。例如,如果销售山地地车,销售人人员可建议购购买头盔、手手套和新款铃铃铛。116IntelligentMinerfordata对CEO的第二个问题题会给出如下下答案:在购购买气瓶的顾顾客中,有12%会回来充1次气;8%的客户会回来来充2次气;7%的客户回来充充气的次数超超过2次。根据上面的的结果,公公司可能做做出两个决决定,一个个是考虑到到充气业务务不是很景景气,放弃弃充气;另另一种是对对多于2次的充气给给于25%的折扣优惠惠来提高充充气业务。。公司还可可以采取其其他行动,,如依然坚坚持充气业业务,给现现有和新的的气瓶拥有有者提出刺刺激措施::如给购买买气瓶的顾顾客邮寄信信函提醒他他们要回来来充气;在在客户停车车场建立更更多的便利利充气站以以及每一次次充气都发发折扣优惠惠券。1173个月后,公公司有了如如下结果::季度的营营业额上升升了34%,收入上涨涨了34%;山地车与与头盔一起起购买成了了时尚;手手套的销售售上升了15%;气瓶充气气的销售也也开始上升升。因此,用商商务智能技技术可以帮帮助组织提提高商务决决策水平,,最终的结结果是增加加销售额,,提升利润润。118小结::数据仓库、、OLAP和DM是三种独立立的信息处处理技术。。数据据仓仓库库用于于数数据据的的存存储储和和组组织织;;OLAP集中中于于数数据据的的分分析析;;DM则致致力力于于知知识识的的自自动动发发现现。。119(四四))数数据据模模型型(1)数数据据模模型型的的定定义义数据据库库是是企企业业、、组组织织或或部部门门所所涉涉及及的的数数据据的的综综合合,,它它不不仅仅反反映映数数据据本本身身的的内内容容,,而而且且还还反反映映数数据据直直接接的的联联系系。。在在数数据据库库系系统统中中用用数数据据模模型型来来抽抽象象地地表表示示这这些些具具体体数数据据。。数据据模模型型即即表表示示数数据据和和数数据据之之间间的的联联系系的的方方法法。数据据模模型型是是为为了了便便于于DBMS的管管理理而而构构造造的的,,是是数数据据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钢材剪切加工项目可行性研究报告
- 防汛救灾等级课件
- 防汛抢险应急知识培训会课件
- 绿色科技行业工艺流程
- 数字赋能职业教育与就业服务创新-洞察及研究
- 深圳劳动合同样本下载(新版)3篇
- 四川省绵阳市涪城区2025年九年级下学期中考一模数学试卷(含答案)
- 期中专题复习-词汇句型训练-2025-2026学年 译林版2024 英语八年级上册 原卷
- 河南省漯河市实验中学2024-2025学年上学期七年级第一次月考测试英语试卷(含答案无听力原文及音频)
- 三尖瓣狭窄风险预测模型-洞察及研究
- 2025年中级注安《安全生产管理》真题及答案
- 企业外来人员管理办法
- 儿童生长曲线课件
- 中国饮食发展史课件
- 淋巴瘤健康教育课件
- 国家基层肥胖症综合管理技术指南(2025)解读课件
- 2025-2026学年冀人版(2024)小学科学二年级上册(全册)教学设计(附教材目录 )
- 雨污分流管道检测与修复施工方案与技术措施
- 2025年河北大学版(2024)小学信息科技三年级(全一册)教学设计(附目录 P179)
- 鲁科版高中物理必修第三册 第4章闭合电路欧姆定律与科学用电 第1节闭合电路欧姆定律 课件
- 中国真空杯行业发展分析及发展趋势预测与投资风险研究报告2025-2028版
评论
0/150
提交评论