




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息管理技术第六章2第一节数据资源管理第二节数据通信与计算机网络第五章信息管理技术3信息技术(InformationTechnology,IT)同信息一样,是非常流行的术语。现代信息管理从一开始便与信息技术紧密相联。从某种意义上说,现代信息管理必须以现代信息技术为依托。
信息技术是能够扩展人类信息器官功能的,帮助完成信息的获取(收集、识别和提取)、传输(变换、存储和传递)、加工(处理和检索)、再生(分析)和利用等的一类技术的总称。前言4人的信息器官可以分为:感觉器官:视觉、听觉、嗅觉和触觉等;承担对外界信息的获取功能。神经系统:导入神经网络、中间传导神经网络和导出神经网络;承担信息的传递功能。思维器官:人的大脑;承担信息的认知和再生功能。效应与执行器官:操作器官(手)、行走器官(脚)、语言器官(嘴、喉、舌);承担信息的执行或施用功能。5与人的信息器官对应,信息技术也可以分成四大类:①感测技术(Collection):用于信息获取,其延长的是感觉器官采集信息的能力,可以将人类的感觉器官延伸到人力所不能及的微观世界和宏观世界中去提取信息。②通信技术(Communication):用于信息传递,其延长的是传导神经系统传递信息的能力,包括信息的时间和空间的传递。6③计算机技术(Computer):用于信息认识和再生,其延长的是思维器官处理信息和决策的能力,包括计算机硬件和软件技术、人工智能、专家系统和人工神经网络等技术。④控制技术(Control):用于信息执行,其延长的是效应器官的应用信息的能力,包括服务调节技术和自动控制技术。7这四种技术结合起来,称为“4C”技术。其中,计算机技术和通讯技术是整个信息技术的核心。如果说计算机技术是现代社会的“大脑”,那么通信技术就是现代社会的“中枢神经系统”。对于信息管理领域来说,信息处理技术和通信技术是最重要的两种信息技术工具。本章主要从信息处理技术和通信技术两个角度来讲解信息管理领域用到的信息技术。8第一节数据资源管理
随着信息社会的发展,数据成为一种重要的组织资源,数据资源管理是管理活动最基本的内容,也是信息系统最基本的功能。虽然数据处理一般不涉及非常复杂的数学计算,但因要求处理的数据量很大,所以需要专门的技术支持。9在信息系统中,数据资源管理指的是对数据的收集、加工、检索、存储、传输、利用和维护的过程。它的主要任务是实现对数据的合理组织、维护和存取,处理好应用程序和数据之间的关系。10(一)数据组织的基本概念数据只有经过组织才能成为有价值的信息数据的组织数据的逻辑组织数据的物理组织11(1)数据的逻辑组织任何信息系统都有一个数据组织的层次体系,在该层次体系中,每一后继层次都是其前导层次数据组合的结果,最终所形成的是一个综合的数据库。12(1)数据的逻辑组织在信息系统中形成的数据的逻辑组织层次如下图:图1数据的逻辑组织层次13数据项:组成数据库系统的有意义的最小单位,用于描述一个数据处理对象的某些属性,处于最底层,具有不可分割性。如:若数据处理的对象是公司员工,公司员工的属性包括员工姓名、工作证号、职位、月份和薪金,则在数据库系统中,可通过设置数据项表示这些属性。14记录:是与数据处理的某一具体对象相关的数据项的集合,用于表示一个具体的数据处理对象。如:如果把每一个员工的所有数据项排列在一起就形成了这个员工的一条记录,每一条记录都有主关键字,即唯一标示一条记录的属性。如,在公司员工记录中,工作证号可以作为员工记录的主关键字。15文件:是与某个特定的主题相关的同类记录的集合,用于表示一个数据处理的对象集。如,员工薪金文件包含有关员工薪金的记录。文件按其各记录的长度是否相同又可分为:①定长记录文件:是指文件中所有记录的长度都相同。②变长记录文件:是指文件中各记录的长度不相同。如,姓名、单位地址、文章的标题等,有长有短,并不完全相同。16数据库:按一定方式组织起来的逻辑相关的文件集合。如,公司员工数据库中可包含员工薪金文件、员工工作考核文件、员工个人资料文件这三个不同的文件。数据库是数据组织的最高形式,也是应用最广泛的数据组织的管理方法和技术。17(2)数据的物理组织数据的物理组织指的是数据在存储设备上的物理存取方式,依赖于存取的介质。
在基于计算机的信息系统中,文件是数据库组织的基础,任何对数据库的操作最终都要转化为对文件中数据的操作。不同的数据物理组织形式对应着不同的数据处理方式,同时也将直接影响着整个系统的存取效率。
18如企业的人事系统存储了大量的职工数据,这些数据一般不会经常改动,其主要目的是进行查询,采用的组织形式应尽量使查询响应的时间变短。而商店的销售系统,存储大量的销售数据,每天结束后要进行相关的统计操作,其主要目的是对数据的相关处理,采用的组织形式应使数据处理的效率高。对于这两种用途,数据的物理组织形式应是怎样的呢?提出问题?19数据的存取方式有顺序存取和直接存取。①顺序存取:按照数据存储的顺序来访问。
顺序存取的文件的逻辑顺序与物理顺序一致,一个逻辑上连续的文件信息被存放在连续变化的物理块或物理记录中,数据在存储设备上占有一段连续的存储空间。如:磁带顺序存取存放的文件结构简单,便于程序设计;但缺点是操作效率低,若文件较大,对记录的查询、插入操作所花费的时间较长。
数据的存取方式20②直接存取:不需要经过其他的数据而直接访问所需要的数据的方式。
直接存取的文件只能存储在磁盘等随机存储设备上,其逻辑顺序与物理顺序不一致。只要确定了某个记录的存储地址,就可直接对其进行存取操作,而不必考虑和其他记录之间的关系。如磁盘、光盘、U盘等。21对商店的销售数据,逻辑上需要销售数据按时间先后排列,这样便于对数据进行统计分析,因此,商店销售系统采取的存取方式可以采用顺序存取方式。对企业人事系统,要求数据的存取效率高,查询速度快,插入、删除简单,因此,可以采取直接存取方式。答案是:销售数据—顺序存取;
人事数据—直接存取你想到了吗?问题的答案22(二)数据组织的发展过程数据管理技术的发展,与计算机硬件和软件技术发展有密切的关系,并随着信息处理需求的发展而不断发展。总起来讲,数据组织的发展经历了四个阶段:人工管理阶段(1946年-20世纪50年代中期之前)文件系统管理阶段(20世纪50年代后期到60年代中期)数据库阶段(20世纪60年代后期-80年代中期之前)高级数据库阶段(20世纪80年代中期)23(1)人工管理阶段(20世纪50年代中期前)
人工管理阶段又称为数据库系统的简单应用阶段。在20世纪50年代中期以前,计算机主要用于科学计算。外部存储器大多采用的是顺序存取设备,如磁带、卡片等,没有磁盘等直接存取设备。软件只有汇编语言,没有操作系统软件,更没有数据管理方面的软件,数据的管理者是人。
24特点
①数据和程序依赖性强,数据均由应用程序直接管理:数据是面向应用的,每一个应用程序都自带数据,数据和程序紧密相连,成为程序的一个重要组成部分。②数据不能长期保存:主要原因是这个时候的计算机主要用于计算,将原始数据连同程序一起输入内存,计算完毕后输出结果,同时释放数据空间。且没有软件系统对数据进行管理。③数据无法共享:数据完全分散,大量重复,数据存在的形式和时间长短完全依赖于所依附的应用程序,数据之间的相关性无法处理。25数据程序无独立性数据不能长期保存数据无法共享人工管理阶段人工管理阶段
26(2)文件管理阶段(20世纪50年代后期到60年代中期
)
计算机应用范围逐渐扩大,不光用于计算,还用到了信息管理上。计算机硬件有了磁盘、磁鼓等直接存取的存储设备,数据可长期存储在这些外部存储器的磁盘上。软件领域有了高级语言和操作系统,操作系统中的文件系统作为专门的数据管理软件,这使得数据不再属于某个特定的程序,具备一定的独立性,但是由于此时文件结构的设计仍然是基于某些特定的用途,程序也基于某些特定的物理结构和存取方法,因此数据和程序的依赖关系没有从根本上改变。27特点
①数据、程序分开存储:数据被组织成文件的形式保存在外存上,实现了以文件为单位的数据共享,文件可保存,可反复使用。②数据、程序仍相互依赖:程序和数据分离,但数据和应用程序独立性不高,因为文件系统的逻辑结构是对应于某个具体的应用程序的,为某个应用所组织的数据与其它应用所组织的数据不兼容,若文件结构发生变化,则相应的应用程序也要进行修改。28③数据冗余和数据不一致:数据文件是面向应用的,多个文件间无相关性,同样的数据可能存放在不同的文件中,造成数据冗余的现象。如,宿舍管理处,财务处,学生管理处都会保存学生文件,而像学生名、性别、联系方式等数据项几乎在每个文件中都重复出现。导致在更新时容易产生数据的不一致。④管理困难:各个数据文件相互独立,分散保管,文件所有者很难对它们进行管理。文件之间的联系只有通过程序才能实现。当用户需要的信息来自不同文件时,就需要对多个不同文件的信息内容进行提取、比较、组合。29文件管理阶段数据程序分开存储数据程序相互依赖数据冗余度大数据不一致性文件管理阶段30(3)数据库阶段(20世纪60年代后期到80年代早期
)
随着组织管理规模的扩大,处理的数据量急剧增加,文件系统的数据冗余和数据不一致使得数据管理变得非常困难,数据库系统和大容量外存设备的出现又使数据管理技术得到了进一步发展。数据库技术是在文件系统上发展起来的一种理想的数据管理技术,是一个相关数据的集合,可实现数据被多个应用程序共享。如,它可以将一个单位或一个部门所需的数据综合组织在一起,由数据库管理系统软件实现对数据库的定义,操作和管理。31特点①采用复杂的数据模型表示数据结构:数据库中数据模型不仅描述了数据自身的特征,还描述了数据间的关系,使数据结构化,这是数据库和文件系统的本质区别。②数据冗余度小,能够实现数据共享:数据库系统允许多个用户或多个应用程序同时访问数据库中的相同数据,数据不再面向特定的某个或多个应用,而是面向整个系统,相关数据集合可由多个应用程序共享,节省了存储空间,避免了数据间的不一致现象。32③具有较高的数据独立性:数据库系统提供了三层数据抽象(视图级抽象、概念级抽象、物理级抽象)能力和三种数据库模式(外模式、模式和内模式),实现了数据的物理独立性和逻辑独立性。数据和程序相互独立,数据的存取和交换均由数据库管理系统统一管理,用户以简单的逻辑结构操作数据而无需考虑数据的物理存储结构。④为用户提供了方便的接口:用户可以使用查询语言如SQL或终端命令访问数据库,也可以用程序指令操作数据库。
33⑤提供统一的数据控制功能:为了适应数据共享的环境,数据库管理系还提供了以下四种数据控制功能:并发控制:控制多个事务的并发运行,避免并发程序间相互干扰,保证每个事务产生正确的结果。数据恢复:当数据库由于意外故障被破坏时,系统有能力把数据库回复到最近某已知的正确状态。数据完整性:通过完整性约束保证数据的正确性、有效性和相容性,如将数据控制在有效的范围内,如设定工资的范围;数据安全性:为不同用户设置不同权限,保证数据的安全。34数据程序完全独立数据可以共享数据模型表示数据结构数据库阶段数据库阶段
35图2银行文件处理系统
示例:银行事务处理客户财务报表帐户核对处理存款处理分期贷款处理贷款分析报告客户票据存款文件帐户核对文件帐户核对程序存款程序客户交易分期贷款程序分期贷款文件36客户交易处理数据库管理系统核对帐户程序存款帐目程序分期贷款程序客户数据库..图3银行数据库系统
37(4)高级数据库阶段(20世纪80年代中期至今
)
随着管理环境的变化,企业中的数据和信息的类型发生了变化;而随着多媒体技术和网络技术的成熟,企业中的数据和信息的处理方式也发生了变化,从而导致数据库技术出现了新的发展趋势,这些新趋势允许组织在不同的场所对数据进行处理,允许数据库中存放声音,图像等,并允许在大量的,杂乱无章的数据中找出某些相关性。这使得数据库技术发展到了高级数据库阶段。38①分布式数据库
分布式数据库是由一组物理位置分散的数据库构成的,它们在逻辑上属于同一个系统。
分布式数据库系统可以简单地被看成是“数据库系统+计算机网络”,但它又不是二者的简单结合,而是两种技术的互为渗透与融合。它要管理的不是单个数据库系统,而是分布在许多不同地域上的多个数据库系统。使用计算机网络也不仅仅是为了简单的传输文件,而是为了更能适应于一个特定组织高效地管理信息。39分布式数据库系统具有分布性和逻辑协调性的特点。分布性:是指数据不是存放在单一场地为单个计算机配置的存储设备上,而是按全局需要将数据划分成一定结构的数据子集,分散的存储在各个节点上,提高了数据的处理效率。逻辑协调性:是指各节点上的数据子集,相互间由严密的约束规则加以限定,它们既相互独立又逻辑相关,在逻辑上形成一个整体。40需关注的问题:
分布式数据库的性能取决于高质量的网络通信线路,线路的脆弱会严重影响分布式数据库的运行功效。同时由于远程数据库要不断从中央数据库取数据,这样就牵涉到一个敏感的数据的安全性保护的问题,也需要建立有效的手段加以保证。41②多媒体数据库
随着信息数量和多媒体数据的引入,信息的管理和检索变得越来越困难,给数据库技术带来了新的挑战。20世纪80年代,由于计算机在处理声音和图像信息方面的发展,出现了声音文件和图像文件,于是就诞生了多媒体数据处理的新方法--多媒体数据库。42
多媒体是指多种媒体,如数字,正文,图形,图像和声音的有机集成。多媒体数据库,是指在数据库中不仅可以存储文本和数据,而且还可以存储图像,音频和视频信息以及这些不同类型数据间的复杂关系。43③数据仓库
随着市场竞争的加剧和信息社会需求的发展,从大量数据中提取(检索和查询等)制定相应策略的信息就显得越来越重要。
如,超市的经营者希望知道哪些商品经常被同时购买;保险公司想知道购买保险的客户的一般特征;医学研究人员希望从已有的成千上万份病历中找出患有某种疾病的病人的共同特征,从而为治愈这种疾病提供帮助等。1.为什么要建立数据仓库?45从数据库到数据仓库管理信息的处理类型:(1)事务型处理:业务操作处理,用来协助企业对相应事件或事务的日常商务活动进行处理。是事件驱动、面向应用的,通常是对一个/组记录的增、删、改以及简单查询等,以满足组织特定的日常管理需要;(2)分析型处理:用于管理人员的决策分析,例如DSS、EIS和多维数据分析等。帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询分析。1)数据库的局限数据库作为数据资源,主要用于管理业务中的事务处理。如,电信部门的计费数据库用于记录客户的通信消费情况;银行的数据库用于记录客户的账号、密码、存入和支出等一系列业务行为。数据库中存放的数据基本上是保存当前数据,并随业务的变化随时更新数据库中的数据。不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。1)数据库的局限当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统(异构),在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力的。482)操作型与分析型环境的分离要摆脱传统数据库面临的困境,必须将用于事务处理的数据环境和用于数据分析的数据环境分离:(1)事务型处理:以传统数据库为中心进行企业的日常业务处理,其使用人员通常是企业的具体操作人员;处理企业业务的细节信息,以实现企业的业务运营;(2)分析型处理:分析数据背后的关联和规律,为企业决策提供可靠依据,其使用人员通常是企业的中高层管理者,或从事数据分析的工程师;处理企业的宏观信息,而非具体细节,以为企业的决策者提供支持信息。49分离示意图502)操作型与分析型环境的分离
操作型处理和分析型处理的分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原来的以单一数据库为中心的数据环境发展为以数据库为中心的业务处理系统和以数据仓库为基础的分析系统。
企业的生产环境,也由以数据库为中心的环境发展为以数据仓库为中心的环境。5152转换同时进行的集成2.什么是数据仓库?数据仓库(DataWarehouse)数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用户接口,完成数据查询和分析。在数据仓库的发展过程中,许多人作出重要贡献:
Devlin&Murphy(1988):发表关于数据仓库论述的最早文章;WilliamH.Inmon(1993):《BuildingtheDataWarehouse》,首次系统阐述数据仓库的思想、理论,被尊为“数据仓库之父”。数据仓库(DataWarehouse)数据仓库的定义很多,但却很难有一种严格的定义:它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台,对信息处理提供支持。数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.---3.数据仓库有哪些特点?数据仓库的关键特征关键特征:
面向主题;
集成的;
随时间而变化的(时变的);不容易丢失的(稳定的)。58面向主题面向主题,是数据仓库显著区别于关系数据库系统的一个特征;给出数据仓库中数据组织的基本原则,数据仓库中所有数据都是围绕某一主题组织、展开的;主题在逻辑上对应的是企业中某一宏观分析领域所涉及的分析对象;要能刻画分析对象所涉及的企业各项数据,以及数据间的联系。如,一个生产企业的数据仓库所组织的主题可能是产品订货分析和货物发运分析,而按应用组织的话可能为财务子系统、供应子系统、销售子系统、人力资源子系统和生产调度子系统等。典型的主题领域:客户、产品、交易、账目等。59面向主题关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。60集成性一个数据仓库是通过集成多个异种数据源来构造的;关系数据库,一般文件,联机事务处理记录数据仓库中的综合数据不能从原有的数据库系统直接得到,需使用数据清理和数据集成技术对数据进行处理:统一元数据中矛盾之处:确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时,它们要经过转化:进行数据综合和计算。61随时间而变化的(时变的)数据仓库从历史的角度来提供信息:时间范围比操作数据库系统要长的多操作数据库系统:主要保存当前数据;数据仓库:从历史的角度提供信息(比如过去5-10年)62数据不易丢失(稳定的)尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的操作数据库的更新操作不会出现在数据仓库环境下。只进行两种数据访问:数据的初始装载;
查询操作。数据仓库与传统数据库的区别比较项目传统数据库数据仓库总体特征高效的事务处理提高决策支持存储内容当前数据为主历史的、存档的、归纳的数据面向对象普通的业务处理人员高级的决策管理人员功能目标面向业务操作面向主题,注重分析主要任务联机事务处理OLTP联机分析处理OLAP汇总情况原始数据,不做汇总多层次汇总数据库设计实体-联系模型(ER)和面向应用的数据库设计星型/雪花模型和面向主题的数据库设计数据视图当前的,企业内部的数据演化的、集成的数据访问模式事务操作只读查询数据规模较小(100MB~1GB)较大(10GB以上)数据访问量数十条记录数百万条记录响应要求很高的实时性对实时性要求不高度量事务吞吐量查询吞吐量、响应时间64数据集市(DataMart)的产生数据仓库的局限:企业级应用,涉及的范围和投入的成本非常巨大;而企业的部门/工作组常要求在企业内部获得一种适合自身应用、容易使用,且自行定向、方便高效的开放式数据接口工具。这种需求使得“数据集市”应运而生。65数据集市的定义业界对数据集市的定义差别较大,但普遍认为:数据集市是一种更小、更集中的数据仓库(子集);它为企业提供了一条部门/工作组级的分析商业数据的廉价途径。与数据仓库相比,数据集市的数据量要小得多。66数据集市与数据仓库的区别
数据仓库:企业级的,能为整个企业各个部门的运行提供决策支持手段;
数据集市:微型的数据仓库,通常有更少的数据,更少的主题区域,更少的历史数据,因此是部门级的,只能为某个局部范围内的管理人员服务,因此被称为“部门级数据仓库”。67数据集市的分类数据集市有两种类型:独立型数据集市:为满足企业内部各部门的分析需求而建立的微型数据仓库。可实施集成,以构建完整的数据仓库。从属型数据集市:其内容不直接来源于外部数据源,而是从中央数据仓库中得到。在数据仓库内部,数据根据分析主题,被划分为若干子集,而面向某一具体主题在逻辑上或物理上划分形成的子集,就是从属型数据集市。68独立型数据集市从属型数据集市69
数据仓库是信息技术领域谈论的一个热门话题。数据仓库概念是对数据库概念的进一步深化。数据仓库的建立并不是要取代数据库,它建立在一个较全面和完善的信息应用基础之上,用于支持高层决策的分析。注意:70
数据仓库是现有的数据库系统中的数据和其它一些外部数据的一次重组,重组时要以数据仓库能更好地为决策分析应用提供数据支持为原则。简单地说,数据仓库就是一个为特定的决策分析而建立的数据仓储。71(三)商务智能技术如何对数据进行快速和准确分析,从而为企业做出更好的商业决策,带来竞争优势,这是商务智能研究的问题。任何好的商务决策都需要事实和数字支持。一个决策的正确程度取决于所使用的事实和数字的正确程度。随着竞争的加快,需要在较短的时间内做出决策。因此,在该时间段内,能够尽可能多地获得相关信息就变得越来越关键。72在这些实践的需求下,人们发明了许多数据分析的技术。总起来讲,数据分析技术的发展可分为三个阶段:(1)报表查询;(2)联机分析处理(OLAP);(3)数据挖掘。73(1)
联机分析处理OLAP
联机分析处理(On-LineAnalysisProcessing),简写为OLAP。OLAP是关系数据库的奠基人在1993年提出来的,主要用于对大量多维数据的动态综合,分析和归纳。74①什么是多维分析
“多维分析”
是OLAP中的一个主要操作。维是人们观察数据的特定角度。如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是报表分析的基础,可形式化表示为(地区、时间、产品、销售额)。75
多维分析是指对以多维形式组织起来的数据通过各种分析动作,剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
76切片和切块(sliceanddice)切片:在多维视图中,如果某个维度上的取值选定了一个固定值,原视图就降低了一个维度,可能就把原来的三维视图变成了二维,四维变成了三维,即进行了切片操作。切块:如果某个维度上的取值范围缩小到一个区间,原视图的维度没有降低,但内容减少了,即进行了切块操作。②多维分析的方法
77切片与切块78
钻取(drill)多维视图中的每个维度的取值可以分层,如时间维的取值可以按年-季-月-日分层;地区可以按州-国家-地区-城市分层。钻取就是按某个维度上的不同取值层次变换多维视图,钻取包括向上钻取(roll
up)和向下钻取(drill
down)。
roll
up:在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;drill
down:从汇总数据深入到细节数据进行观察或增加新维。如从月份到年为向上钻取,反之为向下钻取。79钻取80旋转(rotate)
变换维的方向,即在表格中重新安排维的放置(例如行列互换)。通过对多维视图中各个坐标的旋转变化可以得到不同视角的数据。如,从分析产品在不同月份的销售情况,旋转为某月份哪些产品的销售情况较好。
81旋转/转轴82(2)
数据挖掘DM
数据挖掘(DataMining,DM)是从数据库中抽取隐含的,以前未知的,具有潜在应用价值的信息的过程。数据挖掘建立在数据仓库基础之上,面向非专业用户,支持即兴的随机查询,能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的,对信息预测和决策行为起着十分重要作用的模式,从而建立新的业务模型,以帮助决策者制定市场策略,做出正确决策。83数据挖掘的主要方式:
①分类(classification)
分类是从大量数据中找出不同类别对象的特征,从而对新加入的对象能自动分类。
首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对那些没有分类的数据进行分类。因此,分类是一种“有监督”的学习。
例如银行会根据各类客户的数据特征,把客户分为低、中、高信誉度三类,以后就能快速判断一个新客户的信用类别;还可用于预测可能流失投奔竞争对手的客户等。84数据分类过程数据分类是一个两步的过程:1)建立分类模型:机器学习过程,通过某种分类算法对训练集进行训练,得到分类模型;“有指导的学习”、“有监督的学习”假定每个元组属于一个预定义的类,由一个称为类标号属性的属性确定;训练数据集:为建立分类模型而被分析的数据元组2)使用模型进行分类:测试数据集:用于评估模型的预测准确率。模型在测试集上的准确率是正确被模型分类的测试样本所占的百分比。如认为模型的准确率可以接受,就可以用它来对类标号未知的数据元组或对象进行分类。85图
分类示意图86分类过程的第一步:学习建模87分类过程的第二步:分类测试88②
聚类(clustering)聚类是一个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。
相似或不相似是基于数据描述属性的取值来确定的,通常利用各数据对象间的距离来进行表示。例如通过聚类将超市的客户划分成互不相交的客户群,以后超市可以为不同的客户群推荐不同的目标商品;对租VCD影碟的客户进行聚类,可能得到属于不同的文化群的客户。
聚类与分类的主要区别:聚类是一
种无(教师)监督的学习方法。与分类不同,其不依赖于事先确定的数据类别,以及标有数据类别的学习训练样本集合。
因此,聚类是观察式学习,而不是示例式学习。聚类分类监督(指导)与否无指导学习(没有预先定义的类)有指导学习(有预先定义的类)是否建立模型或训练否,旨在发现空间实体的属性间的函数关系。是,具有预测功能例:扑克牌的划分(聚类)扑克牌的划分属于聚类问题。在不同的扑克游戏中基于不同相似性度量(花色、点数或颜色),对扑克牌进行划分。
聚类与分类的主要区别:(b)(a)(c)(d)图
十六张牌基于不同相似性度量的划分结果例:垃圾邮件的识别(分类)垃圾邮件的识别属于分类问题,所有训练用邮件预先被定义好类标号信息,即训练集中的每封邮件预先被标记为垃圾邮件或合法邮件信息,需要利用已有的训练邮件建立预测模型,然后利用预测模型来对未来未知邮件进行预测。聚类与分类的主要区别:93③关联规则发现(associationrulediscovery)
关联规则发现是在大量数据中找出有关联的数据,或者找出同时发生的事件。如:超市中客户在购买A的同时,经常会购买B,即A=>B。典型应用:“啤酒与尿布”。超市货架的组织——“啤酒与尿布”
货架的组织会影响商品的销售!超市商品按什么原则摆放?尿布与啤酒被摆在一起。为什么?原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助超市在销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!关联销售!关联规则挖掘典型例子:购物篮分析如,在同一次购物中,如果顾客购买牛奶,则他同时购买面包(和什么类型的面包)的可能性有多大?“啤酒与尿布”基本概念1)支持度(support):支持度是模式为真的任务相关的元组(或事务)所占的百分比。对于形如“”的关联规则,支持度定义为:其中,A、B是项目的集合。示例:假定任务相关数据由AllElectronics的计算机部的事务数组成,一个支持度为30%的关联规则:意味着在计算机部的所有顾客中,有30%同时购买了计算机(A)和软件(B)。2)置信度(certainty):每个发现的模式都有一个表示其有效性或值得信赖性的度量。对于形如“”的关联规则,其有效性度量为置信度,定义为:其中,A、B是项目的集合。示例:假定任务相关数据由AllElectronics的计算机部购买物品的事务数组成,一个置信度为85%的关联规则:意味着买计算机(A)的顾客中,有85%也同时购买了软件(B)。基本概念3)强关联规则:
置信度表示规则的可信度;支持度表示模式在事务数据库中的出现频率;同时满足用户定义的最小置信度和最小支持度阈值的关联规则,称为强关联规则(strongassociationrule),并被认为是有趣的。基本概念100④时序模式发现(sequentialpatterndiscovery)
时序模式发现主要寻找事件发生的时序关系,如通过对超市数据的跟踪分析,可能会寻找出类似于如下的时序模式:客户在购买A后,隔一段时间,会购买B。101背景:有一家叫做“体育”的体育用品公司,公司总部在悉尼,并在其他7个国家中设有销售办事处。且在不同的销售地点都建立起管理本地域内销售信息的信息系统。为了增加销售,销售副总裁决定通过奖励的方式来进行促销,销售额最多的地区和销售最多的产品将受到奖励。这位副总裁要求首席信息官(CIO)写出相关的调查报告。综合案例:用商务智能技术提高你的商务决策水平
102分析:对CIO来说,这项任务看起来很简单,但在生成这些报告之前有许多工作要做,并且特别需要在短时间内解决:数据的整合:销售数据存储在不同地区不同类型的数据库中。数据的格式与单位:在不同的地区,数据的存储格式不一致,且营业额数据的单位也不一致,采用的是所在国家的货币单位。
103(1)数据仓库的应用
首先,所有的数据都必须集中到总部,形成存储整个企业所有相关信息的数据仓库。相对而言,公司中的单个部门用的信息库可被称作数据集市。借助于数据仓库工具,如IBMVisualWarehouseV3.1,这些任务可以很快定时地自动完成。我们得到美国的西雅图是销售额最高的地区,而山地车是最畅销的产品。负责销售头盔的副总裁看到上面的报告,他决定看看新建的数据仓库能否给他提供更多的信息来帮助他提高销售额。CIO建议采用在线分析处理OLAP的方法。104(2)OLAP的应用
CIO帮助副总裁用OLAP方法来进一步分析数据,下面的多维分析涉及五个维度,即产品、销售、数量、地区和时间。副总裁想要知道的是:(1)1月份,头盔在什么地区销售最好?(2)1月份,哪个国家的头盔销售在该畅销地区处于领先地位?(3)在领先的国家中,哪个城市的头盔销售收入最高? 105要回答这些问题,CIO必须要用到OLAP中钻取和切片的方法。切片:固定1月份、头盔和销售,相当于去掉了三个维度(产品,销售,时间),只在数量和地区两个维度上进行分析。钻取:确定了地区后,采取下钻的方法,将该地区按国家展开,分析哪个国家的销售最高?继续下钻,从城市维度进行分析。106按地区划分的头盔销售数据数据分析:107数据分析:按地区和国家划分的头盔销售数据108数据分析:按地区、国家和城市划分的头盔销售数据109最终我们可以得到类似下面这样的结论:(1)1月份,头盔在欧洲地区销售最好;(2)1月份,德国是欧洲头盔最畅销的国家;(3)德国汉诺威是头盔最畅销的城市。110这位副总裁同时发现,尽管山地车在西雅图销售最多,但头盔的销售却不尽如人意。头盔与山地车的比例大约是1:5。但他还注意到,在汉诺威该比例却几乎是1:1,这时他记起来,在西雅图的商店里山地车和头盔放置得不像在汉诺威那样近。他决定在西雅图的商店里把这2种产品摆放在一起,并每天查看头盔和山地车的销售状况。111数据分析:山地车和头盔销售的比较112这说明在山地车和头盔之间存在着关联,通过多维分析的方法,我们可以发现这些关联,但是如果想要发现更多的关联,这样做会非常浪费时间。而数据挖掘可以系统地帮助我们解决这些问题。113(3)数据挖掘的应用数据挖掘不仅能够允许用户确定假设,而且还帮助用户发现新的信息,如上面提及的关联。IBM的IntelligentMinerfordata和IntelligentMinerfortext是一种数据挖掘工具。前者用来对数据进行搜寻,如公司中的交易数据;后者则用于对文本数据的搜寻,如在图书馆中进行检索。
IntelligentMiner中包含6种主要算法:关联、顺序模型、预测模型、分类、聚类和偏差识别。114前面提到,副总裁发现山地车和头盔的销售不是1:1,还存在其他类似的问题吗?CEO可能想到的问题如下:(1)对购买山地车的客户来说,什么是最可能会同时购买的商品?(2)购买气瓶的顾客1年内回来充气多少次?115IntelligentMinerfordata可以使用关联算法来回答第一个问题。关联算法用以发现产品之间的联系。对第一个问题的回答是:头盔,可能性为92%;手套,可能性为62%;新款铃铛,可能性为23%;速度计,可能性为13%。根据上面的答案,它会给销售人员一个目录,列出在销售某一具体产品时所建议的前3名关联产品。例如,如果销售山地车,销售人员可建议购买头盔、手套和新款铃铛。116IntelligentMinerfordata对CEO的第二个问题会给出如下答案:在购买气瓶的顾客中,有12%会回来充1次气;8%的客户会回来充2次气;7%的客户回来充气的次数超过2次。根据上面的结果,公司可能做出两个决定,一个是考虑到充气业务不是很景气,放弃充气;另一种是对多于2次的充气给于25%的折扣优惠来提高充气业务。公司还可以采取其他行动,如依然坚持充气业务,给现有和新的气瓶拥有者提出刺激措施:如给购买气瓶的顾客邮寄信函提醒他们要回来充气;在客户停车场建立更多的便利充气站以及每一次充气都发折扣优惠券。1173个月后,公司有了如下结果:季度的营业额上升了34%,收入上涨了34%;山地车与头盔一起购买成了时尚;手套的销售上升了15%;气瓶充气的销售也开始上升。因此,用商务智能技术可以帮助组织提高商务决策水平,最终的结果是增加销售额,提升利润。118小结:数据仓库、OLAP和DM是三种独立的信息处理技术。
数据仓库用于数据的存储和组织;
OLAP集中于数据的分析;DM则致力于知识的自动发现。
119(四)数据模型(1)数据模型的定义
数据库是企业、组织或部门所涉及的数据的综合,它不仅反映数据本身的内容,而且还反映数据直接的联系。在数据库系统中用数据模型来抽象地表示这些具体数据。数据模型即表示数据和数据之间的联系的方法。数据模型是为了便于DBMS的管理而构造的,是数据库系统的基础,任何数据库系统都是基于某种数据模型的。120(2)数据模型的分类概念模型:它是从现实世界到机器世界的一个中间层次,抽象现实系统中有应用价值的元素及其关联关系,反映现实系统中有应用价值的信息结构。如:实体--联系(E-R)模型。组织模型:它是从机器世界到数据世界的过渡,从数据的组织方式的角度来描述信息。如:层次模型、网状模型、关系模型和面向对象模型等。121现实世界机器世界数据世界人们头脑之外的客观世界,它包含客观事物及其相互联系信息世界,是现实世界在人们头脑中的反映现实世界中的事物及其联系,在数据世界中用数据模型描述概念模型组织模型122①层次模型
层次模型是用树型结构表示不同数据之间的联系,是以记录类型为节点的有向树。每条记录类型对应某个实体类型,每个记录类型可包含若干个字段,字段描述实体的属性。在这种模型中数据之间是一对多的关系。其特点是:有且仅有一个节点没有双亲节点,称之为根节点;其他节点有且仅有一个父节点。123图1层次数据模型结构
如图,每个记录只有一个双亲节点,即从一个节点到其双亲节点的映射是唯一的,所以对于每一个记录(除根节点外)只需指出它的双亲记录,就可以表示出层次模型的整体结构。
124示例:项目1研制情况的层次模型图2从事项目1研制工作情况的层次模型125②网状模型网状数据模型是层次模型的扩展,是一种比层次模型更具普遍性的结构,描述的是一种多对多的关系。它取消了层次模型的一些限制,允许多个节点没有双亲节点,允许节点有多个双亲节点,并允许两个节点间有多种联系。网状模型的特点是:有一个以上的节点没有双亲;至少有一个节点可以有多于一个的双亲。126图3网状数据模型结构如图,每个记录可以有多于一个的双亲节点,即从一个节点到其双亲节点的映射不是唯一的。
127示例:项目1研制情况的网状模型图4从事项目1研制工作情况的网状模型128③关系模型关系模式是建立在数学概念基础上,应用关系代数和关系演算等数学理论处理数据的方法。这类方法的应用最早是从1962年CODSYL发表的“信息代数”开始的,但系统而严格地提出关系模型的是美国IBM公司的,他从1970年起连续发表了多篇论文,奠定了关系数据库的理论基础。从用户的观点看,在关系模型下,数据的逻辑结构是一张二维表,每一个关系为一张二维表,相当于一个文件。数据之间的联系均通过关系进行描述。129关系模型的结构:关系:一个关系对应于一张二维表。元组:表中一行称为一个元组,相当于一条记录。属性:表中一列称为一个属性。给每列起一个名即为属性名。主键(PrimaryKey):用于唯一的确定一个元组。域:属性的取值范围。如:性别的域{男,女}
。外键:表中的属性或属性组是其他表中的主键。130姓名工作证号*职位月份薪金陈艳南0009604工程师2008年10月5000谢永强0008435销售员2008年10月3000刘英0009885秘书2008年10月2000示例:项目1研制人员的关系模型131关系模型的完整性约束:1)实体完整性:规定每个表都有自己的主键,主键的值唯一而且不能为空;2)参照完整性:对关联关系的一种约束,一个表中某列的值要受另一个表中某列取值的限制,关系数据库中一般是通过外键来实现;3)用户定义的完整性:也叫域完整性或语义完整性,规定属性值应是域中的值,以及属性值能否为空。132(五)关系数据库的设计数据库是数据库系统中的一个重要组成部分,数据库设计是指在一个给定的应用环境下,构造最优的数据库模式,使之能够有效地存储数据,满足各种用户的应用需求(信息需求和处理要求)的过程。数据库设计的质量将直接影响到信息系统的运行效率和用户对数据使用的满意程度,在信息系统的开发中占有重要的地位。
1331.数据库的设计过程
现实世界中所存在的各种各样的客观事物及它们间的联系是信息的根源,反映了用户的需求和信息系统的具体应用环境,是组织和信息管理的出发点。客观事物具有特定的性质来反映事物的特征,事物之间存在着广泛的联系。客观存在的事物及联系经过充分任务和分析后,可变为信息世界中对应的实体及联系,实体及其联系可由ER模型来表示。ER模型按照一定的规则可以转化为某种DBMS所支持的数据模型。
1342.实体联系模型(E-R模型)实体-联系模型是于1976年提出的,它是一种对现实世界进行抽象的方法,用于描述整个组织的概念模式。ER模型实际上是现实世界到数据世界的一个中间层次,是在构造一个DBMS所接受的数据库前建立的一个过渡性的模型。它直接面向现实世界,不考虑DBMS的限制,能够方便,准确的表述出信息世界中的常用概念。135
实体联系模型反映的是现实世界中的事物及其相互联系。图书作者写作出版社类别页数ISBN*书名姓名出生地身份证号*定稿时间价格1361)实体:反映现实世界中存在的事物。如:人、学生、教师、书、工作过程等。
实体名称表示方法:(1)ER模型的结构1372)属性:指实体具有的某种特性。表示方法:属性实体名称属性1属性2属性n1383)联系:反映了实体之间的语义关系,可以有属性。
联系表示方法:实体1实体2联系139实体间的联系情况比较复杂,可分为三种:一对一联系;一对多联系;多对多联系。
140①一对一联系
如果对于A中的一个实体,B中至多有一个实体与其发生联系,反之,B中的每一实体至多对应A中一个实体,则称A与B是一对一联系。
系系主任任职11病区科室主任任职11婚姻关系141②一对多联系
如果对于A中的每一实体,实体B中有一个以上实体与之发生联系,反之,B中的每一实体至多只能对应于A中的一个实体,则称A与B是一对多联系。
教研室教师联系1n父子关系142③多对多联系
如果A中至少有一实体对应于B中一个以上实体,反之,B中也至少有一个实体对应于A中一个以上实体,则称A与B为多对多联系。教师学生教学mn医生病人治疗mn选课关系143(2)E-R图建模实体及其联系概念模型E-R图144E-R图绘制出版社价格图书作者写作类别页数ISBN*书名姓名出生地身份证号*定稿时间①利用分类、聚集、概括等方法抽象出实体,并一一命名;②描述实体之间的联系;③实体属性和联系属性的说明。145构造E-R图应注意的问题:①
注意标识实体属性中的关键字;②
如果所处理的对象是一个比较大的系统,则应该先画出各个部门的子E-R图,然后再合并同类实体,消除冗余。146(3)ER模型向关系数据模型的转换E-R图关系模型1471)实体
相应转换为一个关系,实体名称作为关系名称,该关系包括对应实体的全部属性,并确定出该关系的关键字。转换方法和原则之一1482)联系:
相应转换为一个关系,联系名称作为关系名称,该关系包括联系的全部属性,以及联系所对应的两个实体的主关键字,且两个主关键字共同作为该关系的关键字。1491)实体
相应转换为一个关系,实体名称作为关系名称,该关系包括对应实体的全部属性,并确定出该关系的关键字。转换方法和原则之二1502)联系:根据联系的不同而进行不同的处理:
a.若为1:1联系:只需将一方的主关键字加入另一方即可。151转换举例厂长号*姓名年龄厂长厂号*厂名地点工厂管理11厂长(厂长号,姓名,年龄)工厂(厂号,厂名,地点,厂长号)152
b.若为1:n联系:
则要将“1”方的关键字加入“n”方实体的属性中,若联系也有属性,同时也必须将联系的属性加入“n”方实体的属性中。153转换举例仓库号*地点面积仓库货号*品名价格产品存放1n仓库(仓库号,地点,面积)产品(货号,品名,价格,数量,仓库号)数量154c.若为m:n联系:则要增加一个关系来联系双方的实体,其属性有双方的主关键字及联系的属性组成。155转换举例学号*姓名年龄学生课程号*课程名学时数课程学习mn学生(学号,姓名,年龄)课程(课程号,课程名,学时数)成绩学习(学号,课程号,成绩)156综合转换举例:影碟出租管理的关系型数据库设计要求:①可以查到顾客、影碟和影碟经销商的基本情况;②可以查到顾客租借影碟的情况;③可以查到被借或已借影碟的经销商情况。参考信息:(顾客姓名、顾客、顾客地址、影碟名、类型、租价、经销商名、经销商、租借日期、归还日期)157设计过程如下:①确定实体及相关属性顾客:其属性为顾客标识号、顾客名字、顾客、顾客地址影碟:其属性为影碟编号、影碟名、类型、租价影碟经销商:其属性为经销商代码、经销商名、经销商158②设计ER模型
159③把ER模型根据规则转换成关系:顾客(顾客标识号、顾客名字、顾客、顾客地址)影碟(影碟号、影碟名称、影碟类型、影碟租价,经销商代码)租用(标识号、影碟号、租借日期、归还日期)影碟经销商(经销商代码、经销商名、经销商)
160(六)面向对象模型(1)类:
具有同一属性集和方法集的所有对象构成一个对象类,简称类。一个对象是某一类的实例。(2)对象:
现实世界中的任一实体都可看作是一个对象,每个对象都有唯一的一个对象标示(objectidentifier,OID),把状态和行为封装在一起。状态:该对象一系列属性的集合;行为:在对象状态上操作的集合;161
(七)数据库系统的组织数据库系统的组织由以下五部分组成:数据库(DB)硬件支持系统软件支持系统数据库管理员用户1621)数据库(DB)数据库是与一个特定组织各项应用有关的全部数据的汇集,以一定组织形式存在存储介质上。
DB通常由两部分组成:物理数据库:是数据库的主体,是应用所需要的数据的集合。描述数据库:关于各级数据结构的描述,由数据字典管理。1632)硬件支持系统
CPU内存外存输入输出设备数据通道等1643)软件支持系统数据库管理系统(DBMS)操作系统宿主语言应用程序等数据库管理系统是管理数据库的软件,运行在操作系统之上各种宿主语言用于开发应用程序,并要与DBMS有良好接口1654)数据库管理员(DBA)
使用DBMS的一个主要原因是可以对数据和访问者写数据的程序进行集中控制。对数据库系统进行集中控制的人员称为数据库管理员DBA,承担创建、监控和维护整个数据库结构的责任。166数据库管理员的职责:①模式定义:根据需求创建最初的数据库概念模式,并经过DDL(数据描述语言)编译器翻译后以表的形式存储在数据字典中;②定义内模式:即定义存储结构和存取方式;③
模式及物理组织的修改:根据需求修改数据库的概念模式和内模式;④数据访问授权:规定不同用户的访问权限;⑤
数据完整性约束定义:数据库种所存储的数据的值必须满足一定的一致性约束。1675)用户
DBMS的用户除了DBA之外,还可分为如下三类:①专业用户:数据库设计中的上层人士,如:系统分析员,负责分析用户的业务需求和设计计算机解决方案,是系统开发的核心人物;②应用程序设计人员:通过宿主语言和DML语言编写应用程序;③初级用户:使用应用程序的非计算机人员,通过激活已有的应用程序与系统进行交互。168(八)数据库系统的结构从数据库管理系统的角度看,数据库系统是由外模式、模式和内模式构成的三级模式结构;从数据库最终用户的角度看,数据库系统的体系结构分为:单用户结构、主从式结构、分布式结构和客户/服务器结构。169(1)数据库系统的三级数据模式结构应用A应用B应用C应用D应用E外模式1外模式2外模式3模式内模式数据库外模式/模式映象模式/内模式映象1701)内模式(存储模式)对数据物理结构和存储结构的描述,依赖于数据库的全局逻辑结构,但独立于用户模式,也独立于具体的存储设备。将全局逻辑结构中的数据结构及其联系按照一定的物理存储策略进行组织,以实现较好的时间和空间效率。一个数据库只有一个内模式。1712)模式(逻辑模式(Schema))数据库中全体数据的逻辑结构的描述,是所有用户的公共数据视图。处于数据库系统结构的中间层,既不涉及数据的物理存储细节和硬件环境,也与具体的应用程序无关。一个数据库只有一个模式。172(3)外模式(ExternalSchema)也称子模式或用户模式,是用户和数据库的接口,是不同数据库用户的数据视图,是对数据库局部数据的逻辑结构和特征的描述,是模式的子集。外模式面向应用程序,一个数据库可有多个外模式。173
模式反映的是数据的全局观;内模式反映的是数据的存储观;外模式反映的是数据的用户观;全局观、存储观只有一个,而用户观可能有多个。小结:1741)外模式/模式的映象:定义并保证了外模式与数据模式之间的对应关系,保证数据的逻辑独立性。
每一个外模式都对应一个外模式/模式映象;当模式改变时,数据库管理员修改有关的外模式/模式映象,使外模式保持不变;应用程序是依据数据的外模式编写的,从而应用程序不必修改,保证了数据与程序的逻辑独立性,简称数据的逻辑独立性。(2)数据库系统的二级映像技术1752)模式/内模式的映象及作用:定义并保证了数据的逻辑模式与内模式之间的对应关系,保证数据的物理独立性。模式/内模式映象定义了数据全局逻辑结构与存储结构之间的对应关系。数据库中模式/内模式映象是唯一的;当数据库的存储结构改变了(例如选用了另一种存储结构),数据库管理员修改模式/内模式映象,使模式保持不变;应用程序不受影响。保证了数据与程序的物理独立性,简称数据的物理独立性。176(3)数据库系统的体系结构
数据库系统运行在计算机系统之上,数据库系统的体系结构与计算机系统的体系结构密切相关。计算机的体系结构,如网络、并行、分布等,都反映到数据库体系结构中。所以,从用户的角度来看,数据库系统的体系结构分为单用户、主从式、分布式和客户/服务器结构等。177整个数据库系统(应用程序、DBMS、数据)装在一台计算机上,为一个用户独占,不同机器之间不能共享数据。早期的最简单的数据库系统P169图5-7。1)单用户系统178一个主机带多个终端的多用户结构。整个数据库系统,包括应用程序、DBMS、数据,都集中存放在主机上,所有处理任务都由主机来完成。各个用户通过主机的终端并发地存取数据库,共享数据资源。P169
图5-8。2)主从式系统179主机终端主从式结构180优点易于管理、控制与维护。缺点
当终端用户数目增加到一定程度后,主机的任务会过分繁重,成为瓶颈,从而使系统性能下降。系统的可靠性依赖主机,当主机出现故障时,整个系统都不能使用。1813)分布式系统数据库中的数据在逻辑上是一个整体,但物理地分布在计算机网络的不同结点上。网络中的每个结点都可以独立处理本地数据库中的数据,执行局部应用;同时也可以同时存取和处理多个异地数据库中的数据,执行全局应用;如果一个结点发生故障,其他结点还能继续工作,使系统的可用性大大增强。182优点
适应了地理上分散的公司、团体和组织对于数据库应用的需求。缺点数据的分布存放给数据的处理、管理与维护带来困难;当用户需要经常访问远程数据时,系统效率会明显地受到网络传输的制约。1834)客户/服务器系统
客户/服务器结构的数据库系统将数据库管理功能和应用分开:
服务器:负责数据库管理系统的功能;客户机:通过安装DBMS外围的应用开发工具,支持客户的应用。184服务器分类:事务服务器(查询服务器):提供一个接口,使得用户可以发出执行一个动作的请求,服务器响应客户请求,执行该操作,并将结果返回用户;数据服务器:使用户可以向服务器发出请求,以文件或页面等为单位对数据进行读取或更新。185数据库功能:前端:包括表格生成工具、报表书写工具、图形用户界面工具等;后端:负责存取结构、查询计算和优化、并发控制以及故障恢复;前端与后端之间通过SQL或应用程序接口连接。186优点:
客户端的用户请求被传送到数据库服务器,数据库服务器进行处理后,只将结果返回给用户,从而显著减少了数据传输量。缺点系统安装复杂,工作量大。应用维护困难,难于保密,造成安全性差。相同的应用程序要重复安装在每一台客户机上,从系统总体来看,大大浪费了系统资源。187C/S架构
C/S架构是一种典型的两层架构,其全称是Client/Server,即客户端/服务器端架构。C/S架构中,客户端需要实现绝大多数的业务逻辑和界面展示,因此被称为胖客户端架构。188B/S架构B/S架构的全称为Browser/Server,即浏览器/服务器结构。Browser指的是Web浏览器客户端,Server包括WebApp服务器端和DB服务器端。B/S架构的系统无须特别安装,只有Web浏览器即可。B/S架构中,显示逻辑交给了Web浏览器,事务处理逻辑在放在了WebApp上,这样就避免了庞大的胖客户端,减少了客户端的压力,因此被称为瘦客户端。189第二节
数据通信与计算机网络
数据通信基本概念数据传输形式数据交换方式
计算机网络概述Internet/Intranet/Extranet190(一)数据通信基本概念
数据通信是网络中最频繁的操作,是计算机网络的最基本的功能,是实现其他功能的基础。
目前通讯技术总的趋势是由模拟通信走向数字通信,计算机技术和通信技术紧密结合在一起,使信息处理与信息传递逐渐走向一体化。1911.数据通信定义数据通信是按照一定的协议,通过适当的传输线路将数据信息从一台机器传送到另一台机器。这里的机器可以是计算机,终端设备或其他任何通信设备。如电子邮件,,远程数据交换等。192数据通信实际上包含了数据处理和数据传输两方面的内容:数据处理主要由计算机来完成;数据传输依靠数据通信系统实现。数据通信系统是计算机网络的重要组成部分,是各种可以协调工作的软件的集合,支持信息从一个地方到另一个地方的传送。数据通信系统不仅可以传播文本和声音,还可以传播图片以及视频信息。1932.数据通信系统示意图一个典型的数据通信系统的简化模型如下图所示:
194
1)信源:产生数据的设备,如计算机等;
2)发送器:一种转换或编码设备,一般来讲,由信源设备产生的数据不按其产生的原始形式直接传输,而是由发送器将其进行变换和编码后再进入某种形式的传输系统进行传输,如译码器,调制解调器等;195
3)传输系统:连接信源和信宿的传输线路,可以是双绞线,屏蔽电缆线,光导纤维或是无线电波等;
4)接收器:同发送器一样,用于把从传输系统接收信号并将其转换成信宿设备能够处理的形式;
5)信宿:从接收器上取得传入数据的设备,如计算机等。196
通信系统实例1973.数据通信系统的特点①数据通信是机-机通信或人-机通信,计算机直接参与通信是数据通信的重要特征;②数据传输的准确性和可靠性要求高,一般来说,数据通信要求误码率低于10-8;③传输速率高,要求传输响应时间快,如在一条数字信道以64kbit/s的速率传输数据;④数据通信具有灵活的接口能力,可以满足各种计算机和终端之间相互通信。198(二)传输的信号类型信号是数据的电子或电磁编码,可在两个通信设备之间通过电线传输,或者直接在空中传播。一般而言,有两种信号类型:模拟信号、数字信号。
1991)模拟信号:用连续变化的电压振幅和频率表示的信号。振幅是指一个周期中,信号波的幅度值;频率是指连续波在每秒内的振动次数。如声音、温度等连续变化的物理量经传感器转换成的电信号,是一个振幅、频率及相位都连续变化的电波。(1)信号类型200模拟信号用于中速、远距离的数据传输,自然界中的很多信号都表现为模拟信号。如:公共线上传输的就是模拟信号。模拟数据通信:在传输介质上传输模拟信号。201At00.51.01223456789101112模拟信号示意图2022)数字信号:用一定频率的离散的高低电压0、1来表示的信号,是一系列离散的电脉冲。数字信号传输距离短,但速度快,误码率低,如计算机硬件设备之间的数据传输使用的信号就是数字信号。数字数据通信:直接在传输介质上传送脉冲数字信号。它直接通过通信传输接口将两台计算机连接起来,就可以很容易的进行数字信息的传送。数字通信是计算机技术发展的产物。203数字信号示意图204调制解调器:可在模拟信号与数字信号间相互转化205二者比较:模拟通信比数字通信的误码率高得多;数字通信可以将数字、字符、文本、声音,甚至动态图像等多媒体信息合成起来传输,更有效地利用设备,而模拟通信不行。随着大规模集成电路和计算机性能价格比不断提高,数字通信设备的可用性越来越强,这是模拟通信不可比拟的。206(2)
衡量数据通信的质量指标1)信息传输速率衡量信息传输的有效性;数字信号:每秒所传送的二进制位信息量,用bit/s或bps表示;模拟信号:单位时间内模拟信号状态变化的次数。2072)误码率衡量信息传输的可靠性;指二进制码元在传输系统中被传错的概率;在计算机网络中,传输1Mb至多允许错1b。208(三)数据传输的形式不管是数字信号还是模拟信号,它们在信道上传输的方式有多种形式。分别根据组成字符的各位二进制位是否同时传输、信号的调制情况、信号传输的方向对数据传输的形式进行划分。2091.按组成字符的二进制位的传输方式
根据组成字符的各个二进制位是否同时传输,字符编码在信源/信宿之间的传输方式有两种:并行传输;串行传输。2101)并行传输:字符编码的各位(比特)同时传输,有时会附加一位数据校验位。
特点:①
传输速度快:一位(比特)时间内可传输一个字符;②通信成本高:每位传输要求一个单独的信道支持,则对一个字符,并行传输要求8个独立的信道的支持;③
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年哈尔滨工程大学发展计划处学科专业建设办公室管理岗位招聘2人模拟试卷有完整答案详解
- 2025贵阳学院人才引进15人模拟试卷及答案详解(典优)
- 2025黑龙江双鸭山市饶河县招募就业见习单位及招聘见习人员668人考前自测高频考点模拟试题及答案详解(各地真题)
- 2025年河北石家庄协和医学中等专业学校公开招聘教师20名模拟试卷带答案详解
- 2025国能包头煤化工有限责任公司高校毕业生招聘人员模拟试卷及答案详解(名校卷)
- 2025福建漳州市医院临时聘用人员(第二批)考前自测高频考点模拟试题附答案详解(黄金题型)
- 2025江西南昌市劳动保障事务代理中心招聘外包人员1名考前自测高频考点模拟试题及参考答案详解
- 2025年龙岩市供电服务有限公司招聘59人考前自测高频考点模拟试题及一套答案详解
- 2025湖北恩施州巴东县信陵镇人民政府公益性岗位人员招聘8人考前自测高频考点模拟试题附答案详解(完整版)
- 2025广西百色市平果市民政局公益性岗位人员招聘1人考前自测高频考点模拟试题附答案详解(突破训练)
- 肝囊肿的护理查房
- 公司厂房出租管理制度
- 2025至2030年中国物联网金融行业市场竞争力分析及发展策略分析报告
- 2025年锑矿合作协议书
- 2025年中考历史总复习《中国历史》八年级上册知识要点汇编
- 工程带班合同协议
- 电动工具智能制造工艺-全面剖析
- 介入导管室手术交接流程
- 人教版劳动教育六年级上册全册教学设计
- 《小米智能家居》课件
- ISO9001质量管理体系课件
评论
0/150
提交评论