版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据库概述学习目标了解数据库的基本概念掌握数据库、数据库系统和数据库管理系统的关系理解数据管理技术发展的三个阶段理解数据模型的概念,掌握关系数据模型的相关概念掌握关系运算的操作章节内容1.1数据库的基本概念 1.2数据管理技术的发展阶段1.3数据库的体系结构1.4数据模型
1.5关系运算1.6NoSQL数据库简介1.1数据库的基本概念
1.1.1信息与数据库1.1.2数据库管理系统1.1.3数据库系统
1.1.1信息与数据库1.数据数据(Data)是描述事物的符号记录,是数据库中存储的基本对象。可以是文本、图表、图形、图像、声音、语言、视频等。2.信息信息是现实世界事物的存在方式或运动状态的反映。或认为,信息是一种已经被加工为特定形式的数据。信息的主要特征是:信息的传递需要物质载体,信息的获取和传递要消费能量;信息可以感知;信息可以存储、压缩、加工、传递、共享、扩散、再生和增值;而数据是信息的载体和具体表现形式,信息不随数据形式的变化而变化。1.1.1信息与数据库3.数据库数据库(Database,DB)是长期存储在计算机内、有组织、可共享的大量数据的集合。数据库中的数据需要创建数据模型来描述,如网络、层次、关系模型。在数据库中的数据具有冗余度小、独立性高和易扩展性的特点。1.1.2数据库管理系统数据库管理系统(DatabaseManagementSystem,DBMS)位于用户和操作系统之间,是一种操纵和管理数据库的大型软件,用于建立、使用和维护数据库。像Oracle、SQLServer和DB2都是常用的数据库管理系统软件。一般说来,数据库管理系统的功能主要包括以下几个方面。数据定义功能数据操纵功能数据库的运行管理功能数据库的建立和维护功能1.1.3数据库系统 数据库系统数据库系统(DataBaseSystem,简称DBS)是指引入数据库后的计算机应用系统,数据库系统通常包括硬件和软件,由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员构成。数据库、数据库管理系统、数据库系统的关系:1.2数据管理技术的发展阶段1.2.1人工管理阶段1.2.2文件系统阶段1.2.3数据库系统阶段1.2.4新兴数据管理阶段1.2.5分布式数据库系统1.2.6数据库集群1.2.7面向对象数据库系统1.2.8数据仓库1.2.9数据挖掘1.2.10云计算与大数据1数据和应用程序一一对应,应用程序中的数据无法被其他程序利用。3数据的独立性很差,数据的类型、结构发生变化,则程序必须相应改变,因而数据的结构性差。2程序与程序之间存在大量重复数据,存在着数据冗余。数据2程序1程序2程序N数据1数据N1.2.1人工管理阶段数据1数据N程序1程序2程序N数据2文件系统1.2.2文件系统阶段通过文件系统来管理数据,而且数据可长期保存在设备上。数据依然是面向某一特定的应用程序;数据的共享程度比较低、数据冗余度大;整体上看,数据没有结构,但记录内有结构;数据的独立性仍然较差,数据的逻辑结构改变必须修改应用程序;应用程序自己控制数据。学生部门教务部门人事部门文件系统教师数据文件学生数据文件课程数据文件人事管理应用程序学生管理应用程序教务管理应用程序应用程序和数据文件的关系1.2.2文件系统阶段1.2.3数据库系统阶段数据结构化数据结构化是数据库的主要特征之一,是数据库系统与文件系统的本质区别。数据的共享性程度高,冗余度小,容易扩充等数据库阶段的数据不再是面向某个应用程序,而是面向整个系统,因此可以被多个用户、多个应用以多种不同的语言共享使用。数据独立性高数据独立性是数据库系统的一个最重要的特点之一,它使数据能独立于应用程序。应用程序不随数据存储结构的变化而变化,简化了应用程序的编制和程序员的工作负担。外存储器数据库1.2.3数据库系统阶段数据库系统阶段将数据集中存储在一台计算机上,进行统一组织和管理。1.2.4新兴数据库阶段随着云计算、人工智能、物联网等技术的发展,传统的关系型数据库已不再满足多样社会对于数据处理的需求,新型数据库应运而生。由于不同行业对处理数据的需求不同,致使新型数据库趋向多样化的发展:多个计算机节点共同完成任务的需求促进了分布式数据库系统与数据库集群的发展;面向对象数据库系统则适用于地理信息系统、多媒体等领域的数据处理;互联网的发展,医疗金融等行业的海量数据处理则对云计算与大数据产生需求等。1.2.5分布式数据库系统分布式数据库的定义分布式数据库是一组结构化的数据集合,它们在逻辑上属于同一系统,而在物理上分布在计算机网络的不同结点上。分布式数据库的特点
数据独立性集中与自治相结合的控制结构适当增加数据冗余度全局的一致性、客串性和可恢复性1.2.5分布式数据库系统分布式数据库系统的体系结构分片模式:是指每一个全局关系可以分为若干不相交的部分。每一部分称为一个片段。分片模式定义片段及全局关系到片段的映像,一个全局关系可以对应多个片段,而一个片段只来自一个全局关系。1.2.5分布式数据库系统分布式数据库系统的体系结构分布模式:可以定义片段的存放结点。分布模式的映像确定了分布式数据库是冗余的还是非冗余的。若映像是一对多的,即一个片段可分配到多个结点上存放,则是冗余的分布式数据库;若映像是一对一的,则是非冗余的分布式数据库。1.2.6数据库集群数据库集群概念是指将多个数据库实例(节点)组合在一起形成一个整体系统。数据库集群的目标是提高数据库系统的性能、可用性和可扩展性。数据库集群特点高可用性负载均衡数据复制和同步扩展性1.2.6数据库集群数据库集群与分布式数据库系统的区别分布式系统是由多个独立的计算机节点组成,这些节点通过网络连接,并共同协作完成一个大型任务。每个节点都可以独立运行,并具有自己的处理能力和数据存储。集群则是由一组计算机节点组成,这些节点通常通过高速网络连接,并作为一个整体来提供高性能计算或高可用性服务。在集群中,各个节点通常共同完成一个小型任务,且节点间存在主从关系。1.2.7面向对象数据库系统面向对象数据库系统概念面向对象数据库系统(ObjectOrientedDataBaseSystem,OODBS)是数据库技术与面向对象程序设计方法相结合的产物。面向对象数据库系统支持面向对象数据模型(OOD模型),即面向对象数据库系统是一个持久的、可共享的对象库的存储和管理者;而一个对象库是由一个OOD模型所定义的对象的集合体。面向对象数据库语言主要包括对象定义语言和对象操纵语言,对象操纵语言中的一个重要子集是对象查询语言。面向对象数据库一般应具备下列功能:类的定义与操纵:操作/方法的定义:对象的操纵:1.2.8数据仓库数据仓库概念是一个面向主题的、集成的、稳定的、随时间变化的数据集合,它用于支持经营管理中的决策制定过程。数据仓库特点:面向主题
(2)
集成(3)
稳定且不可更新
(4)随时间不断变化数据仓库结构数据装载器
(2)仓库管理器(3)查询处理器
(4)数据仓库的数据库管理系统(5)元数据1.2.9数据挖掘数据挖掘概念从大量数据中提取隐含的、人们事先不知道地但又可能有用的信息和知识地过程。数据挖掘技术:
预测预测分为分类和值预测两种。预测类似于人员学习的过程——仔细观察某种现象后得出对该现象特征的描述或模型。(2)关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。(3)
聚类数据库中的记录可被划分为一系列有意义的子集,即聚类。(4)
偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。1.2.10云计算与大数据云计算概念是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。其核心思想是将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池,使用户能够按需获取计算力、存储空间和信息服务。云计算特点:
虚拟化技术(2)动态可扩展(3)按需部署
(4)灵活性高(5)可靠性高
(6)性价比高(7)可扩展性
1.2.10云计算与大数据大数据概念什么是“大数据"呢?如果从字面意思来看,大数据指的是巨量数据。那么可能人会问,多大量级的数据才叫大数据?不同的机构或学者有不同的理解,难以有一个非常定量的定义,只能说,大数据的计量单位已经越过TB级别发展到PB、EB、ZB、YB基至BB级别。大数据特点:
大量
(2)多样(3)高速
(4)价值1.3数据库的体系结构
1.3数据库的体系结构
通常DBMS将数据库的体系结构分为三级模式:外模式、模式和内模式。数据库的三层模式外模式用户模式或者子模式,它是数据库用户(包括应用程序员和最终用户)能够看见和使用的局部数据的逻辑结构和特征的描述,是数据库用户的数据视图,是与某一应用有关的数据的逻辑表示模式逻辑模式,是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图。一个数据库只有一个模式。内模式内模式又称为存储模式或者物理模式。一个数据库只有一个内模式。它是数据物理结构和存储方式的描述,是数据在数据库内部的表示方式。1.3数据库的体系结构
三级模式结构之间差别往往很大,为了实现这3个抽象级别的联系和转换,DBMS在三级模式结构之间提供了两级映像:外模式/模式映像,模式/内模式映像。如图1-2所示。数据库内模式模式外模式外模式外模式应用2应用1应用3外模式/模式映像模式/内模式映像图1-2数据库的三级模式1.3数据库的体系结构
数据库管理系统的两级映射外模式/模式逻辑独立性模式/内模式物理独立性1.4数据模型
1.4.1概念模型与E-R方法 1.4.2数据模型的分类1.4.3关系数据模型1.4.4关系的完整性规则1.4数据模型 模型是现实世界特征的模拟和抽象。数据模型(DataModel)也是一种模型,它是现实世界数据特征的抽象。人们把客观存在的事物以数据的形式存储到计算机中,经历了对现实生活中事物特征的认识、概念化到计算机数据库里的具体表示的逐级抽象过程。此过程分为3个阶段,即现实世界阶段、信息世界阶段和机器世界阶段,如图1-3所示。31现实世界信息世界如E-R图机器世界如层次模型、关系模型、网状模型抽象转换图1-3数据处理的三个阶段1.4数据模型 概念模型中最常用的是实体联系模型(E-R模型),概念模型的目的是根据需求分析得到概念模型(即E-R图),E-R图是数据库人员之间交流的工具,与具体的DBMS无关。建立概念模型后,需要将概念模型转换成某种具体数据库系统支持的模型,在机器世界使用的模型叫做数据模型。将信息世界转换成机器世界是将E-R图转换为某一种数据模型,数据模型与DBMS相关。321.4.1概念模型与E-R方法概念模型,用于信息世界的建模,是现实世界与信息世界的第一层抽象,是数据库设计人员进行数据库设计的有力工具,也是数据库设计人员和用户之间进行交流的语言。1.信息世界中的基本概念(1)实体(Entity)(2)属性(Attitude)(3)域(Domain)(4)码(Key)也称关键字。用于区别实体中不同个体的一个属性或几个属性的组合,称为该实体集的“码”。当有多个属性可作为码而选定其中一个时,则称它为该实体的“主码”。若在实体诸属性中,某属性虽非该实体主码,却是另一实体的主码,则称此属性为“外部码”或简称为“外码”。(5)实体型(EntityType)(6)实体集(EntitySet)1.4.1概念模型与E-R方法(7)联系(Relationship)实体集之间的联系主要有以下几种联系。①一对一联系(1:1)如果对于实体集A中的每一个实体,实体集B中至多有一个实体与之联系,反之亦然,则称实体集A与实体集B具有一对一联系,记为1:1。②一对多联系如果对于实体集A中的每一个实体,实体集B中有n个实体(n≥0)与之联系,反之,对于实体集B中的每一个实体,实体集A中至多只有一个实体与之联系,则称实体集A与实体集B有一对多联系,记为1:n。③多对多联系(m:n)如果对于实体集A中的每一个实体,实体集B中有n个实体(n≥0)与之联系,反之,对于实体集B中的每一个实体,实体集A中也有m个实体(m≥0)与之联系,则称实体集A与实体B具有多对多联系,记为m:n。实际上,一对一联系是一对多联系的特例,而一对多联系又是多对多联系的特例。1.4.1概念模型与E-R方法2.实体——联系方法(E-R方法)概念模型中最常用的方法是实体-联系方法,简称E-R方法。该方法直接从现实世界中抽象出实体和实体间的联系,然后用E-R图来表示数据模型。在E-R图中实体用矩形框表示,并在矩形框内写明实体名;联系用菱形表示,并用边将其与有关的实体连接起来,并在边上标上联系的类型;属性用椭圆表示,并用无向边将其与相应的实体连接起来。对于有些联系,其自身也会有某些属性,同实体与属性的连接类似,将联系与其属性连接起来。如图1-4所示。图1-4E-R图表示法1.4.1概念模型与E-R方法【例1-1】用E-R图来表示学生选课与教师授课,假设一个学生可以选修多门课程,而一门课程又可以有多个学生来选修,一门课可以由多位教师讲授,一位教师也可以讲授多门课程。学生选课涉及的实体有:学生:属性有学号、姓名、性别、年龄、所在系。课程:课程号、课程名、先行课号,学分。教师:教师号,姓名,年龄,职称。学生与课程之间是多对多的关系,学生选修课程会有成绩。1.4.1概念模型与E-R方法1.4.1概念模型与E-R方法图1-6为实体及其联系图,在图1-6中将相应的实体属性加上就形成一个完整的实体联系图。1.4.2数据模型的分类一般来说,数据模型是严格定义的概念的集合。这些概念精确描述了系统的静态特性、动态特性和完整性约束条件。数据模型的三个要素包括:数据结构、数据操作和完整性约束。数据结构:是从静态特性描述数据,是研究对象类型的集合。数据操作:指可以对数据库中各种对象进行的什么操作,是操作的集合,包括操作及有关的操作规则,是对系统动态特性的描述。约束条件:约束条件是一组完整性规则的集合。完整性规则是给定的数据模型中数据及其联系所具有的制约和依存规则,用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效、相容。数据库管理系统常用的数据模型包括层次模型、网状模型和关系模型。1.4.2数据模型的分类层次数据模型1.整个模型中有且仅有一个节点没有父节点,其余的节点必须有且仅有一个父节点,但是所有的节点都可以不存在子节点;2.所有的子节点不能脱离父节点而单独存在,也就是说如果要删除父节点,那么父节点下面的所有子节点都要同时删除,但是可以单独删除一些叶子节点;3.每个记录类型有且仅有一条从父节点通向自身的路径;1.4.2数据模型的分类网状模型在整个模型中允许存在两个或多个没有根节点的节点,同时也允许一个节点存在一个或者多个的父节点,成为一种网状的有向图。节点之间的对应关系不再是1:n,而是一种m:n的关系,从而克服了层次数据模型的缺点。1.4.2数据模型的分类关系模型关系数据模型使用关系(二维表)来表示实体和实体之间联系。。关系型数据模型对应的数据库自然就是关系型数据库了,支持关系数据模型的数据库管理系统称为关系型数据库管理系统,这是目前应用最多的数据库。在关系数据模型中,无论是是实体、还是实体之间的联系都是被映射成统一的关系:一张二维表,在关系模型中,操作的对象和结果都是一张二维表。1.4.3关系数据模型表1-1学生表学号姓名性别年龄2018202011李平男192018202012王梅女202018202013董东男182018202014王芳女19关系数据模型是由关系数据结构、关系操作的集合和关系完整性约束三部分组成。从用户观点来看,关系模型中逻辑数据结构是一张简单的二维表,它由行和列组成。例如表1-1这张二维表就是一个关系。1.4.3关系数据模型(1)关系一个关系就是一张二维表,每个关系都有一个关系名,例如学生表就是学生关系。(2)元组二维表中的行称为元组,每一行是一个元组,对应一条记录。(3)属性二维表的列称为属性,又称为字段。(4)关系模式对关系的描述,关系模式一般表示为关系名(属性1,属性2,…,属性n),例如,学生关系模式表示为:学生(学号,姓名,性别,年龄)。(5)域表示属性的取值范围,例如,性别属性的域是{男,女}。(6)关键字或码在关系的属性中,能够用来唯一标识元组的属性(或属性组合)称为关键字或码。1.4.3关系数据模型(7)候选关键字或候选码候选码可以用来唯一地标识不同的元组的属性或者属性组合。(8)主码(主键)是从候选码中选择一个用来作为主码。如果一张表只有一个候选码,则该候选码就是主码。(9)分量表示元组中的一个属性值,例如王芳就是学生王芳的分量。(10)外码(外部关键字)又称为外键,是指某个属性不是A表的主码,但是是B表的主码,则在A表中这个属性就称为外键。(11)主属性和非主属性在一个关系中,包含在任何候选关键字中的各个属性称为主属性;不包含在任一候选码中的属性称为非主属性。例如,学生表中的学号是主属性,而姓名、性别和年龄是非主属性。1.4.3关系数据模型在关系数据库中,关系具有以下性质:所有的属性都是原子的元组的顺序无关紧要,即元组的次序可以任意交换。属性的顺序是非排序的,即它的次序可以任意交换。同一属性名下的诸属性值(同列)是同类型数据,且来自同一个域。关系中没有重复元组,任意元组在关系中都是唯一的。属性必须具有不同的属性名,不同的属性可来自同一个域。1.4.4关系的完整性规则实体完整性元组在主码上不能相同或者不能为空值(NULL)参照完整性外码的取值要么为空,要么取主码表中的取值,而不能取其他的值。用户自定义完整性针对某一具体数据的约束条件,由具体应用环境决定。1.5关系运算
1.5.1传统的集合运算 1.5.2专门的关系运算 1.5.1传统的集合运算传统的集合运算是二目运算(又称二元运算)。以下运算用到的两个关系R和S均为n元关系,且相应的属性取自同一个域。1.并(Union)关系R和S的并为属于R或属于S的所有元组组成的集合,删去重复的元组,其结果仍为n元关系。记为 R∪S={t|t∈R∨t∈S}。关系R和S进行“并”运算的结果如表1-4所示。
关系R关系SRUS1.5.1传统的集合运算2.交(Intersection)关系R和S的交为:由既属于R又属于S的元组组成,其结果仍为n元关系。记为R∩S={t|t
R∧t
S},R∩S=R–(R-S)。关系R和S进行“交”运算的结果如表1-5所示。R∩S
关系R关系S1.5.1传统的集合运算3.差(Difference)关系R和S的差为:由属于R而不属于S的所有元组组成,其结果仍为n元关系。记为 R-S={t|t
R∧t
S}。关系R和S进行“差”运算的结果如表1-6所示。R-S
关系R关系S1.5.1传统的集合运算4.笛卡尔乘积(CartesianProduct)设关系R和S分别是n元和m元关系,若R有k1个元组,S有k2个元组,则关系R和S的笛卡尔积有k1×k2个元组。记为
关系R关系S1.5.1传统的集合运算R×S1.5.2专门的关系运算1.选择(Selection)选择又称为限制,它是在关系中满足给定条件的元组的子集。记作:σF(R)={t|t
R∧F(t)='真'}其中F表示选择条件,它是一个逻辑表达式,取逻辑“真”或“假”。选择运算实际上是从关系R中选取使逻辑表达式F为真的元组。这是从行的角度进行的运算。关系R【例1-3】对关系R进行以下查询的关系运算。(1)查询男生的信息。
σ性别=′男′(R)(2)查询年龄大于20的学生的信息。σ年龄>20(R)(3)查询年龄大于20的男学生的信息。σ性别=′男′∧年龄>20(R)1.5.2专门的关系运算2.投影(Projection)关系R上的投影是从R中选择出若干属性列组成新的关系。记作:πA(R)={t[A]|t
R},其中A为R中的属性列。投影操作是从列的角度进行的运算,也就是选择关系的部分列而得到的新的关系,投影又叫做垂直筛选。投影操作之后不仅去掉了原关系中的某些字段,而且还可能取消某些元组(去掉重复的行)。1.5.2专门的关系运算【例1-4】对关系R进行以下查询的关系运算。(1)查询关系R的年龄字段。关系代数为:π年龄(R),得到的结果如表1-12所示。(2)查询关系R的姓名和年龄字段。关系代数为:π姓名,年龄(R),得到的结果如表1-13所示。关系R表1-12π年龄(R)表1-13π姓名,年龄(R)1.5.2专门的关系运算3.连接(Join)连接分为内连接和外连接,内连接是只将满足连接条件的记录保存在结果中,而外连接除了将满足条件的元组保存在结果中,还把舍弃的元组也保存在结果关系中,而在其他属性上填空值(Null),这种连接就叫做外连接(OUTERJOIN)。外连接分为左外连接、右外连接和完全外连接。如果只把左边关系R中要舍弃的元组保留就叫做左外连接(LEFTOUTERJOIN或LEFTJOIN)。如果只把右边关系S中要舍弃的元组保留就叫做右外连接(RIGHTOUTERJOIN或RIGHTJ
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 入户走访安全责任制度
- 2025年电子城社区卫生服务中心招聘备考题库及答案详解(夺冠系列)
- 工程代建制法人责任制度
- 水厂维修工岗位责任制度
- 如何落实网格责任制度
- 工程职业卫生责任制度
- 民声接听员岗位责任制度
- 落实施工单位责任制度
- 龙湖物业管家责任制度
- 企业日常安全责任制度
- 政治试题-汕头市2025-2026学年度普通高中毕业班教学质量监测(含解析)
- 2026-2030中国一次性餐盒行业深度调研及投资前景预测研究报告
- 2026年春苏教版新教材小学科学二年级下册(全册)教学设计(附教材目录P97)
- 2026年考试题库北汽集团高管知识水平测试
- 三项管理制度及生产安全事故应急救援预案
- 2026年国家电网招聘之电网计算机考试题库500道含完整答案(历年真题)
- 医学影像学(第8版)第一章影像诊断学总论
- 2026考核消防设施操作员中级监控操作方向试题与答案
- 2026江苏中烟工业有限责任公司高校毕业生招聘14人备考题库(第一批次)及答案详解(必刷)
- 2025~2026学年江苏省徐州市高三上学期期中零模英语试卷
- 自然语言处理:大模型理论与实践 课件全套 第1-12章 绪论、词向量-评价指标
评论
0/150
提交评论