已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
处理节点(node)、用于节点间通信的内部高速互联(InterConnection)和数据存储介质(一般是磁盘阵列)。 每个节点都是SMP结构的单机,节点的物理和逻辑结构如图1所示单个节点就是一个就是一个smp处理单元,一台多CPU或多核的计算机。硬件包括CPU、内存、用于安装操作系统和应用软件的本地磁盘,与外界交互的网卡及bynet端口;节点网卡一种是与IBM MainFrame链接的Channel Adapter,另一种是局域网网卡,通常一个节点只有一种网卡,但有很多块网卡,分别用于不同的连接(比如:备份等)和冗余。多个节点一起构成MPP系统,多个节点之间的内部高速互联时通过BYNET的硬件实现Shared Nothing Architecture The Teradata Database virtual processors, or vprocs (which are the PEs and AMPs), share the components of the nodes (memory and cpu). The main component of the shared-nothing architecture is that each AMP manages its own dedicated portion of the systems disk space (called the vdisk) and this space is not shared with other AMPs. Each AMP uses system resources independently of the other AMPs so they can all work in parallel for high system performance overall. Modul-2一个关系数据库是存储在关系数据库管理系统里的相关联的表的集合。“管理系统”这个词,指的是一个关系数据库需要软件来提供象事物处理完整性、安全性和日志的功能。Teradata是一个关系数据库管理系统。关系数据库不用访问路径去查找数据,数据通过数据值来连接。数据连接由一个列与另外一个表中的相关列的匹配值来实现。在相关联的术语中,连接就是指JOIN。Module-3:Teradata的系统主要组成结构分析引擎Parsing Engine分析引擎(PE)是一个解释SQL 请求,接受输入记录,过虑数据的虚拟处理器。完成后的信息通过BYNET传递给AMP。包括:session control(会话控制),parser(解析,包括优化器optimizer),dispatcher(调度)分析引擎主要负责:管理单独的会话层(可以到120个)分析和优化SQL 请求将优化的计划发送给AMPASCII/EBCDIC 之间的转化(如果需要的话)发送响应的结果给请求客户BYNETBYNET可以看作是精密复杂的通讯总线。它依靠使用的平台,既可以是软件也可以是硬件。它决定哪个存取模块处理器(AMP)将接收信息。BYNET是负责:AMP与PE之间的信息传送广播,点对点和多点通讯合并结果集返回给PE让Teradata 的并行处理成为可能BYNET被应用在多节点和单节点系统。存取模块处理器Access Module Processor (AMP)AMP 是一个专门设计用来管理整个数据库的一部分的虚拟处理器。它执行数据库所有的管理功能,例如排序,合计和格式化数据等。AMP从PE接收数据,格式化输出行,然后将数据分配到它所控制的存储磁盘单元。AMP也通过分析引擎接收行请求。一个AMP 最多可以控制64个物理磁盘AMP 通过BYNET 的传送响应分析器和优化器的执行步骤,从它关联的磁盘中选择数据或存储数据。对于一些请求,AMP 还需要重新分配一个数据的副本到其他的AMP。数据库管理的子系统依赖每一个AMP。数据库的管理:* 接收从发报机送来的执行步骤,处理这些执行步骤。它可以做: 锁数据库和表 建立,修改和删除表的定义 插入,删除和修改表中的行 从表和数据定义中获取信息收集统计数据,记录会话的访问过程,用户可以被准确地列出表来。响应返回给发报机数据库管理为磁盘上数据的逻辑组织和物理组织提供了一座桥梁作用。数据库管理执行了空间管理的功能,控制了空间的分配和使用。AMP 也能进行数据转化,检查会话层和把Teradata 内部使用的8 位ASCII转成请求的数据格式。(这与PE 将输入数据转成内部的ASCII 是一个相反的处理过程。)磁盘与AMP 相关联的磁盘和磁盘驱动器用来存储数据行。在当前的系统中,它们一般使用磁盘阵列。磁盘阵列(Disk Array)磁盘矩阵是一个利用专门的控制器来管理和分配数据和奇偶校验的磁盘驱动器结构,以此提供快速存取和数据完整性。每一个AMP 虚拟处理器都必须访问矩阵控制器,这个控制器依次访问物理磁盘。AMP 虚拟处理器和一个或多个rank 的数据相关联。一个AMP 虚拟处理器和相关联的总的磁盘空间被称为VDisk(虚拟存储器)。一个VDisk 最多可以有三个rank。所有磁盘RAID 技术进行管理,其中有如下的几个方式:_RAID LEVEL 5多个磁盘的数据和奇偶保护_RAID LEVEL 1每个磁盘有一个数据复制的物理镜像_RAID LEVEL S类似RAID5 用于EMC 磁盘矩阵的数据和奇偶保护磁盘矩阵控制器是一个双重可用的矩阵控制器,也就是说除了在相互备份时,两个控制器都可用。每个AMP 能支持的最大磁盘空间V2R246GBV2R3/V2R4119GB_每个AMP虚拟处理器额可以指派给一个虚拟存储器_每个虚拟存储器可以拥有119的磁盘空间Teradata 存储过程_分析引擎解释SQL 命令,将从主机那里得到的数据记录转化成一个AMP 信息。_BYNET 把这一行分配给相应的AMP。_AMP 格式化行并它们写到相关联的磁盘中去。_磁盘保存行的并发访问路径。主机或客户端系统提供数据记录。这些数据记录是未被加工的原始数据,数据库将从这些原始数据中构造。由于Teradata没有预先分配表空间的概念,所以表中的行不仅被随机分配到所有的AMP 中去,而且它们被随机存储在AMP 相关联的磁盘空间中。Teradat 读取过程从Teradata RDBMS读取数据与存储过程是相反的。一个数据请求传送到分析引擎(PE),PE 将优化这个处理请求使之更加有效,并为相应的AMP 产生执行的任务,使之处理请求的意图。这些任务然后通过BYNET 被发送到AMP 上。通常所有的AMP 都必须协作以建立结果集,就如将一个数据表中所有的行返回给客户端应用程序。其它时间只有一个或部分的AMP 参与。PE 将确保只有必要的AMP 才被指派任务。一旦AMP 被指派任务,它们就读取各自任务所要求的数据行。如果需要的话,AMP 将进行数据排序、聚合或格式化等操作。然后这些数据行通过BYNET返回给请求的PE。之后PE 又将收到的返回结果传送到客户端应用程序。_分析引擎发送一个请求读取一行或多行_BYNET 确保相应的AMP 的可用性_AMP 以并行访问方式查找并读取所需要的数据行_BYNET 将读取的数据行返回给分析引擎_分析引擎将结果数据返回到请求的客户端应用程序多个AMP 上的多个表你也许会认为RDBMS 将分配每个表到一个特定的AMP,因此AMP 就会把一个表存储在一个磁盘中。然而正相反,当你看到下面的图表,会知道其实并不是那样的。系统会把表中的所有的行分开存储到每一个可用的AMP 中。_表被分配到所有的AMP 中,要经过所有的AMP 的行的分配应当均匀,以确保每个AMP 的工作量能够被均匀分配_每个表都有一些行被分配到每个AMP_每个AMP 控制一个由几个的物理磁盘组成逻辑存储单元_大型的结构可以有数百个AMP_全表扫描操作,要求并行地存取所有的AMP,查看表中所有的行。并行处理才能使存取海量的数据成为可能。让我们看看这三个表:EMPLOYEE,DEPARTMENT 和JOB。Teradata RDBMS 把每个表中的所有行分开存储到所有的AMP 中。AMP 把行分开存储到它们的磁盘。每个AMP 得到每个表的一部分。表拆分意味着所有的AMP 和它们相关联的磁盘在全表扫描中将被使用,这样就加快了对这些表的请求。在我们的例子里,如果你有四个AMP,理论上每个AMP 将得到每个表的25。如果1AMP 得到EMPLOYEE 表90的行,这被称作粗笨的数据分配。这种粗笨的数据分配将降低系统的响应速度,因为任意一个要求扫描EMPLOYEE 表所有行的请求在1#AMP 完成工作的时候都将会有三个AMP 处于空闲。因此把所有的表均匀分配到所有可用的AMP 中会比较好。在后面的章节中你将学会如何控制分配。_表中的某些行可以在每个AMP 中找到_每个AMP 可以有所有表中的行_在理想情况下,每个AMP 将保存大致相同数量的数据线性增长和扩展Linear Growth and Expandability完成一个任务需要的时间总和直接与系统的大小成正比例的特点对于Teradata RDBMS来说是独一无二的。Teradata 是一个线性扩展的RDBMS。系统构成在需求增长时可以线性扩展Tera的并行处理Teradata Parallelism并行处理在Teradata RDBMS中是最关键的。事实上系统的每一个部分都存在并行处理。如果没有并行处理,管理海量的数据不只是不可能,而且将是花费昂贵、效率低下的。每个PE 能支持120 个用户的并行会话。可以是120 个不同的用户或单一用户在一个应用程序利用120个会话的处理能力。每个会话可以并行处理多个请求。要是在某一时刻只有一个可用的请求代表一个会话,这个会话本身可以管理16 个请求的行为和它们相关的答案集。BYNET 的是专门为设计的,以使它不会成为系统的瓶颈。因为BYNET 在不同的平台被不一样地实现,它总是在每个特定平台的最大吞吐量所需的带宽之内。每个AMP 能并行地执行80 个任务。AMP 在某个时刻从不只对一条请求服务,而是并行地执行多条请求。因为AMP 设计用来管理数据库的一部分,它们必须在并行操作中完成即定结果。另外,如果步骤间不存在其它的耗费的话,优化器可以指示AMP 并行地处理某些步骤。这表明一个AMP 可以代表同一个请求并发地执行一个以上的步骤。并行CLI 能让客户端应用程序实现并行处理,这对于多会话应用特别有用并且它是通过设定一些环境变量来完成的。它不需要改变应用程序的代码Teradata 功能综述Teradata数据库需要三个不同的软件模块:TPA,PDE 和OS。可信任的并行应用(Trusted Parallel Application (TPA))执行虚拟处理器并在PDE 和操作系统之上运行。Teradata RDBMS被分类看成一个TPA。Teradata RDBMS的组成部件包括:_通道驱动程序_Teradata网关_AMP_PETeradata数据库并行扩展(PDE,parallel database extensions):管理和运行虚处理器:PE和AMPs并行数据库扩展(PDE)软件是位于操作系统上面的接口层。PDE 支持并行的软件环境。客户端应用程序包括:_一个大型主机系统,象IBM 或UNISYS 利用通道连接Teradata RDBMS_PC 或UNIX 系统是通过网络连接的客户端应用程序向RDBMS 提交一个SQL 请求,接收响应并提交给用通道连接的客户端软件综述在通道连接的系统中,有三个主要的软件部件,在请求或者从Teradata RDBMS获得响应起了重要的作用。一个是客户端应用程序,有可能是客户端的应用程序或者就是Teradata本身提供的程序。许多客户端应用程序被用于前台的SQL 递交,但也有被用来维护文件档案和产生报表的。任何客户端支持的语言只要能适合调用层接口(CLI)就可以被使用。调用层接口(The Call Level Interface (CLI)),是针对Teradata RDBMS的底层接口。包括会话建立的系统调用,分配请求,返回缓冲,打包查询以及解包返回到目标库表Teradata 主管程序(TDP)是一个Teradata 提供的程序,必须运行在任何使用通道连接到Teradata RDBMS的客户端系统。TDP管理在调用层接口与RDBMS之间的会话层的通信量。它的功能包括会话的开始,终止,登录,确认,恢复,重新启动,从PE 的输入和输出(包括会话平衡)和队列的维护等等。TDP 也控制系统的安全。网络连接客户端软件综述在网络连接的系统中,有四个主要的软件部件在从Teradata RDBMS 取得请求中起了重要的作用。它们包括:_程序员用客户端支持的语言编写的客户端应用程序。这个应用程序的用途是提交SQL 语句给RDBMS 并在结果集上执行处理。_调用接口层(CLI)是用于客户端的程序库。客户端程序使用这些程序执行象登录,注销,提交SQL 查询这样的操作,并接收包含结果集的响应。这些程序在网络连接和通道连接的环境中基本相同。_微型Teradata 主管程序(MTDP)是Teradata 提供的,必须连接到网络连接的Teradata RDBMS的应用程序。MTDP执行许多通道型的TDP相同的功能,包括会话管理。MTDP 没有对PE 间的会话平衡进行控制。连接和分配运行在Teradata系统中的服务器处理会话平衡。_微型操作系统接口(MOSI)是一个程序库,给访问RDBMS 的客户端提供操作系统独立性。通过使用MOSI,只需要一个版本的MTDP 运行在所有的网络连接平台。Teradata ObjectsTablesA table is the logical structure of data in an RDBMS. It is a two dimensionalstructure made up of columns and rows. A user defines a table by giving ita table name that refers to the type of data that will be stored in the table.A column represents attributes of the table. Column names are given to eachcolumn of the table. All information in a column is the same type. For example,a column named date of birth would only hold date of birth information.Each occurrence of an entity is stored in the table as a row. Entities are thepeople, things, or events that the table is describing.Teradata 对象Teradata数据库系统中的数据库是表、视图和宏这些对象的集合。数据库提供了逻辑的分组信息。它们也是空间分配和访问控制的基础。_在Teradata 数据库中有三个基本对象:表行和列的数据视图预先定义的表的子集宏预先定义,存储SQL 命令_这些对象用结构化查询语言(SQL)来进行创建、维护和删除_对象定义存储在数据字典里表表在RDBMS 中是逻辑结构的数据。它是一个由行和列组成的二维结构。一个用户通过给定表名定义了一个表,提交的数据类型将被存储在表中。列表现出表的属性。表的每个列都有列名。列里所有的信息都是相同类型的。举例来说,一个叫做出生日期的列就只包含出生日期的信息。每个实体的出现就是存储在表中的行,实体可以是人、物体或表描述的事件。视图 视图是预先定义的一个或多个表或其他视图的子集。它不是真正的表,而只是作为已存在的表或视图的参考。一种对视图的看法就是看作一个虚拟的表。视图在数据字典中被定义但没有包含任何物理行。视图可以被数据库的管理者用来控制对优先表的存取。视图可以用来隐藏用户的列,隔离数据库改变的应用程序,简单化和标准化存取的技术。宏宏是预先定义的用来存储一条或多条SQL 命令、可选择的格式化命令的集合。宏用来简单化经常使用的SQL 命令的执行数据字典( DD)数据字典是一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年宜昌市伍家岗区保安员招聘考试题库附答案解析
- 通州单位餐饮服务合同
- 2025年企业安全生产费用提取与管理考核试题汇编
- 电信线上考试题库及答案
- 语料排序测试题库及答案
- 2025年平顶山市叶保安员招聘考试题库附答案解析
- 2025年山东省潍坊市潍城区保安员招聘考试题库附答案解析
- 大学计算机基础操作技能测试题
- 成本管理会计试题库及答案
- 2025重庆奉节县人民医院招聘3人模拟试卷完整答案详解
- 内蒙古科技大学开题报告
- 自身免疫性溶血性贫血课件
- 中国马克思主义与当代思考题(附答案)
- 韧性理论与韧性城市建设
- 体育社会学课件第十章社会体育的社会学分析
- 展厅设计布展投标方案(完整技术标)
- 新员工公司级安全生产培训课件
- 大学面试试讲PPT-机械原理
- 科达视频会议控制台操作
- 非遗文化介绍推广课件
- 全老旧小区改造配套基础设施项目工程监理实施细则
评论
0/150
提交评论