IBM决策支持系统(DSS)应用程序处理

上传人：清*** IP属地：河南上传时间：2020-04-06 格式：DOC 页数：10 大小：61.50KB 积分：12 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

IBM 决策支持系统决策支持系统 DSS 应用程序处理应用程序处理 Jack Parker Arten Technology Group 2002 年 4 月随着相对较新的决策支持系统 DSS 在 UNIX RDBMS 领域中的出现数据库专业人士面临着数十年来大型机编程员一直在解决的问题我们编写 OLTP 应用程序已经有很长时间了以致于我们在进入 DSS 领域时头脑里还保留着 OLTP 的那种思维方式和方法这对于硬件和数据库不公平因为它们有能力把事情做得好得多在 OLTP 领域中我们可能会关心单个用户输入客户订单我们想确保产品表订单表以及可能的库存和客户表都被一致更新如果产品表更新失败那么只更新订单表以反映产品价格对我们没有任何好处我们能够知道客户订购了 5 00 美元的商品但我们不知道是什么货为了保证正确处理这些更新我们使用事务来确保一致地执行或不执行所有操作因此我们要特别在意事务日志以便我们可以重做或撤销工作我们的数据库软件有专用于支持这种处理方法的完整开销层我们的思考模式也局限于事务性方法在 DSS 领域中我们需要对大量数据执行操作我们不需要个别用户针对单独行或行集合发出更新操作而是执行数百万次的插入或更新或者是甚至几百万次的删除如果我们在 DSS 领域中使用事务性方法那么我们就会作茧自缚本文中介绍的技术的最初测试是在带有 16 个处理器 RAM 为 16GB 以及磁盘为 1 2TB 的 Sun 6500 上完成的最后测试是在 RAM 为 500MB 和磁盘为 40GB 的 Sony 133Mhz PentiumII 上完成的有趣的是在排除规模因素后这两台机器的运行情况类似读者将在本文中找到有关对记时采用外推法的相应参考资料可以用算术方法得出这些值这些值反映了这两台机器的性能示例示例 1 DSS 插入插入在最近的一个案例中我处理了一个用新数据装入 10 亿行表的过程插入由于不希望有重复数据开发人员对该表附上了一个唯一性索引并以高级方式在这种方式中装入的行遵守所有验证标准使用 IBM Informix R Extended Parallel Server TM XPS 并行装入器来拒绝重复装入过程大约以每小时装入 1 百万行的速度运行当过程在每个月要插入 1 千多万行时逻辑日志将溢出并且引擎开始回滚所有插入操作因为回滚花费在撤销操作上的时间远比原始操作多所以这意味着回滚要花费另外的 20 至 30 小时换言之如果该过程失败将有 30 到 40 个小时专门花费在这上面为什么该方法无效为什么该方法无效为了理解为什么该方法很糟让我们仔细研究一下引擎做些什么 1 装入器从输入文件或多个文件读取记录 2 记录被转换成内部格式现在我们称之为行 3 执行索引查找操作以查看该行的索引是否已经存在因为这是一个大型表而且索引的深度为 6 级所以这可能意味着每个索引查找操作要读 6 次 4 如果未找到索引则该行被附加到一个有空间的页面上因此该页面被读取或者仍可以驻留在上一次插入的缓冲区中 5 这也许意味着对该表分配更多的数据块 6 该页面以前的映象保留在物理日志中在任何更改之前 7 插入被记录在事务日志中 8 通过检查点或者通过前台写操作定期将这些数据页面存储到磁盘上在数据极少的开发环境中该过程决不会使日志溢出索引查找操作将快很多而且要插入的行数会比较少整个过程可能运行 20 到 30 分钟这是完全可以接受的直到我们碰到大型表时才会开始有麻烦在事务性方法中我们想将最新读写的数据保留在缓冲区中这样不仅可以把写操作组合在一起从而使写操作更有效而且被请求的数据通常在该缓冲区中至此我们将大量内存分配给这些缓冲区我们担心最近最少使用 LRU 队列来管理它们我们正在探索使缓冲区读命中率大于 90 使高速缓存写比率高于 80 当我们处理一个很小的行集合时这很有效然而这产生了一层开销当处理大量行时开销会使速度慢下来这层开销有时被称为缓冲区墙避免避免缓冲区墙缓冲区墙轻型扫描和轻型添加轻型扫描和轻型添加插入的选通因素是我们正设法通过该缓冲区墙插入数据我们正在为打算插入的每一行进行索引查找操作如果我们能够以某种方式使这些操作加速或者避免这些操作则可以更快地移动数据幸运的是有轻型扫描和轻型添加特性在轻型扫描中从表读取的数据存储在其自己的专用缓冲池中根据这个条件将不需要为进一步的操作保留该数据有一个内在含意将读取整个表或者至少表的一整段使用轻型扫描引擎不会使缓冲池中填满大型表内容避免了缓冲区管理的开销轻型扫描的速度明显快于传统扫描轻型添加以相似的方式起作用但它是个逆向操作它不会试图将数据缓冲到缓冲池中而是将数据直接写到新的页面在一次成功的装入操作结束时新页面被添加到现有表使用轻型添加预期可以达到的最低负载率为每小时每个 CPU 为 2 GB 为了利用这些特性达到最佳性能必须在多个 dbspace 之间仔细地对您的表进行分段在这第一个示例中 10 亿行的表被分段在 32 个 dbspace 上也可以预创建临时表并根据所需的大小在多个 dbspace 之间对表进行分段最好将任何给定的表保持在 500 MB dbspace 以下然而这并非总是可行的在这个特殊情况下一个表在每个 dbspace 上就消耗掉 2 GB 因此扫描时间是 15 分钟而不是 4 分钟不同的实例有不同的业务需求因而有不同的准则在这个情况下我们用与处理器数匹配的 dbspace 设置 dbslice 在 IBM Informix Extended Parallel Server 下 dbspace 被收集成称为 dbslice 的实体这提供了更大的管理单位 dbslice 它还允许 DBA 在 dbslice1 中以散列列进行分段的形式将分段指定为更独立级别所以 16 个处理器的机器有一个包含 32 个 dbspace 的 dbslice 一个包含 16 个 dbspace 的 dbslice 一个包含 8 个 dbspace 的 dbslice 和一个包含 4 个 dbspace 的 dbslice 在包含 16 个 dbspace 的 dbslice 之上散布着临时空间目标是达到最大比例为每处理器 3 个 dbspace 如果我们有磁盘就可以把较大的 dbslice 增加到 48 个 dbspace 这样就可以减少 1 3 的扫描时间通过使用散列连接避免索引查找通过使用散列连接避免索引查找快速读写数据的能力表示我们可以重新设计我们的应用程序来利用这个速度并获得显著的性能改进如果您阅读另一篇相关的文章 Tuning DSS Queries 您将注意到它广泛地应用了散列连接散列连接可以连接两个表中的数据比建立索引的连接快大约 1 到 3 个数量级它是一个功能强大的工具但是应该仅当期望连接整个表或一个表的大部分内容时才使用该工具所以让我们用散列连接方法再次处理上面的问题这次避免索引和缓冲区墙我们将使用散列连接来确定新数据和目标数据之间是否有任何匹配重复的数据而不是为要插入每一行探测目标表索引页然后我们将按照这一知识来操作 1 要做的第一件事情是除去目标表上的索引如果索引存在则优化器会选择使用它而不是使用我们首选的散列连接方法 2 然后让我们将新数据装入优化器可以看到的表中我们创建一个原始表它复制最后的目标表还创建了一个与原始表语法相同的外部表将 1 千万行数据装入该表大约在 60 秒内从逻辑上我们可以说并没有装入新数据但 XPS 将外部表看作真正的表然而优化器可能认为该文件中有 20 亿 MAXINT 行最后才扫描它从这个更大型的表该表太大而无法放入内存构建散列表这将引起内存溢出情况并需要一个小时或更多时间来与临时磁盘相互交换数据 3 我们更新新原始表的统计信息以便优化器可以理解其中有多少行 LOW 足够满足我们的需要了为了使本文简短些这里每次表装入或表插入之后我们将不重复 UPDATE STATISTICS 但建议在真正的操作中添加该步骤 4 下一步将新表与旧表匹配 selectraw table fromdestination table raw table wheredestination table key raw table key into temp t1 with no log 通过预创建这个 t1 表并在多个 dbspace 之间对它进行分段又可以省去几秒钟时间在整篇文章中我都没有这样做只是为了使之保持简单扫描整个目标表似乎开销太惊人但我们将表分段在 32 个 dbspace 由于轻型扫描所以该散列连接花了 15 到 17 分钟任何重复的行都将被插入临时表 t1 现在我们的第一个问题出现了我们需要知道任何行是否已插入该表 t1 并根据插入的行数这一条件信息采取了不同操作 SQL 无法很好地支持我们所需要的操作然而我们可以容易地将该 sql 放入脚本在那里执行检查并相应地进行分支处理如果没有任何行被插入到临时表中那么我们的源数据是纯的我们只要 insertinto destination table select from raw table 反之如果行被插入到 t1 中那么我们必须找出哪些行是重复的然后不插入它们所以我们 insertinto t1 select from raw table 现在我们将两个数据集中较小的那一个要插入的部分添加到了 t1 表这创建了重复的行很容易找到它们 selectkey fromt1 groupby key havingcount 1 intotemp t2 with no log 现在在 t2 中有了不错的唯一性数据我们可以从那里连接回 raw table 以直接装入到 destination table 中 insertinto destination table selectraw table fromt2 raw table wheret2 key raw table key 我们可以合并这两个步骤按整个行分组然后插入到 destination table 中这可以避免散列连接在测试中这省去了 30 秒但这将因您的表而异如果我们想更进一步用重复的行更新目标表那么我们还要 selectkey fromt1 groupby key havingcount 2 intotemp t3 with no log selectraw table fromt3 raw table wheret3 key raw table key intotemp t4 with no log 我们也可以合并这两个步骤按整个行分组然后插入到 t4 表中这避免了散列连接在测试中这省去了 1 秒这将因您的表而异在那里我们就可以直接从临时表 t4 更新目标表表 a 显示了通过使用这种方法实际花在插入行上的时间表 a 将 1 千万行插入 10 亿行表所需的时间数据的初始装入让我们大方点 60 秒原始和目标表之间的散列连接16 分钟 15 到 17 是平均数不插入重复的行20 秒解决重复问题90 秒用重复的行更新17 分钟更新连接是随后有更多更新的散列连接简而言之与有时运行 10 小时以及有时因出现故障而运行 30 至 40 小时相比现在我们的过程成功运行的时间不到 20 分钟如果我们还想要进行更新则仍可以指望总计时间在 40 分钟之内最妙的是即使要装入 3 千万行时间也不会变化多少选通因素是大约 15 分钟的目标表扫描而不是传入数据这种算法几乎可以应用于任何情况只要您理解表 b 中所示的规则表 b 考虑 DSS 处理的规则不要要不要根据行来考虑问题如果想要读记录读行进行检查和插入更新行您就注定要使用事务性方法将行视为一组数据一次处理所有行不要使用事务日志记录功能事务日志记录引入了一层代价很大的开销它不仅会使速度慢下来而且它还对在溢出日志之前可以做的事情强加了限制另外如果过程半途失败那么我们需要做的最后一件事情是弄清楚过程中的什么地方出了问题然后重新启动它通常重新启动一个过程花费不是很大我们认为在上述情况中恢复和重新应用更新将花去 10 到 11 个小时这种情况很少发生在下面的示例中我们将使用一些重写技术如果发生问题这些技术可以为我们提供多次机会来回到前一状态并再试一次扔掉所有索引稍后我们将详细讨论它不要使用数据库级参照完整性在上面的情况中我们使用了散列连接而不是唯一性索引来防止重复数据输入我们的表中我们可以用相同的方式处理大多数参照完整性问题以达到同样的效果将数据合并到单个表中连接花费很大如果您需要的所有数据都在单个表中那么它会变得很容易处理不要针对表打开游标这样做的话您就运用了引擎的所有能力并通过少量管道将它传递到过程中在引擎中完成所有工作可能会碰巧遇到游标是可用来处理情况的唯一工具那么在使用游标之前先理解它的含意抽取要使用的行集合使用它们然后将它们放回或放入新的表副本中可以将其它未更改的行集合添加到该副本示例示例 2 DSS 更新更新通过使用 DSS 方法可以有许多不同的方法来解决更新问题 OLTP 领域中的选项较少在 OLTP 领域中我们将从某处读取输入在目标表中查找匹配行对该行进行更改并将它写回数据库中该方法往往很慢您可以获得每小时几万行的执行速率针对上面提到的十亿行表如果每天晚上要将 2 千万个更新应用于该表则对该过程使用 OLTP 方法将永远赶不上要更新的数据量备用方案备用方案 1 更新连接更新连接幸运的是 IBM Informix Extended Parallel Server 提供了更新连接 updateDestination setdestination col1 input col1 fromdestination input wheredestination key input key 备用方案备用方案 2 添加更新添加更新 Additive update 让我们假设我们没有更新连接但可以采用不同的方法来处理它与前面不同的是让我们将 2 千万个更新应用于 1 亿行表第一步是将更新行或输入转变成看上去与目标行完全相同的行在将这些数据装入临时表时完成这一步然后我们可以做许多事情这些事情都包括新的表副本的写操作我将简化语法只显示感兴趣的部分尤其因为我不知道我们在这里更新什么我避免使用别名使内容变得更加易读如果更新是添加型的更新目标集 col1 col1 foo col1 那么我们可以 createraw table new dest createraw table load table sameas destination insertinto load table select from input files insertinto new dest selectkeys destination col1 load table col1 fromold destination outer load table whereold destination key load table key 注在创建原始表时不能使用 sameas 语法该语法是为外部表而保留的这似乎与我们的直觉相反外连接怎么会比更新有效呢它或许比更新连接慢请参阅表 c 但我们用使用读写的策略替换索引策略正如前面提到的那样 IBM Informix 引擎拥有重写整个表的强大功能它比传统数据库包括 IBM Informix 数据库处理这种规模的索引更新的速度快备用方案备用方案 3 替换更新替换更新如果更新是替换型的 replacement 那么我们的策略会稍做变化我们为每一行附加一个指示符用来指示是否应该用新数据来替换它 1 首先让我们构建一个临时表用指示符 0 标记所有旧行 createtable temp table keys indicator smallint insertinto temp table selectkeys 0 indicator fromdestination 2 接下来将所有新键和指示符 1 插入同一个表中 insertinto temp table selectkeys 1 indicator frominput files 3 现在我们将最终目标表的所有键放入新的临时表 t2 中指示符为 0 的那些行都来自目标表指示符为 1 的那些行都来自 input files 表未更改过 indicator 0 的那些行可以直接放入新的目标表副本中 selectkey max indicator fromtemp table groupby key intotemp t2 with no log insertinto new destination selectdestination fromdestination t2 wherekey key andt2 indicator 0 4 现在可以直接从 input files 外部表添加替换数据 insertinto new destination select from input files 5 最后删除旧表重命名新表 droptable destination renametable new destination to destination 该方法似乎有点复杂我们必须对目标表扫描两次第一次获得所有键第二次获得所有数据我们还构建了可能非常大的临时表扫描该表同样也需要很大的花费这里要指出一点全表扫描和重写之间的速度存在差别但仍比索引更新快许多表 c 显示了使用这些方法用 2 千万行输入表更新 1 亿行所花费的时间表 c 更新 1 亿行所花费的时间 OLTP 更新超过 100 小时推断更新连接30 分钟 48 秒添加更新17 分钟 54 秒新表更新67 分钟 19 秒请注意添加更新实际上比更新连接快这是因为它不必重写页面它用轻型扫描和轻型添加来完成其所有工作实际更新时间只比扫描两个表的时间长一点该方法有一些变化其关键是实际上不发生任何更新我们避开缓冲区墙而执行所有这些操作结束时如果该过程的所有步骤都成功则可以删除原始表重命名 new destination 表然而有一个前提就是当我们要更新表的很大一部分时才会显出其优点如果要应用的更新数很小那么当您没有 XPS 和更新连接时一定要坚持使用 OLTP 方法您会从上面注意到 XPS 更新连接没有预想的那样快这两个小表的实际扫描和连接应该在 20 分钟内完成重写被更新的页面花去了我们大量的时间您还会注意到通过象上面那样用新的更新重写表我们没有丢失数据如果我们对在更新之前和更新之后预计的行数进行计数则可以检查正在讨论的两个表并在删除旧表之前确定它们是否一切正常因此我们不需要记录日志就可以从问题中恢复新表更新应该运行得更快时限为 45 分钟只可惜它在执行较大的散列连接时发生的内存溢出这是 DSS 方法的严重缺点我们必须了解这个缺点内存内存分配给散列连接的内存来自 DS TOT MEMORY 分配的内存数量与 PDQPRIORITY 设置直接相关如果 PDQPRIORITY 设置为 80 而且 MAXPDQPRIORITY 100 那么您将获得 80 的可用内存 MAXPDQPRIORITY 也是一个百分比所以有效的 PDQPRIORITY 设置是 MAXPDQPRIORITY 100 PDQPRIORITY 100 DS TOT MEMORY 在 XPS 8 31 中 PDQPRIORITY 稍有变化因而可以按需动态分配内存然而这种动态分配仍不完美引擎在内存中根据参加连接操作的两个表中的较小一个构建散列表然后用两个表的较大表探测该表如果没有足够的内存来构建散列表那么该表的一部分被交换到临时磁盘上虽然查询溢出的可能性超过 200 内存中 100 磁盘上 100 而交换需求将使速度进一步慢下来但是使用临时磁盘通常还是不错的您可以用下面的公式算出散列表将需要多少内存散列表项是 32 键大小较小表的行大小因而如果可以使较小的表变瘦对行大小使用较小的值和或连接小的键那么连接将需要较少的内存并将更快地运行了解这一点并密切关注它是调优 DSS 过程的关键索引索引当期望使用索引而创建它时设法做以下两件事情之一提供对个别行的快速访问为索引本身中的操作提供所有必需的数据当使用 DSS 方法时索引可以欺骗优化器使用嵌套循环连接而不是散列连接这一点对于大型表尤为明显因为查找行意味着根据索引深度遍历多个索引页面如果您正在处理许多数据则会用从其中获得一行或两行的页面填充缓冲区您可能必须多次读取某些页面从而使要执行的工作加倍如果正在使用索引则预期的吞吐量为每小时几万行在 DSS 方法中不需要索引当然在某些情况下索引是很重要的如果我们需要从大型表中删除 200 行则对表构建一个索引然后发出 200 条个别更新或删除语句这样做要比使用 DSS 方法快得多示例示例 3 DSS 删除删除备用方案备用方案 1 删除连接删除连接 IBM Informix Extended Parallel Server 为删除操作提供了与更新连接类似的连接称为删除连接 delete join 在 V8 30 中不能为表取别名在 V8 31 清除了这一限制语法是 deletefrom destination usingdestination input wheredestination key input key 这是对表应用多个删除操作非常有效的方法而且这是一个散列连接在该散列连接的后台更新的应用了删除操作的页面被重写回磁盘然而在运行这样一个命令之前应该考虑您正在做什么删除在页面中开了一个洞可以通过 OLTP 环境中的插入语句或更新语句某些情况下来重新填充这个洞然而我们已经努力避免这种语句对 DSS 表应用多个删除操作会使它到处是洞这些洞将不能再使用如果这种删除太多我们将要重新构建该表备用方案备用方案 2 重写方法重写方法让我们通过使用重写方法而不是使用行删除方法来研究一下删除操作基本上我们要做的就是编写一个新表它不包括我们不想保留的行在逻辑上可以把它看作 insertinto new table select from old table wherekey not in select key from delete table 用这个方法处理问题极为糟糕因为 NOT IN 条件将会使两个表之间产生嵌套循环连接更佳的方法是 insertinto new table select from old table w

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

IBM决策支持系统(DSS)应用程序处理

文档简介

温馨提示

最新文档

评论

IBM决策支持系统(DSS)应用程序处理

文档简介

温馨提示

最新文档

评论

相关文档