海量数据存储、访问与管理.doc_第1页
海量数据存储、访问与管理.doc_第2页
海量数据存储、访问与管理.doc_第3页
海量数据存储、访问与管理.doc_第4页
海量数据存储、访问与管理.doc_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海量数据存储、访问与管理随着信息化程度的提高,数据已超出它原始的范畴,它包含各种业务操作数据、报表统计数据、办公文档、电子邮件、超文本、表格、报告以及图片、音视频等各种数据信息。人们用海量数据来形容巨大的、空前浩瀚的、还在不断增长的数据。 海量数据是当今商业面对的一个现实。任何一个企业都在面对其企业数据库由于规模扩大产生的沉重负担,提高海量数据访问能力和业务分析能力的要求也变得越来越迫切。 数据爆炸。如今,需要企业进行管理的数据正在以指数级速度增长。分析人员发现,公司收集、存储和分析的有关客户、财务、产品和运营的数据,其增长率达125% 之多。各个方面的因素导致了数据的爆炸,如:网络应用增加了数据的增长速度;监控点击流需要存储与以往相比越来越多的不同的数据类型;多媒体数据也增加了对存储的要求;我们存储并管理的不仅仅是数字和文字,还有视频、音频、图像、临时数据以及更多内容,这些数据的增长速度也在不断地上升;数据仓库和数据挖掘应用鼓励企业存储越来越长的时间段内越来越多的数据。这些实际情况导致的结果就是数据大量增加。 法规方面的要求。在会计丑闻的唤醒下,立法者和决策人施加了严格的新要求,几乎影响到全球各家大型企业。法案要求公共公司遵守严格的金融记录保持与报告法规。如果公司不能及时、可靠地访问准确的财务信息,那么它们将面临罚款、调查、起诉、甚至更严厉的股东信心下降的威胁。这要求公司能提供对更多数据的不间断访问能力并进行更多的分析,这必然会延长数据的维护周期,增加数据容量。 非结构化数据应用的需要。结构化数据是指诸如企业财务账目、客户信息、业务操作数据等具有明显结构化特性的数据。非结构化数据包括扫描文档图像、传真、照片、计算机生成的报告、字处理文档、电子表格、演示文稿、语音和视频片段等。根据业界分析报告,非结构化数据占有整个信息量的85%以上,数据量及其庞大,是信息资源管理的核心。同样,企业需要对非结构化数据进行存储、检索、过滤、提取、挖掘、分析等各方面应用。 历史数据归档与访问的需要。一般来说业务系统是用来处理业务交易的,为了使这些关键业务系统的性能不会受到严重影响,往往业务系统只存放短周期内的业务交易数据,大量的历史数据都被备份到磁带上,或者被转移到其他存储设备上静态保存,当对它们运行SQL 查询时再把它们从档案环境中恢复出来。但是随着企业对数据的重要性越来越重视,以及数据分析、数据挖掘的应用逐渐普及,历史数据的访问将变得重要、频繁和直接。历史数据的不断积累,也对海量数据的存储、管理和访问提出了新的需求。 数据整合与数据分析的需要。当前,企业信息的存放具有数据结构多元化、存储异构化的特点,企业的数据可能存储在传统系统、大型数据仓库或具有计费、订购、制造、分销或其他功能的数据运营孤岛上,因此会给访问带来极大的困难。数据整合与数据分析已经成为信息管理技术的应用热点。只有在有效的数据整合基础上,才能消除信息孤岛,降低有效信息获取的难度,通过对整合数据的分析和加工来获得制定策略所必需的信息依据。 传统的关系型数据库面临更大的挑战 传统的关系型数据库在计算机数据管理的发展史上是一个重要的里程碑,这种数据库具有数据结构化、最低冗余度、较高的程序与数据独立性、易于扩充、易于编制应用程序等优点,目前较大的信息系统都是建立在结构化数据库设计之上的。 然而,随着越来越多企业海量数据的产生,特别是Internet和Intranet技术的发展,使得非结构化数据的应用日趋扩大,以及对海量数据快速访问、有效的备份恢复机制、实时数据分析等等的需求,传统的关系数据库从1970年发展至今,虽功能日趋完善,但在应对海量数据处理上仍有许多不足。 缺乏对海量数据的快速访问能力 当你的竞争对手在周五下午宣布了新的价格体系,你所在机构的总裁在周一早晨之前想要一份对你公司有何影响的分析报告,业务分析员想做的最后一件事情是花费20分钟等待整个表扫描和多表连接来获得“如果会怎么样”的查询。因为没有经过优化的查询会耗费很长的时间;进行查询的用户,其需求需要按计划执行;多个查询会竞争CPU资源;并且业务需求经常被改变。所有这些都要求不断调整优化数据库或甚至重新设计数据库。 缺乏海量数据访问灵活性 在现实情况中,用户在查询时希望具有极大的灵活性。用户可以提任何问题,可以针对任何数据提问题,可以在任何时间提问题。无论提的是什么问题,都能快速得到回答。传统的数据库不能够提供灵活的解决方法,不能对随机性的查询做出快速响应,因为它需要等待系统管理人员对特殊查询进行调优,这导致很多公司不具备这种快速反应能力。 对非结构化数据处理能力薄弱 传统的关系型数据库对数据类型的处理只局限于数字、字符等,对多媒体信息的处理只是停留在简单的二进制代码文件的存储。然而,随着用户应用需求的提高、硬件技术的发展和Intranet/Internet提供的多彩的多媒体交流方式,用户对多媒体处理的要求从简单的存储上升为识别、检索和深入加工,因此如何处理占信息总量85%的声音、图像、时间序列信号和视频、E-mail等复杂数据类型,是很多数据库厂家正面临的问题。 海量数据导致存储成本、维护管理成本不断增加 大型企业都面临着业务和IT投入的压力,与以往相比,系统的性能/价格比更加受关注。GIGA研究表明,ROI(投资回报率)越来越受到重视。海量数据使得企业因为保存大量在线数据以及数据膨胀而需要在存储硬件上大量投资,虽然存储设备的成本在下降,但存储的总体成本却在不断增加,并且正在成为最大的一笔IT开支之一。另一方面,海量数据使DBA陷入持续的数据库管理维护工作当中。 海量数据缺乏快速备份与灾难恢复机制 传统的数据库备份技术,如通常采用的磁带备份方式,不能运用于海量数据,因为磁带备份将使备份时间增加,需要几小时-几天,不仅影响了生产,而且增加了备份的难度,使得备份/恢复变得缓慢而且不可靠,几乎无法在固定的时间窗口完成备份工作。另外,第三方备份软件隐含的成本代价如成本开销、复杂度、昂贵的实施等也是企业需要考虑的。因此海量数据安全显得异常重要,只有通过引入有效的备份、方便高效的备份恢复技术,才能满足海量数据安全的需要。 Sybase提供对VLDS的最大支持 专注于信息管理和信息移动技术的企业级软件公司Sybase,致力于为客户提供管理企业内部各种复杂海量数据源的解决方案。其一系列的解决方案帮助数据密集型行业对来自于固定或移动数据源的结构化或非结构化的海量数据进行查询和分析,使企业能够更好的管理数据资产并将其转化为切实可用的信息。 世界领先的VLDS引擎 SybasE IQ Sybase IQ采用了成熟的压缩算法,与传统的RDBMS 解决方案相比,数据存储量可以减少6080%。这也就减少了物理存储需求和人员配备成本。经过独立的审核测试确认,存储48T字节的原始输入数据,Sybase IQ只需要22T的物理存储空间。此外,Sybase IQ 比传统数据库更容易维护,而且不需要进行与时间和资源相关的调整就可以达到极佳的性能。除了节约成本以外,Sybase IQ还可以更好地发现和分析信息,从而帮助组织机构防止欺诈、减小风险、发掘新的商机以及获得其他各种好处。 Sybase DODS 从运营系统获取数据,将其复制到运营数据存储中,然后使用用户熟悉的、功能强大的报告工具快速访问数据。 强有力并且简单易用地进行交叉查询 Emails,Documents and Transactions。 Sybase Dynamic Archive 解决方案的独特设计 Sybase Dynamic Operational Data Strore (DODS) 动态运营数据存储解决方案 数据的空前增长,需要访问数据的知识工作者的不断增多,以及实时取得信息的需要,这一切都对运营系统造成了巨大的压力。Sybase DODS 解决方案采用功能强大的复制技术,能够几乎实时地从运营系统获取数据,而不会干扰系统的运行。复制的数据存储在 Sybase IQ 归档数据库中,可提供比传统数据库快100 倍的查询速度,而所需的存储空间却比传统RDBMS解决方案要少 6080%。Sybase 的DODS解决方案可以迅速缓解公司海量数据的压力,使它们在保持原有系统性能的同时,还能安全地满足不断增长的实时自助业务分析的需要。 用户实例:Telefonica Spain(西班牙电信)DODS系统、青岛海尔DODS系统、江苏地税DODS系统,等等。 Sybase E-mail 与文档归档、检索解决方案非结构化数据的有效运用 Gartner研究表明:非结构化数据已经与传统的“结构化”数据同样重要,当今85%以上的商业信息是保存在非结构化数据中,而且这个发展趋势越来越快。相关法规的制定对公司E-mail系统信息及相关文档保存期的要求也越来越长。如何从三年内上万个邮件中搜索需要的内容以及附件包含的内容?如何将E-mail信息与数据仓库中数据进行关联查询?类似的需求将越来越多,Sybase E-mail 与文档归档、检索解决方案能够快速地回答你的问题。 实时捕获E-mail 内容及附件信息,并传送到IQ中。 实时把文档/媒体加载到IQ中。 对文档信息进行快速 load/index 处理,客户端对其中数据、email、文档都可以进行关联查询。 用户实例:United Health Care (store ANY type of medical data such as CAT scans, X-rays, regular photos(i.e JPEG) , spectrograms, EKG and others.) Sybase Dynamic Archive (DA)动态数据归档解决方案 在典型的业务应用环境中,数据量每年以125%的速度递增。生产系统中高达80%数据处于非活动状态,它们却在不断地占用着昂贵的硬件、存储设备和维护资源,并且降低了应用性能。传统的归档管理方法是将数据移出应用环境,但这可能会损害数据完整性,从而使公司面临违反规定的风险。 Sybase Dynamic Archive 解决方案专门设计用来满足其核心应用饱受数据迅猛增长之苦的企业的需求,为企业提供真正需要的东西:一种长期的、成本效益好的方法,能够从应用生产中消除非活动数据,同时在需要这些数据时,又能够持续实现无缝访问,它还在节省成本和提高性能方面提供了许多可以量化的优势。 用户实例:COSCON中远集运DA系统。 Sybase 海量数据备份恢复NonStop IQ解决方案 NonStop IQ 是针对海量数据的方便及时的Disk-to-Disk (D2D) 备份/恢复解决方案: 基本忽略数据库的大小,进行全库备份在秒级或分钟级就能完成; 当发生灾难时候,瞬间实现由生产库到备份库的切换,以最短的宕机时间来进行恢复操作,TB级数据恢复时间小于60 秒; 支持本地和远程的操作; 不同于磁带备份,NonStop备份数据是动态可用的,备份的数据可以用于开发、测试、DBCC检查、QA 等等; 比磁带备份更加可靠:立即对备份数据进行验证,备点数据库随时可以启动、使用; 可以使用ATA磁盘替代昂贵的FC磁盘来满足成本节省和信息价值非类存储的需要,比“传统的”磁带备份/灾难恢复具有更低的成本; 在实际的生产中已有20 多个客户在采用该方案(从 200GB 到140 TB)。 用户实例:Nielsen Media Research、AMEX、BizRate、 SEC、广东移动IP网管、交行总行历史数据查询系统等等。 Sybase 国内外成功案例 以下为2005年Sybase VLDS排名前10名的应用。表格中列出了裸数据存储大小,以及在Sybase IQ中数据库大小,这充分验证了IQ具有强大的数据压缩能力,没有数据膨胀。同样的裸数据大小,在其他传统的关系型数据库中,将有2-11倍的数据膨胀。 部分国内外VLDS的客户应用介绍: 1. Telefonica Spain(西班牙电信) Telefonica西班牙及拉丁美洲地区领先的电信运营商,西班牙第一家上市公司,也是电信业主要的全球化企业之一 ,全球拥有8200万客户,在16个国家拥有分支机构。拥有4500万固定线路(西班牙2100万),3600万移动电话 (西班牙1800万) ,100万付费电视用户(西班牙80万)。Telefonica经过对各家数据库产品进行基准测试后,采用了Sybase DODS解决方案,成功地将数十个各自独立的信息系统的海量数据准实时集中存放在ODS架构中,实现了在最优的存储和维护成本下获得了最好的性能的目标。 2. ComScore-一家新生代信息服务公司 ComScore需要监控分别来自美国六个不同的主干网,七个重要要城市的网络点击流。基于Internet的客户数往往是难以控制的,且常常是非常大量的(有时候会达到百万数量级),这就导致有大量的数据需要收集,ComScore如今每周需要处理600万条新纪录,约300GB数据,全部数据达到了60TB,在IQ中存储只占用20+TB。 3. Nielsen Media Research 总部位于佛罗里达州达尼丁市的 Nielsen Media Research 是全球范围内电视观众测评及相关服务的主要提供商。可想而知,随着这种调研工作的不断扩大和深入,Nielsen Media Research 的数据量也变得十分庞大,而且已经成为了企业的生存命脉。 Nielsen 客户提交的请求往往不是订单处理,而是集中在海量数据的提取上,因为客户需要这些数据进行分析。而每一条请求都包含数十页,甚至数百页的SQL 语句。如果采用传统的关系型数据库,I/O 负载将会非常重。如今,采用Sybase的IQ Multiplex 后,不仅解决了问题,而且能够随时对CPU进行调整,最高速率保持在每小时600GB,这个速度不会给SAN 磁盘的I/O造成过重的负担,随着数据量的增长,可以通过添加更多的CPU,以保证系统的顺利运行。 4. Korea Chohung Bank-韩国朝兴银行 2000 年1 月,朝兴银行 (CHB)完成了韩国第一个企业数据仓库(EDW) 和基于Web 的市场数据库系统的开发工作。CHB将EDW用作集成交易数据和客户所有相关信息的数据存储单元。包含在EDW中的客户和交易信息每天都会更新,供CHB内部各独立业务单位数据集市中的大约700 名用户(如用于管理收益、信贷和风险的集成系统)使用。 5. 广东电信海量数据分析系统 广东电信需求主要特点就是数据量庞大,广东公众多媒体通信网拨号用户总数已达到70万。根据业务需求分析,广东省163/169网到2002年底的用户总数将达到800万以上,其中拨号注册用户达400万,主叫用户300万,卡用户100万,专线用户也将达到1万户以上。在这些大量的数据背后隐藏着许多重要的信息。另一方面,广东电信业务结构复杂,系统的最终用户的需求不尽相同,业务策略不断变化。广东电信经过多方测试比较,最终在广东视聆通和福建163网,广东省新一代的多媒体网综合业务管理系统,广州电信市场经营分析系统等多个系统中采用了Sybase VLDS解决方案。 6. 广东移动IP网管系统(2006年IQ数据量达到30+TB) 广东移动是中国领先的移动运营商,其CMNET是中国移动集团内规模最大的省级IP网络,具有网络规模大、设备种类多、业务开展丰富等特点。广东移动业务系统的IP网络管理系统,每日数据行数巨大,仅WAP业务一项,目前每天超过9亿行(ROWS),每日数据增量在800GB,且保持着相当高的增长速率,在大量数据持续加载到数据库的同时还需要做大量的汇总计算工作。该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论