大数据时代的数据库和数据技术(上)_第1页
大数据时代的数据库和数据技术(上)_第2页
大数据时代的数据库和数据技术(上)_第3页
大数据时代的数据库和数据技术(上)_第4页
大数据时代的数据库和数据技术(上)_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

龙源期刊网大数据时代的数据库和数据技术(上)作者:杨来源:中国信息化第14号,2013年大数据的定义、功能及其对数据库技术的影响1.1大数据及其影响大数据是当前最重要的科学、技术和社会话题。借用IDC的定义:“大数据是新一代技术和架构,具有高效的捕获、发现和分析能力。它可以从大量不同类型的数据中经济地挖掘出突出的价值。”大数据的定义有以下基本前提和含义。(1)大量数据:大数据的概念源于数据的爆炸式增长。根据世界著名咨询公司高德纳(Gartner)的一份研究报告,“同类数据的数量正在迅速增长;数据增长的加速;数据多样性、新的数据源和新的数据类型正在增加。”(2)各种类型数据的积累:新的数据存储和数据采集技术的发展使得收集、收集和存储大量数据成为可能。网络技术、移动设备、数字传感器、数字摄影/摄影、监控图像、卫星定位系统、遥感技术、气候和环境监测技术等。在任何时候都有各种形式和类型的大量数据。(3)计算技术的进步和发展:现代计算技术、网络技术、多媒体技术和数据库处理技术可以处理各种形式的海量数据,产生大量高附加值的数据、结果、状态和知识。(4)数据处理能力已经成为一种战略能力:数据量的激增、数据类型的多样化以及技术平台对数据的综合处理导致了知识边界的扩展、知识价值的提升和知识衍生能力的加速。它极大地影响了企业、个人、社会和政府的决策,极大地促进了社会生产力的发展,使掌握大数据技术的人获得了难以模仿的竞争优势和核心竞争力。因此,大数据技术也成为国家的核心战略资源。大数据含义广泛,技术领域广泛,技术平台多样,影响巨大,影响深远。了解大数据的理论、方法和体系结构,适应大数据的变化和发展,分享大数据带来的各种便利和好处,可以在大数据时代引领潮流。1.2大数据对数据库技术的影响大数据的目的是处理数据,数据库技术自然占据核心地位。大数据环境下的数据库技术也有明显的特殊性。1.2.1大数据环境中数据处理技术的新特点数据量巨大。对数据库技术最大和最直接的影响是数据的爆炸式增长。即使不首先考虑数据类型的更改,要处理的数据也将从兆扩展到千兆,现在扩展到兆。在不久的将来,数据库将经常面临PB级的数据,这将不可避免地对数据库的硬件架构、数据库系统结构和数据库应用产生重大影响。数据有多种形式。对数据库技术有重要影响的另一个因素是数据的多样性。传统的数字、图像、照片、图像、声音等数据资源需要进行处理。与传统的关系数据不同,许多数据格式中没有多少有价值的数据,如多幅图像中特定对象的变化、连续视频图像中特定对象的跟踪等。它们的数据提取方法、过滤方法、存储和计算方法都不同于传统数据库。单机或小型局域网的数据库处理不能满足要求。目前,数据量呈爆炸式增长,数据类型也越来越多样化。传统关系数据库的处理能力难以满足,需要新的数据库处理技术。传统并行数据库的灵活性有限。并行数据库系统取得了辉煌的成就,但其灵活性不好,灵活性有限,系统规模的缩小或扩展成本很高。这种系统适用于“相对固定结构”的计算结构,例如计算机银行管理系统或城市交通管理系统。结构化、半结构化和非结构化形式并存。使数据库能够处理这些半结构化和非结构化(有时难以区分)的数据已经成为新数据库技术的迫切需求。结果要求的模糊性。在大数据时代,计算技术并不局限于回答“是/否”的问题,而是需要更模糊的结果。例如,流感可能在一周内传播,5级地震可能在不久的将来发生,国际往返机票将在不久的将来上涨这些答案并不准确,但足以指导人们的活动。非结构化数据的处理结果通常是模糊的答案。新数据库技术的出现和挑战。新需求的出现促使了新技术的出现。为了处理非结构化数据,阿帕奇、谷歌、亚马逊和其他公司分别开发了新的数据库系统来满足他们的需求。相关专家经过分析和总结,提出了NoSQL的设计理念,并创造了许多成功的产品。1.2.2新数据库技术的特征与传统的数据库技术相比,新的数据库技术有一些明显的特点,如下:可以处理的数据总量和类型会增加。不再人为选择部分数据或抽样数据作为数据结构或数据代表性;结果的置信区间和置信度不再受样本大小的控制。新的数据库处理技术试图使用“所有数据”来完成结果的计算和推断。使用更多非结构化数据,而不是片面强调所有结构化数据。在非结构化高复杂性、高数据量和多种数据类型的条件下,允许“不精确”的结论和结果,并寻求“次优解决方案”。体现大数据技术“用概率说话”的特点。“使用所有数据”是追求“次优解决方案”的方式,而不是试图避免或减少数据的混杂。也就是说,平衡复杂、混乱、非结构化和确定、规则和结构化的数据。当面临“利用所有数据获得模糊结果”和“利用一些数据获得准确结论”的选择时,新的数据库技术一般会选择前者,并使用更多的数据资源从更全面的角度寻找答案。科学地在因果关系和相关性之间做出选择。如果数据通常支持因果关系的判断和断言,那么因果关系的判断将像传统数据库一样提供。如果数据计算量大、成本高或条件不具备,焦点将从“因果关系”转向“相关性”,这将把对“最优解”的追求变成“次优解”或“模糊解”。自然,这种相关性的选择不能是随机的,而是预先设计和计划的。不同的数据库开发概念、不同的应用目标和不同的技术方案长期以来导致了新数据库丰富多彩、各具特色的局面。1.3从传统关系数据库到非关系数据1970年,当计算机系统的结构刚刚稳定下来时,IBM的Edgar Codd (Codd)首次提出了关系数据库的概念和规则,这是数据库技术的一个重要里程碑。Cote定义的关系数据库具有结构化程度高、数据冗余度低、数据关系清晰和一致性好的优点。关系数据库模型将数据库操作抽象为集合的选择、映射、连接、合并、区别和交集、数据的添加、删除、修改和查询等。然而,Boyce和Chamberlin在1976年提出的SQL结构化查询语言完全固定了关系数据库及其操作模式。它的理论和实践一直延续到今天,被认为是数据库技术的重要基石。在关系数据库中定义的关系模型的本质是二维表模型,并且关系数据库是通过关系连接的多个二维表之间的数据集。目前流行的数据库软件Oracal、DB2、SQL Server、MySQL和Access都属于关系数据库。到20世纪80年代末,IBM研究人员已经提出了数据仓库的概念。四年后,比尔恩门给出了一个被广泛接受的数据仓库定义:“数据仓库是一个面向主题的、集成的、相对稳定的数据集,它反映了历史变化,并用于支持管理决策。”数据仓库的改进是将决策支持作为数据库中数据组织和管理的目标,从而将智能和决策能力集成到数据库中。在英曼之后,拉尔夫金博尔建立了一个更加方便实用的“自下而上”的数据仓库体系结构,并将其称为“数据集市”。这项技术受到了企业和制造商的欢迎和实施。虽然数据集市已经被合并成了一个数据仓库,但它的出现却引发了商业智能和在线分析技术的流行。随着数据库在企业中的广泛应用,企业收集了大量的数据。如何从现有数据中提取对企业经营和决策有重要价值的信息,已经成为数据库用户和开发人员关系的话题。“关系数据库之父”科特再次提出多维数据库和多维分析的概念,即“在线分析处理”(OLAP),使数据库显示出“智能”的特征。数据仓库产生的OLAP反过来又促进和推动了数据仓库技术的深入发展。数据仓库和OLAP的发展和成熟催生了数据挖掘,下一代数据库“智能产品”。这项技术指的是从大量数据中自动搜索隐藏在数据之间的特殊关系。通过统计、分析、检索、机器学习结合专家系统(结合以往经验)和模式识别,发现数据之间的“内在联系”,为判断、决策和规划提供信息。这时,发现的“内在联系”不再是一个简单的结果,而是上升为“知识”。大量知识的积累进一步提高了数据挖掘的准确性和商业价值。数据仓库进一步扩展了数据挖掘的深度,并将其快速应用于商业环境,被称为“商业智能”。商业智能和数据挖掘的大规模应用是在互联网高度流行的时候。随着数据库技术的发展和白热化的商业竞争,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论