第1章 信息存储的介绍_第1页
第1章 信息存储的介绍_第2页
第1章 信息存储的介绍_第3页
第1章 信息存储的介绍_第4页
第1章 信息存储的介绍_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 2009 EMC Corporation. All rights reserved.信息存储和检索 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 2 一.信息存储: 1. 存储系统 2. 存储网络技术 二. 信息检索: 1. 布尔检索 2. 词项词典与倒排记录表 3.词典及容错式检索 4.索引构建 5.索引压缩 6.文档评分、词项权重计算及向量空间模型 2009 EMC Corporation. All rights reserved.Introdu

2、ction to Information Storage and Management - 3 二. 信息检索: 7.一个完整搜索系统中的评分计算 8.信息检索的评价 9.相关反馈及查询扩展 10.相关反馈及查询扩展 11.XML 检索 12.概率检索模型 2009 EMC Corporation. All rights reserved.第1章 信息存储与管理的介绍 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 5为什么要信息存储为什么要信息存储 “

3、数字时代 信息爆炸” 21st 世纪是一个信息时代 信息增长率不断提高 信息是成功的重要要素 随着数据获取设备数量的增长及数据的广泛应用,越来越多的信息由个人产生,超过了商业信息的生产量。 当个人的信息被其他人共享时,该信息会增值。 信息产生时,通常存储在本地设备上,如手机、摄像机、笔记本,需要对大量信息进行存储和管理。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 6信息需要良性循环信息需要良性循环Users of InformationCentra

4、lized information storage and processingUploading informationAccessing informationWired WirelessWiredWirelessNetworkNetworkDemand for more InformationCreators of informationVirtuous cycle of information 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 7信

5、息存储的重要性信息存储的重要性 信息对商业的日益增长的重要性大大增加了对数据存储和管理的挑战性。 商业机构需要管理的数据信息已经驱动着各种策略的产生,使之在数据生命周期内,根据数据的价值来分类和创建数据管理规则。 本章描述信息存储架构的发展,从简单的直连式模型都复杂的网络拓扑。 还介绍信息生命周期管理(Information Lifecycle Management, ILM)策略。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 81.1: 信息存储信

6、息存储根据这一章节, 可以了解: 描述信息对个人和商业的重要性 数据和信息的定义 数据的分类 存储架构和它的演化过程 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 91.1.1 数据数据 当前的数据主要指数字数据,下面是一些促进数字数据增长的要素: 数据处理能力的提升 数字存储的低成本 可负担的和更快的通信技术 谁创建了数据? 个人 商业“数据是原始事实的集合,从中可以得到一些结论。”0101010101010101011010000101010110

7、10101010101010101010101010101010VideoPhotoBookLetterDigital Data 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 101.1.1 数据数据 研究和商业数据实例: 地震:包括收集不同来源和不同参数的地震数据,以及其他需要处理后才有意义的相关数据。 生成数据:包括产品不同方法的数据,比如库存、价格、可用量和销售量。 客户数据:关系到公司客户的数据,比如订购信息、发货地址以及购买历史清单。 医疗数

8、据:涉及到医疗护理的数据,比如病人历史记录、放射图像、药物详细信息和其他医疗器械、保险信息等。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 111.1.2 数据类型数据类型 数据分为结构化数据和非结构化数据 其中超过80% 企业信息是非架构化Rows and ColumnsContractsImagesManualsX-RaysInstant MessagesFormsE-Mail AttachmentsCheckDocumentsPDFsWeb P

9、agesAudio VideoInvoicesRich MediaStructured (20%)Unstructured (80%) 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 121.1.3 信息信息 不管是结构化数据还是非架构化数据,除非在一个有意义的环境下,否则都不能满足任何个人的或是商业的目的。 商业应用分析原始数据以找出有意义的趋势。基于这些基本趋势,公司可以制定和修改其策略。例如,只需通过分析客户的购买模式和维护客户的物品清单,零售商就

10、可以辨认出客户喜欢的样式和品牌的名字。 有效的数据分析不仅给现在的商业应用带来利益,而且通过采用创造性方式使用数据还能创造出潜在的、新的商业机会。 “求职招聘门户网站”就是这样一个实例。为了接触到更广泛的潜在雇主,找工作的人把他们的简历发布在各种提供工作搜索功能的网站上。 这些网站收集这些简历并将其集中在一个可以让雇主访问的地方。另外,公司也会提供工作职位到求职招聘网站上。 “工作匹配软件”就可以根据简历中的关键字和职位要求中的关键字进行匹配。 2009 EMC Corporation. All rights reserved.Introduction to Information Stora

11、ge and Management - 131.1.4 存储存储 由于个人和商业应用产生的数据必须存储起来,以便在进一步处理可以进行访问。 在一个计算环境下,用来存储数据的设备被称为存储设备(storage device,或简称storage)。 存储设备的类型取决于数据类型以及数据创建和使用的频率。像手机或数码相机中的内存、DVD、CD-ROM和个人电脑中的硬盘等都是存储设备的实例。 商业应用中通常使用的几种存储介质包括内部硬盘、外部磁盘阵列和磁带。 2009 EMC Corporation. All rights reserved.Introduction to Information S

12、torage and Management - 141.2 存储技术和架构的发展存储技术和架构的发展 以前,所有的组织在其数据中心都有集中的计算机(大型)和信息存储设备(磁带卷和磁盘架)。 分散的企业部门内部服务器导致了信息的难于保护、不易管理,并产生了信息孤岛以及增加了操作的开销。 起初,只有有限的策略和方法来管理这些服务器及其创建的数据。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 151.2 存储技术和架构的发展存储技术和架构的发展 为了克服这

13、些困难,存储技术从非智能存储发展到智能网络存储: 冗余磁盘阵列(Redundant Array of Independent Disks, RAID):这种技术是用来解决数据的存储成本、性能和可用性等问题。 直接存储(Direct-attached Storage, DAS): 存储设备直接连接到服务器(主机)或是机器中的服务器组。存储设备可以在服务器的内部或者外部。外部DAS缓解了内部存储的容量限制。 存储区域网(Storage Area Network, SAN): 这是一个专用的、高性能的光纤通道(FC)网络,用来完成服务器和存储设备之间块级别的通信。存储设备被分区并指定给不同服务器,从

14、而被分别访问。相比于DAS,SAN提供了更好的可扩展性、可用性、性能和更低的成本。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 16 网络互联存储(Network-attached Storage, NAS): 这是一个专用于文件服务类应用的存储设备。不像SAN,它通过现有的通信网络(LAN)连接,并为不同客户提供文件访问。由于它主要是为文件服务类应用提供存储服务,所以较其他通用文件服务器,它有更高的扩展性、可用性、性能和更低的成本。 IP存储区域网

15、(Internet Protocol SAN, IPSAN): IPSAN是存储架构里的一个最新的发展,是SAN和NAS技术的集成。IPSAN提供了在局域网和广域网(LAN和WAN)上的块级别传输,从而具有更高的数据融合性和可用性。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 17Storage Technology and Architecture EvolutionIP SANMulti Protocol RouterSAN / NASFC SA

16、NLANRAID ArrayJBODInternal DASTime 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 181.3 数据中心基础设施数据中心基础设施 企业组织通过数据中心为整个企业提供集中的数据处理能力。 数据中心基础设施包括计算机、存储系统、网络设备、专用的备用电源和环境控制设备(如空调和灭火器) 大型组织通常维护多个数据中心,以便分散数据处理负担,并在灾难发生时提供数据备份。数据中心的存储需求往往要不同的存储架构组合才能满足。 2009

17、 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 191.3.1 核心部件核心部件 一个数据中心要实现基本功能,必须要有5个核心部件: - 应用:一个应用就是一个提供了计算操作逻辑的计算机程序。应用(比如一个订购处理系统)可以部署在数据库之上,通过使用操作系统提供的服务来完成对存储设备的读写操作。 - 数据库:通常,数据库管理系统(DBMS)提供了一种结构化方式,把数据存储成具有关联关系的逻辑表。DBMS可以优化存储和检索数据的过程。 - 服务器和操作系统:指运行

18、应用和数据库的计算平台。 - 网络:指介于客户端和服务器之间,或是服务器和存储之间的一个数据通路。 -存储阵列:永久存储数据以供后续使用的设备。 通常这些核心部件都被视为独立的管理单元,但只要所有这些部件一起工作才能达到数据处理的要求。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 20Example of an Order Processing SystemLANFC SANStorage ArrayDBMSServer/ OSApplication

19、 User InterfaceClient 1. 用户通过客户端的订购处理软件的用户界面(AUI)发出一个订单。 2. 客户通过局域网(LAN)与服务器相连,通过服务器上的DBMS更新相关信息,如客户姓名、地址、付款方式和订购数量。 3. DBMS通过服务器操作系统将数据写到存储阵列中物理磁盘上的数据库中。 4. 存储网络在服务器和存储阵列之间提供了通信连接,并传输相关的读写命令。 5. 存储阵列在接收到服务器的读写命令后,在物理磁盘上进行必要的存储数据操作。 2009 EMC Corporation. All rights reserved.Introduction to Informati

20、on Storage and Management - 211.3.2 数据中心部件的关键需求数据中心部件的关键需求 数据中心操作的不可中断性对商业机构的生存和成功至关重要。因此,很有必要用一个可靠的存储基础设施来保证数据随时可访问。对数据中心的需求:AvailabilityData IntegritySecurityCapacityScalabilityPerformanceManageability 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 2

21、21.3.3 管理存储基础设施管理存储基础设施 管理一个现代的复杂数据中心牵涉到许多任务。关键的管理任务包括以下几点: - 监控(Monitoring): 持续不断地收集信息和复查整个数据中心的基础设施。数据中心需要监控的方面包括安全性、性能、可访问性和容量。 - 报告(Reporting):周期性地反映资源的性能、容量和使用率。报告可以帮助确定与数据中心运行相关的业务评判和分摊费用。 - 供应(Provision):提供支持数据中心运行的性能、容量和使用率。供应行为包括容量和资源规划。 2009 EMC Corporation. All rights reserved.Introductio

22、n to Information Storage and Management - 231.4 信息管理中的关键挑战信息管理中的关键挑战 数字世界的爆炸:数字世界的爆炸: 信息的增长速度正呈指数级上升。为保证高可用性而进行的数据复制以及数据的多用途都是信息多重增长的重要原因。 对信息依赖的上升对信息依赖的上升 信息的策略性使用在决定商业成功上起到了重要的作用,并且在市场中也提供了竞争优势。 信息价值的改变信息价值的改变 今天看起来有价值的信息,在明天看来也许会贬值。信息的价值随着时间不断改变。 2009 EMC Corporation. All rights reserved.Introduc

23、tion to Information Storage and Management - 241.5 生命周期管理生命周期管理 信息生命周期(信息生命周期(Information Lifecycle):):是指随着时间变化而发生的“信息价值的改变”。在创建之初,数据通常有最高的价值并且使用频繁。随着数据存在时间的不断增加,对数据的访问就不那么频繁,其价值也在逐步降低。根据信息价值的变化,掌握信息生命周期对于部署合适的存储基础设施是十分有帮助的。CreateAccessMigrateArchiveDisposeNew orderValueProcess orderDeliver orderWar

24、ranty claimFulfilled orderAgeddataWarrantyVoidedProtect Time 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 251.5.1 信息生命周期管理处理信息生命周期管理处理信息生命周期管理信息生命周期管理(ILM)是一种主动的策略,它允许一个是一种主动的策略,它允许一个IT组织根据预先定组织根据预先定义的商业策略来高效地管理数据的整个生命周期,并通过优化存储基础设义的商业策略来高效地管理数据的整个生命

25、周期,并通过优化存储基础设施来实现最大的投资回报。施来实现最大的投资回报。ILM策略应具有以下特征:策略应具有以下特征: - 以业务为中心(以业务为中心(Business-centric): 它应该和业务的关键流程、关键它应该和业务的关键流程、关键应用以及初始状态整合在一起,以满足现在和将来的信息增长需求。应用以及初始状态整合在一起,以满足现在和将来的信息增长需求。 - 集中式管理(集中式管理(Centrally managed):业务的所有信息都应该在业务的所有信息都应该在ILM策略策略的考虑范围之内。的考虑范围之内。 - 基于策略的(基于策略的(Policy-based): ILM的实现不

26、应该局限在几个部门里。的实现不应该局限在几个部门里。它应该作为一个策略来实现,并且包含所有的业务应用、流程和资源。它应该作为一个策略来实现,并且包含所有的业务应用、流程和资源。 - 异构的异构的(heterogeneous): 一个一个ILM策略应该把所有类型的存储平台和操策略应该把所有类型的存储平台和操作系统都考虑进来。作系统都考虑进来。 - 优化的优化的(optimized):由于信息价值的不同,由于信息价值的不同,ILM策略应该考虑不同的存策略应该考虑不同的存储需要,并且储需要,并且 按照信息对商业的价值来分配存储资源。按照信息对商业的价值来分配存储资源。 2009 EMC Corpor

27、ation. All rights reserved.Introduction to Information Storage and Management - 26分层存储分层存储分层存储是一种通过定义不同存储级别来降低总体存储成本的方法。每一分层存储是一种通过定义不同存储级别来降低总体存储成本的方法。每一层都要不同级别的保护、性能、数据访问频率和其他考虑因素。层都要不同级别的保护、性能、数据访问频率和其他考虑因素。信息根据其在不同时间段内的价值存储在不同层上并进行相应的移动。例信息根据其在不同时间段内的价值存储在不同层上并进行相应的移动。例如,关键任务和最经常访问的信息需要存储在第一层次,该

28、层次使用了最如,关键任务和最经常访问的信息需要存储在第一层次,该层次使用了最高性能的存储介质,也具有最高的保护级别。高性能的存储介质,也具有最高的保护级别。中等访问频率和其他次重要数据存储在第二个层次,该层次相应的存储介中等访问频率和其他次重要数据存储在第二个层次,该层次相应的存储介质会便宜些,其性能和保护能力也属于中等。质会便宜些,其性能和保护能力也属于中等。很少使用或面向特殊事件使用的信息则可以存储在更低的层次上。很少使用或面向特殊事件使用的信息则可以存储在更低的层次上。 2009 EMC Corporation. All rights reserved.Introduction to Information Storage and Management - 271.5.2 ILM实现实现Policy-based Alignment of Storage Infrastructure with Data ValueAUTOMATE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论