




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一海量存储技术:1. 为什么产生海量存储技术:Internet的广泛应用和互联网技术的蓬勃发展,推动全球化电子商务、大型门户网站、和无纸化办公的大规模开展。在各种应用系统的存储设备上,信息正以数据存储的方式高度增长着,不断推进全球化的进程。为了实现数据的高可用性,随之而来的是海量存储需求在不断增加。虽然文件服务器和数据库服务器的存储容量在不断扩充,还是会碰到数据空间成倍增长的,用户不断抱怨存储空间不足的情况。 用户对数据存储空间需求的不断增加,推动了海量存储技术革命性的发展。3. 海量存储介质:磁带,光盘、磁盘,分别构成了磁带库、光盘库、磁盘阵列三种主要存储设备,其中磁盘由于存取速度快、数据查询方便,简单易用的特点占据一级市场的主要份额,磁带设备以技术成熟,价格低廉占据了二级存储市场的主要地位。各种存储介质的种类及特点:4. 但是,很多企业由于历史原因不得不面对各种异构存储设备,由于生产存储系统的厂商不同,存储设备型号也会不同,同时服务器操作平台更不相同,这时就产生了海量数据虚拟存储技术。虚拟存储技术就是要整合各种存储物理设备为一个整体,从而实现在公共控制平台下集中存储资源,统一存储设备的管理,方便用户的数据操作。5. 海量数据存储数据应用实例:“广电在线中心站系统”作为大型的流媒体应用平台,每天存储大量的流媒体节目数据,并相应千人同时在线的的流媒体数据请求,尽管流媒体节目进行了压缩,每个节目仍然有几百兆以上的大小,并且存储系统要保证数据的7*24小时的高可用性,为此存储结构采用FC-SAN结构,使用EMC-CX600磁盘阵列进行数据存储。下图清晰地看出了广电在线应用的海量存储技术:SAN以光纤通道为基础,具有高可靠性,可用性,可维护性等特点,正好满足了,该高端海量数据存储应用的需求。磁带库提供系统中海量数据的定期备份,保证数据的安全性和高可恢复性。6. 海量数据存储未来趋势:在存储介质方面,磁盘,光盘和磁带作为数据存储的主要载体,会向着小型化,大容量,高速读写,高可靠性发展,随着科技的进步,全新的存储介质也可能会出现。在接口技术方面技术接口会由并行技术转向串行技术,串行技术不仅可以减少连接端口的大小,改善设备的内部空间,而且具有更远的传输距离。数据存储功能的需求会不断出现。二双机热备:1.原理:双机热备是当一台服务器在工作时(成为主机),另一台服务器做备用状态(成为备机),当主机因为某些原因出现故障,如死机、主机断电、硬盘损坏等,不能继续提供服务时,备机能够在规定的事件内接替主机的服务,从而达到不停机的服务。2.双机热备软件DataWare是一种高可靠性的软件系统,可使连接到网络中的两台服务器达到一种近乎无差错的容错级。如下图所示:注:三动态页面静态化1. 首先介绍下动态页面和静态页面静态页面:静态页面是指在服务器端确实存在的仅含HTML以及JS、CSS等客户端运行脚本的页面。它的处理方式过程一般是一下步骤:(1) 有客户端提出请求,请求某一界面;(2) WEB服务器确认并载入某一页面;(3) WEB服务器将该页面传递回浏览器。WEB服务器确实存在用户所访问的静态页面。动态页面:一般 是指服务器端脚本程序与HTML文件相混合的页面,它的处理方式过程一般以一下步骤(1) 由客户端提出请求,请求某一页面;(2) WEB服务器引入指定相应脚本进行处理(3) 由WEB服务器对脚本进行解析形成HTML标记语言(4) 将解析后的HTML标记语句传回给浏览器。由此不难看出,在页面发送到浏览器后,服务器端脚本程序就不存在了,已被转化解析为标准的HTML标记语句。客户请求一动态文件,事实上并没有真正的文件存在,而用户通过浏览器看到的只是web服务器的运行结果,而非实际存在的页面,这种页面处理方式成为动态页面2. 动态页面与静态页面的比较动态页面需由WEB服务器解析器进行解析,通常还需连接数据库存取操作,经过WEB服务器运行才能生成HTML标记语言,所以运行速度较静态页面慢。但是由于静态页面和数据库相结合,使得动态页面具有较高的灵活性。静态页面,由于WEB服务器无需解析,无需连接数据库,所有内容由客户端浏览器进行解释,客户端打开速度和网站整体打开速度提高,缺点是不能动态地对请求进行处理。动态页面静态化的实际应用:html静态化也是某些缓存策略使用的手段,对于系统中频繁使用数据库查询但是内容更新很小的应用,可以考虑使用html静态化来实现。比如论坛中论坛的公用设置信息,这些信息目前的主流论坛都可以进行后台管理并且存储在数据库中,这些信息其实大量被前台程序调用,但是更新频率很小,可以考虑将这部分内容进行后台更新的时候进行静态化,这样避免了大量的数据库访问请求。四缓存缓存是指临时文件交换区,电脑把最常用的文件从存储器里提出来临时放在缓存里,就像把工具和材料搬上工作台一样,这样会比用时现去仓库取更方便。因为缓存往往使用的是RAM(断电即掉的非永久储存),所以在忙完后还是会把文件送到硬盘等存储器里永久存储。电脑里最大的缓存就是内存条了,最快的是CPU上镶的L1和L2缓存,显卡的显存是给CPU用的缓存,硬盘上也有16M或者32M的缓存。千万不能把缓存理解成一个东西,它是一种处理方式的统称!工作原理:缓存的工作原理是当CPU要读取一个数据时,首先从缓存中查找,找到就立即读取并送给CPU处理;没有找到,就用相对慢的速率从内存中读取并送给CPU处理,同时把这个数据所在的数据块调入缓存中,可以使得以后对整块数据的读取都从缓存中进行,不必再调用内存。正是这样的读取机制使CPU读取缓存的命中率非常高(大多数CPU可达90%左右),也就是说CPU下一次要读取的数据90%都在缓存中,只有大约10%需要从内存读取。这大大节省了CPU直接读取内存的时间,也使CPU读取数据时基本无需等待。总的来说,CPU读取数据的顺序是先缓存后内存。缓存分类:1、静态缓存:是在新内容发布的同时就立刻生成相应内容的静态页面,比如:2003年3月22日,管理员通过后台内容管理界面录入一篇文章后,并同步更新相关索引页上的链接。2、动态缓存:是在新内容发布以后,并不预先生成相应的静态页面,直到对相应内容发出请求时,如果前台缓存服务器找不到相应缓存,就向后台内容管理服务器发出请求,后台系统会生成相应内容的静态页面,用户第一次访问页面时可能会慢一点,但是以后就是直接访问缓存了。静态缓存的缺点:复杂的触发更新机制:这两种机制在内容管理系统比较简单的时候都是非常适用的。但对于一个关系比较复杂的网站来说,页面之间的逻辑引用关系就成为一个非常非常复杂的问题。最典型的例子就是一条新闻要同时出现在新闻首页和相关的3个新闻专题中,在静态缓存模式中,每发一篇新文章,除了这篇新闻内容本身的页面外,还需要系统通过触发器生成多个新的相关静态页面,这些相关逻辑的触发也往往就会成为内容管理系统中最复杂的部分之一。五负载均衡负载均衡将是大型网站解决高负荷访问和大量并发请求采用的高端解决办法。负载均衡技术发展了多年,有很多专业的服务提供商和产品可以选择,我个人接触过一些解决方法,其中有两个架构可以给大家做参考。(1)、硬件四层交换第四层交换使用第三层和第四层信息包的报头信息,根据应用区间识别业务流,将整个区间段的业务流分配到合适的应用服务器进行处理。第四层交换功能就像是虚IP,指向物理服务器。它传输的业务服从的协议多种多样,有HTTP、FTP、NFS、Telnet或其他协议。这些业务在物理服务器基础上,需要复杂的载量平衡算法。在IP世界,业务类型由终端TCP或UDP端口地址来决定,在第四层交换中的应用区间则由源端和终端IP地址、TCP和UDP端口共同决定。在硬件四层交换产品领域,有一些知名的产品可以选择,比如Alteon、F5等,这些产品很昂贵,但是物有所值,能够提供非常优秀的性能和很灵活的管理能力。“Yahoo中国”当初接近2000台服务器,只使用了三、四台Alteon就搞定了。(2)、软件四层交换大家知道了硬件四层交换机的原理后,基于OSI模型来实现的软件四层交换也就应运而生,这样的解决方案实现的原理一致,不过性能稍差。但是满足一定量的压力还是游刃有余的,有人说软件实现方式其实更灵活,处理能力完全看你配置的熟悉能力。软件四层交换我们可以使用Linux上常用的LVS来解决,LVS就是Linux Virtual Server,他提供了基于心跳线heartbeat的实时灾难应对解决方案,提高系统的强壮性,同时可供了灵活的虚拟VIP配置和管理功能,可以同时满足多种应用需求,这对于分布式的系统来说必不可少。一个典型的使用负载均衡的策略就是,在软件或者硬件四层交换的基础上搭建squid集群,这种思路在很多大型网站包括搜索引擎上被采用,这样的架构低成本、高性能还有很强的扩张性,随时往架构里面增减节点都非常容易。对于大型网站来说,前面提到的每个方法可能都会被同时使用到,这里介绍得比较浅显,具体实现过程中很多细节还需要大家慢慢熟悉和体会。有时一个很小的squid参数或者apache参数设置,对于系统性能的影响就会很大。6最新:CDN加速技术什么是CDN? CDN的全称是内容分发网络。其目的是通过在现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络“边缘”,使用户可以就近取得所需的内容,提高用户访问网站的响应速度。 CDN有别于镜像,因为它比镜像更智能,或者可以做这样一个比喻:CDN=更智能的镜像+缓存+流量导流。因而,CDN可以明显提高Internet网络中信息流动的效率。从技术上全面解决由于网络带宽小、用户访问量大、网点分布不均等问题,提高用户访问网站的响应速度。 CDN的类型特点 CDN的实现分为三类:镜像、高速缓存、专线。 镜像站点(Mirror Site),是最常见的,它让内容直接发布,适用于静态和准动态的数据同步。但是购买和维护新服务器的费用较高,还必须在各个地区设置镜像服务器,配备专业技术人员进行管理与维护。对于大型网站来说,更新所用的带宽成本也大大提高了。 高速缓存,成本较低,适用于静态内容。Internet的统计表明,超过80%的用户经常访问的是20%的网站的内容,在这个规律下,缓存服务器可以处理大部分客户的静态请求,而原始的服务器只需处理约20%左右的非缓存请求和动态请求,于是大大加快了客户请求的响应时间,并降低了原始服务器的负载。 CDN服务一般会在全国范围内的关键节点上放置缓存服务器。专线,让用户直接访问数据源,可以实现数据的动态同步。 CDN的实例举个例子来说,当某用户访问网站时,网站会利用全球负载均衡技术,将用户的访问指向到距离用户最近的正常工作的缓存服务器上,直接响应用户的请求。当用户访问已经使用了CDN服务的网站时,其解析过程与传统解析方式的最大区别就在于网
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绘画等级考试基本考试题
- 电火花加工原理及应用考试题
- 金融行业人工智能算法审计2025年应用在金融投资决策中的应用与挑战报告
- 内蒙政法考试题库及答案
- 农业职称考试题库及答案
- 安全员考试及答案b
- 全国企业安全员考试及答案
- 2025年北京市设备购买协议
- 陕西职高本科题库及答案
- 家具厂榫卯加工安全考试题
- 2025年公共营养师考试题及答案
- 2024年09月山东枣庄市妇幼保健院青年就业见习拟录用笔试历年专业考点(难、易错点)附带答案详解
- 2025年长沙卫生职业学院单招职业技能测试题库及答案1套
- 淋巴瘤PET-CT及PET-MR显像临床应用指南(2025版)解读课件
- 动物营养学-第七章-矿物质与动物营养详版课资
- 高中生纪律教育主题班会
- 初中班会课件《突围-目标成就未来》
- DBJ50-T-157-2022房屋建筑和市政基础设施工程施工现场从业人员配备标准
- 工程实体质量常见问题治理自评总结报告表格
- 《坚持的主题班会》课件
- 安全网络系统漏洞挖掘与修复考核试卷
评论
0/150
提交评论