




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
科研数据台项技术议书。II目录1.概述...............................................................11112设计方...........................................................4452.3.1.MPP+ShareNothing..........................................................52.3.2.核心组件2.3.3.高可用...........................................................................2.3.4.高性能在线扩展...................................................................72.3.5.高性能数据加载...................................................................82.3.6.OLAP函92.4.1.Hadoop企业2.4.2.HIVE分布式内存分析引..........................................................102.4.3.HBASE分布式实时在线数据处理引.................................................102.4.4.Stream流处理引................................................................2.5.1.设计理念2.5.2.系统结构2.5.3.服务器虚拟化系统组成............................................................142.6.1.浪潮云海OS架构图...............................................................2.6.2.浪潮云海OS实现的功能...........................................................152.7.1.建设网络爬虫私有云..............................................................182.7.2.高效的分布式、协同化数据采集模式................................................192.7.3.爬虫路线规划能力202.7.4.爬虫调度和负荷规划能力..........................................................212.7.5.极致的开放兼容平台...............................................................为什么需要开放的可集成的网页抓取软......................................217.5.2.集搜客网络爬虫的开放接..................................................22方案优..........................................................233.1.1.高性能..........................................................................3.1.2.高性价比3.1.3.高易用性
3.3.1.运营效率提升233.3.2.服务水平提高243.3.3.实现数据中心的绿色节能..........................................................24。。。3.3.4.分工细化使得终端用户只需专注自身业务............................................243.3.5.降低总体拥有成本(TCO)...........................................................243.3.6.可靠性提高......................................................................253.3.7.性能强大3.3.8.扩展性好3.9.可管理性推荐配..........................................................26II1.述1.1.项目背景通过本项目的实施与建设以服务科研工作为主导的原则下于高性能大数据软硬件设施,构建多样化、专业化、柔性化的科研数据服务应用平台。利用大数据技术足不同层级用户的需求到改善我校的科学研究环境与学科建设升我校的科研管理水平、提升我校针对物流行业的科研服务能力等目标。本项目分阶段实施,初期重点在于建立一个能满足业务需求的基于大数据的计算、存储以及通讯的硬件环境平台和数据管理架构。1.2.需求分析要构建多样化业化性化的科研数据服务应用平台有架构很难承担日益增长的数据分析需求要寻求一种全新的系统架构帮助我校满足日常业务及数据分析。并有效利用数据的价值,提高系统安全、系统高可用等。需求分析如下:寻求新的系统架构,从物理架构、数据架构、业务模型架构及应用架构等几方面满足业务需求。从全局及用户长远利益考虑,规划先进的大数据平台底层架构,满足大数据时代的业务需求。保护用户现有资源,考虑系统现状以及现有资源利用等,在系统建设中,充分考虑现有资源利旧。系统多平台整合,建设统一的底层平台,提高系统安全等保级别,规避系统单点风险。1.3.方案简述根据对背景及需求的分析助我校能够更好地在大数据时代支撑大规模数据的应用,分别从物理架构及数据架构建设科研大数据平台系统。物理架构:采用虚拟化技术,为客户打造底层系统架构。数据架构:采用与客户习惯使用的这种更易于理解的、交互性更好的访问接口构需要以MPP数据库及计算框架为核心MPP运算调度引擎完全融入非关系型运算调度框架现可以同时调度关系运算和非关系运算的调度引擎建统。一的结构化信息提取和数据类型转换框架非结构化数据映射为关系模型现面向关系模型的全数据统一视图,从而平滑的实现数据库和Hadoop统一调度和处理,为新型的基础软件平台和上层应用提供数据服务。1.4.方案价值弹性扩展采用虚拟化技术做为底层资源抽象技术,为科研大数据平台动态提供基础计算、存储云平台计算技术为云数据中心提供统一的管理和运维平台,实现资源弹性服务、流转和管理。动态资源分配云计算被认为是分布式处理行处理以及网络计算的进一步发展使用虚拟机力度方式,根据应用的动态对资源进行增删。快速响应以并行计算为核心,按需调度计算任务分配和计算资源,并提供从数据导入整合处理模型设定到计算结果输出式展现等完整的数据处理服务。高可用采用分布式存储系统,数据互备,快速备份和恢复。支持各种数据处理、计算模型,满足不同领域、不同特点的计算需求。多副本容错,数据安全无忧。数据分析构建大数据存储应用平台数据应用构建大数据处理基础软件平台的关键问题是如何解决结构化和非结构化不同类型的数据融合现不同类型数据处理模式的整合。单一的MPP数据库或Hadoop产品已经很难满足研究所对结构化和非结构化数据融合的业务需求。应用云云计算并不是一个突兀全新的理念计算的快速发展需求驱动术进步和商业模式转变共同发展和促进的结果校大规模计算和海量数据存储需求的出现得科研大数据平台对IT基础设施的需求也随之增长计算技术的应用能够给我校在节约投资省空间化管理据高度共享和系统高度可靠等方面提供帮助。因此方案的核心价值在于将这两种方式的界限在实际应用部署中打破成。以全数据处理为核心,垂直整合操作系统MPP数据库Hadoop、统一数据服务的基础软件平台解决方案。。2.计方案2.1.设计原则为保证科研大数据平台项目建设的成功方案中我们主要遵循了以下几个原则:先进性与成熟技术的集合:在设备选型设计中们要考虑采用当今业界的主流技术时要选用在众多关键领域中已经得到充分验证的产品,以保证系统的更高的可靠性和可用性;高效的可管理性:对于日益复杂的系统架构,对系统的管理要求越来越重,浪潮所推荐的解决方案整体的设计思想是利于以后的管理;性能价格比:保证充分满足用户的性能的同时虑最优的性价比持系统建设投资经济合理性的原则;高可靠性:全冗余设计,避免任何的单点故障,以保证系统的可靠性,同时便于维护,减少计划内停机次数;高安全性:保证系统数据的安全,做到重要数据冗余存储,提供备份、容灾及应急设计;平滑扩展性:基于统一标准设计的硬件平台架构有平滑扩展的能力在未来方便的根据客户需求增添新的硬件;开放性与标准化:采用标准的技术以保证与其他厂家的产品相兼容;产品利用率:考虑现有设备的使用情况,提高产品的利用率。降低总体拥有成本升服务水平理系统风险是整个硬件平台方案的设计战略思想次设计满足当前阶段应用需求的同时备升级扩容能力续满足下一阶段的应用需求。。2.2.系统架构2.3.分布式数据库系统2.3.1.MPP+ShareNothing架构分布式数据库采用完全并行的MPP+ShareNothing的分布式扁平架构,这种架构中的每一个节点(Node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。2.3.2.核心件分布式数据库产品总共包含三大核心组件,即、GCware和GNode。。于各节例间共享信息负责集群调度,每个GNode就是最基本的存储和计算单元。GCluster:GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。GCWare:GCWare用于各节点和GNode实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为基本单位的。GNode:GNode是GCluster中最基本的存储和计算单元。GNode是由GCWare管理的一个8a实例,每个GCluster节点上有一个GNode实例运行。GNode负责集群数据在节点上的实际存储,并从接收和执行经分解的SQL执行计划,执行结果返回给GCluster。数据加载时,GNode直接从集群加载服务接收数据,写入本地存储空间。2.3.3.高可分布式数据库通过组内冗余机制来保证集群的高可用特性:每个SafeGroup可提供1个或2个副本数据冗余;SafeGroup内数据副本自动同步复制引擎自动管理数据同步采用扁平架构一个节点都可以充当主控节点免了节点产生的瓶颈以及当Master与Stand-by宕机产生的整个集群不可用。。2.3.4.高性在线扩展分布式数据库具备在线扩展技术:通过SafeGroup动态扩展集群节点,实际可扩展到64×3(192个节点;每个节点可以处理TB有效数据,同时提供计算和存储能力;GCware负责新节点的数据同步。因为浪潮分布式数据库采用高性能单节点的扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。。2.3.5.高性数据加载数据加载功能作为浪潮分布式数据库的一部分而存在将用户从其他数据源得到的原始数据文件照某种加载规则分发至集群节点群各节点接收数据入库保存到本地磁盘。分布式数据库支持数据高效并行加载载速度随节点的扩展而呈现线性增加。集群加载采用C/S架构,包括数据分发服务器和数据分发客户端两个应用程序。数据分发服务器接收到客户端的数据加载请求后端负责原始数据文件切分和数据文件的下发调用本地的集群加载服务接收数据入库并保存到本地磁盘。。2.3.6.OLAP函数分布式数据库提供函数,用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。可根据分析人员的要求速灵活地进行大数据量的复杂查询处理便他们准确掌握企业的经营状况,了解被服务对象的需求,制定正确的方案。2.4.群Hadoop技术给客户提供稳定的的的大数据设计架构件包括::Hadoop企业版,HIVE分布式内存分析引擎,分布式实时在线数据处理引擎和Stream流处理引擎。其特点如下:2.4.1.Hadoop企版Hadoop企业版具有高模块化和松耦合的五层架构,针对不同的应用领域通过组件之间的灵活组合与高效协作来提供定制化的支撑。数据存储层:基于HDFS2.2的大数据存储和在线服务体系,支持ErasureCode,在副本数降低至1.5倍的情况下高了可靠性同时容忍四个数据块丢失持可靠存储TB级到数十PB级的数据量。资源管理层:缺省采用下一代资源管理框架进行资源的分配和调度,支持同时运行多个计算框架。计算引擎层:采用Map/Reduce2完成大部分离线批处理计算任务。数据分析与挖掘层:支持离线批量SQL统计,支持R语言以及机器学习算法库Mahout。数据集成层:Sqoop支持从DB到Hadoop的数据迁移,Flume支持从日志系统采集数据。。。。2.4.2.HIVE分布式内分析引擎HIVE内存分析引擎提供大数据的交互式统计和R语言挖掘能力。它具有以下一些特点:高性能:HIVE支持将二维数据表缓存入独立的分布式内存(或)中,建立列式存储、分区/分块和索引后Apache为执行引擎行性能ApacheHadoop/Hive快10~100倍左右。更强的SQL支持:HIVE同时兼容Oracle和HiveQL法,自动识别不同语法,支持存储过程和函数,支持常用Oracle扩展函数。完整的支持帮助用户平滑地从原有关系数据库迁移到大数据平台。更强的统计分析能力:用户可以通过RStudio或者R命令行访问存储在分布式内存中的数据语言中数千个统计算法可以和浪潮HIVE提供的分布式并行数据挖掘算法交替混合使用,为各行业进行大数据挖掘提供了易用而强大的分析工具。支持广泛的和报表工具:HIVE可以和常用的工具对接,包括Tableau,OBIEE等,用户无需编程就可以方便地为大数据创建美丽的报表,通过浪潮提供的高速大数据统计分析能力提高决策效率;高扩展能力:Inceptor可以随着集群规模的扩展,线性扩展处理能力,可以支持到数百TB的数据处理。2.4.3.分布式实在线数据理引擎HBASE实时在线数据处理引擎以HBase为基础,是企业建立高并发的在线业务系统的最佳选择。它有以下特点:多种数据类型支持:HBASE支持从GB到数十PB数据的处理,支持广泛的数据类型,包括对结构化记录、半结构化文本、图数据、非结构化数据(图片、音频、二进制文档等)的存储、搜索、统计和分析。。。高速数据处理能力:HBASE支持高速的数据检索、搜索和统计;根据索引进行检索的延时在数毫秒到数百毫秒量级;支持上亿的并发用户同时进行数据插入、修改、查询和检索;支持对文本建立增量全文索引并且支持秒级的全文关键字搜索。高效OLAP和批量统计:HBASE为HIVE引擎提供高效数据扫描接口,通HIVE的扩展SQL语法,充分利用浪潮HBASE的内部数据结构以及全局/辅助索引进行执行加速,可以满足高速的OLAP数据分析应用需求;同时也支持高速的离线批处理,性能接近于存储在HDFS上的相同数据的统计。高效图计算:HBASE提供构造图形的,帮助用户构造由上亿顶点组成的复杂大图,同时提供专有的高效图算法,包括关联网络的高速分析。2.4.4.Stream流理引擎Stream实时流处理引擎以为基础。Spark供了强大的流计算(Streaming)表达能力,支持DAG有向无环图)计算模型;而Hadoop类的批处理系统只能通过外围组件连接多个批次的作业完成复杂多阶段作业处理统复杂而低效。Streaming中的复杂应用逻辑以形式的服务常驻在集群内存中产系统的消息通过实时消息队列进入计算集群,在集群内以方式被依次处理,完成ETL、特征提取、策略检查、分析告警等复杂服务计算,最终输出到等存储集群、告警页面、实时展示页面等。系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于传感器网络数据处理、服务监控、反作弊、实时报表系统等业务。Streaming支持Flume等常见消息队列或采集工具。2.5.服务器虚拟化。。2.5.1.设计念浪潮云海•服务器虚拟化系统是浪潮云计算解决方案的核心基础,主要负责完成底层物理资源的虚拟融合需分配与高效管理以显著提高资源交付的敏捷性和灵活性升资源的使用效率上层业务提供不间断地资源保障与可伸缩的资源供给。浪潮云海•服务器虚拟化系统为计算网络提供了完整的虚拟化解决方案,支持资源的灵活分配态组合线调整与智能调度以虚拟机或虚拟集群的形式将最终资源呈现给用户系统既可以单独使用可以配合浪潮云计算管理平台来构建更大范围的云数据中心或者IaaS系统,同时本系统还提供了开放接口,支持二次开发与其他管理平台整合计理念上系统遵循了以下几个原则:命令查询职责分离()CQRS原则基于一个简单的事实只有两种和查询Query以改变资源的状态,而查询不会。基于这一原则,系统可以分为两个部分令部分和查询部分采用不同的技术加以实现和优化化整个系统的设计,提升整个系统的性能和可维护性。独立的认证服务服务器虚拟化是一个复杂的软件系统多个不同功能的模块组合而成全认证是每个模块必须的逻辑立的认证服务从系统层面划分出来一个切面现集中式的认证管理只需与认证服务交互认证过程交由认证服务处理,这一过程对模块而言是透明的认证服务对于实现和系统集成具有重要的意义。独立的监控服务系统状态是进行决策的数据基础些数据多数是由监控服务提供的控服务几乎存在于任何大型的软件系统之中。浪潮服务器虚拟化系统将监控服务剥离出来,以易复用展级为目标独立发展可以在不同的系统中提供监控服务。监控服务为服务器虚拟化系统监控资源状态提供了极高的灵活性和扩展性短了系统故障的排查时间。业务数据与监控数据分离业务数据与监控数据的分离,主要体现在存储、显示以及持久化三个方面。从存储方面来说务数据和监控数据的分离主要体现在存储方式者存到关系数据库,后者存NOSQL数据库。UI显示来说UI显示的主要是业务数据,通过查。。询关系数据库获取对于监控数据通过查询NOSQL数据库中获取告警信息持久化方面的讲务数据具有关系性强和逻辑紧密现用户的业务需求要较高的可靠性和稳定性此需要持久化到关系型数据库中较为合适样既保证了业务关系又确保了数据的稳定性据强调实时性控对象的当前状况,数据关系性不强,结构单一,而且不需要进行持久化,因此使用易扩展、可用性高的内存型数据库来存储这类数据比较合适,以最大程度保证数据的实时性。资源操作与资源状态维护分离资源操作与资源状态维护分离主要体现在虚拟机的管理上作基于业务流程,而资源状态维护基于事务的原子操作实现,例如通过监控数据更新虚拟机状态,并维护数据的一致性种机制在虚拟机管理中体现最为明显要包括状态切换和虚拟机并发操作处理先于状态切换失败处理果当前存在其他工作流正在处理当前虚拟机终止整个工作流并记录失败原因则强制同步业务状态之与监控状态相同后终止整个工作流并记录失败原因次止对同一个虚拟机的并发操作,以避免上述的第一个可能分支出现。2.5.2.系统构服务器虚拟化系统可分为四个层次,分别为虚拟层、应用层、展示层、运维层,虚拟层是整个系统的基础虚拟层之上构建了应用层现高级的业务逻辑示层用于对外交互,为了便于系统运维,专门划分了运维层,涵盖系统的安装、部署和安全管理。虚拟层直接构建在物理硬件之上上主要是完成物理资源的池化与重新组合于Hypervisor实现计算资源的池化于分布式存储/集中式存储实现存储资源的池化于虚拟交换机和虚拟路由器实现网络资源的池化由这几种技术形成了统一的计算池储池和网络池此基础之上通过按需组合构建虚拟主机和虚拟集群对外提供服务拟层同时提供了资源调度(DRS/DPM/HA)像管理和资源管理等功能,为上层实现高级功能提供支持。。。应用层基于虚拟层构建高级功能合虚拟层的功能模块支撑系统的业务逻辑实现主要的业务逻辑包括系统任务管理资源管机系统配置、虚机、模板管理以及容灾备份等,这些高级功能全部封装在应用层实现。展示层是系统对外的交互接口,提WEBGUI界面和API接口两种形式,方便系统集成和二次开发;在运维层,提供资源访问控制PXE安装和在线升级等功能,简化系统运维。2.5.3.服务虚拟化系组成务器虚化系统
VM用
VM
纤通道VM管员
管节
VM
太网制网据网
务网级存储-地级存储-享级存储
VM计节上图中计算资源和存储资源均由控制中心统一控制与管理虚拟化系统包括三条通信链路制网于控制中心与各计算节点储节点及文件系统主控间传输资源信息与控制指令据网接计算节点与存储系统于传输虚拟机正常所需的存储数据务网源租户及云业务用户通过此网访问虚拟机及部署在虚拟机里的业务,业务网通过VLAN等技术实现隔离。。。2.6.云管理平台浪潮云海OS是浪潮自主设计的系统架构,自主研发的国产云资源管理平台,支持底层VMWarevSphere平台及浪潮自研虚拟化产品的异构虚拟资源池已部署的vSphere环境无需停机即可被云海接管,实现对现有vSphere环境的无缝兼容,实现安全可控。浪潮云海OS的架构秉承模块化设计理念合浪潮对云数据中心客户需求的理解,以超越用户所想,提供超值的用户体验而完成的系统设计。2.6.1.浪潮海OS架构2.6.2.浪潮海OS实现功能云资源管理资源池管理过添加vCenter/iVirtual多个异构资源池整合成一个更大的资源池,进行统一管理和资源分配。资源池管理包括对资源池的扩充和缩减,暂停使用某些资源等操作。资源池集群管理:集群是云资源的载体,是资源池分配的组成单位。通过集群管理功能实现为不同用户提供不同等级的资源服务充资源池容量重新导入资源池的新增集群,也可暂停在某些集群上新建虚拟数据中心及应用服务。虚拟数据中心管理:虚拟数据中心(vdc)界定了组织能够使用资源的范围管理员可将vdc资源分配给组织内用户数据中心管理包括创建,。。暂停使用、重新启用等操作。虚拟网络管理:虚拟网络允许组织及组织用户像定义物理网络一样定义组织自己内部的网络,以及与组织外网络的连接方式,包括直连等,组织内部网络的地址分配、VLAN划分等。应用服务管理:应用服务(vApp)是指提供某种服务的一个或多个通过特定网络连接在一起的虚拟机集合通过服务模板建虚拟机2种方式创建应用服务。操作包括开启、关闭、重启、删除、复制、更改所有者、导出为模板等操作。虚拟机管理:单独对组成的虚拟机操作。功能包括虚拟机控制台、开启、关闭、重启、挂起、恢复、删除、快照、复制、移动至其他应用服务中、导出为模板等操作。模板/镜像管理过FTP方式将应用服务模板或操作系统安装镜像上传至组织存储空间下于部署应用服务和安装操作系统可将服务模板和镜像文件共享给其他组织使用。业务管理业务审批:审批系统用户提交的虚拟数据中(vdc)、虚拟网络、虚拟应用(vApp)申请。业务流程管理:审批流程引擎实现虚拟数据中心、虚拟网络、虚拟应用服务审批流程的自定义。审批历史查询:查询每个订单的详细信息,包括订单内容,审批流程上的各节点的审批情况,包括审批人、审批时间和是否通过等。计费管理计费设置:设置用户帐户余额的提醒周期及提醒方式(邮件、短信义资源单价(元/资源度量单位/小时计费等级:资源按一定标准分为不同的等级,各等级的资源计费系数不同织分为不同的等级同等级的组织计费系数也不同统可自行设置资源等级、组织等级对应的折扣率,从而为不同的用户提供不同的等级的服务。组织账户充值:为组织账户充值,并可查询充值历史。查询组织账户余额:查询各组织的帐户余额。查询组织账单:查询组织每月的消费金额及费用明细。管理监控。。监控视图:显示服务器、网络设备、数据库、操作系统服务、虚拟化资源组及组内各节点的状态统计信息。资源管理:开启、关闭、重启服务器组内所有机器或某些服务器;配置服务器BMC信息;获取并显示网络设备、数据库web服务、操作系统、虚拟化资源的相关状态参数信息。节能管理:节能管理在不影响正常业务的情况下,通过降低服务器频率来降低服务器组或服务器的能耗括节能策略制定及服务器组或服务器的能耗曲线显示。告警分析时段显示服务器络设备据库作系统务、虚拟化资源等的各监测器返回的异常告警信息。报表中心:图表显示服务器、网络设备、数据库、操作系统、服务、虚拟化资源等的资源状态统计、各监测项状态。系统配置:监控管理功能模块的基础性配置。如添加资源(服务器、网络设备、操作系统服务、数据库、虚拟化资源测项,通知时间表设置,告警通知联系人设置,备份与恢复当前的监控管理配置信息。系统管理组织管理:组织是用户的集合,是虚拟数据中心()及vApp的所有者,也是资源使用费用的承担者。组织管理功能包括添加组织、编辑、启用、禁用、删除等操作。用户管理:系统管理员管理各组织的组织管理员,各组织管理员管理其组织内部的组织用户。用户管理操作包括:添加、删除、修改基础信息、重置密码、启用、禁用等操作。角色管理:角色是系统操作的集合,界定了相同角色的用户拥有的操作权限范围。角色管理包括:添加、编辑、删除等操作。日志查询:根据时间、组织、用户、操作对象等条件查询相关联的操作记录。系统设置:配置系统发送提醒、告警类信息的邮件、短信信息。导出、删除日志,设置日志停留时长。序列号管理:系统序列号分为正式序列号和试用期序列号,序列号到期后,系统将无法使用,需重新注册。。。(7)LDAP管理:云管理平台可与用户现有的系统集成,实现基于的身份验证访问机制,LDAP的用户可作为云平台的用户来管理或使用云资源。云管理平台为客户带来的收益使用浪潮云海•云数据中心操作系统,客户可以获得以下收益:节约软件采购及服务成本浪潮提供云数据中心整体解决方案,减少项目集成费用。全国产的云管理平台,相对于国外产品价格相对较低对于基于开源的云管理平台潮云海云数据中心管理平台更加安全、稳定。管理运营效率提升云数据中心管理平台集成虚拟化管理及服务器、网络设备等硬件设备和操作系统web服务、数据库等中间件的监控与管理功能,几乎涵盖了数据中心所有的可管理对象范畴,一套系统即可运营整个云数据中心。云数据中心管理平台能够实现对多虚拟化平台的统一管理多虚拟化平台集中到统一管理门户,形成一个大的资源池,有效解决异构资源池管理问题。服务水平提高浪潮云海云数据中心管理平台实现基础设施资源的服务化IaaS)服务形式对外提供服务模板可实现业务的快速部署应用系统上线时间,帮助客户快速实现自身价值。2.7.爬虫软件2.7.1.建网络爬虫有云GooSeeker网络爬虫软件由两部分组成虫云服务器虫执行单元。。。
高效的分式、协同化据采集模式。。集搜客GooSeeker用户无论分布在哪里可以享受集搜客网络爬虫的服务线版用户可以创立一个工作组请其他在线版用户加入工作组相同的采集目的协同完成数据采集任务。企业版将这个能力完全开放,可以完全控制和管理分布式和协同化数据采集模式。在企业内部可以划分成多个工作组工作组可以用后台管理程序随时根据工作目标直接创建工作组大小不受限制工作组的划分和管理完全受控GooSeeker网络爬虫可以由服务器统一调度业版可以用定制开发的更周密的负荷分担算法控制每个网络爬虫的运行据网络爬虫的运行状态合理调配工作量于失败的网络爬虫可以及时予以隔离至在其他网管系统的辅助下控网络爬虫计算机各个层面的运行状况。
爬虫路线划能力集搜客GooSeeker网络爬虫沿着线索扩展爬行范围且不限广度和深度费在线版用户在MS谋数台的爬虫路线工作台上规划爬虫路线,主要能力就是:从抓取到的网址上建立下一级线索是深度方向时抓取到的下级线索不只一个么就是在广度方向进行扩展。总之络爬虫抓取网页数据的时候一些网址作为广度或者深度方向扩展的线索费在线版只能在定义抓取规则的时候规划爬虫路线企业版可以有更多规划爬虫路线的选择。在抓取结果清洗和入库的时候在深度和广度方向生成线索业版常用的方式,此时,企业版GooSeeker有最大的灵活性和控制力,比如,可以用入库脚本程序任意控制爬虫路线的生成以替换URL中的参数以根据URL地址规律批量生成网址,可以在一批网址中根据一定规则进行筛选等等。。。最大的灵活性在于爬虫路线的生成时间网页抓取用于探索性研究的时候以根据需要随时延伸爬虫深度和广度范围第一次数据清洗过程就把所有线索都生成好了实那时可能还不知道是否有必要做爬行范围延展且也容易实现同一个网址用于多个抓取主题,分别为不同的研究目的服务。
爬虫调度和荷规划能力集搜客GooSeeker网络爬虫是一款高性能网络爬虫软件算机可为同一目标协同工作一台计算机上能运行多个线程并行抓取网页么就需要规划每个网络爬虫线程的工作内容和工作负荷,以及启动和停止时间等等。免费在线络爬虫主要依赖周期性网页抓取调度文crontab.xml管理网络爬虫,比如,一台计算机上启动多少个线程,每个线程在什么时间启动,每一批包含多少网页,抓取什么主题,按照什么顺序等等件是预先生成好的,比如,使crontab.xml成器。预先生成的缺点是调度爬虫不够灵活,如果爬几十个网站个缺点并不显著果要爬几百上千个网站把所有的网站目标都编制到crontab文件,将是十分繁琐的。企业版GooSeeker网络爬虫可以接受服务器下发的任务安排,也就是crontab文件中的每个step都可以通过云服务器下发下来,那么在云服务器上可以实现一个复杂的调度和负荷规划程序以爬虫管理程序够细致地为每个爬虫安排合适的抓取任务。
极致的开放容平台为如果网络爬虫只是大型系统的一个模块,集搜客GooSeeker网络爬虫能否无。。缝地集成到各种IT系统中?此类IT系统对网络爬虫的需求主要包括:
系集显然个封闭的网络爬虫软件不能满足上述需求集搜客网络爬虫提供标准的开放的API接口,也可以直接从数据库层面进行对接,完美解决无缝集成问题。。。3.案优势3.1.浪潮MPP据库优势3.1.1.高性列存储技术在大大减少I/O的同时,能显著提高查询性能;智能索引大幅提高查询性能;高速的数据加载性能;高效的并行SQL执行计划。3.1.2.高性比采用多种压缩技术,减少存储数据所需的空间,可以将所用空间减少1~20倍,并相应地提高了I/O性能;采用高压缩技术,能显著减少存储开销,从而帮助客户减少了数据库整体投入成本。3.1.3.高易性易于实施和管理需要传统数据库1/10的管理成本主要商业智能工具兼容,如Cognos、SAPBO、BIEE、SAS、SPSS。3.2.浪潮Hadoop势支持高性能交互式数据分析,无需等待,实时生成统计结果。性能比开源Hadoop产品快10到100倍;提供PL/SQL以及R语言,支持更强的统计分析能力,应用迁移非常方便;支持广泛的和报表工具,无需编程,方便应用迁移。3.3.浪潮云计算优势方案中虚拟化软件采用浪潮云
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 技能高考钳工试题及答案
- 2025年湖北省天门市三校高三物理第一学期期末学业水平测试试题
- 大同春运安全教育培训课件
- 2025年甘肃天水市太京中学高三物理第一学期期末学业水平测试试题
- 2026届山东省六地市部分学校物理高三上期末预测试题
- 八年级历史下册 第12课 沿着中国特色社会主义道路坚定前行说课稿 川教版
- 解析卷青岛版8年级数学下册期末试题附答案详解(达标题)
- 第1课 开源思想与开源硬件教学设计-2025-2026学年初中信息技术(信息科技)八年级下册赣科版
- 邮政行业职业技能鉴定模考模拟试题及参考答案详解AB卷
- 人教七上 历史与社会 综合探究一 《带着地图定向越野》说课稿
- 人工血管动静脉内瘘术后护理课件
- 美国共同基金SmartBeta布局及借鉴
- 企业劳动用工法律风险与防范
- 普通逻辑ppt课件(完整版)
- 《小学语文课程与教学论》复习题
- 2022年08月安徽省芜湖市招考大学生科技特派员岗位冲刺题(带答案)
- 国家城镇救援队伍能力建设与分级测评指南
- DB32∕T 4065-2021 建筑幕墙工程技术标准
- 施工现场环保工作措施
- 部编版五年级语文上册(精美)课件 2 落花生
- 检具设计PPT.
评论
0/150
提交评论