企业级应用系统配用电大数据功能扩充工程方案投标文件（技术标）

上传人：时*** IP属地：山东上传时间：2025-12-09 格式：DOC 页数：781 大小：16.80MB 积分：20 举报 版权申诉

已阅读5页，还剩776页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

封面投标文件封面企业级应用系统配用电大数据功能扩充工程方案（技术方案）投标方案投标人：****通讯地址：****联系方式：****投标日期：****报告说明声明：本文内容信息来源于公开渠道，对文中内容的准确性、完整性、及时性或可靠性不作任何保证。本文内容仅供参考与学习交流使用，不构成相关领域的建议和依据.请下载后自行调整修改使用。Xxx“xx局企业级应用系统配用电大数据功能扩充工程”是xxx范平台试点项目之一。Xxxx公司“智能配用电大数据研究与示范项目”从2014年开始，采用“网-省-地”三级业务应用分层协同建设，由xxxx公司市场营销部统筹管理，相关业务部门负XXxx公司“智能配用电大数据及其应用技术研究与示范项目”智能配用电大数据及其应用技术研究与示范智能配用电大数据及其应用技术研究与示范课题4大数据驱行关键技术升用电能效与客课题6基于大数据(多秤)(高谜)业务创断体系构建数据管理(价值)(真实》图1-1智能配用电大数据及其应用技术研究与示范课题二：海量多源异构大数据的集成融合、存储及可视化关键技术课题六：大数据支撑用电市场需求预测与宏观经济趋势分析研究协同电网配用电大数据平台”,支撑“网-省-地”三级分层协同的大数据示范应用落地，承载不同地区的特有业务2.“应用示范工程两部分”:建设“网-省-地”分层协同业务主要包括八项配用电业务应用：可靠性评估与提升、电压质量管理、有序用电计划优化、客户需求分析、客户渠道分析、个性化客户服务、用电市场分析、宏观经济趋势分析，如下图所示：1可靠性捷考供电能力2电压须量化的前*置速客户关系*户*分新*户电行为9东的造什林6个性化客户*性节梁堵过市场分析7用电市场抬析他t图1-2全方位客户服务体系网级平台：主要开展用电行为分析与客户分群的特色应用，并对“供电能力、客户关系、市场分析”的八项应用进行集中展示。省级平台：广东电网公司主要开展电压质量管理、用电市场分析、宏观经济趋势分析三项应用，并对可靠性评估与提升、有序用电计划优化的应用进行展示。(1)广州xxxx:主要开展电压质量管理、客户需求分析、客户渠道分析、个性化客户服务四项应用；(2)深圳xxxx:主要开展宏观经济趋势分析，有序用电计划优化(基于新型负荷的需求侧管理部分)两项应用；(3)东莞xxxx:主要开展可靠性评估与提升、有序用电计划优化(新能源消纳部分)、用电市场分析三项应用。某公司(下称“某公司”)承接课题二、三的研究、设计与开发工作(详见附录10.1中项目合同二、项目合同三);承接课题七-网级大数据平台的建设工作(详见附录10.1中项目合同一)。某公司深度参与xxxx公司“智能配用电大数据及其应用技术研究与示范项目”的规划、设计、开发实施等工作，对本次项目的背景、目标、1.2现状分析中“6”是指六大企业管理信息系统，分别安全区安全呕安全Ⅲ区基础平台等)系统系统准实“东莞局企业级应用系统配用电大数据功能扩充工程”是xxxx示范平台项目，本平台与xxxx公司网级平台之间存在不可割裂的依1.2.1xxxx数据中心息化发展，积累了大量的业务数据。自2009年4月起，xxxx公司开展了企业级数据中心建设。xxxx数据中心已经完成涵盖经营管理和电网运行在内的数据积累，包括营销、财务、生产、人力资源、基建等业务域明细数据抽取和应用功能建设，实现一体化的数据共享和应用集成。2015年xxxx公司根据大数据应用的各项能力建设需求，在原有数据中心基础上，通过融入大数据组件和技术，全面建成融合传统数据仓库和大数据技术的目标架构，具备海量结构化、非结构化和实时数据的采集、存储、计算和展示能力，制定并颁布了一系列建设标准和管理规范，为公司经营管理提供了有力的支撑。触控一体机触控一体机安全与标准规范体系数据服务展示控制组件数据标准业务服务组件技术服务组件运营组织敷据计算离线批量计算内存计算流式计算数据存数据仓库/集市集中式数据仓库/集市算层流程制度实时数据非结构化数据经营管理数据电网生产运行数据科研数据外部数据联机分析据处理机器学习数据分析组件层分布式数据仓库/集市运营管理体系关系型数据运营模式数据挖掘移动终端运营管控知识管理技术标准桌面电脑数据增值展示交互数据平台储及计元数据数据源大屏图1-4xxxx数据中心总体架构图某公司团队自2010年承接xxxx数据中心项目建设相关工作至今，积累了深厚的电网业务知识和大数据技术储备，拥有大量的自主知识产权产品。2015年，xxxx技术研究中心“智能配用电大数据及其应用技术扩展配用电网内部和外部(气象、经济、用户等)基础数据源和数据平台建设了以ApacheHadoop为大数据生态基础架发的各类机器学习算法，可以为xxxx公司各级单业务应用和客户画像、电量经济分析、综合能效分析、公共数据云服务6大功能模块的开发，以及可以提供公共数据的数据接口服务。2015年始某公司承接xxxx技术研究中心配用电大数据平台的建设工作，对配用电大数据平台建设工作的背景、目标、范围、技术架构、数据现状、业务应用等等方面具有深刻的理解。在配用电大数据平台建设方面，某公司具备坚实的业务经验和技术实力。1.2.3xxxx配用电业务相关模型与算法在xxxx“智能配用电大数据及其应用技术研究与示范项目”中，Xxxx技术研究中心完成了供电能力(多因素关联分析的配电网可靠性评估与提升、配用电大数据的多时间尺度电压管理、新型负荷管控)、客户关系(大用户负荷聚类分析、设备能耗分析、客户交互痕迹分析、设备状态异常监控、客户画像)、用电市场(经济景气指数分析、用电市场需求预测)三个方向十个业务场景的理论研究、算法开发联调、以及集成融合到配用电大数据平台中。配用电数据模型建设方面，融合了一体化营销系统、计量自动化系统、一体化资产管理系统、电网GIS空间信息服务平台、南网电能量平台、配网自动化系统、调度自动化系统、外部气象数据、统计局经济数据、互联网经济指标数据、股市股指动态数据等11个数据源、建成了电网域、客户域、新能源域、市场经济域、系统支撑域、运行数据域、计量域、气象域等八大数据基础域为配用电数据信息模型。XxXx技术研究中心的输出成果包括了配用电业务相关的信息模型和算法模型，为东莞xxxx企业级应用系统配用电大数据功能扩充1.2.4东莞xxxX配用电大数据应用现状东莞xxxx将服务作为企业的立身之本，坚持大莞xxxx将创新作为企业和员工始终保持的第一借助数据化的运营分析和科学决策手段是达成上述目标的不二之选，目前东莞xxxx将大数据技术逐步应于日常工作中，例如：基巡检计划等。大数据技术给东莞xxxx在提高工作效率、提升客户满意度、降低运营成本、保障电网稳定运行等东莞xxxx在企业经营各个领域都有着日益增多的大数据应用需求，目前，东莞xxxx在大数据应用没有统一的平台，各类应用散落搭建统一、先进、高效的大数据分析平台是全面推广大数据应用的基二、扩大数据获取范围东莞xxxx在日常经营、运营过程积累了大量的管理和运行数据，但由于大部分的相关系统都是部署在广东电网公司，东莞xxxx没有部署节点，仅有小部分数据每月回流到东莞xxxx,这些数据远不能支撑全面的大数据应用，因此，不但需要扩大获取企业内部的经营、运行数据范围，提高数据更新频率，还需要获取企业外部的宏观经济、气象、互联网自媒体等数据。三、构建统一数据模型数据关联性差，不利于大数据分析应用，因此，需建立覆盖结构化、非结构化数据的企业级全景数据模型，将生产数据、营销数据、计量数据、气象数据、互联网数据、宏观经济等数据集成、融合，梳理出数据之间的关联关系，提供统一数据模型，有效解决数据管理问题，为后续数据分析应用提供强力支撑。综合东莞xxxx大数据应用需求、数据管理、数据应用等现状，构建配用电大数据平台可为东莞xxxx的运营管理工作带来显著促进和积极变化。1.3项目目标为了满足配用电数据爆炸性增长和东莞xxxx业务管理和创新的需要，从配用电大数据体系构建、数据管理、知识模型、业务创新和应用示范等多层面着手，进一步扩展配用电网内部和外部(气象、经济、用户等)基础数据源和数据规模，利用大数据创新理论和技术构建配用电大数据平台，提升东莞xxxx在供电能力、供电质量、客户关系和配售市场的业务水平，推动从传统业务模式向大数据业务模式转变，为构建全方位客户服务体系提供强有力支撑。通过建设东莞xxxx企业级应用系统配用电大数据功能扩充工程，基于大数据技术实现在海量配用电数据中发现用户用电规律和市场行为特征；通过配用电数据挖掘提升配电网的可观可控、安全可靠及经济运行水平；通过配用电大数据聚类关联分析实现用电市场需求预测与宏观经济趋势分析；通过开发配网可靠性评估与提升、用电市场需求预测、宏观经济趋势分析等业务应用，实现配用电数据深度挖掘与业务价值提升。实现用电大数据和配电大数据的有机整合，在充分挖掘用户用电行为特征的基础上，重点实现以下应用功能：开发基于多因素关联分析的配电网可靠性评估与提升；做好用电市场需求分析预测；通过用电数据与外部经济环境的相互影响关系，生成地区电力经济指数、行业经济景气指数等。1.4项目内容本项目需要完成东莞xxxx企业级应用系统配用电大数据功能扩充工程的开发实施工作，具体内容包括：1)数据集成；2)算法模型管理；3)可靠性评估与停电计划优化应用；4)宏观经济景气指数分析；5)用电市场需求预测；6)用电用户画像；7)系统管理；8)项目建设涉及的系统集成、实施工作。依据东莞xxxx企业级应用系统配用电大数据功能扩充工程应用分析和设计的成果，完成相关应用的数据仓库开发、数据装载及处理程序开发、业务功能开发与集成，具体包括：√大数据平台建设：依据东莞xxxx企业级应用系统配用电大数据功能扩充工程数据需求，利用某公司拥有自主知识产权产品：KIT电力行业大数据平台，构建地市级大数据平台，为上层业务应用和数据服务提供基础平台。√数据采集及数据处理程序开发：依据东莞xxxx企业级应用系统配用电大数据功能扩充工程的业务应用数据需求，采集一配网自动化、外部经济数据、供电可靠性、调度主站OMS,配网规划辅助决策等业务系统，对源数据进行清洗、转换并最终加载到数据平台中，满足应用的需要。功能扩充工程应用功能设计，灵活运用可视化技术平台，完成东莞xxxx企业级应用系统配用电大数据功能扩充工程的应√开展开发成果的培训和技术支持：针对本项目涉及的所有技1.5应用范围本项目的应用范围为：某电网公司东莞xxxx及下属各单位。1.6建设原则二、一体化1)统一的支撑平台：本系统应采用完全一致的支撑平台，充2)图形格式和界面风格统一：系统应采用相似的图形格式和3)系统体系结构能灵活配置，满足信息分流、分层分区监控等各种应用需求。1)智能查询：本系统应采用可跨库查询的数据平台，充分考虑应用系统跨业务、跨表查询、自由组合查询、大量数据的实时查询等需求，实现更加灵活智能的查询。2)智能预警：本系统设计应充分考虑配网薄弱环节、停电计划、配网可靠性指标、用电需求预测、电力经济景气指数等潜在预警需求，采用大数据预测相关技术，结合丰富的可视化技术，智能化的配用电预警。3)智能预测：本系统设计应充分考虑积累的配用电数据，采用大数据预测相关技术，为配网可靠性、电力经济景气指数、用电需求预测提供智能化预测。1)系统应具有高度的安全保障特性，能保证数据、信息的安全，并具备一定的保密措施，执行重要功能的设备应具有冗余备份，系统运行要有双机热备份，防止意外丢失数据。2)系统应构筑坚固有效的防火墙，最大限度地阻止从外部对系统的非法侵入，有效地防止以非正常的方式对系统软、硬件设置及各种数据的更改等操作。3)系统应具有完善的权限管理措施，应能防止内部人员对系统软、硬件资源、数据的非法利用，严格控制各种计算机病毒的侵入与扩散，当入侵发生时系统能及时报告、检查与处理，系统被入侵或五、可靠性1)系统的应用服务必须为冗余配置，分布在各节点。对同一3)系统应具备完善的节点故障和应用故障判断机制，并能正4)系统应能长期稳定运行，在值班设备无硬件故障和人工干5)可通过方便统一的人机界面，对系统应用集群进行配1)应遵循国家相关标准，满足开放性要求，计算机、网络设2)应具备在多种硬件和操作系统的混合平台上正确运行的能3)应提供标准统一接口，支持用户应用软件程序的开发，方七、集中性系统规划、设计和建设要以管理集中、数据集中、处理集中为原则，统一规划、统一标准、统一设备、统一开发与应用。八、先进性和成熟性选择技术先进、具有一定代表水平并且成熟的技术方法和产品来建设东莞xxxx数据平台。九、前瞻性、可扩展性系统规划、设计应具一定的前导和超前意识，确保系统在较长时期内先进和稳固，同时，还应具有良好的扩展性和升级能力，使系统能够在面临业务扩展、数据量快速变化和架构扩展时平滑升级。十、效益性和实用性系统设计开发应全面考虑系统的经济效益和社会效益、考虑性能价格比和投入产出比等诸多因素、考虑经济投入规模和实际使用价值，系统建设要力求达到经济收益好、社会效益高、资金投入少、实用价1.7遵循标准某公司在项目建设过程中，严格遵照要求，所提供的设计成果皆引用国际标准、国家标准、电力行业标准、工信部部颁制定的最新标准。如果这些标准的内容有矛盾时，按照最高标准的条款执行或按双方协商同意的标准或条款执行。遵循的相关标准和规划，包括但不限1)DL/T1080.1-2008/IEC61968-1:2003《电力企业应用集成接口标准》2)《电力监控系统安全防护规定》(国家发展改革委2015年14号)3)《电力监控系统安全防护总体方案》(国能安全[2015]365)《xxxx电力监控系统安全防护技术实施规范》6)《高级应用程序接口(API)系列标准》8)《电力系统简单服务接口规范》9)《电力系统动态消息描述规范》10)中国xxxx城市配电网技术导则，Q/CSG10012-200511)《中国xxxx公司110kV及以下配电网规划指导原则》,中国XXxx有限责任公司12)《电网通用模型描述规范(CIM-E语言)》13)GB/T20917-2007《软件工程软件测量过程》14)GB/T20918-2007《信息技术软件生存周期过程风险管理》15)GB/T8566-2007《信息技术软件生存周期过程》16)GB/Z18493-2001《信息技术软件生存周期过程指南》17)GB/Z20156-2006《软件工程软件生存周期过程用于项目管理的指南》18)GB/T15332-2008《计19)GB/T9385-2008《计算机软件需求规格说明规范》20)GB/T9386-2008《计算机软件测试文件编制规范》21)GB8566-88《计算机软件开发规范》22)GB8567-88《计算机软件产品开发文件编制指南》23)GB/T12504-1990《计算机软件质量保证计划规范》24)GB/T12505-1990《计算机软件配置管理计划规范》25)GB/T13502-92《信息处理一程序构造及其表示法的约定》26)GB/T15532-95《计算机软件单元测试》软件包质量要求和测试》28)GB/T16260-1996及IDTISO/IEC9126:1991《信息技术软件产品评价质量特性及其使用指南》29)GB/T8566-2001《软件生命周期过程》30)GB/T18491-2001《功能规模测量》31)GB/T18492-2001《系统及软件完整性级别》32)GB/T18493-2001《软件生存周期过程指南》33)SJ20778-2000《软件开发与文档编制》除以上规范和标准以外，还须遵循以下xxxx颁布的标准和规范：1.《xxxx“十二五”信息化规划》2.《xxxx基本数据集标准》数据模型规范》企业信息模型》信息分类与编码规范》数据中心数据接口单元》数据中心数据交换规范》数据中心元数据管理规范》公司可视化技术规范》某公司承诺项目建设过程中使用的标准及规范均须征得局方同1.8项目进度自合同生效之日起10个月内完成该项目的建设工作。本项目在合同生效之日起7个月内完成东莞xxxx企业级应用系统配用电大数据功能扩充工程的开发及实施，并通过功能系统上线试运行3个月后完成试运行并通过最终验收。1.9项目关键点数据获取没有数据就没有大数据应用，如何获取更多的大数据是项目成功与否的关键所在，本项目建设的大数据应用不仅需要企业内部的经营、运行数据，还需要企业外部的宏观经济、气象等数据，因此数据获取是项目建设的难点与关键点。对于企业内部的经营、运行数据可通过广东电网回流到东莞xxxx获取，也可通过xxxx数据中心下发获取，无论哪种方式获取都需积极与上级单位沟通协调；对于外部的宏观经济数据可通过向统计局等单位购买或交换方式获取；气象及互联网数据可通过爬虫技术从气象局、自媒体等互联网网站抓取。分析模型落地XXxx“智能配用电大数据及其应用技术研究与示范项目”已经由XXXx科学研究院完成了供电能力(多因素关联分析的配电网可靠性评估与提升、配用电大数据的多时间尺度电压管理、新型负荷管控)、客户关系(大用户负荷聚类分析、设备能耗分析、客户交互痕迹分析、设备状态异常监控、客户画像)、用电市场(经济景气指数分析、用电市场需求预测)三个方向十个业务分析模型的理论研究、算法，这些业务分析模型须通过本项目落地。为保证分析模型的效果，需要对上述分析模型成果进行本地化适应性改造，根据本地业务和需求特点，对分析模型进行本地化调优。系统持续发展为提升系统生命力，保证系统可持续发展性，本项目应符合xxxx化为南网数据中心东莞xxxx数据集市的可行性。2.1概述2.1.1本项目在EA架构中的定位根据xxxx公司EA架构中的系统应用架构，配用电分析与管理支持AD04市场营销2.1.2本项目与网级平台的关系都与xxxx数据中心产生数据交互和应用结果Xxxx数据中心获取配用电相关业务数据、调度自动化数据、计量自从东莞xxxx和xxxx公司的隶属关系、业务范围、数据范围上，本系统从逻辑、未来的发展方向可归为xxxx目在支撑东莞xxxx的本地个性化应用方面，将发挥其优势。网级业务应用横块网级业务应用横块省级业务应用模块配业务数据化系娩化系映网级平台省地级平台电务数据解白动计量良动系魄新聪源地市级业务应用内等对散猛是全90统图2-2xxxX配用电大数据应用整体架构图2.2总体技术方案2.2.1设计思路在系统设计上，结合某公司多年的经验和技术积累，提出以下设在系统基础架构选型上，采用目前成熟的多层架构模式。通过这种多层架构，可以保证：1.实现应用平台与基础平台的分离，避免应用与存储之间的直接访问。2.实现应用与数据展现之间的分离，实现个性化的数据展现。随着企业业务的发展，系统建设的深入，会不断的进新增功能等，因此系统架构中应该采用组件化的方式，确保系统的高在基础平台建设上，采用组件化的ETL调度管理产品，通过模块化的数据抽取、数据转化、数据装载工具保证系统的高可配置性；采用成熟的B/S多层的系统架构对功能进行组件化，保证系统的模型标准化本系统需要对各专业的数据进行集中的数据存储、数据处理，为了避免大量的资源浪费以及后续业务的可扩展性，需要对整个系统的一体化管控过数据管控对系统数据质量、元数据、系统良好的用户体验1.多终端的支持，用户能够通过个人电脑浏览器、手机、平板2.友好的界面展现，通过图形化、动态的数据展现，让用户能3.提升用户使用体验，系统能够支持用户自定义报表，自定义在本项目中，某公司利用拥有自主知识产权的KIT电力行业大数据平台产品KIT-BigDataPlatform(简称KIT-BDP),并遵循xxxx数据中心融合架构的规范和要求，构建东莞xxxx配用电大数据平台本平台属于双集群混搭架构，按照分层、分级设计理念，由七数据陵处理统计解法库挖算法模版评估英时形计算内存计算三读化考配网晚地决策南网气象决筛管理数据源层包含了本系统需要获取的各类型数据源，包括：一体GIS地理信息分析营的管理KIT电力行业大数据平台预查海数建模数医户警理数旗深集数据存谜照源团座数据谨理金文检云应用姐致据盖M配网规划辅助决策系统、南网气象决策管理系统、外部经济数据，另外，根据项目后期需要也可能获取更多的各类数据源，包括半结构化数据以及互联网上的非结构化数据。本系统将与上述各系统集成，实现数据共享、业务贯通等不同的集成应用目标。二、数据采集层采集层通过各类数据采集方式，如：文件上传、分布式消息队日志文件汇聚等工具，将明细级数据加载到Hadoop集群，将数据分发到多个数据节点进行快速批量简单计算，将传统类数据加载到关系型MPP分布式数据库集群进行复杂的关联计算。提供数据采集公共服务，提供ETL工具供档案同步接口服务调用；提供CSGProlib南网企标协议库以及IEE1888标准协议库，供采集前置通信服务规约解析调用。三、数据存储层大数据分析平台对所有数据进行统一存储，由于数据类型多样，包括结构化、半结构化、非结构化数据，根据不同的数据类型的特性，数据存储采用分布式分为关系数据、列式数据库、HDFS分布式文件系统等异构存储体系。本系统遵循xxxx数据中心的数据存储技术架构，本系统数据存储架构包括基于MPP的分布式关系型数据库存储架构和基于Hadoop框架的分布式数据存储架构。数据库存储结构划分为ODS、DW(数据仓库)、DM(数据集市)。分布式数据存储可以存储结构化数据或非结构化数据，并通过HIVE数据仓库将结构化的数据文件映射为一张数据库表，提供查询功能。分布式数据存储采用并行架构设计，由多台廉价的PC服务器组成集群，实现并发的数据流，从而进一步提高数据吞吐量。另外，本层提供了丰富的技术框架如：标准SQL查询、批量计算、流计算、内存计算、图形计算，具备完善的并行算法库，提供统一的ETL作业调度和统一的资源调度功能。数据计算层基于流行的并行计算框架、流计算处理框架，提供批量计算、实时流计算、内存计算、图计算、语音识别、文本挖掘等多种高效的计算组件。五、数据分析层数据分析层主要提供数据建模的工具和算法，包括数据分析工具、可视化组件、开发套件、数据建模、业务语义。数据挖掘设计工具的核心环节支撑包括数据预处理、统计算法库、挖掘算法库、模型评估等，另外，在本层根据不同行业的客户构建了具有行业针对性的业务模型算法库。六、数据服务层在系统功能架构上进行了适度的解耦，提升了基础功能复用能力，并要求提供系统应用的角色适配能力，实现基础分析服务、多维分析服务、实时分析服务、数据挖掘服务、机器学习服务、收可视化行。安全管控中包含：用户管理、角色管理、权限管理、日志管运维监控中包含：集群运维、服务监控、资源监控、异常告其他功能包括：元数据管理、全文检索、统一资源调度、统一协作服务在东莞xxxx配用电大数据平台中，其中的数据采集层、数据存产品KIT-BigDataPlatform(简称KIT-BDP),产品技术架构图如下： (详见本文第2.3章KIT电力行业大数据平台)2.2.3数据采集√两节点完成6小时内不少于1.5T数据写入操作；√支持高频采集。√支持每秒采集10000条32KB记录(或以上),后续可采取横√采集性能：营销和生产数据采集要求0.6MB/S,峰值需达到√需要高并发，多线程采集；√能配置采集规则；√尽量开源，能根据业务做针对性的代码层的优化。√采集性能：每秒10000条，实时响应秒级√快速扩展，适应实时数据快速膨胀√支持多种数据源√需要多并发，负载均衡√尽量开源，根据业务针对性优化采集组件FTP是一种最重要、用途最广泛的Interne的服务可以使从Internet的上千种计算机上拷贝文件FTP简介“FTP”这个词是文件传送协议的缩写(FileTransferProtocol),FTP的主要作用就是让用户连接上一台所希望浏览的远音文件等等。这样的计算机称为FTP站点或FTP服务器。通过FTP程序，用户可以查看到FTP服务器上的文件。FTP是在Internet上FTP是一种服务，它可以在Internet上，使得文件可以从一台Internet主机传送到另一台Internet主机上，通过这种方式，主要靠FTP把Internet中的主机相互联系在一起。像大多数的Internet服务一样，FTP使用客户机/服务器系机上时，我们称为“下传”(downloading)文件；当从自己的计算序允许你向远程主机发送或接收文件。当使用fFTP工作原理FTP也是基于C/S模式而设计的。在进行FTP操作的时候，即机中执行FTP客户应用程序，在远程服务器中执行FTP服务器应用程序，这样，就可以通过FTP客户应用程序和FTP进行连接。连接成功务器上的FTP服务器程序。准备就绪后，用户首先向FTP服务匿名FTP简介FTP允许把文件从一个Internet计算机传递到另一个计算匿名FTP是这样一种工具：作为用户，本来不注册就不能和的的用户标识anonymous(匿名),在Internet上，任何人在任何不能在没有提供这种匿名FTP服务的Internet主机上使用匿名FTP。可以使用anonymous作为用户一个文本文件(也叫做ASCII文件)由普通的字符、字母、令告诉ftp程序将要“下传”二进制文备份文件二进制文件压缩文件二进制文件执行文件二进制文件postScript激光打印机文件图形文件二进制文件声音文件二进制文件表格2-1FTP基本命令表1、基本命令quit关闭和远程主机的联系，终止ftp程序显示所有ftp命令表help显示所有ftp命令表helpcommand显示一行指定的命令的概况!本地主机：停止ftp,开始shell!command本地主机：执行指定的shell命令连接open[host]与指定计算机建立2、连接close关闭和远程主机的连接，但保留ftpcd[directory]远程主机：改变到指定的目录cdup远程主机：改变到主目录dir[directory[local-file]]远程主机：显示长的目录清单ls[directory[local-file]]远程主机：显示短目录清单pwd远程主机：显示当前目录名4、传送文件5、设置选项ascii(缺省)把文件设置成ASCII文本文件binary把文件设置成二进制文件hash是/不：每传送一个数据块显示一个#号prompt是/不：传送多个文件的提示客户端FTP应用程序的应用1、基于字符界面的FTP程序的使用可以通过启动WIN9X下的ftp.exe,然后2、基于图形界面的FTP应用程序利用IE和NetscapeNavigator都可以访问FTP站点。但两者是有区别的，IE只能从匿名FTP站点下载文件，但不能向其他FTP站点上载文件，而NetscapeNavigator既可以用来从匿名FTP站点下载文件，又可以向你拥有帐号的FTP站点上载在传送个人网站到远程主机上时，可以借助于FTP工具。文件的压缩和归档一次性下载这十个文件，先打包成files.tar,打包后的文件行压缩，压缩后该文件成为files.tar.z当客户端下载该文件后，利用工具先解压缩，成为files.tar,再利用工具将打令：tar-cffiles.tar“所要打包的tar-xffiles.tar利用compress和uncompress进行压缩在windows平台下，打包和压缩是同时处理的。例如winZIP就是这样1.在ETL处理区以批量(每日)或近实时(小于1小时)的方式起到了安全隔离和FTP传输作用，系统获取或提供数据只需要数据交换流程数据源系统结束通知数据源系统是是否通过校验?需重新上传生成并下发数据统交换区换区获取数据源系统生成数据文件和校验文件进行数据校验本系统开始数据交换流程概述如下：1.数据交换开始。2.获取数据。3.生成数据文件。4.进行数据校验，生成校验文件。5.将数据交换文件存入其数据交换区。6.将数据文件压缩后，连同相应校验文件送达本系统交换区。7.本系统对接受到的数据文件解压缩后，进行数据校验。9.对于无法通过本系统校验的数据文件，本系统通知源系统相关负责人。10.源系统数据交换负责人对本系统下发的含有出错信息的校验报告进行分析，按以下三种情况进行处理：1)如果源数据出错，则要求源系统重新获取数据，重复第2步之2)如果数据文件生成过程出错，则要求源系统重新生成相应的数据文件，重复第3步之后流程；3)如果数据交换文件上传过程出错，则要求源系统重新上传相应的数据交换文件(包括数据文件及校验文件),重复第6步之后流11.数据交换结束。文件规范

数据文件命名规范数据文件命名由文件名主体和扩展名构成，文件名主体使用大写字母，扩展名使用小写字母，全名规则如下：<数据日期>_<数据来源>_<接口单元>_<频度标志>_<抽取顺序号>_<抽取策略>_<重传序列号>_<分割序号>.dat文件名主体定义规则如下表，各分段之间使用下划线“_”进行连说数据重传分割标志序列112DA表格2-2I.数据日期数据日期是描述当前抽取周期中，数据的发生日期(如：20101201,则表示抽取的是2010年12月1日的数据快照)。按日抽取的数据文件，其数据日期就是数据的发生日期；按周/旬/月/季/年抽取的数据文件，遵循按日抽取的数据日期命名方式，其数据日期为该周/旬/月/季/年的最后一天，存储在相应数据日期目录下。如2010年3月的月数据文件，其数据日期为20100331;2010年的年数据文件，其数据日期为20101231。II.接口单元接口单元代码采用阿拉伯数字字符编码，码长6位，分为三层，第一层2位代表职能域代码；第二层码长2位代表主题域代码；第三层码长2位代表主题域下的实体代码。代码结构图如下：实体代码主题域代码职能域代码1.接口单元代码必须使用本规范附件《补充信息分类和编码》的相III.频度标志旬/月/季/年)。单元在一天内多次抽取的顺序号，编号从001开始。如果不需要多次抽取策略取值范围为P/A。“P”代表增量抽取，“A”代表全量VI.重传序号重传序号必须是二位阿拉伯数字字符。重传序号是用于描述同一个接口单元的同一数据日期内，由于数据异常，需要重新通过重传序号来描述当前数据文件的重传顺序号。00:表示该数据文件正常数据上传(非重传)01:表示该数据文件第一次重传02:表示该数据文件第二次重传VII.分割序号一个接口单元被分割成多个文件，则根据分割序号排序。初始编号为“00”。数据文件格式数据文件是采用不定长记录的文本文件，每条记录一行。数据文件字段用分隔符分隔，必须严格按照本规范附件《数据接口单元》相应分册中接口单元字段类型长度和顺序的定义产生。分隔符采用以下两种：1.字段间分隔符：单竖线“|”;2.记录间分隔符：换行符(0x0A)。源系统上传数据文件时，必须保证数据内容中不含有分隔符，否则需对数据内容中的分隔符进行替换。2.数据文件字符集源系统上传的数据文件必须采用GBK字符4.数字格式4.1.在数据交换数据文件中，数字的表示必须规范，小数点的前后必需有数字，如：0.01或34.0,不能用“.01”或“34.”4.2.数字最高位的左边第一位为符号位。对于负数，符号位为“-”,正数不用加符号位；字段的值为空格(一个或多个),生成数据文件时则生成一个空格；字段值首尾包含空格，前后空格均视为无意义，则去掉首尾7.日期类型YYYY为四位数字，必须是有效的年份；MM为两位数字，必须是有效的月份(01-12);DD为两位数字，必须是有效的日期(01-31)。对于不符合日期约束规则的日期值，处理方式同NULL。8.日期时间类型统一采用YYYYMMDDHHMMSS格式：MM为两位数字，必须是有效的月份(01-12);DD为两位数字，必须是有效的日期(01-31)。HH为两位数字，必须是有效的小时(00-23),24小时制；MM为两位数字，必须是有效的分钟(00-59);SS为两位数字，必须是有效的秒(00-59)。对于不符合时间约束规则的时间值，处理方式同NULL。数据文件规模压缩前单个数据文件大小不超过2G。源系统在生成数据文件时，对于超过2GB的文件，必须对数据文件进行分割。

校验文件规范校验文件命名规范校验文件命名由文件名主体和扩展名构成，文件名主体使用大写字母，扩展名使用小写字母，全名规则如下：<数据日期>_<数据来源>_<接口单元>_<频度标志>_<抽取顺序号>_<抽取策略>_<重传序列号>.verf文件名主体定义规则如下，各分段之间使用下划线“_”进行连序号IV说明数据日期数据来源接口单元标志号抽取策略重传序列号长度8261312示例DA表格2-3校验文件文件名主体定义参照数据文件文件名主体定义，扩展名采用“verf”。校验文件名不包含分割序号，对于未分割传输的接口单元，一个数据文件对应一个校验文件；对于同一接口单元分割传输的多个数据文件，对应一个校验文件。文件内容格式校验文件是由各源系统负责生成，用于记录对数据文件进行校验的信息。各源系统对数据文件的校验规则将在《数据质量管理规范》中统一下头记录格式说明1数据文件数量整型填写传输的文件总数2行间分隔符一换行符表格2-4记录格式校验文件采用定长方式，对于不足位数的记录内容以空格右填充。包括以下内容：说明1数据文件名称40位字符型2文件的大小(字节20位整型文件的物理存储大小3文件中包含的记录数20位整型4数据日期8位字符型日期格式：YYYYMMDD,如果抽取周期为月，则格式为：YYYMM,后两位补两个零“00”;5文件的生成时间14位字符型日期格式：6行间分隔符一换行符表格2-5

校验报告规范数据交换校验报告采用文本文件方式，文件格式采用GBK码字符集。数据交换校验报告指由本系统负责对数据文件进行校验后形成的校验结果文件，包括文件级校验报告和记录级校验报告。各源系统的校验报告参照此格式产生。数据交换校验报告采用定长方式，对于不足位数的信息内容以空格右填充。校验报告命名规范校验报告命名由文件名主体和扩展名构成，文件名主体使用大写字母，扩展名使用小写字母。文件级校验报告命名规则如下：<数据日期>_<数据来源>_<接口单元>_<频度标志>_<抽取顺序号>_<抽取策略>_<重传序列号>.frpt数据日期>_<数据来源>_<接口单元>_<频度标志>_<抽取顺序号>_<文件名主体定义规则如下表，各分段之间使用下划线“_”进行说明数据序号示例表格2-6一个数据校验文件(*.verf文件)对应一个文件级校验报告说明1数据文件名称40位字符型2处理时间14位整型日期格式：YYYYMMDDHH24MISS3校验结果代码2位字符型00:校验成功01:接口文件名与规则不符02:接口数据文件不存在03:接口数据文件无法打开04:记录长度错误05:文件大小不符06:文件记录数不符07:文件数据日期不符08:数据文件数据日期非法09:数据文件省代码错误10:数据文件接口单元编码非法11:数据文件记录非法结束符(非回车换行)12:数据文件大小超过2GBytes13:接口数据文件重复上传14:数据文件数据日期与期待日期不符说明件名跨月为空说明89:校验文件接口单元禁止修正90:修正校验文件数据日期不能跨月91:修正校验文件数据日期超前92:校验文件数据日期与期待日期不符93:校验文件重复上传94:校验文件接口单元编码非法95:校验文件记录非法结束符(非回车换行)96:校验文件省代码错误97:校验文件数据日期非法98:校验文件记录长度不符99:校验文件无法打开4校验结果128位字符型校验结果描述5行间分隔符一换行符表格2-73.补充校验结果代码按顺序增加，长度为两位，并确保校验结果代码不重复。说明1数据交换数据文件名称40位字符型2文件行号10位整型3属性序号4位整型4错误代码2位整型00:不检查01:主键唯一性错误02:主外键不一致03:编码不存在04:数据类型格式错误05:数据值域错误06:业务规则错误5错误描述128位字符型6行间分隔符一换行符表格2-8补充校验结果代码按顺序增加，长度为两位，并确保校验结果代.2基于WebService的实时数据采集WebService数据共享简介WebService是分布式的服务组件。WebService本质上就是要以标准化的形式实现企业内外各个不同服务系统之间的互调或集成。其由两部分组成：SOAP--WebService之间的基本通信协议；WSDL--WebService描述语言，它定义了WebService做什么,怎么在任何支持这些标准的环境(Windows,Lin3.由于使用了SOAP,数据是以ASCII文本的方式而非二进制传Webservice实现过程假如服务A要调用服务B上的服务，要实现这个目的需要下面3个元素服务B要以一种标准化的语言告诉服务A它能提供什么样的服务，比如调用它的服务，它的服务在那里等，这就是WEBSERVICE消息格式告诉服务B,它想调用什么服务，并加入相应的输入参数，当服务B完成服务后，会同样以标准化的通信方式告诉B相应的服务Wsdl概念SERVICE的提供着将自己的WEB服务的所有有关内容，如所提供的服SOAP返回消息解析成自己能够理解的内容。当前wsdl版本有wsdl1.1和wsdl1.2(即wsdl2.0版本)。WebService数据采集实现Web服务1Web服务22、数据解析3、数据入库配用电大数据平台Web服务1Web服务2服务1图2-5WebService数据采集示意图1.各系统在xxxxESB总线上注册Web服务；2.本系统调用Web服务，实时获取数据；3.本系统解析返回的数据，形成数据集；4.本系统将数据集插入ODS,触发相应的ETL作业进行数据处理。.3Sqoop批量数据采集Sqoop主要是用来处理存量数据，是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库(例如：MySQL,Oracle等)中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。u令),这里先列出这13种命令。OutputlineformattinGenericHadoopcommand-linearguments。1)列出mysql数据库中的所有数据库sqoopsqooplist-databases-connectjdbc:mysql://localhost:3306/2)连接mysql并列出test数据库中的表sqoopsqooplist-tables-connectjdbc:mysql://localhost:3命令中的test为mysql数据库中的test数据库名称usernamepassword分别为mysql数据库的用户密码jdbcjdbc:mysql://localhost:3306/testtest为hive中新建的表名称sqoopsqoopimport-connectjdbc:mysql://localhost:3306/zxtest-表sqoopexport-connectjdbc:mysql://localhost:3306/z/user/hive/warehouse/new_test_partition/dt=201/user/hive/warehouse/new_test_partition/dt=201jdbc:mysql://09:-password=123456-tableHAD00P_USER_INFO--password=123456-tableHAD00P_USER_INFO-7)从数据库增量导入表数据到hdfs中jdbc:mysql://jdbc:mysql://09:3-target-dir/user/test-check-col-target-dir/user/test-check-colSqoop原理(以import为例)中。同时split-by根据不同的参数类型传入的num-mappers来确定划分几个区域。max(split-by)和min(split-by)分别为1000和1,而num-mappers为2的话，则会分成两个区域(1,500)和(501-100),同时也会分成2个sql给2个map去进行导入操作，分别为selectXXXfromtablewheresplit-by>=501andsplit-by<=1000。最后每个map各自获取大概流程打成jar包，然后提交给Hadoop2.设置好job,主要也就是设置好以上第六章中的各个参数3.这里就由Hadoop来执行MapReduce来执行Import命令了，1)首先要对数据进行切分，也就是DataSplitDataDrivenDBInputFormatDataDrivenDBInputFormat.getSplits(JobContextjob)2)切分好范围后，写入范围，以便读取DataDrivenDBInputFormat.write(DataOutputDataDrivenDBInputFormat.write(DataOutput是是lowerBoundQueryandupperBoundQue3)读取以上2)写入的范围DataDrivenDBInputFormat.readFields(DataInputinpuDataDrivenDBInputFormat.readFields(DataInputinpu4)然后创建RecordReader从数据库中读取数据DataDrivenDBInputFormat.createRecordReadeDataDrivenDBInputFormat.createRecordReade5)创建MapDBRecordReader.nextDBRecordReader.next7)运行mapTextImportMapperTextImportMapper.map(LongWritablekey,SqoopRecordval,Nul1Writable.get()数据导出图例(2)SubmitMap-Onlyjot_HadoopCluster图2-8员角色进行管理，操作员的角色进行运行。同样，jdbc驱动程序和前端的命令行接口、浏览器和后端的元数据存储库。此外Hive和序，并不需要再安装0ozie。扩展性器，将他们只负责数据的传输。reduce阶段只需是实现公用模块即flume作为cloudera开发的实时日志收集系统，受到了业界准等缺点暴露出来，尤其是在FlumeOG的最后一个发行版本√可靠性Flume提供了三种级别的可靠性保障，从强到弱依次分别为：成功后，再删除；如果数据发送失败，可以重新发送。),Storeonfailure(这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送),Besteffort(数据发送到接收√可扩展性每一层均可以水平扩展。其中，所有agent和collector由master统一管理，这使得系统容易监控和维护，且master允许有多个(使用ZooKeeper进行管理和负载均衡),这就避免了单点故障问题。√可管理性维护。多master情况，Flume配置数据的一致性。用户可以在master上查看各个数据源或者数据和shellscriptcommand两种形式对数据流进行管理。√功能可扩展性用户可以根据需要添加自己的agent,collector或者storage。此外，Flume自带了很多组件，包括各种agent(file,syslog等),√可恢复性：还是靠Channel。推荐使用FileChannel,事件持久化在本地文√Agent使用JVM运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。√Client生产数据，运行在一个独立的线程。√Source从Client收集数据，传递给Channel。√Channel连接sources和sinks,这个有点像一个队列。图2-9Flume提供了大量内置的Source、Channel和Sink类型。不同也可以持久化到本地硬盘上。Sink可以把日Source图2-10kafka是一种高吞吐量的分布式发布订阅消息系统，通过磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能；高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息；支持通过kafka服务器和消费机集群来分区消息。kafka可以处理动作流数据，这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个Kafka它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类，发送消息者成为Producer,消息接受者成为Consumer,此无论是kafka集群，还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。图2-11一个Topic可以认为是一类消息，每个topic将被分成多个partition(区),每个partition在存储层面是appendlog文件。任何发布到此partition的消息都会被直接追加到log文件的尾部，每条消息在文件中的位置称为offset(偏移量),offset为一个long没有提供其他额外的索引机制来存储offset,因为在kafka中几乎021921224442200099333666777555888111图2-12kafka和JMS(JavaMessageService)实现(activeMQ)不同的broker中的配置要求，保留一定的时间之后删除；比如log文件保后对文件内容改动的磁盘IO开支。对于consumer而言，它需要保存消费消息的offset,对于offset的保存和使用，有consumer来控制；当consumer正常消费事实上consumer可以使用任意顺序消kafka集群几乎不需要维护任何consumer和producer状态信息，这些信息有zookeeper保存，因此producer和consumepartitions的设计目的有多个.最尺寸达到单机磁盘的上限，每个partiton都会被当前server(kafka实例)保存；可以将一个topic切分多任意多个partitions,来消息保存/消费的效率。此外越多的partitions意味着可以容纳更多的一个Topic的多个partitions,被分布在kafka集群中的多个server上，每个server(kafka操作，此外kafka还可以配置partitions需要备份基于replicated方案，那么就意味着需要对多个备份进行调度；每个partition都有一个server为"leader";leader为新的leader);follower只是单调的和leader跟进，同步消息即Producer将消息发布到指定的Topic中，同时Producer也能本质上kafka只支持Topic,每个consumer属于一个consumergroup;反过来说，每个group中可以有多个consumer.发送到Topic如果所有的consumer都具有相同的group,这种情况和queue模式很像；消息将会在consumers之间负载均衡。如果所有的consumer都具有不同的group,那这就是"发布-订阅",消息将会广播给所有的消费者。以认为一个group是一个"订阅"者，一个Topic中的每个partions,以消费多个partitions中中的消息被某个consumer消费时，消息是顺序的.事实上，从Topic能有多于partitions个数的consumer同时消费，否则将意味着某些1)发送到partitions中的消息将会按照它接收的顺序追2)对于消费者而言，它们消费消息的顺序和日志中消息顺序一致.3)如果Topic的"replicationfactor"为N,那么允许N-1个kafka实例失效.使用场景partitons/replication和容错，可以使kafka具有良好的扩展性和性能优势，不过到目前为止，我们应该很清楚认识到，kafka并没有提供JMS中的"事务性""消息传输担保(消息确认机制)""消息分组"等企业级特性；kafka只能使用作为"常规"的消息系统，在一定程度上，尚未确保消息的发送与接收绝对可靠(比如，消息重发，消息发送kafka可以作为"网站活性跟踪"的最佳工具；可以将网页/用户操作等信息发送到kafka中.并实时监控，或者离线统计分析等。kafka的特性决定它非常适合作为"日志收集中心";application可以将操作日志"批量""异步"的发送到kafka集群中，这对producer端而言，几乎感觉不到性能的开支。此时consumer端可以使hadoop等其他系统化的存储和分析系统。技术总结通过比较以上几种数据采集技术，对其适用范围进行总结如下：应用场景批量处理存量数据系统日志收集海量数据汇聚大数据流采集数据源结构化数据半结构化数据非结构化数据非结构化数据数据类型非实时实时优点高效可控的利用资源，任务并行度数据类型映射与转化，可自动进行，用户支持多种主定制各类数据发送方和数据接收方高吞吐量；消息持久化到磁盘，因此可用于批量消费，例如ETL,以及实时应用程序流数据库表格2-9通过比较以上几种数据采集技术，对其适用范围进行总结如下：综上所述，Sqoop技术主要应用于大批量数据从业务系统至本系统的快速导入；Flume和Scribe技术配合使用，实现从各节点上实时采集数据；而Kafka作为一种数据接入技术，通过缓冲消息中间件方式，来解决数据采集速度和处理速度的不一致问题。2.2.4数据存储数据存储是本项目的数据存储数据库，数据库逻辑上包括三大记录级数据质量检查性、外键、编码、业务规则检查，从而保证进入本系统的数据质量。ODS作为本系统的入口，存储了最新的源系统数据，是数据仓在数据仓库建立之前，大量的报表、分析是由业务系统直接支DW(数据仓库)是整个本系统的核心部分，它负责存储和管理在分析主题的基础上生成数据汇总，以便更好的满足数据需支持即席查询等灵活性较高的BI应用。DM(数据集市)是面向需求组织的，它对于某些主题的业务分层级数据集市区●共性应用：基于基础层建立，为各级单位的共性分析应用提供汇总数据●个性应用：基于基础层建立，为各级单位的个性分析应用提供汇总数据星形或雪花形多维数据模型数据仓库区●基于数据资源整合规范进行数据清洗及标准化●存储标准化的数据●存储部分详细数据和轻度汇总级数据●对过期基本不用的数据进行归档处理标准化的企业级数据模型●通过省级单位数据接口模块上传的原始数据临时存储在缓存区，等待处理●进行基础数据质量检查●不保存备份与上传接口文件一致表格2-10区和基于Hadoop技术的分布式数据存储区。MPP关系型数据库MPP关系型数据库是以高级结构化查询语言(SQL)为基础的大型关系数据库，通俗地讲它是用方便逻辑管理的语言操纵大量有规律数据的集合。是目前最流行的客户/服务器(CLIENT/SERVER)体系结构的数据库之一。1.引入了共享SQL和多线索服务器体系结构。这减少了资源占用，并增强了计算能力，使之在低档软硬件平台上用较少的资源就可以支持更多的用户，而在高档平台上可以支持成百上千个用户。2.提供了基于角色(ROLE)分工的安全保密管理。在数据库管理功能、完整性检查、安全性、一致性方面都有良好的表现。3.支持大量多媒体数据，如二进制图形、声音、动画以及多维数据结构等。中的数据进行操纵。加上它有许多优秀的前台开发工具如5.提供了新的分布式数据库能力。可通过网络较方便地读写远端数据库里的数据，并有对称复制的技术。存储结构如下：的数据、索引、程序等相关信息。我们准备上马一个较大的HDFS(HadoopDistributedFileSyst率等特征为海量数据提供了不怕故障的存储，为超大数据集(Large分布式文件存储是大数据的基础分布式文件存储是大数据的基础·运行于廉价商用机器集群控制指不适用数据块大态信息文件数据块客户端数据块系统的一个实例。提供了一个高层的文件系统抽象类org.apache.hadoop.fs.FileSyst表格2-11支持有客户端校验和本地文fsRawLocalFileSystem中实现。hdfs.DistributionFil支持通过HTTP方式以只读的方式访问HDFS,distcp经支持通过HTTPS方式以只读的方式访问HDFS。归档文件主要用来咸少Cloudstore(其前身是Kosmos文件系统)文件系统是类似于由FTP服务器支持的文件系S3(本地)块)以块格式存储解决了S3的Hadoop提供了许多文件系统的接口，用户可以使用URI方案选理一个HDFS块中的数据(默认为64Mb),一个块相当于一个基本存储一个文件可以大于每个磁盘HDFS(HadoopDistributedFileSystem)默认的最基本的存储节点";另一类是DataNode,又叫"数据节点"。这两类节点分别承担1)元数据节点用来管理文件系统的命名空间其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件：命名空间镜像(namespaceimage)及修改日志(editlog),其还保存了一个文件包括哪些数据块，2)数据节点是文件系统中真正存储数据的地方客户端(client)或者元数据信息(namenode)可以向数据节点请块信息。datanode从hdfs中读取数据图2-145图2-153)从元数据节点(secondarynamenode)从元数据节点并不是元数据节点出现问题时候的备用节点，它写到本地临时文件中。假设该文件的副本系数设置为3,当本地临时文件累积到一个数据块的大小时，客户端会从Namenode获取一个Datanode列表用于存放副本。然后客户端开始向第一个Datan输数据，第一个Datanode一小部分一小部分(4KB)地接收数据，将节点。第二个Datanode也是这样，一小部分一小部分地接收数据，接收数据并存储在本地。因此，Datanode能流水线式地从前一个节一个Datanode复制到下一个。HDFS是一个主/从(Master/Slave)式的结构(hdfs体系结构)Metadata(Name,replicas,..):/home/foo/data,3,…Hdfs的架构图2-16从最终用户的角度来看，它就像传统的文件系统一样，可以通过目录路径对文件执行CRUD(增删查改)操作。但由于分布式存储文件系统的元数据，DataNode存储实际的数据。客户端通过同NameNode以获取文件的元数据，而真正的I/0操作是直接和DataNode进行交互的。例如：客户端要访问一个文件，首先，客户端从NameNode中获得组成该文件数据块位置列表，即知道数据块被存储在DataNode上；不参与文件的传输。图2-17NameNode的作用是管理文件目录结构，是管理数据节点的。NameNode维护两套数据：一套是文件目录与数据块之间的关系，另一套是数据块与节点间的关系。前一套是静态的，是存放在磁盘上的，通过fsimage和edits文件来维护；后一套数据时动态的，不持久化一点，就是Block(数据块)。假设文件大小是100GB,从字节位置0的Block。每个Block就是64MB(也可以自定义设置Block大小)。典型部署群中的其他机器各运行一个DataNode。(Ofcourse,也可以在运行NameNode的机器上同时运行DataNode,或者一个机器上运行多个.2.2NoSNoSQL泛指非关系型的数据库，以键值对存储，它的结构不固常高的读写性能，而且无需事先为要存储的数据建立字段，随时可类型特点代表产品列存储顾名思义，是按列存储数据的。最大的特点是方便存储结构化和半结构化数据，方便做数据压缩，对针对某一列或者某几列的查询有非常大的IO优势。文档存储文档存储一般用类似json的格式存储，存储的内容是文档型的。这样也就有有机会对某些字段建立索引，实现关系数据库的某存储可以通过key快速查询到其value。一般来说，存储不管value的格式，全部收入(Redis包含了其他功图存储图形关系的最佳存储。使用传统关系数据库来解决的话性能低下，而且设计对象存储通过类似面向对象语言的语法操作数据库，通过对象的方式存取数据。xml数据库高效的存储XML数据，并支持XML的

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

企业级应用系统配用电大数据功能扩充工程方案投标文件（技术标）

文档简介

温馨提示

最新文档

评论

企业级应用系统配用电大数据功能扩充工程方案投标文件（技术标）

文档简介

温馨提示

最新文档

评论

相关文档