万字大数据治理平台与数据服务平台建设及运营实施技术方案_第1页
万字大数据治理平台与数据服务平台建设及运营实施技术方案_第2页
万字大数据治理平台与数据服务平台建设及运营实施技术方案_第3页
万字大数据治理平台与数据服务平台建设及运营实施技术方案_第4页
万字大数据治理平台与数据服务平台建设及运营实施技术方案_第5页
已阅读5页,还剩271页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据治理平台与数据服务平台建设及运营实施技术方案整理制作郎丰利151910/269大数据治理平台与数据服务平台建设及运营实施技术方案整理制作郎丰利1519目录1 项目总体概述 51.1 项目背景 51.2 技术与数据现状 51.3 需求范围 62 项目解决方案 112.1 建设类业务技术方案 112.1.1 业务需求分析 112.1.2 数据资源范围 122.1.3 数据资源层次 122.1.4 整体业务架构 142.1.5 业务功能描述 152.2 服务类业务技术方案 392.2.1 数据采集对接服务 392.2.2 数据抽取运维服务 552.2.3 作业调度运维服务 632.2.4 数据资源治理服务 822.2.5 数据质量管理服务 1002.2.6 数据融合处理服务 1112.2.7 数据分析应用服务 1152.2.8 数据标注服务 1212.2.9 应用建模服务 1252.2.10 数据接口开发服务 1372.2.11 数据开放支撑服务 1472.2.12 数据运行监管服务 1562.3 信息安全解决方案 1672.3.1 安全服务原则 1672.3.2 安全服务措施 1683 项目管理方案 1753.1 项目管理流程 1753.1.1 项目流程 1753.1.2 项目启动阶段 1763.1.3 需求分析阶段 1773.1.4 需求规格阶段 1773.1.5 设计阶段 1783.1.6 开发阶段 1783.1.7 测试阶段 1793.1.8 试运行阶段 1793.1.9 验收阶段 1803.1.10 项目维护阶段 1803.2 项目质量控制流程 1803.2.1 立项阶段 1803.2.2 开发阶段 1813.2.3 结项阶段 1814 相关行业案例 1834.1 某客户分析平台 1834.1.1 项目背景 1834.1.2 业务目标 1834.1.3 建设方案 1844.2 产品运营分析平台 1944.2.1 项目背景 1944.2.2 总体设计 1954.2.3 建设方案 1974.3 客户服务感知与差距管理平台 2174.3.1 项目背景 2174.3.2 建设目标 2184.3.3 总体设计 2194.3.4 建设方案 2205 项目售后服务 2235.1 服务响应承诺 2235.1.1 服务响应方式和内容 2235.1.2 服务受理时间 2235.1.3 服务响应时间 2235.2 技术服务承诺 2245.3 售后服务方案 2255.3.1 服务规范体系 2255.3.2 服务质量保障措施 2285.3.3 服务管理保障措施 232

项目总体概述项目背景招标方参与招标方客户单位其牵头的信息化项目,建立了良好的长期合作服务关系,对于客户单位的重点工作及主要方向有着最合理的把控。招标方已经成功中标多个招标方客户单位的数据类项目,需要更好的服务招标方客户单位的重点核心项目,建立围绕政务公共数据管理与运营的制度化、体系化、生态化的全方位支撑服务。为此,需要招募长期、稳定且技术能力领先的数据服务供应商来共同完成招标方客户单位的各种业务目标。技术与数据现状招标方客户单位的技术架构包含:大数据资源平台包含统一门户、数据共享交换子系统(含数据交换、服务管理等功能模块)、大数据支撑子系统(含数据湖、数据库)、数据治理子系统、数据质量管理子系统等。其中:统一门户主要进行各子系统的集成、功能模块菜单级整合,实现了平台用户、权限统一管理、单点登录等;数据共享交换子系统(数据交换模块)实现数据交换引擎、统一调度引擎、任务管理、数据桥接等功能,以及对数据湖数据的存储管理、共享与交换;大数据支撑子系统(数据湖)汇聚“四大基础库”、“统建系统”、“各委办系统”、“各行政区系统”的经过初始治理的原始数据;数据治理子系统主要实现三清单动态管理、公共数据资源目录管理,以及元数据和数据标准管理;数据质量管理子系统实现完善的数据质量管理功能,包括数据质量规则制定、数据质量稽核、数据质量问题闭环管理;大数据支撑子系统(市级数据库)主要用于存放经过一系列清洗、转换、加载、治理步骤后的高质量的公共数据资源,为城市管理、公共服务等提供数据来源;数据共享交换子系统(服务管理模块)主要提供市级数据库中数据对外的服务发布与利用。整理制作郎丰利1519.需求范围服务子类服务内容描述数据治理/分析建设建设内容(1)建设完善数据库:通过人口、法人、空间地理库数据源整合开发,并对接电子证照库。实现对人口、法人、空间地理信息、证照等的接入、整合、开发、利用。结合实际,构建公共主题库及专题库,为应用提供安全高质的专题数据服务。(2)建立数据管理子系统:主要实现数据架构管理、数据关系管理、数据资产管理、数据标签管理、数据异常管理、数据分析管理、数据流程管理、流数据处理、知识图谱功能。(3)扩展数据治理子系统:通过国家资源管理子系统实现资源申请、撤销、审核、查询、配置、目录管理、业务流程对接、监控模块对接等功能。(4)建设大数据综合应用(一期):通过宏观经济、市场运行、民生幸福、城市立方体等专题应用的建设,构建大数据综合应用示范辅助领导决策,构建应用管理中心支撑数据应用,以为各部门提供优质的数据服务。(5)建设数据开放子系统(一期):通过数据应用方管理、开放清单管理、数据开放管理、开放授权管理等构建全面的数据开放子系统,为数据应用方、数据管理方、外部第三方等提供数据注册、身份认证、订阅分发、开放数据追溯等功能。(6)扩展平台集成门户:在大数据资源平台项目的基础上扩展功能。主要包括消息推送、数据推送、个人信息管理、系统管理等功能。(7)建立数据开放门户:主要实现数据目录、数据接口、数据应用、数据图谱、地图数据、互动交流、数据开发者、辅助事项、个人管理等各项门户目录的建设。数据治理和数据开放运营服务数据采集对接服务从政务服务业务梳理着手,开展公共数据梳理,形成公共数据“三清单”,并建立公共数据“三清单”的长效动态更新机制,依据“三清单”进行公共数据归集,夯实数据治理基础。抽取数据业务理解、数据理解、目录编制及数据协议适配、资源挂载、清洗等。数据抽取运维日常数据抽取任务维护,保障各信息系统数据及时准确地汇聚,对于问题抽取任务的进行处置调整作业调度运维日常数据加工、分发作业的调度管理,检查是否及时完成,对于中断作业进行处置;数据资源治理服务各类基础库、主题库、专题库的数据资源治理工作,梳理对象与范围覆盖更广,内容更丰富,如数据资源梳理、数据分级分类、数据资产编目、数据标签管理、资产配置管理、一数多源梳理等数据质量管理服务对归集数据进行闭环质量管理工作,不断提升数据质量,为数据利用打下基础。闭环数据处理除需进行常态化的监管之外,还需进行整改督办跟踪数据融合处理服务开展基础数据融合应用工作,进行4大基础库升级改造,即人口、法人、空间地理、电子证照基础数据库;同时,依据“三清单”建设政务服务主题数据库,协助各牵头部门完成市场监管、公共信用、经济社会发展、社会治理、公共安全等主题库的建设数据分析应用服务推进数据分析应用,包括业务分析、数据可视化及数据产品开发数据标注服务对结构化数据、文本数据、音频数据、视频数据、流媒体等格式进行内容释义,并对内容进行分级分类管理;应用建模服务根据不同的业务问题进行数学模型的建立,包括参数调整、测试集验证等数据接口开发服务提供数据服务能力,包括服务接口的封装及发布、各委办局自有接口代管、国家平台数据资源提供、数据开放等数据开放支撑服务促进各级政务部门和公共企事业单位建立常态化工作机制,制定年度数据开放计划,响应公众开放需求,依托开放平台依法有序推进公共信息资源开放。

建立数据开放用户管理机制、分级分类机制、目录管理机制、采集管理机制等内容,确保数据开放工作有序高效、合法合规的推进。数据运行监管服务在数据资产运行过程中,保障资产的安全可靠贯穿始终。因此需要随着业务的不断拓展、技术的不断提升,持续制定与完善数据运营相关的工作规范与考核机制,保障数据资产在制度框架下有序运行

项目解决方案建设类业务技术方案业务需求分析根据对招标要求的理解,建设业务需求主要包括如下几个方面:(1)建设完善数据库:通过人口、法人、空间地理库数据源整合开发,并对接电子证照库。实现对人口、法人、空间地理信息、证照等的接入、整合、开发、利用。结合实际,构建公共主题库及专题库,为应用提供安全高质的专题数据服务。(2)建立数据管理子系统:主要实现数据架构管理、数据关系管理、数据资产管理、数据标签管理、数据异常管理、数据分析管理、数据流程管理、流数据处理、知识图谱功能。(3)扩展数据治理子系统:通过国家资源管理子系统实现资源申请、撤销、审核、查询、配置、目录管理、业务流程对接、监控模块对接等功能。(4)建设大数据综合应用(一期):通过宏观经济、市场运行、民生幸福、城市立方体等专题应用的建设,构建大数据综合应用示范辅助领导决策,构建应用管理中心支撑数据应用,以为各部门提供优质的数据服务。(5)建设数据开放子系统(一期):通过数据应用方管理、开放清单管理、数据开放管理、开放授权管理等构建全面的数据开放子系统,为数据应用方、数据管理方、外部第三方等提供数据注册、身份认证、订阅分发、开放数据追溯等功能。(6)扩展平台集成门户:在大数据资源平台项目的基础上扩展功能。主要包括消息推送、数据推送、个人信息管理、系统管理等功能。(7)建立数据开放门户:主要实现数据目录、数据接口、数据应用、数据图谱、地图数据、互动交流、数据开发者、辅助事项、个人管理等各项门户目录的建设。数据资源范围本次项目建设范围覆盖招标方客户单位以及所有委办局。数据来源即为来自委办局、四大库、互联网及社会等业务数据。本项目建设中公共数据管理涉及数据的汇聚、抽取、治理、交换、共享等全生命周期,在生命周期的各个阶段对数据的归属权、管理权有明确的界定,有利于各个项目参与单位能够做到权责明确、协调统一。数据资源层次本项目建设将于平台采用数据湖+数据库的数据存储架构。数据湖与数据库依托于大数据支撑平台建设。(1)数据湖数据湖是所有从外部数据源落地到招标方客户单位的统一数据存储空间。数据湖基于政务云提供的云数据库和云存储服务进行搭建(通常包括关系型数据库、NoSQL数据库、列数据库、分布式文件存储等),主要存放政府部门业务数据库、未经加工的原始业务数据库,支持存储结构化、非结构化等多种类型的数据。数据湖通过大数据资源平台,与各部门业务应用系统、区级各部门或区数据管理部门的前置节点进行交换。数据湖中的共享数据依据元数据进行编目,并建立动态更新的资源目录。数据湖的数据存储规模极其庞大,需要支持存储扩展和横向、纵向迁移,直接用于分析的平均价值密度较低,通常需经过预处理、集成后,形成高质量公共数据资源。(2)数据库数据库,用于存放经过一系列清洗、转换、加载、治理步骤后的高质量的公共数据资源,其数据来源主要来自于数据湖。对于如一网通办等特殊应用,平台支持各部门政务应用系统与数据资源池的直接双向交互,无需通过数据湖进行中转,通过平台的调度引擎可进行交换链路的灵活设置。数据库以面向不用数据应用、行业领域及主题进行划分(如:综合业务协同、公共基础库、公共主题库、扩展主题库等),并为业务应用和终端用户提供业务对象访问、数据集访问等数据类服务,支撑辅助决策、数据可视化、数据开放、数据挖掘分析等不同公共数据应用场景。通过大数据资源平台提供的数据集成总线,对数据湖数据进行批量离线处理或实时处理,并将处理结果落地到数据资源池。数据资源池中的共享数据也需要依据元数据进行编目,并建立动态更新的资源目录。数据库的数据存储规模极其庞大,需要采用合适的大数据平台对明细数据和汇总数据进行存储计算,计算结果可以使用分布式文件存储或关系型数据库,用于应用访问或直接展现。整体业务架构建立全市数据管理与利用体系:本项目将依托S市数据共享交换子平台,持续汇入各市级委办、各区县、市级统建系统、四大库的数据,并新增接入互联网及社会数据,通过数据生命周期管理子系统提供公共数据管理、数据层次管理、数据关联及流向分析、统一数据地图等功能,整合法人库、人口库、空间地理库数据源,并通过数据处理子系统建立经济活动、公用事业、社会关系等公共主题库,提供各类专业业务领域主题库建设的数据支撑,通过数据服务总线对外提供利用。建设安全管理子系统,提供安全数据采集、敏感数据管理、安全监管中心等功能。另外,将建立宏观经济、市场运行、民生幸福、城市综合体等一系列专题应用,在数据利用层面,通过平台集成门户对政务部门提供数据利用支撑,通过数据开放子系统与数据开放门户对各类社会机构提供数据利用支撑;进一步推动与促进数据共享交换与利用的生态体系构建,持续基于公共数据进行业务创新。通过本次项目建设的各子系统、整合的人口、法人、空间地理库数据源,新建的公共主题库、专题库等,结合S市数据共享交换子平台,将初步构建较为完整的S市大数据资源平台,支撑智慧政府的改革。业务功能描述数据库建设建设完善市级数据库:通过人口、法人、空间地理库数据源整合开发,并对接电子证照库。实现对人口、法人、空间地理信息、证照等的接入、整合、开发、利用。结合S市实际,构建公共主题库及专题库,为应用提供安全高质的专题数据服务。公共基础库人口库数据源整合人口基础信息库提供身份核查和信息查询共享服务,通过输入公民姓名和身份证号码,便可查询居民身份号码和姓名匹配度以及死亡(注销)标识,也可提供公民性别、民族、出生日期、出生地等信息查询。人口库数据源整合利用大数据资源平台已归集的人口相关数据,对人口库数据接入相关功能进行数据接入来源方面的功能整合开发。通过对人口库数据源的全面梳理,对于原来由人口库向数据提供部门采集且已(将)接入大数据资源平台的数据,通过相关数据接入功能整合开发,改由大数据资源平台直接向人口库提供,不再需要相关数据提供部门重复提供。法人库数据源整合作为全市法人信息的基础数据库,法人库把原先碎片化存放的信息归集到法人名下,全面立体的展示法人相关信息。同时,法人库及S市法人信息共享与应用系统为全市其他平台和应用提供有力支撑。法人库数据源整合利用大数据资源平台已归集的法人相关数据,对法人库数据接入相关功能进行数据接入来源方面的功能整合开发。通过对法人库数据源的全面梳理,对于原来由法人库向数据提供部门采集且已(将)接入大数据资源平台的数据,通过相关数据接入功能整合开发,改由大数据资源平台直接向法人库提供,不再需要相关数据提供部门重复提供。空间地理库数据源整合空间地理库提供地图服务、影像服务、地名地址服务、三维服务与坐标转换等功能服务,持续为全市用户提供优质的地理信息服务。空间地理库数据源整合,利用大数据资源平台已归集的空间地理相关数据,对空间地理库数据接入相关功能进行数据接入来源方面的功能整合开发。通过对空间地理库数据源的全面梳理,对于原来由空间地理库向数据提供部门采集且已(将)接入大数据资源平台的数据,通过相关数据接入功能整合开发,改由大数据资源平台直接向空间地理库提供,不再需要相关数据提供部门重复提供。支持公共主题库立足于公共基础库,跨领域跨专题的数据提取并按主题进行整合汇聚,形成公共主题库,形成对专题的公共支撑。公共主题库数据来源不限于政府部门数据,包括事业单位、企业提供数据和互联网采集数据等。本项目建设的公共主题库包括经济活动、公用事业、社会关系、人员密度等。经济活动:建设经济活动公共主题库,实现构建与维护,并实现数据更新功能和主题聚合功能公用事业:建设公用事业公共主题库,实现构建与维护,并实现数据更新功能和主题聚合功能社会关系:建设社会关系公共主题库,实现构建与维护,并实现数据更新功能和主题聚合功能人员密度:建设人员密度公共主题库,实现构建与维护,并实现数据更新功能和主题聚合功能支持公共专题库经济运行监测专题库:建设宏观经济专题专题库,实现专题库的规划、建库与维护,并提供数据更新功能宏观经济预测专题库:建设宏观经济预测专题库,实现专题库的规划、建库与维护,并提供数据更新功能宏观景气指数预测专题库:建设宏观景气指数预测专题库,实现专题库的规划、建库与维护,并提供数据更新功能市场主体发展专题库:建设市场主体发展专题库,实现专题库的规划、建库与维护,并提供数据更新功能人口和就业专题库:建设人口和就业专题库,实现专题库的规划、建库与维护,并提供数据更新功能主体准入分析专题库:建设主体准入分析专题库,实现专题库的规划、建库与维护,并提供数据更新功能产业结构调整专题库:建设产业结构调整专题库,实现专题库的规划、建库与维护,并提供数据更新功能主体经营分析专题库:建设主体经营分析专题库,实现专题库的规划、建库与维护,并提供数据更新功能大众创业分析专题库:建设大众创业分析专题库,实现专题库的规划、建库与维护,并提供数据更新功能中小企业发展专题库:建设中小企业发展专题库,实现专题库的规划、建库与维护,并提供数据更新功能电子商务发展专题库:建设电子商务发展专题库,实现专题库的规划、建库与维护,并提供数据更新功能区域市场发展专题库:建设区域市场发展专题库,实现专题库的规划、建库与维护,并提供数据更新功能人口迁移专题库:建设人口迁移专题库,实现专题库的规划、建库与维护,并提供数据更新功能老龄化及养老专题库:建设老龄化及养老专题库,实现专题库的规划、建库与维护,并提供数据更新功能流动人口专题库:建设流动人口专题库,实现专题库的规划、建库与维护,并提供数据更新功能公共安全专题库:建设公共安全专题库,实现专题库的规划、建库与维护,并提供数据更新功能政务服务能力专题库:建设政务服务能力专题库,实现专题库的规划、建库与维护,并提供数据更新功能城市综合体专题-城市立方体模型专题库:建设城市立方体模型专题库,实现专题库的规划、建库与维护,并提供数据更新功能城市综合体专题-社区画像专题库:建设社区画像专题库,实现专题库的规划、建库与维护,并提供数据更新功能数据管理子系统建立数据管理子系统:主要实现数据架构管理、数据关系管理、数据分级分类管理、数据异常管理、数据分析管理、数据流程管理、流数据处理、知识图谱、数据分层管理、数据运维管理、数据资产管理功能。数据架构管理数据中心管理:对市级数据库进行物理中心或逻辑中心的管理功能开发数据源管理:开发维护一个数据集存储服务所需数据库的链接和定位的功能数据集管理:开发实现对数据交换业务及各部门发布数据集的下载、查阅、可视化展示及统计定制等的功能数据物化管理:开发数据物化是在数据资源目录的数据持久化管理的功能数据关系管理数据关联管理:开发针对两个或多个数据对象进行关系的定义与维护,关联关系可到字段级,并支持建立一对多和多对多的关系映射的功能数据版本管理:开发针对单个数据对象在不同时期变更的结构进行定义与维护,可支持多版本比对和历史数据追溯等功能数据分级分类管理基础标签管理:开发以列表形式和智能推荐形式将平台中设置的基础标签进行呈现列表形式是将所有的基础标签一一列出,并可以按照热度进行排序智能推荐形式是指根据最近时间段内的标签的访问频率、搜索频率等,以轮播的形式循环展现热门标签的功能标签关系展现:开发通过标签将相关联的数据目录关联在动图中展现给用户,形成丰富数据盛筵的展示效果,做到通过一张图就可以将某一条数据的关联数据、以及数据之间的关系全部展示出来的功能标签云:开发通过标签访问次数统计出热门标签,让平台运维人员了解哪些标签是访问频率高的、是符合用户访问习惯的,并结合用户的搜索记录,优化标签设置,使之更通用和人性化的功能数据异常管理异常对接管理:开发可以对接数据交换总线、数据集成总线、数据服务总线系统中异常日志模块的功能。异常问题列表:开发展示异常问题信息,按等级进行分类或主动推送,同时对异常问题进行归类整理,并定义规则进行选择性忽略或提醒的功能。人工处理管理:开发人工处理管理是记录针对异常信息,人工处理所登记的台账信息,可按照异常分类进行分类授权,实现指定问题的指定人员处理的功能。系统处理管理:开发统处理管理是针对异常信息集成的各子平台系统处理结果的收集,该类信息往往不需要人工干预的功能。异常处理统计分析:开发按照异常分类、处理情况、时间、等级等维度进行分类统计,以图表的形式展现便于管理人员汇总分析的功能。数据分析管理分析算法管理:开发集成并提供统计、分类、聚类、序列等分析工具集,提供调用接口的功能预制模型管理:开发模型预制及自定义管理功能提供可选择的预制模型,可基于业务问题,来决定可以选择哪些可用的已有模型的功能数据变换管理:开发提供将数据变换或统一成适合于数据分析挖掘的形式的功能模型评估管理:开发模型质量的评估功能支持的评价指标有:平均误差率、判定系数R2、正确率、查全率、查准率模型训练与优化管理:开发模型训练及优化功能,对评估中的欠拟合或者过拟合的模型进行优化的功能分析可视化组件:开发对基础的各类可视化组件进行封装,支撑应用层模型展现的功能数据流程管理工作流分类:开发系统支持自定义工作流的分类和维护的功能可视化流程工具:开发可对数据管理相关业务流程进行可视化编排的功能流程维护:开发工作流维护管理便捷,可以对工作流设置进行重新定义,工作流的修改或删除不影响原来已完成和正在流转的工作流的功能流程监控:开发可以按照查询条件监控流程的流转情况,包括审批的状态和结果的功能流程发布:开发流程需要发布后才能使用,发布前的修改对用户不产生影响的功能流程导入导出:开发流程可采用xml文件进行导入导出备份,提供流程嵌套功能,支持多个、多级子流程嵌套的功能流数据处理实时采集:主要应对海量数据进行高性能的实时数据采集处理,以实时、高效、低延迟为核心驱动点,具备毫秒级数据触发能力,实现秒级单位时间窗口的数据统计分析能力。需要支持的数据源类型可以分为以下四类:网络协议数据源,包括Socket、JMS、HTTP、HTTPS等常见类型的网络协议。本/异地文件数据源,包括目录扫描、文本文件,FTP,SDTP等数据。分布式文件系统数据源,包括HDFS,HBase,Hive等数据。关系型数据库数据源,包括DB2,Teradata,vertica等数据。支持物联网网关采集:将物联网数据从物联网网关接入,提供协议适配和标准化处理,以及满足海量物联网数据的入湖。来自多种数据源的实时信息,因为其时效性高,数据的有效期短暂,需要实时提取和分析来自各种分布式系统的信息,并分发到不同的应用中进行处理。同时,系统必须高效、可靠、可管理、可监控并且具有一定的对外开放能力。流数据引擎:开发提供数据融合,统计,分析的高速处理能力,对于实时性要求较高的数据计算提供支撑的功能流数据计算模型管理:开发提供对已设计完成的数据计算模型进行申请,注册,提交,执行,监控的统一管理的功能流数据计算公共模型开发:开发提供对于场景需求较多的数据模型可开发公共模型的功能,公共模型可以供其他用户调用,可重复使用的功能流数据计算结果接口开发:开发提供对流数据计算结果接口开发功能和计算结果数据可通过接口形式供可视化调用或其他应用的功能流数据计算模型查询:开发提供流数据计算模型查询功能,通过对流数据计算模型发布可以是其他用户查看计算模型逻辑,进行模型再利用,减少其他用户开发工作量的功能。支持流媒体采集及转发管理:针对音频、视频等流媒体提供数据采集功能,同时配套流媒体数据存储和快速检索功能,同时需要采集对应流媒体设备的系统参数、通道参数、网络参数、外设设备参数、以及外设设备的地理位置等。知识图谱知识图谱用节点和关系所组成的图谱,为真实世界各个场景进行直观地建模,通过不同知识的关联性形成一个网状的知识结构,即机器所能理解的图谱,后续通过机器学习技术对知识图谱结果持续优化。“知识图谱图计算服务=图存储+图计算引擎”,具有复杂关系的知识图谱以图数据库的方式进行存储和运算,大大提高了基于复杂关系进行分析和推理的效率。图数据库更适合多对多关系、高价值的关系、基于关系的大规模和低延时数据的、方便关系扩展类的应用。同时需要提供图数据库二次开发:开发提供二级索引,全文检索、模糊检索等能力,开源标准图交互式查询语言接口,支持点对点关系信息的功能。数据分层管理数据层级模型设计:开发数据层次设计功能模块,提供数据层次设计管理功能。数据层级模型算法开发:数据层次模型算法功能模块的开发,提供数据层次模型算法管理功能。数据层级库表建立:数据各层级数据库库表创建功能开发。数据层级管理功能开发:对接管理功能开发,支持对接各子系统,实现数据分层管理功能。数据层级元数据管理开发:开发元数据管理功能,提供元数据定义、采集、管理等功能。数据层级分析算法功能开发:数据分层分析算法管理的功能开发。数据运维管理监控运维:监控运维为数据开发者和维护者提供一站式的数据运维管控能力,可自主管理作业的部署、作业优先级、以及生产监控运维平台提供数据监控运维、任务运行情况监控、异常情况告警、日常运维数据统计等功能。运维概览:运维概览主要用来展示调度任务的指标数据情况,目前包括任务完成情况、任务运行情况、任务执行时长排行、调度任务数量趋势、近一月出错排行、任务类型分布、30天基线破线次数排行。运维任务:可视化展示调度任务DAG图,方便数据运维管理。1)提供任务运行状态监控告警2)提供单任务重跑、多任务重跑、kill、置成功、暂停等操作3)提供列表和DAG两种模式4)实现针对周期运行、测试运行、手动运行任务查看任务运行状态5)实现针对任务进行重跑、停止、查看运行日志、查看节点代码、查看节点属性。监控告警:监控告警是调度任务的监控保障系统,当任务出现错误时,系统会通过预定义的方式告知任务失败,提供按照自定义规则来配置告警规则,及时调整任务产出,保障产出数据的及时性和可用性。实时分析:实时分析主要面向数据分析师开放的功能,依托于实时分析引擎,提供方便快捷的数据查询和结果分析。统一流程管理:面向不同用户提供不同监控视角的统一数据地图功能开发。数据运维定制化开发:按照大数据资源平台的整体功能要求,提供数据运维可扩展的定制化功能。平台运维定制化开发:按照大数据资源平台的整体功能要求,提供平台运维可扩展的定制化功能。数据资产管理数据资产:资产管理主要是针对数据资产类目编制的过程梳理、明确职责等内容,同时也可以对数据表的元数据信息进行有效管理资产总览:资产总览从数据规模、类目分布、热门访问等多个角度,对数据资源平台上的数据资产状况进行全景式展现。资产目录:资产目录是对平台元数据的有序组织,是记录数据体系的保障数据类目是目录信息与服务、保障与支撑所组成的一个整体针对资产的合理组织,需要对资产进行对应分类,如部门类目、主题类目、行业类目等,可对该类目下资产数据进行搜索、展现以及权限申请。资产报告:针对整体平台上的对应数据,提供定周期了解其对应资产情况,对总体资产情况进行分析。资产地图:数据地图面向数据开发者,汇聚用户所有数据信息,通过元数据信息收集、数据血缘探查、数据权限申请授权等手段,帮助数据资源平台完成数据信息的收集和管理,解决数据资源平台数据开发者有哪些数据可用、到哪里可以找到数据的难题,并且提升数据资源的利用率。数据治理子系统扩展数据治理子系统:通过国家资源管理子系统实现资源申请、撤销、审核、查询、配置、目录管理、业务流程对接、监控模块对接等功能。国家资源申请模块:开发资源申请功能,供资源需求方进行资源申请管理资源撤销模块:开发资源撤销功能,供资源提供方进行资源撤销管理资源审核模块:开发资源审核功能,供主管部门进行资源申请的审核管理查询模块:查询已上线的所有资源及已发布的资源管理功能开发消息管理模块:查看申请审核消息、待办消息、预警消息的消息管理功能开发配置管理模块:配置管理功能开发,提供配置库表、文件资源申请审核、服务接口申请审核等功能应用及事项管理模块:应用及事项管理功能开发,提供服务事项管理、政务事项管理等功能使用单位对接模块:将本区数据共享交换平台使用单位信息注册到市数据共享交换平台的功能开发目录对接模块:目录对接功能开发,提供下发目录接口秘钥、更新授权秘钥、目录分类获取、目录分类注册、目录分类变更、目录分类撤销管理等功能资源对接模块:资源对接功能开发,提供库表资源对接发布、库表资源对接订阅、库表资源对接变更、库表资源对接撤销管理等功能业务流程对接模块:业务流程对接功能开发,提供市数据共享交换平台对接管理功能通知管理模块:通知管理功能开发,提供通知下发管理等功能对接监控模块:监控目录及资源对接运行情况的功能开发大数据综合应用根据宏观经济、市场运行、民生幸福、城市立方体等专题应用的建设的要求,构建大数据综合应用示范辅助领导决策。建立事件服务功能,主要实现事件规则定义、事件管理功能。规则定义:事件规则定义提供简单事件的定义、复杂事件的组合规则定义,通过过滤、聚合和关联识别事件。事件采集:时间采集提供事件采集的适配接口和信息转换,支持实时接收各系统的事件信息,完成信息的标准化处理。事件处理:事件处理提供多事件并发处理的进程管理,对事件数据流进行大任务高并发的处理。事件管理:开发事件管理功能,实现复杂事件的事件列表查看、事件处理等功能。事件分发:事件分发是将事件下发给事件的订阅者,用于事件驱动型的业务触发。在数据服务和事件服务的双重支撑下,构建应用管理中心支撑数据应用,为各部门提供优质的数据服务。宏观经济专题经济运行监测:开发包括GDP运行态势、工业增加值趋势、投资及消费趋势、对外贸易进出口运行态势、价格水平运行态势、金融运行态势的经济运行监测专题分析展示功能宏观经济预测:开发包括GDP增速预测、工业增加值增速预测、M2增速预测,CPI预测的宏观经济预测专题分析展示功能宏观景气指数预测:开发包括宏观预警指数、宏观一致指数、宏观先行指数、宏观滞后指数的宏观景气指数预测专题分析展示功能市场主体发展:开发包括市场主体数量分析、区域活力分析、行业活力分析的市场主体发展专题分析展示功能人口和就业:开发包括全市及各区人口情况、就业情况、人力资源情况的人口和就业专题分析展示功能市场运行专题主体准入分析:开发包括主体市场准入分析、主体市场退出分析、主体变迁分析的主体准入专题分析展示功能产业结构调整:开发包括产业结构分布、产业结构调整分析的产业结构调整专题分析展示功能主体经营分析:开发包括主体营收分析、主体纳税分析、就业规模分析的主体经营专题分析展示功能大众创业分析:开发包括创业密度、创业热点行业分布、创业类型、创业年龄分布、创业者学历分布、创业生存周期、创业发展、创业与就业的大众创业专题分析展示功能中小企业发展:开发包括对中小企业主体数量、分布区域、分布行业、生命周期情况分析的中小企业发展专题分析展示功能电子商务发展:开发包括电子商务平台、电子商务经营者、电子商务交易、电子商务维权的电子商务发展专题分析展示功能区域市场发展:开发包括产业数量分析、市场主体排名的区域市场发展专题分析展示功能民生幸福专题人口大数据首页:开发包括区域人口密度分布、人口增长趋势、老龄化趋势、不同年龄阶段的性别比、流动人口民族构成的人口大数据首页分析展示功能人口迁移:开发包括外省市迁入本市的人口分布情况、职业特征、年龄特征、学历特征、迁移趋势特征的人口迁移专题分析展示功能老龄化及养老:开发包括老龄化发展趋势、老年配套设施分布及完善情况、老年人疾病、养老方式、老年消费、老年需求的老龄化及养老专题分析展示功能流动人口:开发包括流动人口的聚集地分布、流动人口来源地、流动人口转化为常驻人口的比例趋势、流动人口的民族构成、子女入学率、犯罪率、犯罪类型的流动人口专题分析展示功能公共安全:开发包括刑事犯罪、交通违章的公共安全专题分析展示功能食品安全:开发包括食品生产、食品流通、餐饮服务、食品检测、食品维权、食品事故的食品安全专题分析展示功能政务服务能力:开发包括事项分类、办件数量、办件来源、跑腿次数、办理时限、办结率、行政相对人、各区热点事项的政务服务能力专题分析展示功能城市综合体专题城市立方体模型:开发包括360度分析展示、区域挖掘分析的城市立方体模型专题分析展示功能;社区画像:开发包括公共能服务能力排名、老龄化排名、学龄儿童排名、人口结构、年龄结构、收入分布、民族结构、学历分布的社区画像专题分析展示功能数据开放子系统建设数据开放子系统(一期):通过数据应用方管理、开放清单管理、数据开放管理、开放授权管理等构建全面的数据开放子系统,为数据应用方、数据管理方、外部第三方等提供数据注册、身份认证、订阅分发、开放数据追溯等功能。实现可配置的数据开放管理,支持配置后流通任务自动分发部署,在供应端与需求端节点实现标准化的数据接口,数据流通过程可支持标准化业务流程管理,实现自动化、可机读的数据流通,其中:数据开放需支持单条实时流通、异步批量流通两种模式,流通性能不低于10,000QPS。数据应用方管理身份注册:开发身份注册功能,提供自然人、法人身份注册;身份验证:开发身份验证功能,区分使用者身份实现个性化服务,包括通过App或人脸识别进行身份验证以及法人用户通过法人一证通进行身份验证。开放清单管理公共数据资源ACL:开发公共数据资源ACL功能,提供公共信息资源目录的查看,基于目录实现数据访问控制;公共数据资源可根据公共信息资源目录及供应情况,使数据使用者获知公共数据提供的范围、方式、更新频率等信息,并整体控制某项数据资源是否开放;公共数据服务接口注册:开发公共数据服务接口注册功能,实现公共数据服务发布;使得数据使用者获知公共数据服务接口与应用的获取方式、接口形式等信息,控制接口的可用性。数据应用注册:开发数据应用注册功能,实现公共数据应用发布;可管理数据资源目录与清单、公共数据服务接口与数据应用的注册,以及第三方数据服务的注册。第三方数据服务支持方服务接口注册:开发第三方数据服务支持方服务接口注册功能,实现第三方数据服务支持方服务接口发布;公共数据服务接口与应用注册需维护公共数据服务接口清单,第三方数据服务支持方以接口形式提供应用数据,便于数据使用者整合使用。提供接口获取方式等信息,控制接口可用性。数据开放管理可通过该管理模块对数据开放进行全过程的管理,不仅需要包括目录查看、数据信息项查看、数据应用查看、接口信息查看在内的一般性访问,还需包括建立与划分数据主题,开放数据资源的收藏、订阅与分发管理。除此之外,还需建立消息定义事件,由事件驱动事物执行的功能。数据主题建立:开发数据主题建立功能,建立并管理数据主题数据主题划分:开发数据主题划分功能,建立数据资源与主题的关联消息事件管理:开发消息事件管理功能,按照消息定义建立事件,由事件驱动事务的执行一般性访问:开发一般性访问功能,包括目录查看、数据信息查看、应用信息查看、接口信息查看等功能收藏:开发收藏功能,注册的访问者收藏特定的数据集、接口、应用订阅:开发订阅功能,注册的访问者可收藏对频繁更新的同类数据资源订阅分发:开发订阅分发功能,当数据资源更新时,系统根据事件向相关订阅者推送平台集成门户扩展平台集成门户:基于统一鉴权中心的基础上实现多租户管理,并根据租户角色提供开发者门户(内部)、运营门户以及开放门户。并在门户功能框架下实现消息推送、数据推送、个人信息管理、系统管理等功能。多租户功能平台集成门户实现多租户管理功能。多租户能力:开发多租户管理功能,实现按照用户所属职责可分为超级管理员,租户管理员,普通租户。可以根据需要创建包括系统管理员、运营人员、开发管理员、开发者等角色。租户管理:开发租户管理功能,实现以多租户的思路,将数据能力和数据平台数据处理能力按需、可控的进行开放。租户内用户管理:开发租户内用户管理功能,实现租户与系统用户映射,以租户的方式实现用户及用户组管理,以达到资源管控及数据权限控制的目的。租户自注册:开发租户自注册功能,通过租户注册流程实现租户注册。租户注销:开发租户注销功能,实现租户管理员可以提交租户注销申请来释放租户的资源。运营中心建立运营中心,主要通过从大数据价值、评估、调用、用户等多个维度构建运营中心功能,提升平台运营能力。开发运维视图功能,通过大屏、PC、移动端三屏合一建立可视化运维监控界面,实现数据的统一运维。数据地图:开发数据地图,实现对数据资产的可视化运营监控。数据产品使用分析:开发数据产品使用分析功能,实现对数据产品使用情况统计分析,挖掘数据产品价值。数据价值评估:开发数据价值评估功能,可以从数据的内在价值、市场价值等角度进行数据价值评估。模型调用次数统计分析:开发模型调用次数统计分析功能,查看各数据模型调用情况,分析模型价值。平台服务调用统计:开发服务调用统计功能,了解平台对内、对外服务被调用情况。用户使用统计:开发用户使用统计功能,掌握各委办、区政府、外部机构等受众使用情况。开发中心建立开发中心门户,主要为开发者提供统一开发者入口,通过开发者权限管理,实现让开发者基于开发工具进行程序开发。开发者权限管理:实现开发者权限管理功能,主要包括开发者登入鉴权、查看权限和权限描述的修改等。消息推送待办事项:开发待办事项功能,系统推送按人划分的待办事项,由使用者进行查看通知公告:开发通知公告功能,系统推送通知公告信息,由使用者查看信息推荐:开发信息推荐功能,系统推送推荐信息,由使用者查看订阅更新:开发订阅更新功能,使用者访问功能查看订阅更新数据推送首页数据:开发首页数据功能,根据使用者身份进行定制展示个人信息管理我的收藏:开发我的收藏功能,由使用者对收藏的各类信息和数据资源进行查看、删除我的订阅:开发我的订阅功能,由使用者对订阅内容进行管理并查看更新系统管理入口集成及通知发布:开发通知发布功能,由管理员指定发布范围提供发布信息进行发布。数据开放门户建立数据开放门户:主要实现数据目录、数据接口、数据应用、数据图谱、地图数据、互动交流、数据开发者、辅助事项、个人管理等各项门户目录的建设。用户首页:建设开放门户首页,首页能够包含数据目录、数据接口、数据应用、数据图谱、地图数据、互动交流、数据开发者这些模块的链接功能。首页具备用户登录功能,登录后可进入个人管理,能够为用户提供账户个性化的服务。数据目录:用户能够通过数据目录模块,获取开放数据的数据目录,能够查看组成目录的数据项描述,以及获取目录对应的数据集;数据接口:用户能够以数据接口模式查询指定数据目录下以API数据接口形式开放的数据资源内容数据应用:用户能够在数据应用栏目中查看利用开放数据资源形成的各种数据应用,并可查看对应数据应用所使用到的开放数据资源内容;数据图谱:能以图谱形式呈现开放数据业务所需的统计分析结果。业务统计逻辑包括但不限于以下几个方面:数据资源统计、开放类型统计、数据类型统计、访问分布统计、访问省份排名、数据资源访问情况、数据领域统计、用户需求来源;地图数据:能够显示集成地理信息的开放数据,并能显示GIS地图中所需的POI信息;互动交流:互动交流是用户之间、用户与运营人员之间的线上交流社区,包括:信息发布(最新消息、制度保障信息、用户帮助信息)、 需求调研、问卷调查功能;数据开发者:数据开发者,是为具备具备数据开发能力用户提供交流的线上交流平台。能够具备发帖、搜索、聊天交流、信息共享、提问反馈等分类的线上社区论坛功能;辅助事项:为开放门户提供“关于我们”、“使用条款”、“友情链接”等门户网站必须的服务信息说明与展示;个人管理:使用账户登录门户之后可以进入的个人门户模块,可以提供登录后收藏、订阅、需求反馈等与账号登录之后相关的信息;服务类业务技术方案服务类业务主要包括数据采集对接服务、数据抽取运维、作业调度运维、数据资源治理服务、数据质量管理服务、数据融合处理服务、数据分析应用服务、数据标注服务、应用建模服务、数据接口开发服务、数据开放支撑服务、数据运行监管服务。数据采集对接服务我司将从政务服务业务梳理着手,开展公共数据梳理,形成公共数据“三清单”,并建立公共数据“三清单”的长效动态更新机制,依据“三清单”进行公共数据归集,夯实数据治理基础。抽取数据业务理解、数据理解、目录编制及数据协议适配、资源挂载、清洗等。数据采集服务数据采集理解数据采集(DAQ),又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析,处理。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。根据数据来源进行分类,数据采集分为大三类:系统文件日志的采集、网络大数据采集、应用程序接入。1、系统文件日志的采集:在现有的海量数据采集工具中,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。Scribe:作为Facebook开源的日志收集系统,可以从各种日志源上收集日志,存储到一个中央存储系统上,以便于进行集中的统计分析处理。Scribe为日志的“分布式收集,统一处理”提供了一个可扩展的、高容错的方案。Chukwa:提供了一个对大数据量日志类数据采集、存储、分析和展示的全套解决方案和框架,可以用于监控大规模Hadoop集群的整体运行情况并对它们的日志进行分析。2、网络大数据采集网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。在互联网时代,网络爬虫主要是为搜索引擎提供最全面和最新的数据。目前已经知道的各种网络爬虫工具已经有上百个,网络爬虫工具基本可以分为3类。分布式网络爬虫工具,如Nutch。Java网络爬虫工具,如Crawler4j、WebMagic、WebCollector。非Java网络爬虫工具,如Scrapy(基于Python语言开发)。3、数据库采集系统

通过数据库采集系统直接与企业业务后台服务器结合,将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中,最后由特定的处理分许系统进行系统分析。目前常用关系型数据库MySQL和Oracle等来存储数据,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。Hadoop的数据采集框架Hadoop提供了一个高度容错的分布式存储系统,实现集中式的数据分析和数据共享。在日常应用中要将各种数据采集到HDFS存储服务中去,将数据采集到HDFS常用的框架包括:ApacheSqoopApacheFlumeGobblinDataXKettle针对特定数据源的采集工具:针对Cassandra数据源的Aegisthus,针对mongodb的mongo-hadoop。各个项目的特点及适用场景:ApacheSqoopSqoop:SQL-to-Hadoop,用于在关系型数据库(RDBMS)和HDFS之间互相传输数据。Sqoop启用了一个MapReduce任务来执行数据采集任务,传输大量结构化或半结构化数据的过程是完全自动化的。其主要通过JDBC和关系数据库进行交互,理论上支持JDBC的Database都可以使用Sqoop和HDFS进行数据交互。Sqoop目前分为两个版本Sqoop1和Sqoop2。这是两个完全不同的版本,完全不兼容。Sqoop1了解的朋友都知道它就是一个命令行脚本,而Sqoop2相比Sqoop1引入了sqoopserver,集中化的管理Connector,引入基于角色的安全机制,而且支持多种访问方式:cli客户端,Webui和RestAPI。Sqoop不支持文件解析入库,适用于关系型数据库与HDFS/Hive/HBase之间互相传输数据。它支持多种关系型数据库如mysql、oracle、postgresql。可以高效可控的进行数据导入导出。GithubStar462,Fork362ApacheFlumeApacheFlume是一个分布式、可靠、高可用的日志收集系统,支持各种各样的数据来源,如http,log文件,监听端口数据等等,将这些数据源的海量日志数据进行高效收集、聚合、移动,最后存储到指定存储系统中(可扩展),如kafka、HDFS分布式文件系统、Solr,HBase等。Flume基于流式数据,适用于日志和事件类型的数据收集,重构后的Flume-NG版本中一个agent(数据传输流程)中的source(源)和sink(目标)之间通过channel进行链接,同一个源可以配置多个channel。多个agent还可以进行链接组合共同完成数据收集任务,使用起来非常灵活。GithubStar1418,Fork1092GobblinGobblin是用来整合各种数据源的通用型ETL框架,在某种意义上,各种数据都可以在这里“一站式”的解决ETL整个过程,专为大数据采集而生。作为一个通用框架,Gobblin的接口封装和概念抽象做的很好,作为一个ETL框架使用者,我们只需要实现我们自己的Source,Extractor,Conventer类,再加上一些数据源和目的地址之类的配置文件提交给Gobblin就行了。Gobblin相对于其他解决方案具有普遍性、高度可扩展性、可操作性。GithubStar1381,Fork540DataXDataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。被阿里开源之后的DataX社区并不活跃,但是好在程序的架构设计的好,大部分用户都会选择fork之后基于其进行二次开发。DataX本身由阿里开发对于阿里自身的数据库比如ODPS、ADS等支持更好。GithubStar1128,Fork478KettleKettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中文名称叫水壶,寓意就是希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle是CS架构,拥有自己的管理控制台,同样也可以通过Java代码与我们的工程进行集成,在程序中完成kettle的转换、执行等操作。GithubStar1956,Fork1476数据采集目录FHS针对目录树架构仅定义出三层目录,三层目录底下这三个目录的定义:(1)/(root,根目录):与开机系统有关;(2)/usr(unixsoftwareresource):与软件安装/执行有关;(3)/var(variable):与系统运作过程有关。第一层次:/:根目录根目录,用“/”来表示,启动Linux,把所有核心的启动文件(包括Linux核心本身)都放到一个“/boot"目录下。当系统启动后,需要执行一些基本命令在操作系统,这些命令都会放到“/bin"目录下。然后这些命令可能会用到一些库,这些库就被放到“/lib"下面,而这些库可能会用到一些设备驱动文件,那么这些驱动文件就会放到“/dev"目录下。因此FHS定义出根目录(/)底下的目录如下表:/boot:存放开机启动加载程序的核心文件;(如kernel和grup)/bin:存放所有用户都可以使用的linux基本操作命令;/sbin:系统管理相关的二进制文件存放在这个目录下,一些可执行文件普通用户只具备较小的权限;(多数管理命令默认只有管理员可以使用)/lib:系统的函数库非常的多,而/lib放置的则是在开机时会用到的函数库,以及在/bin或/sbin底下的指令会呼叫的函数库而已。/dev:设备文件目录,虚拟文件系统,主要存放所有系统中device的相关信息,不论是使用的或未使用的设备,只要有可能使用到,就会在/dev中建立一个相对应的设备文件;/media:移动存储设备默认挂载点;(如光盘)/mnt:临时挂载用的设备挂载点;(如磁盘分区,网络共享)/opt:额外所安装的应用程序目录,有些软件包我们可以将它安装在该目录中;(一般为空,某些应用软件安装需要这个目录);这里主要存放那些可选的程序。你想尝试最新的firefox测试版吗?那就装到/opt目录下吧,这样,当你尝试完,想删掉firefox的时候,你就可以直接删除它,而不影响系统其他任何设置。安装到/opt目录下的程序,它所有的数据、库文件等等都是放在同个目录下面。/etc:主机、系统或网络配置文件存放目录;/srv:主要用来存储本机或本服务器提供的服务或数据。(用户主动生产的数据、对外提供服务)/tmp:保存在使用完毕后可随时销毁的缓存文件。/root:管理员root的宿主目录/home:默认存放用户的宿主目录(除了root用户)。/proc:Linux系统上的/proc目录是一种文件系统,即proc文件系统。与其它常见的文件系统不同的是,/proc是一种伪文件系统(也即虚拟文件系统),存储的是当前内核运行状态的一系列特殊文件,用户可以通过这些文件查看有关系统硬件及当前正在运行进程的信息,甚至可以通过更改其中某些文件来改变内核的运行状态。/sys:虚拟文件系统,被建立在内存中,是在2.6版的kernel之后才被加入到正式的文件系统中,以分类的方式将系统的信息存放在这个目录中,以方便linux用户通过不同的分类找出系统相关的信息;/lost+found:当系统在运行时,有时会无法避免宕机、断电或不正常重启动,在这样的情况下,当系统重新启动时,发现某些文件写入未完成或其他问题产生,一般会使用fsck进行文件修复,而这些被修复或救回的文件,就会被放在这个目录下,只要是一个文件系统,系统就会自动在该文件系统所在的目录下建立"lost+found"目录第二层次:/usr当系统启动以后,需要其他一些用于具体工作的程序时,就会加载一个“/usr"目录,上面放重要的运行程序。usr为universalsoftwareresource通用软件资源的缩写。这个“/usr"有点类似Windows里面的ProgramFiles。当软件安装好以后,需要用命令行去调用,则需要一个/usr/bin(软件的基本命令),调用命令需要用到头文件和库函数,则需要有/usr/include(头文件存放处),/usr/lib(库函数存放处)。而软件的源码则存放在/usr/src中。要点:1、/usr上面一般都是只读文件,数据文件和配置文件不放在上面;2、没有“/usr",linux系统也能正常运行;3、/usr可以被多台电脑共享(这里体现Linux系统的网络性)。目录1、/usr/bin:一般用户有机会使用到的程序,或者该软件默认就是要让所有用户使用才会放在该目录中;2、/usr/sbin:一些系统有可能会用到的系统命令,与/sbin比起来,都是一些较次要的文件;3、/usr/etc:自行安装或非系统主要的配置文件目录;/usr/games:只要是电脑游戏相关的软件,就都安装到这个目录;4、/usr/include:存放的文件都是一些系统中用户所会使用到的C语言header文件,保存的都是".h"的文件;5、/usr/lib:存放一些函数库、执行文件及连接文件,特别的是,存放在这里面的文件都是不希望直接被用户或shell脚本所使用的文件,在/usr/lib中有非常多的子目录,每一个软件都有其各自所需的函数库;6、/usr/local:这里主要存放那些手动安装的软件,即不是通过“新立得”或apt-get安装的软件;7、/usr/share:此目录都是一些共享信息,最常被用到的就是/usr/share/man这个目录,/usr/share里的信息时跨平台的;8、/usr/src:主要储存内核源代码的文件;9、/usr/X11R6:存放一些Xwindows系统的相关文件;第三层次:/var由于/usr只放只读文件,那么配置文件和数据文件放哪里呢?就是/etc和/var。在历史上“var"是“variable",中文意为“变动”。/var目录主要针对常态性变动的文件,包括缓存(cache)、登录档(logfile)以及某些软件运作所产生的文件,例如/var/mysql就是用来存放mysql的log,这样就进入了第三层次/var。关于该层次的东西我涉及的较好,没有理出头绪来,只能等到以后对这方面更加了解是再补上了。数据协议适配数据在不同的协议中的叫法不同,数据在传输层叫数据段,网络层叫数据报,数据链路层叫数据帧。将公共数据可以在不同的协议中均可以适配。数据资源挂载1、挂载概念在windows操作系统中,挂载通常是指给磁盘分区(包括被虚拟出来的磁盘分区)分配一个盘符。这个操作可以通过“计算机管理”中的“磁盘管理”来进行。第三方软件,如磁盘分区管理软件、虚拟磁盘软件等,通常也附带挂载功能。在linux操作系统中,挂载是一个非常重要的功能,使用非常频繁。它指将一个设备(通常是存储设备)挂接到一个已存在的目录上。(这个目录可以不为空,但挂载后这个目录下以前的内容将不可用。)需要理解的是,linux操作系统将所有的设备都看作文件,它将整个计算机的资源都整合成一个大的文件目录。我们要访问存储设备中的文件,必须将文件所在的分区挂载到一个已存在的目录上,然后通过访问这个目录来访问存储设备。2、挂载条件(1)挂载点必须是一个目录。(2)一个分区挂载在一个已存在的目录上,这个目录可以不为空,但挂载后这个目录下以前的内容将不可用。对于其他操作系统建立的文件系统的挂载也是这样。3、系统格式需要理解的是:光盘、软盘、其他操作系统使用的文件系统的格式与linux使用的文件系统格式是不一样的。光盘是ISO9660;软盘是fat16或ext2;windowsNT是fat16、NTFS;windows98是fat16、fat32;windows2000和windowsXP是fat16、fat32、NTFS。挂载前要了解linux是否支持所要挂载的文件系统格式。4、挂载命令挂载时使用mount命令:格式:mount[-参数][设备名称][挂载点]其中常用的参数有:-t<文件系统类型>指定设备的文件系统类型,常见的有:minixlinux最早使用的文件系统ext2linux常用的文件系统msdos

MS-DOS的fat,就是fat16vfatwindows98常用的fat32nfs

网络文件系统iso9660

CD-ROM光盘标准文件系统ntfswindowsNT2000的文件系统hpfsOS/2文件系统auto自动检测文件系统-o<选项>指定挂载文件系统时的选项。有些也可用在/etc/fstab中。常用的有codepage=XXX

代码页

iocharset=XXX

字符集

ro以只读方式挂载rw以读写方式挂载nouser使一般用户无法挂载user可以让一般用户挂载设备数据清洗和处理数据原始数据来自于各个业务系统,通常存在指标口径不一致、重复、不完整(感兴趣的属性没有值)、存在错误或异常(偏离期望值)的数据。综上问题可以通过以下四点进行解决:数据清洗:去掉噪声和无关数据数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中数据变换:把原始数据转换成为适合数据挖掘的形式数据归约:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等数据对接服务1、软件接口对接方式各个软件厂商提供数据接口,实现数据汇集,为客户构建出自己的业务大数据平台;实现过程如下:(1)协调多方软件厂商工程师,了解对方系统的业务流程以及数据库相关的表结构设计等,讨论如何实现数据的正确汇集并且在业务上可行。推敲各个细节,最后确定一个双方都认可的方案。两个系统的接口是在双方工程师的配合下完成的。有的处理可以在A系统进行,也可以在B系统进行,这种情况作决定的依据是,考虑以后可能会出现功能改动,势必会对现有系统造成影响,选择受变动影响比较小的方案。(2)确定方案,编码(3)编码结束,进入测试、调试阶段(4)交付使用接口对接方式的数据可靠性较高,一般不存在数据重复的情况,且都是客户业务大数据平台需要的有价值的数据;同时数据是通过接口实时传递过来,完全满足了大数据平台对于实时性的要求。但是接口对接方式需花费大量人力和时间协调各个软件厂商做数据接口对接;同时其扩展性不高,比如:由于业务需要各软件系统开发出新的业务模块,其和大数据平台之间的数据接口也需要做相应的修改和变动,甚至要推翻以前的所有数据接口编码,工作量很大且耗时长。数据抽取运维服务我司日常数据抽取任务维护,保障各信息系统数据及时准确地汇聚,对于问题抽取任务的进行处置调整ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。数据的抽取是从各个不同的数据源抽取到ODS(OperationalDataStore,操作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。数据抽取这一部分需要在调研阶段做大量的工作,首先需求清除数据是从几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS,是否存在手工数据,手工数据量有多大,是否存在非结构化的数据等等,当收集完这些信息之后才可以进行数据抽取的设计。1、对于与存放DW的数据库系统相同的数据源处理方法这一类数据源在设计上比较容易。一般情况下,DBMS(SQLServer、Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问。2、对于与DW数据库系统不同的数据源的处理方法对于这一类数据源,一般情况下也可以通过ODBC的方式建立数据库链接——如SQLServer和Oracle之间。如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统文件导入到ODS中。另外一种方法是通过程序接口来完成。3、对于文件类型数据源(.txt,.xls)可以培训业务人员利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取。或者还可以借助工具实现。4、增量更新的问题对于数据量大的系统,必须考虑增量抽取。一般情况下,业务系统会记录业务发生的时间,我们可以用来做增量的标志,每次抽取之前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大于这个时间所有的记录。利用业务系统的时间戳,一般情况下,业务系统没有或者部分有时间戳。数据运维数据抽取任务维护-划分种类1、按领域来划分(1)、基础设施运维:IDC/网络运维、服务器/存储设备运维(2)、系统运维:系统中间件运维、云计算平台运维(3)、数据运维:数据库运维、大数据技术平台运维(4)、应用运维:应用软件系统(5)、云平台运维:公有云平台运维(6)、容器运维:基于容器服务的运维2、按技术切面划分(1)、安全运维(2)、性能运维(3)、数据运维(4)、集成运维3、按流程来划分(1)、构建/持续集成、发布(2)、安装部署、升级、迁移、合并、扩展(3)、配置、初始化、配置变更(4)、备份、传输、恢复(5)、日志、监控、预警(6)、诊断排查、优化数据抽取任务维护-收集日志1、系统日志系统日志主要指的是操作系统的日志,主要在/var/log下的各种日志信息。包含系统操作日志、系统安全日志、定时任务日志等。系统日志是运维管理安全模块中审计的重要依据。一般默认的操作系统日志不能满足要求,需要对系统的参数进行修改,如为history命令加上时间戳、IP,并且长久保留历史等功能。并且对日志文件进行处理,不允许用户进行清空命令,只能追加。2、应用日志应用日志主要记录应用服务的健康运行情况以及业务操作的具体日志两部分。应用监控运行情况反应应用服务的健康状态,如果应用占用CPU或是内存过高或是忽高忽低不定,都可以通过分析应用日志结合业务操作日志得出结论。业务操作日志可以为业务审计提供主要依据。有一些系统喜欢把业务操作日志写到数据库中,这个也是需要注意的。不过不管在哪个地方,要求是不可缺少的,它为以后业务审计和问题返查提供依据。3、数据库日志数据库日志主要反馈数据库的运行情况。通过监控和管理数据库的日志,及时了解数据库的运行情况,遇到问题及时解决等。可以通过数据库日志结合数据库系统自带的数据库如Oracle的系统视图v$开头,MySQL的performance_schema等。虽然数据库的一些信息不是存在日志中而是在数据库里面,但是也可以作为数据库日志的一部分进行管理和监控,已便我们及时知道数据库的监控状况,从而预防可能出现的问题。4、设备日志设备日志一般是一个比较容易忽略的地方,但设备日志往往可以反映设备的运行情况。交换机故障,防火墙故障等设备故障都可能引起大面积的系统和服务故障。所以设备日志一定要收集,分析和监控预警。常用的设备日志有交换机日志、防火墙日志、网络安全设备日志等。数据运维要通过各种手段完成日志的收集、过滤分析、可视化展示。数据抽取任务维护-运维监控大数据分析最早就来源于运维人的日志分析,到逐渐发展对各种业务的分析,人们发现这些数据蕴涵着非常大的价值,通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。这就是大数据的用途。

同样,通过大数据分析,我们可以得到各种指标,例如:在业务层面:如业务每秒访问数,每秒验券数,每分钟支付、创建订单等。在应用层面:每个应用的错误数,调用过程,访问的平均耗时,最大耗时,95线等在系统资源层面:如cpu、内存、swap、磁盘、load、主进程存活等。在网络层面:如丢包、ping存活、流量、tcp连接数等。而这些指标,刚好是运维特别需要的东西。通过大数据分析出的这些指标,可以解决如下方面的问题:系统健康状况监控、查找故障根源、系统瓶颈诊断和调优、追踪安全相关问题。数据运维监控,分为三部分:获取需要的数据、过滤出异常数据并设置告警阀值、通过第三方监控平台进行告警;所有系统最可靠的就是日志输出,系统是不是正常,发生了什么情况,我们以前是出了问题去查日志,或者自己写个脚本定时去分析。需要将以上内容内容整合到同一平台上,再定义分析日志的逻辑。数据抽取任务维护-运维平台数据运维平台基本具备功能:1、服务台作为运维人员与用户联系的接口,受理呼叫请求、人工报障等服务事件,智能过滤故障报警,辅助填报工单,帮助值守人员高效处理事件。2、事件管理对事件工单进行自动分配、多级联动,并按事件的优先级和紧急程度进行排序,记录事件处理的全过程,保证尽快恢复被中断或受到影响的IT业务。3、问题管理通过配置管理数据库对问题根本原因进行辅助分析,通过生成变更请求(RFC)、联动知识库,对问题进行全生命期管理,确保有效的解决问题。4、变更管理确保在IT服务或设备变动过程中能够有标准的方法,以有效的控制变更,降低或消除因为变更对业务造成的影响和问题,使变更能够有效进行。5、协助工单管理作为事件处理、变更处理、问题处理等活动的辅助支撑,自动关联主单的相关信息,有助于故障的快速解决,并规范跨部门协作流程,有效提高运维效率。6、配置管理配置管理数据库(CMDB)包含了IT设备的各类信息与关联,将错综复杂的IT设备以及其相互影响梳理清晰,为事件处理、问题分析和资产管理提供数据支持。7、资产管理覆盖数据中心资产全生命周期管理活动,包含库存管理、上下架管理、盘点管理等多个子模块。通过独创的资产检测专利技术,可实现精确至U位的资产定位。8、容量管理通过数学建模,清晰有效地展示数据中心各梯度的容量实时信息,为机房规划、扩容等战略规划提供决策信息,为设备部署提供有效指导与管控。9、供应商管理对供应商信息进行智能化管理,提供智能预警与报警功能,有效实现与资产管理和事件处理联动,为运维人员提供有效的设备参考信息。10、服务级别管理具有强大的自定义SLA功能,依据级别合理配置资源、控制成本,并能自动根据业务类型、资产类型等条件自动启用合适的SLA,是服务质量管理的有效保证。11、报表管理内置近百种报表模块,并可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论