




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
邦道信息技术有限责任公司SpiritDataServicePlatformV3.0.0技术白皮书邦道信息技术有限责任公司2016-01免责与著作权声明本文档仅用于向用户提供相关产品信息,邦道信息技术有限公司对本文档中的信息不做任何明示或暗示的承诺。免责与著作权声明对于文档涉及的可能或已经由邦道信息技术有限公司所享有的知识产权(包括但不限于专利权、专利申请权、商标权、著作权),本文档中任何表述均不构成邦道信息技术有限公司对用户的许可和授权。在未得到邦道信息技术有限公司另行书面许可的情况下,用户不得出于任何目的、以任何形式或手段(包括但不限于电子的、机械的、影印、录制等)复制、发行、传播、许可他人使用本文档的任何内容。本文档中作为范例而向用户阐述的公司、组织、产品、域名、e-mail地址、徽标、人员、地点和事件均为虚构,不与任何真实的公司、组织、产品、域名、e-mail地址、徽标、人员、地点和事件产生直接或间接的联系。
目录目录 3产品背景 9SSP综述 9SSP产品三层架构 10产品主要功能 12SSP@Portal 12SSP@DP 14大数据采集流程 15元数据管理模块 16数据构造模块 23数据质量模块 26数据共享模块 43SSP@Report 49SSP@GIS 50SSP@Dsight 51SSP@DP-Stream 54整体架构 55主要应用的场景 56产品特性 56SSP@Gandalf 59建设目标 59价值分析 59功能介绍 61部署方式 63SSP@AOS 64概述 64适用接口 65SSP@TS 66主要特点 66核心技术及特性 68清晰的分层处理架构 68智慧的大数据处理技术 68全程元数据驱动、架构松耦、调整灵活 69高效的海量数据实时查询与分析能力 69NLP算法及相关技术 70人际关系网分析 70用户重大事件挖掘 72物品协同推荐 72基于云架构的分布式网络爬虫 73基于决策森林的文本分类 74数据挖掘技术 75热部署技术 76混合云 76负载均衡技术 77运行环境 78软件环境 78硬件环境 78联系我们 80TechnicalWhitePaper74/77产品背景上个世纪信息科技的迅猛发展导致了人类生产生活模式的电子化和数字化,而在大数据时代,关注的重点逐渐转移到数据本身,人类寄希望于从海量的各种数据中萃取具有真正价值的信息和知识,并形成对未来发展的准确的预测。大数据的出现,引发了全球范围内深刻的技术与商业变革,已经成为全球发展的趋势,国家和企业间的竞争焦点正从资本、土地、人口、能源转向数据资源。大数据引发巨大社会和经济变革的潜力,得到了各国政府、全球学术界和工业界的高度关注和重视。美国、日本以及欧洲一些发达国家政府都从国家战略层面提出了一系列的大数据发展计划,以推动全社会对大数据技术和应用的探索和研究。对于中国而言,在经历了30多年的高速发展之后,各种严峻问题也伴随而生,包括产业升级、社会稳定、环境保护、医疗健康和食品安全等方面的挑战。因此,亟需将大数据的发展提升到战略高度,以此为契机,通过各种创新和探索,推动产业升级和创新、经济转型和民生建设。邦道信息技术有限公司在大数据环境下孕育并快速成长的高新技术企业,是一家政府、企业、教育、医疗、房地产、通信大数据服务整体方案提供商,从事大数据时代行业软件的研发与服务,以挖掘和盘活数据资产为目标。公司产品SSP(SpiritDataServicePlatform)打造了一套完成的大数据环境生态圈,涵盖信息采集、转换、挖掘、可视、开放五个方面,为客户实现大数据的价值转化提供端到端服务,其整体架构、功能特性及性能在业界处于领先水平。SSP综述邦道信息技术有限公司SSP(SpiritDataServicePlatform)是一种具有独特创新功能的大数据处理、分析、开放平台。SSP包括SSP@Portal、SSP@DP、SSP@Report、SSP@GIS、SSP@Dsight、SSP@NMS六个子产品。SSP产品三层架构SSP产品划三层架构-采集域、数据服务域、数据可视域SSP@Portal是一款快速门户集成的Portal产品,以综合信息呈现和灵活页面布局为特点,能够适应多种场景,不仅实现根据不同的生产或职能部门呈现不同的Portal,还可以通过配置皮肤、布局、组件等实现个性化关注Portal页面SSP@GIS基于多种地图引擎的二次开发,提供企业级的定制化分析功能,以兼容各开发平台、提供统一的对外开发模式、提供多行业服务为目标的高智能云端地图产品。SSP@Report能够提供多元化的快速报表服务能力,适配现阶段市面上各种主流数据库,通过简便快捷的配置操作,能够在最短时间内达成用户对中国式报表的需求。SSP@Dsight具备模型管理、数据可视和数据挖掘于一体的下一代云端数据分析产品,具备灵活、直观、快速的可视化能力,抛弃以往苍白的数据呈现形式,使数据呈现更加生动精炼。SSP@DP元数据驱动的一体化数据服务平台,基于“元数据管理、数据质量管理、数据构造管理、数据开放管理、资源能力开放”能力,运行在Hadoop、MPP平台之上,具备系统自运维能力的综合性大数据开放平台。平台支持流数据的实时处理,支持不断更新持续查询的结果,可在移动的数据流中监测洞察。SSP@DP-Stream作为一个流计算平台,不仅实现了系统的高可靠性,高可扩展性,负载均衡等设计目标,而且提供了完整的解决方案,包括一个运行时环境和编程模型来简化需要对大批量连续流数据进行提取、过滤、分析以及关联的应用程序的开发,能够广泛应用于制造、零售、交通运输、金融证券以及监管各行各业的解决方案之中,使得实时快速做出决策的理念得以实现。SSP@TS邦道图述是一款专业的大数据可视化分析平台,所见即所得,便捷分享,零编程玩转图表,彰显大数据魅力。SSP@Gandalf甘道夫提供一个面向电信领域的深度DPI工具,为数据变现提供基础能力,透析信令数据DPI信息。解析用户电商、餐饮、阅读、视频、资讯、社交、音乐等互联网行为行为,为精准营销、舆情管控和行为分析提供准确的参考数据。产品主要功能SSP@PortalSSP@Portal产品以信息呈现及集成作为主要目标,支持自定义布局、多终端(PC、手机、PAD)呈现、丰富的图表控件(线图、柱图、饼图、雷达图、仪表盘、温度计、地图、散点图等)、丰富的自定义控件(查询面板、磁贴、列表、表格、选项卡、外部链接、三方呈现容器等)、数据联动、下钻参数传递等。通过页面模块化,使各模块间可自由组合,模块内可自由选择,极大地丰富了页面的呈现方式和呈现内容,使用户的Poral脱离了旧式的固定风格和堆积的呈现方式,同时突出关键业务数据,使用户从其他零散数据中脱离出来,准确的抓住业务关注点所在,提高工作效率。下图为SSP@Portal的功能架构:SSP@Portal功能架构以下产品功能示例:SSP@Portal成果1SSP@Portal成果2SSP@Portal成果3SSP@Portal成果4SSP@DP元数据驱动的一体化数据服务平台,基于“元数据管理、数据质量管理、数据构造管理、数据开放管理、资源能力开放”能力,运行在Hadoop、MPP平台之上,具备系统自运维能力的综合性大数据开放平台。包括大数据采集、数据构造、数据共享、元数据管理、数据质量、流式处理几大功能。大数据采集流程SSP@DP大数据采集流程SSP@DP支持源文件通过文件、DB、WS等方式探测,将源文件下载至本地后通过SPARK处理节点完成数据的预处理,然后合并输出目标文件,最终采集加载到HADOOP、DB或DW。常用采集协议SSP@DP支持以下常用采集协议:文件接口文件接口支持采用HTTP、FTP等标准的传输协议。支持csv/txt/xml等多种文件格式,采集频率满足月、周、日、小时、分钟等多种周期粒度的数据。数据库接口数据库接口支持通过JDBC/ODBC的方式从数据源系系统的数据库表或视图进行数据的抽取,进行抽取时,可根据数据量大小、网络情况、系统负荷等情况,采用全量方式或者增量方式进行抽取。消息接口消息接口支持WebService技术、MQ标准的消息队列技术、socket技术等。实时数据传输接口采用SDTP实时数据通信协议,为实时数据采集共享传输协议。该协议传输特点是数据传输量大,实时性要求高,过程简单,不需要握手鉴权过程。元数据管理模块元数据定义元数据是描述数据的数据(dataaboutdata),主要是描述数据属性(property)信息,用来支持如指示数据来源、数据类型、数据有效期和有效性等属性的管理和应用等功能。元数据的描述范畴包括领域概念(DomainConcepts)、领域关系(DomainRoles)、领域规则(DomainRules)的、领域语义(Semantics)和知识(Knowledge)。元数据管理模块目标数据分析体系规划中通过元数据管理来实现数据的透明化、可管理,同时贯穿DP数据服务平台,为平台各模块提供支持。SSP@DP元数据管理模块分两部分:元数据管理、元数据分析。SSP@DP元数据管理的具体目标包括:实现元数据的全程统一管理把分散在不同系统、不同工具、不同人员中的元数据信息进行统一管理,基于业务建立元数据模型,弱化元模型,实现数据从业务层至技术层的全面贯通;通过数据的统一,使标准增加一致性,并对数据统一生命周期管理。实现数据透明管理要求通过对数据源定义、目标定义、转换规则等相关的关键信息的管理,达到数据透明的管理目标,具体包括的数据结构透明、数据含义透明、数据转换规则透明等;为其他模块提供支持以元数据管理为基础,从数据采集入库到数据建模、数据汇聚、数据对外支持,其他模块通过元数据驱动对数据建立较为统一、系统的管理机制。为数据分析体系提供基础信息支撑,提升系统的可用性、易用性通过对系统元数据的有效维护管理,以及全面的服务接口的提供,达到信息共享,消除信息孤岛,使数据分析产品体系的应用范围能到扩展。随着不断完善和扩充元数据对外服务接口内容,使数据分析产品有能力实现向外部模块或子系统提供元数据内容和元数据分析服务。元数据管理范畴SSP@DP元数据管理的最终目标是实现对目标业务应用支撑体系涉及的所有元数据的管理,实现整个目标业务应用支撑体系融入式的元数据管理。系统采用分步策略实现向最终目标的演进。现阶段元数据具体管理的内容包括数据仓库元数据元数据、ETL过程、OLAP模型和系统指标、报表元数据等。SSP@DP元数据分类可以划分为三类元数据:技术元数据、业务元数据、操作元数据。这三种元数据的具体描述如下:技术元数据:技术元数据是描述源和目标系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖源和目标系统数据源接口、数据仓库存储、ETL、OLAP、数据封装和前端展现等全部数据处理环节;对于技术元数据,需要包括以下信息:(1)数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义;(2)业务系统、数据仓库的体系结构和模式;(3)汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;(4)由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则。业务元数据:业务元数据从业务角度描述了系统业务相关及系统使用的业务语言中的数据,它提供了介于使用者和实际系统之间的语义层,使得业务使用人员不需要了解技术实现原理,也能够明白目标系统中的数据脉络和数据定义。业务元数据需要包括以下信息:(1)使用者的业务术语所表达的数据模型、对象名和属性名;(2)访问数据的原则和数据的来源;(3)系统所提供的分析方法以及公式和报表的信息。操作元数据:应用程序运行信息:它们的频率、记录数以及各个组件的分析和其他同级信息。元数据管理内容SSP@DP元数据管理SSP@DP元数据管理包括:ETL元数据;数据仓库元数据;OLAP元数据;相关业务元数据。ETL元数据ETL过程中的元数据,主要偏向于技术元数据,应纳入元数据管理的范畴。管理的ETL产品应包括“第三方ETL产品”和“自主开发ETL产品”。“第三方ETL产品”是指非目标系统应用软件开发商或集成商自己开发的,以软件产品形式在市场上销售的且占有较大市场份额的通用ETL产品。例如:ODI、SSIS、DataStage等。“自主开发ETL产品”,是指由目标系统应用软件开发商或集成商自己开发的具有ETL功能的软件。在SSP@DP中,ETL元数据来源于ETL工具和ETL处理过程,包括:ETL映射规则;ETL单元:ETL作业名称、存储过程名称、输入数据集、输出数据集;ETL流程:开始ETL单元、下一单元、结束单元;ETL装载记录:ETL流程开始时间、ETL单元开始时间、流程结束时间,单元结束时间。数据仓库元数据ODS元数据和DW元数据均属于数据仓库元数据,是数据仓库系统的核心元数据。数据仓库系统RDBMS进行数据的存储和管理,设计模型采用星型模式、雪花模式等,遵循数据仓库的设计准则,实现主题、维、度量等多维模仿概念模型。数据仓库逻辑模型:实体名称、属性名称和类型、关系;数据仓库物理模型:数据库名称、模式名称、表、字段、主键、外键、索引、分区。OLAP元数据维度:维名称、维元素、钻取路径、级别度量:度量名称、格式、计算公式Cube:维度、度量、数据量星型模式:事实表、维表、汇总表相关业务元数据业务元数据包括业务术语、业务描述、业务指标以及业务规则等相关信息,系统中涉及到的指标、报表、业务字典、维度数据以及编码都属于业务元数据的范围。业务元数据可以根据具体的业务发展进行持续定义和维护管理。业务元数据和技术元数据之间的映射关系也属于元数据的管理范围,在目标系统中,体现在语义层的数据业务含义与逻辑层、物理层的技术数据实体之间的关联关系。例如一个KPI指标在数据仓库中所对应的库表、字段以及相应的转换过程。元数据管理模块主要功能元数据管理模块主要功能包括元数据管理及元数据分析两大块功能。元数据管理元数据管理支持逻辑模型设计、物理模型设计、数据流模型设计、业务模型设计。支持表格、图形化展现数据仓库中的事实维数据结构,支持多种数据呈现模式。SSP@DP业务模型设计界面SSP@DP系统字典界面同时支持对元数据的配置操作管理。元数据增加:支持界面增加新的元数据;元数据删除:支持现有元数据删除;元数据修改:修改现有元数据;元数据查询:根据不同条件查询元数据库中包含的元数据;元数据导出:支持导出成csv/xml文档。元数据分析元数据分析支持血统分析、影响分析、映射分析、指标溯源等。血统分析:血缘分析(也称血统分析)是指从某一实体出发,往回追溯其处理过程,直到数据共享平台的数据源采集层,并且能够以图形的方式展现所有实体和处理过程;影响分析:影响分析是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。如果需要可以采用递归方式寻找所有的依赖过程实体或其他实体。该功能支持当某些实体发生变化或者需要修改时,评估实体影响范围,并且能够以图形的方式展现所有实体和关联关系;映射分析:用户能够查看数据处理程序内部的映射关系,了解数据加工过程的细节。以图形展现数据的处理过程。血统分析示意图影响分析示意图映射分析示意图数据构造模块SSP@DP数据构造架构SSP@DP数据构造模块含四步,数据探测、数据预处理、数据采集、数据ETL,为SSP@DP数据服务平台提供数据获取的基础工作。通过可视化图形操作界面,基于元数据的配置,来实现每一个作业的处理逻辑。支持处理逻辑配置,和处理流程设置与管理,使数据处理过程达到可查看、可监督、可调控的全程透明化。数据探测通过元数据驱动,依据数据提供方式,SSP@DP对数据源进行探测,核实数据是否已按要求提供。SSP@DP数据探测数据预处理SSP@DP采用SPARK集群计算架构,通过快速的、高效的数据分析,对数据进行库外数据清理、数据集成、数据变换等预处理操作,在数据入库之前提高数据的质量,提升数据入库后的数据建模、数据挖掘等数据相关分析效率,避免ETL后库内操作时因脏数据导致的分析时间过长。数据预处理任务查看配置界面:SSP@DP数据预处理配置数据采集数据采集是处理和装载预处理后的数据文件的过程,当数据经过预处理过程之后转与装载目标(DB/MPP/HDFS等)相同的实体结构,可以通过传统JDBC或API方式入库以外,还支持客户端LOAD工具装载,最大限度保证了数据LOAD过程的稳定性以及并发性。SSP@DP数据采集过程与传统适配器的采集的主要区别是:SSP@DP数据采集只是装载过程,不对数据进行过滤、合并和筛选,这些功能都放到预处理模块库外并行计算,提高数据处理效率。增加对目标库客户端的支持,内置支持多种数据库和MPP的插件,无需单独配置。对于大数据量入库可以对数据分开到多台采集机并发入库(需要考虑数据库IO限制)数据采集模块可以独立使用,对源文件直接入库无须进行预处理过程可以直接使用数据采集模块进行装载入库数据采集过程会监控每步的数据质量情况。ETL当源数据通过数据预处理以及数据采集装载到系统数据仓库中以后,后面所有的数据转换、处理都是通过ETL模块功能进行数据处理ETL根据通过配置系统物理模型,可以选取系统的数据实体以及属性,设置数据的来源,抽取过程以及装载目标,来完成ETL的数据处理过程,记录这一过程的数据称为ETL元数据。ETL元数据与物理模型、业务模型相关依赖,ETL元数据把物理模型作为数据的来源与目标,把业务模型作为ETL度量(指标)数据按维度转换的依据,自动创建ETL过程的脚本(SQL或是伪代码),SSP@DP系统会根据调度上下文关系来依据规则来调用相关的任务。ETL任务之前也存在依赖关系,SSP@DP每个过程之间都存在驱动消息,一个消息会触发一个或多个任务,当条件适当的时候(如定时、数据探测、任务完成)就是触发消息,调度器会根据配置唤起适当执行的后续任务。SSP@DP系统主要是处理数据服务平台内部数据处理的过程,属于库内处理,针对数据源与目标为第三方的数据,先通过预处理和采集过程加载到数据服务平台,然后再进行ETL处理。任务调度管理数据构造模块将系统中所需的数据按照数据仓库建立的方法从各数据源进行采集,并根据各自的需求进行数据调整,数据迁移过程中奖原始数据进行抽取、筛选、合并和装载,并在此过程中保证数据的完备性和数据的一致性。任务调度管理同时应支持系统自动调度及人工调度两种方式,并可通过设置调度任务的优先级来保证重要数据计算所需的资源,以及通过可视化界面,对任务进行灵活管理和配置。定时调度定时调度是启动流程的定时任务,针对数据时间片设置流程的调用周期,可根据时间片类型(如15分钟指标、小时指标等)的不同,启动不同的汇聚计算流程。每个流程生成各自的预统计信息,对应到各自不同的数据文件。补采调度补采调度是由后补文件触发并启动处理文件补采的流程,是定时调度的一个不从,使数据能够更加完整的加载到数据仓库,使分析数据更加准确。人工调度任务调度管理不仅支持系统自动调度,同时支持人工调度,并可通过可视化界面查看人工调度任务的执行状态和结果。优先级设置可通过设置任务的优先等级,设置每个任务的不同运行顺序,具有高优先级的任务将获得更多的系统资源。数据质量模块数据的质量决定了系统的价值,尤其对于数据来源广、格式复杂、量大的系统,只有对数据质量管理起来,保证数据质量的稳定可靠,才能使系统的应用具有现实意义,体现系统的价值。借助于IT技术手段,方便的管理和优化数据质量,并及时定位和解决系统各环节的数据质量问题,这就是数据质量模块的意义。基于综合分析系统的数据质量应该是相对独立但又和综合分析数据层高度耦合的一个通用模块,即依据综合分析系统的数据情况开发一个通用的数据质量管理系统。建设目标在数据质量管理系统中,数据质量评估和监控是主要功能。对数据处理过程的各个质量监控点上的质量信息,执行数据质量监控流程,进行数据核查诊断,然后直观展现检查结果。数据质量管理人员可根据告警信息,采取相应的质量控制行动,也可以根据质量评估报告,对系统数据处理过程进行优化。在数据质量管理过程中,当前面临的两个主要挑战是业务的复杂性和数据信息不断变化。根据以往专业网管系统建设经验,数据质量管理工作占用大量维护工作时间。建立一个高效的数据质量管理系统,帮助运维人员快速定位并解决数据问题,提升运维效率,提高应用系统的数据质量水平,是DQM要达到的重点目标。具体来说,数据质量管理的建设目标有:建立数据的标准,明确数据的定义。为了保证系统的正常运行,用户必须在数据的标准和数据的定义上达成一致。不过,这些标准和定义大多数时候与其他系统中的数据标准和定义并不一致。因此,需要从全业务的角度出发,建立统一的元数据定义,同时,用户必须就元数据标准和元数据定义达成共识。在应用系统数据处理的主要环节合理设置数据质量监控点。首先在监控点设置相应的数据质量定量元素(DQE),并对所有的DQE进行收集、分类,计算出数据质量指标(DQI)、数据质量关键品质(CTQ)与体验质量(QOE)。在各数据监控点上,实现多视角、多方式、可配置的约束规则,提供常见问题的处理方法,实现数据质量完整性、及时性、一致性、有效性和准确性的量化呈现。完善数据质量监控模块,建立数据质量循环监控机制,提供全面及时的数据质量报告,控制和预防错误范围的扩大。建立一套从信息收集->实时监控->告警处理->质量评价->优化规则->信息收集的闭环监控流程,持续不断地排除错误、优化流程,实现对数据质量问题的快速定位、数据质量监控流程的不断优化,最后达到流程的自动化,从而降低数据质量保证计划的总体开销。数据质量闭环监控流程加强数据质量监控技术与管理手段的配合,着重关注应用系统数据来源和数据输出的数据质量,明确相关责任,从管理上落实数据质量工作。数据质量规则定义1)数据质量度量标准在数据质量核查中,我们以CTQ(Critical-To-Quality:数据质量关键品质)作为度量维度,来标示检测对象的数据质量情况。而衡量数据质量的常用度量特性如:及时性、完整性、一致性、有效性、准确性。其含义解释如下:及时性:数据获取是否及时,主要指数据提取、传送、处理、装载、展现的及时性。在数据处理的各个环节,都会涉及到及时性,但最关键的两个环节是采集和汇总。采集及时性考察数据是否能及时获取到检查点的检查数据;汇总及时性考察数据是否及时由原始数据产生了汇总数据,也在一定程度上影响到一致性。完整性:是指数据是否完整,描述的数据要素、要素属性及要素关系存在或不存在,主要包括实体缺失、属性缺失、记录缺失等。一致性:主要包括各数据表之间的数据是否一致,描述的数据结构、要素属性和它们间的相互关系是否一致等。一致性分为两个层面,其一是指原始数据(入库即有)与汇总数据(派生产生)之间的不一致;其二是指分析系统与其他系统之间同一指标但数据值不一致。系统内数据的一致性通过汇总环节验证实现;系统间的数据一致性通过数据共享调用方式实现。数据共享模式参考《中国移动综合分析系统技术规范-总册》中的共享模式章节。在本阶段首先实现系统内的数据一致性。有效性:描述数据取值是否在界定的值域范围内,主要包括格式、类型、值域和业务规则的有效性。有效性的规则可以在元数据管理模块中进行设置。准确性:主要是指指标算法、数据处理过程的准确性。这个准确性主要是通过元数据管理中定义的指标的算法、数据处理顺序和人工检查相结合的方式来保证。2)定义核查规则定义核查规则,即针对核查对象定义DQI(DataQualityIndicators)即数据质量指标。及时性、完整性、一致性、有效性、准确性这样的核查度量我们定义为CTQ(Critical-To-Quality:数据质量关键品质),每个CTQ下面可以有多个DQI,DQI只归属于一个特定的CTQ(可调),DQI在系统中可以定义,并可配置不同的算法公式,当使用该质量规则时,需要定义数据质量定量元素即DQE(DataQualityElement)的采集映射,用来带入规则算法得到DQI结果,用公式方式表示为:DQIxxxx=公式(fx(DQE))。数据质量应获取的基础的DQE指标,通过DQE指标按照一定核查算法,来得到核查规则结果,例如:完整性核查时,完整性=性能条数/资源条数,则性能条数、资源条数即DQE,得到的完整性率值极为该规则DQI的结果。根据数据质量CTQ情况,结合综合分析系统,我们可以考虑下面这些DQI规则:及时性处理过程执行及时性:根据处理进程开始时间和结束时间得到处理时长,根据公式:及时性=(时长-时长下限)/(时长上限-时长下限),若时长小于时长下限,则及时性为1。其中,开始时间和结束时间作为DQE指标保留在数据质量模块中,时长上限和时长下限可作为阈值常量存储。输出数据及时性:根据输出数据生成时间和标量时间得到延时时长,根据公式:及时性=(延时时长-时长下限)/(时长上限-时长下限),若延时时长小于时长下限,则及时性为1。其中,数据生成时间和标量时间作为DQE指标保留在数据质量模块中,时长上限和时长下限可作为阈值常量存储。源文件输出及时性:在接口规范中规定的传送时间窗口内文件(库表)接口及时准备数据的接口数量占总接口个数的百分比。其中,及时准备数据的接口数量、总接口个数作为DQE指标保留在数据质量模块中,规定的传送时间可作为阈值常量存储。完整性:参照资源完整性:此算法仅针对性能数据处理过程,完整性=|(性能条数/资源条数数)-1|,当取值大于1时取1。其中,性能条数和资源条数数作为DQE指标保留在数据质量模块中。参照历史完整性:根据历史数据条数,来分析当前完整性,可以参考:完整性=当前行数/历史均值,当取值大于1时取1。其中,当前行数和历史均值作为DQE指标保留在数据质量模块中。文件个数完整性:对于源数据为多个文件接口的,可以参考:完整性=在接口规范中规定的传送时间窗口内文件个数/应有文件数,其中,实有文件个数和应有文件个数作为DQE指标保留在数据质量模块中。有效性列数有效性:接口文件(库表)中的列数和规定列数是否一样,保障源数据是有效可用的。一样即为有效,其中,实有列数和应有列数作为DQE指标保留在数据质量模块中。值域有效性:统计单列数据取值是否在界定的值域范围内,算法公式:当指标数值在定义的上下限内,则视为有效,有效性=有效个数/总个数。其中,有效个数和总个数作为DQE指标保留在数据质量模块中,上下限可以作为阈值常量存储。当核查列为多个时,可取算数平均值来得到整体有效性。一致性中位数一致性:分别获取数据处理源端和目的端的中位数,比较二者差异度。一致性=|(目的端中位数/源端中位数)-1|,当取值大于1时取1。其中,目的中位数和源端中位数作为DQE指标保留在数据质量模块中。当核查列为多个时,可取算数平均值来得到整体一致性。截断均值一致性:分别获取数据处理源端和目的端的截断均值,比较二者差异度。一致性=|(目的端截断均值/源端截断均值)-1|,当取值大于1时取1。其中,目的截断均值和源端截断均值作为DQE指标保留在数据质量模块中。当核查列为多个时,可取算数平均值来得到整体一致性。准确性精度准确性:统计单列数据计算是否准确,算法公式:定义一种异于当前汇总逻辑的算法,比对两种算法计算结果是否一致,精度差异在一定范围内,则准确性=准确个数/总个数。其中,准确个数和总个数作为DQE指标保留在数据质量模块中,精度差异上下限可以作为阈值常量存储。当核查列为多个时,可取算数平均值来得到整体准确性。3)关键指标检查关键指标检查,有利于在数据流的最末端发现数据质量问题。综合分析系统关键指标种类很多(如话务量类指标和网络质量指标等),需要根据指标检查规则,在指标数据生成后自动对指标进行检查。指标数据检查可以采用简单的或复杂的统计与计算方法,简单的方法如数值检查、波动率检查等,复杂的方法如方差/标准差计算、正态分布计算和线性回归计算等。在检查过程中可能需要使用一定的样本量(如n个周期的指标值、指标波动率等),样本量的取值采用Epps-Pully检验样本量(8≤n)(国际ISO5479标准),同时也为中国国家标准。关键指标检查分为指标基础检查和指标加权波动检查两类。指标基础检查指标基础检查包括指标数值检查、波动检查、关联检查和平衡检查等,具体描述如下:数值检查定义:主要是通过检查单个指标的数值来发现指标的异常和突变等情况。检查原理:通过对指标数值与阈值上下限的比较来进行检查,波动阈值的上下限可以使用经验值或采用n个周期内指标的最大最小值作为阈值的上下限。阈值上下限是一个数值区间,需要注意周末和节假日对指标的影响等。适用范围:主要适用变化趋势平稳的业务关键指标。波动检查定义:波动检查包括同比波动检查和环比波动检查等。环比波动检查指当前周期与上一周期的波动率检查,如本年7月与8月的指标波动检查;同比波动检查指不同大周期、相同小周期的波动率检查,如今年7月与去年7月、本月15日与上月15日的指标波动检查。检查原理:先计算指标的同比或环比波动率,然后与预定的波动率上下限(阈值)进行比较,阈值可以是经验值或取前n个周期的波动率的上下限值。指标波动检查的阈值是一个数值区间,需要注意周末和节假日对指标的影响等。波动率计算公式:,其中c代表指标的当前值,r代表参考值,可以取上一周期指标值或前n个周期的指标平均值等,f是波动率。适用范围:如业务发展类指标、用户数类指标等。关联检查定义:通过对两个存在关联关系的指标(如同增、同减正关联关系),按某几个维度展开后的增减幅度来发现数据的波动、变化情况。该检查的两个指标分别命名为左指标和右指标,即第一个选择的为左指标,后选的为右指标。检查原理:通过对左右指标不同维度切面的增减趋势是否一致,变化幅度比例是否在一定阈值范围之内进行检查。适用范围:需要进行维度细分检查的指标,如检查某项业务在省内各地市发展的一致性,相关用户数和业务量是否同增同减等。平衡检查定义:通过对若干个指标值的简单四则运算(加、减、乘、除),来检验各个指标间潜在的平衡或其他比较关系。在这个简单四则运算中,可以代入常量运算,支持括号。检查原理:指标A=fx(指标B,指标C,指标D,….),fx代表函数,表示多个指标间存在函数关系。适用范围:需要进行相关性检查的指标,如日指标汇总与月指标的平衡检查、单一指标在数据处理各环节的平衡检查等。加权波动检查定义:通过对单个指标的基础检查结果和影响因素的加权计算分析,综合检查指标的波动和变化情况。检查原理:根据单个指标的基础检查结果和影响因素,按预定的加权算法计算得出指标加权波动值,然后把加权波动值与预先设定的阈值进行比较,得出检查结果。可以采用的指标基础检查结果包括:指标数值检查结果、同比波动检查结果和环比波动检查结果等。指标的影响因素包括:周期性影响、节假日影响、业务变更影响和市场竞争影响等。适用范围:需从多个角度进行综合检查的指标或易受多种因素影响和干扰的指标。关键指标的检查,跟采集作业耦合度比较低,可以在系统预先开发一些特定算法,通过在关键指标核查规则订制时,简单的映射到关键指标,系统即可生成相应的核查作业。采集任务的可配置数据质量信息依赖于采集作业,通过上面内容,我们可以了解数据质量是以DQE(数据质量定量元素)为数据质量基础指标来获得的。那么数据质量采集就是采集在规则中定义的DQE。在数据规则中定义了相关规则后,系统根据内置算法组件生成针对该规则对象的信息采集作业,在数据处理步骤之后即时运行。在综合分析系统中,我们可以从探测、预处理、采集、ETL等处理步骤中获取DQE信息。如下图所示:SSP@DP数据质量管理数据质量监控以被监控对象为中心,从数据采集、监控检查到监控报告每个过程都需要进行规则配置,这些配置包括:1)采集代理配置数据质量监控采集代理可以是独立的常驻进程,也可以是基于调度的任务(如执行脚本)。对于常驻进程形式的采集代理需要配置代理部署的IP,服务端接收数据的方式,服务器IP、服务端认证信息等;另外,还需要配置执行采集任务的执行脚本或程序、启停参数、采集任务执行的时间、执行周期等。2)采集规则配置采集规则主要配置被采集对象和算法,包括采集规则名称、被采集对象所在的IP、端口、数据库及用户模式、采集对象及属性、维度和采集算法及算法参数等。3)检查规则配置检查规则主要配置检查规则名称、检查规则类型、被检查对象、检查的算法、参数项、常量(如阈值)和对应的告警规则等。4)告警规则配置告警规则主要配置告警规则名称、告警升级间隔时间、告警内容格式(内容生成模板)、最低告警等级和是否自动生成数据质量监控问题等。拓扑监控拓扑呈现,是为了方便查看对象之间的层次关系,以及在经过各种抽取、清洗、转换和加载过程后,数据对象的质量现状,,通过对象层次关系图,可以清晰地显示数据对象在哪里开始发生质量问题。并支持更详细的去查看DQI数据质量,在发现具体的数据对象时,可以通过元数据信息找到核查对象依赖的ETL过程,从而对相关ETL过程进行干预,最终达到提高数据质量的目的。1)拓扑呈现与元数据的关系数据质量管理系统拓扑呈现所展现的各种对象,来自数据质量系统本身定义的数据对象,该数据对象是元数据管理模块中对象的子集,各对象之间关系通过元数据管理中信息来获取,且通过元数据来获取数据对象相关的ETL作业。数据质量拓扑呈现与元数据管理模块间可以通过以下方式进行交互:接口交互数据质量监控界面通过元数据管理模块的访问接口,请求特定的元数据对象资源;元数据管理模块根据请求,以规范的形式返回元数据对象资源的描述信息;数据质量监控系统基于返回的元数据资源描述信息,在监控界面上绘制相关拓扑呈现视图。界面集成利用界面集成的方法,数据质量管理子系统可以使用元数据管理模块的元数据分析工具,如在查看拓扑图的同时使用元数据的血缘分析工具,能帮助维护人员找到问题的根源;使用元数据的影响分析工具找到合理有效的解决方案等。2)拓扑呈现的功能拓扑呈现应具备以下功能:具备信息叠加显示功能可以在拓扑呈现界面上叠加显示单独的数据质量告警信息,以及数据质量统计信息。具备视图切换功能可以根据需要在不同的呈现视图间切换。具备不同类型对象的混合展示功能可以根据需要,将各种对象的拓扑图进行混合展示。具备查询功能可在当前视图和其它视图中,查找指定的对象。具备过滤和隐藏功能可以根据需要选择显示或隐藏某些类型的对象,支持对象显示过滤。具备钻取查看功能拓扑图中的节点和连线应该用易于区别的图标显示,能够显示该图标是否有子图,可以通过钻取,查看不同层级对象的拓扑呈现视图。3)监控报告的内容结构监控报告的内容和结构参考综合监控系统的接口规范,然后提供给综合监控系统。监控报告生成方式按照综合监控系统的规范要求生成。告警管理1)告警的分类和分级参照告警标准化定义相关文档及综合监控规范的告警要求。告警可依据其发生的数据处理环节或级别进行分类:分类依据告警类别按告警发生的数据处理环节分类数据源层质量告警采集层质量告警数据层质量告警按告警级别分类提示(Information)一般告警(Warning)重要告警(Serious)严重告警(Critical)根据告警所反映的数据质量现象的严重程度、影响范围,以及与企业相应考核指标的关系,可将告警分为以下四个级别:提示(Information)指没有发现数据质量问题,提示数据处理过程中的数据质量符合要求。一般告警(Warning)指告警所反映的数据质量现象的严重程度不高,对系统业务影响范围小。重要告警(Serious)指告警所反映的数据质量现象的严重程度较高,对系统业务有一定范围的影响,与相应考核指标有一定关系。严重告警(Critical)指告警所反映的数据质量现象的严重程度高,会严重影响数据处理过程,对数据质量有严重影响,对系统业务影响范围广,与系统相应考核指标的关系紧密。通常,提示和一般告警问题不会造成数据处理过程的挂起,数据处理过程可以继续执行;当重要告警和严重告警发生时,数据处理过程需要被挂起,需要通过人机接口通知相关人员进行处理。2)告警的实效性要求对于提示(Information)可以在一天内发出相应的信息,告警可以由维护人员解除告警后手动关闭该告警,也可以系统设置告警时长自动关闭告警;对于一般告警(Warning)、重要告警(Serious)、严重告警(Critical)这几个级别需要发生数据质量问题后立即给出告警信息,告警可以由维护人员解除告警后手动关闭该告警,也可以系统设置告警时长自动关闭告警。数据质量评估数据质量管理系统在对数据的质量进行监控的同时,也对数据提供者有了考核的依据。考核评估包括:数据质量核查评估规则管理、数据质量核查评估报表、数据质量核查评估报告。1)数据质量评估规则管理数据质量评估规则是指根据核查结果,对数据核查特性的一个量化评估规则。例如数据的完整性,可以根据数据的完整率对应的评估;数据的及时性根据数据不及时的次数进行评估;数据的有效性根据数据的有效率进行评估;数据的一致性根据波动率超过阀值的次数进行评估。提供数据质量不同特性的数据考核规则增加、修改、删除;保存考核规则的历史修订记录;查看历史记录;支持区分核查的数据内容,设置数据完整性、及时性,有效性,一致性的评分规则;2)数据质量评估报表根据核查结果以及核查评分规则的设置,自动提供核查评估报表。考评表细分详细描述《完整性考核日报表》数据源性能完整性报表呈现各数据源各性能数据集的数据完整率以及对应的评分数据源配置完整性报表呈现各数据源各配置数据集的数据完整率以及对应的评分核查点配置完整性报表呈现各核查数据集配置完整率以及对应的评分核查点性能完整性报表呈现各核查数据集性能完整率以及对应的评分告警完整性分OMC呈现每天的告警完整率《及时性考核日报表》数据源性能数据及时性呈现各OMC各性能数据集的数据及时率以及对应的评分数据源告警数据及时性呈现各OMC告警及时率以及对应的评分报表数据采集层性能数据及时性分OMC呈现各性能数据集采集的数据及时率以及对应的评分数据采集层告警数据及时性分OMC呈现告警及时率以及对应的评分《有效性考核日报表》数据源数据有效性报表分OMC呈现各核查数据集的数据有效率以及对应的评分核查点数据有效性报表分核查数据集呈现数据有效率以及对应的评分《一致性日报表》每日各数据采集点波动率超阀值次数《数据质量综合评估日报表》数据源、各网管系统的数据完整性、及时性、有效性、一致性综合评估日报表。《数据质量综合评估月报表》数据源、各网管系统的数据完整性、及时性、有效性、一致性综合评估月报表。3)数据质量评估场景——数据源接口质量评估数据源接口质量评估是数据质量管理子系统在元数据管理模块的支撑下,对数据源接口质量的定期评估,是综合分析系统对数据源接口数据质量的定期考核。在一定时间范围内,数据质量管理子系统通过对数据源接口质量问题的统计分析,结合数据源接口质量评估规则,生成数据源接口质量评估报告。数据源接口质量评估要求在以下数据质量问题指标的基础上,结合各省公司综合分析系统的实际情况,建立数据源接口质量指标考核体系,主要包括以下两大类9个指标:数据质量问题类指标不准确问题数量不一致问题数量不及时问题数量不有效问题数量不完整问题数量数据质量处理情况指标数据源接口问题总数量:指在一定时间范围内,数据源接口出现数据质量问题的总数量(包括重复出现次数);问题处理完成比率:指在一定时间范围内,处理完成的数据源接口质量问题数量与数据源数据质量问题总数量的比值;问题平均处理时长:指在一定时间范围内,数据源接口质量问题处理总时长与数据源数据质量问题总数量的比值;重大问题出现次数:指在一定时间范围内,出现重大数据质量问题的次数,如:影响增值业务话单接口数据质量问题等。数据源接口质量评估功能要求在元数据管理模块中配置数据源接口质量评估规则,并进行数据源接口质量评估规则的管理。数据源接口质量评估规则是指:根据数据源接口质量问题各指标对综合分析系统数据质量影响程度的不同,在元数据管理模块中定义与各指标相对应的评分规则。数据源接口质量评估要求数据质量管理子系统将每月的数据源接口质量评估结果及时发送给数据源系统相关管理人员。数据源接口质量评估报告应详细反映当月数据源接口质量问题情况,主要应包括以下内容:评估月份数据源接口质量问题各指标值数据源接口质量评分接口侧质量问题、发生时间、问题类型、严重级别、问题描述和处理结果。4)数据质量评估报表的可定制数据质量评估模块,应提供报表自定义功能,以方便数据质量管理人员,根据实际情况定义配置多个报表,报表显示内容可以从核查对象中进行选取,呈现DQE、DQI、CTQ等指标。报表需要实现以下功能需求:增加筛选条件,例如:及时性,完整性分别小于等于某个值,以便及时筛选出不及时,不完整的网元数据采集;根据核查对象具体情况,例如:显示完整性率值的同时,也呈现实际条数和要求条数;数据质量对外服务数据质量管理子系统是综合分析系统的有机组成部分,通过与综合分析其它模块的信息交互可以提升数据质量管理子系统的利用价值。同时,数据质量管理子系统本身也可以利用这些服务功能。数据质量对外服务功能一般以系统整体集成方式供综合分析门户使用。数据质量信息查询功能数据质量信息查询可以分为以下两种信息的查询:数据质量问题查询:可以查询单个或多个对象在某个时间段内的数据质量问题,对于存在数据质量问题的信息给予特别显示(如红色字体、闪烁等),以引起运维人员的注意,运维人员可以从该指标对象出发进行问题的分析与处理。数据质量统计查询:可以查询某一维度或几个组合维度的数据质量统计信息,如在综合分析系统中使用该查询功能以显示上周数据质量问题总量、接口到达率等。数据质量对外服务接口数据质量应对外提供统一的数据质量信息查询接口,此接口应能接受指定类型的参数并返回相应的结果,建议采用WebService方式提供查询接口。返回结果建议以XML形式给出。系统技术要求数据采集技术要求数据采集组件可采用常驻进程或任务驱动运行方式,完成数据采集的功能。数据采集能采集以下一种或多种类型的数据:文件日志、系统日志、数据库库表、通过执行脚本或系统命令获取的数据(如进程状态信息)。采集模块把采集到的数据存储在指定的数据库中,存储方式有全量、增量方式,所采集的数据具有时间戳。数据采集代理具有本地获取数据或远程获取数据的能力。数据存储要求数据质量存储库使用关系数据库存储数据质量监控信息、问题信息等,并且要求该数据库与ODM-DB、Meta-DB相分离,并采用不同的用户进行操作访问;对于问题总结过程和数据质量评估过程中输出的文档可以以Text、CVS、PPT、Excel或Word等格式文件存储。功能组件与对外交互要求数据质量功能组件是数据质量管理子系统的核心,必须与综合分析系统的其它子系统或模块进行交互,具体如下:功能组件与元数据管理模块的交互:功能组件通过数据库数据共享方式与元数据存储库交互,共享内容主要是获取监控对象、监控流程及监控规则等。任务调度:数据质量管理子系统的任务调度,如采集任务调度、检查任务调度,告警发送任务调度等。任务调度可以使用操作系统任务调度如crontab、任务调度引擎或基于消息的任务驱动模式等。监控检查技术要求监控检查是数据质量管理系统重要的技术点,数据质量检查是通过检查程序自动完成的,检查程序的实现技术要求如下:输入:采集数据和检查规则;检查算法:检查规则包括检查算法,检查算法主要指算法函数(如SQL语言函数、C语言函数、Perl语言函数、Java语言函数等),函数表达式中包含变项与常项,变项一般指采集数据,常项有维值常量和阈值常量;输出:检查程序通过检查规则计算后,得出检查结果、生成监控报告。数据共享模块数据共享模块目标打破以往系统建设的割裂现状,实现网络数据的集中存储、统一建模、数据横向关联与计算;利用集中的数据共享实现对上层应用的数据共享和支撑;实现海量数据的处理与挖掘,实现用户级数据的分析,满足互联网业务的大数据分析需求;可支持的共享模式SSP@DP数据服务平台作为统一的数据加工及共享中心,具备通过以下方式加工并共享的数据计算结果的能力:A模式:共享内容完全由SSP@DP数据服务平台自行加工实现,包括数据模型和相应计算、数据聚合过程,该方式共享输出相对固定的数据模型,数据消费者可以直接从中获取自己所需要的数据;B模式:数据消费者使用SSP@DP数据服务平台提供的元数据配置功能,定义符合业务需求的指标并通过共享组件获取;C模式:数据消费者使用SSP@DP数据服务平台提供的数据库计算能力进行新指标的计算,使用元数据描述结果数据结构,获取结果数据并使用,该模式下,SSP@DP数据服务平台提供计算能力的共享。数据共享技术选型数据类型分明细类数据和汇总数据,不同数据的处理方式也不尽相同。明细数据存储和处理:大规模(如信令、DPI、日志数据)明细数据存储,基于X86集群,构建分布式存储、并行计算架构,同时承载明细数据查询功能;汇总数据存储及在线分析和数据挖掘:实现多为汇总,具备较强的关联、多维分析处理能力,实现对海量数据的分析和挖掘;应用数据存储:实现对数据的高效处理剂多并发应用、复杂关联分析等。针对以上要求,泰岳提出了三种不同的混搭技术选型:RDB+MPP模式;RDB:面向应用的数据;MPP:面向明细数据存储、在线分析、数据挖掘;技术特点:技术成熟,成本高,扩展性差,无法支撑大规模集群;Hadoop+MPP+RDB模式;RDB:面向应用的数据;MPP:面向明细数据存储、在线分析、数据挖掘;Hadoop:xDR明细数据存储、数据挖掘、并行计算;技术特点:技术相对成熟,成本高,结构复杂,MPP集群规模受限;Hadoop+RDB模式;RDB:面向应用的数据、在线分析;Hadoop:xDR明细数据存储、并行计算、数据挖掘;技术特点:对大规模的在线分析存在短板,但这是发展趋势;RDB:指传统关系型数据库产品和数据仓库产品,主要适用于高可用、高并发、低时延、强事务型应用场景,通常采用sharedisk架构,横向扩展能力受限于与硬件相关的体系架构设计。产品举例:Teradata、OracleExadata、IBMpuredata等。SSP@DP推荐采用模式2(Hadoop+MPP+RDB),Hadoop与MPP在目前的技术条件下可以很好的互补,通过相互的协作来完成大数据的处理与分析,RDB具备稳定的事物处理和高并发机制,适合应用的使用场景:上层应用:应用数据存储采用RDB,实现对数据的高效处理及多并发应用、富擦关联分析等;SSP@DP共享模块:Hadoop+MPP,Hadoop存储和处理详单、日志和其他非结构化数据,基于X86集群,构建分布式存储、并行计算架构,同时承载详单数据查询功能;MPP分析数据存储及在线分析和数据挖掘,从Hadoop同步过来的轻度汇聚后的数据、传统网管的数据以及两者关联后的统计数据实现多维汇总,具备较强的关联、多维分析处理能力,实现对海量数据的分析和挖掘。数据共享模块与上层应用的关系上层应用基本不再各自从原始数据源来采集原始数据进行加工,而是通过数据共享的方式从SSP@DP数据共享模块获取加工后的汇总数据来进行各自应用数据需求的最终加工,对于明细数据则以API接口的方式从SSP@DP共享模块获取。SSP@DP通过数据共享模块服务上层应用系统,支撑上层多变的应用需求和外部系统的数据需求。汇聚类数据需求的应用:基本呈现汇总统计类的数据,没有明细数据查看与分析的需求。通过SSP@DP数据共享模块获取汇聚数据至应用数据库,支持应用的数据分析;明细数据查询需求的应用:主要呈现汇总统计类的数据,会从汇总的数据钻取查看相应明细数据的需求,但是明细数据量不大。通过SSP@DP数据共享模块获取汇聚数据至应用数据库,同时支持WS等接口查询少量明细数据;实时分析类的应用:主要呈现实时的KPI指标,要求时延最小。通过SSP@DP数据共享模块MQ等接口主动推送;明细类数据分析的应用:需要在大量的明细数据中按照给定的业务规则进行计算。建议将此类应用的数据模型下沉到SSP@DP数据共享模块,由数据共享模块来统计计算并共享。数据共享模块共享模式SSP@DP数据共享模块提供服务目录及数据订阅两种共享模式支撑上层应用系统的数据需求,上层应用系统。1)服务目录模式SSP@DP数据共享模块将数据仓库内的数据标准化,通过目录形式提供数据的纬度、共享方式、数据提供策略、接口数据格式等信息,供上层应用系统快捷的选择需求数据。2)数据地图模式SSP@DP数据共享模块将数据仓库内的数据通过数据地图功能供上层应用查询,SSP@DP通过名称、纬度等视角帮助上层应用系统通过自选方式来订阅关注的数据,上层应用系统提交订阅需求后,SSP@DP确认需求并通过元数据模块进行数据关联映射,最终调用数据构造模块生成上层应用需要的目标数据,并通过数据接口供上层应用获取消费。数据共享模块功能SSP@DP数据共享模块在SSP@DP数据服务平台中的功能如图所示:SSP@DP数据共享管理1)服务目录管理能够定义数据地图中的服务条目,完成对服务条目的创建(注册)、查询、修改、删除、启动与停用等操作;对服务条目信息的结构进行组织和编排;还能够对服务条目关联的接口服务API或者对应的共享数据进行绑定、去绑定和修改。2)接口鉴权管理接口鉴权是服务提供方对服务请求方是否合法进行的鉴别和确认。通过接口认证鉴权,可以使服务提供方确认服务请求方的身份,确定是否有该服务的访问权限。接口鉴权包括两个方面:确定服务请求方是否有访问服务提供方所提供服务的功能权限;对于有功能权限的服务请求方,还需要再确定其是否具有可访问的具体服务及相关数据范围的权限。接口鉴权需提供如下功能:在服务请求时,服务请求方要提供用户名、密码等校验信息。服务提供方针对校验信息进行认证,如果用户名、密码校验失败,不处理请求消息,并返回失败提示信息;通过用户名、密码校验后,验证该用户是否有请求该服务的功能权限。如果用户没有功能权限,不处理请求消息,并返回失败提示信息;通过功能权限校验后,根据该服务请求方可访问服务的数据范围权限,处理请求消息,并返回响应结果。3)订阅审核管理能够对上层应用或它系统所提交的订阅需求进行审核,通过元数据映射在SSP@DP内部进行数据确认,审核通过后方可确认订阅。4)调用频次管理对第三方应用接入访问的频度管理,有效避免恶意攻击,确保数据访问性能与安全。5)访问队列管理通过设置不同的队列,保证请求的不同优先级顺序,以保证系统在高负荷情况下的关键请求的具有最小的处理时延。6)数据缓存管理通过数据缓存,将访问热点数据缓存在内存中,以减轻二次访问对数据仓库带来的查询压力。7)外部系统数据共享管理通过外部系统数据共享管理,能够查询、展现并管理所有与SSP@DP数据服务平台存在数据共享关系的外部系统。支持多租户模式,为不同权限的用户提供其所访问权限的数据系统按照租户(上层应用)的需求动态分配和回收所需资源,包括CPU计算资源、内存、并行度、空间大小、时间窗口;可以独立启停每个租户的服务,互相不影响;各租户可以按照SLA级别(不同时间、不同应用、不同作业、不同用户)来提供资源的动态供给。8)服务目录共享关系查询能够查询并展现所有与SSP@DP通过服务目录模式进行数据共享的相关联的数据消费系统的名称、服务标识、API标识、数据大小、最近调用时间、调用频率等信息。9)系统接口关系查询能够查询并展现所有与SSP@DP数据共享服务及接口相关联的数据消费系统的名称、服务或接口名称、数据大小、最近调用时间、调用频率等信息。SSP@ReportSSP@Report是公司根据用户日益增多的多元化报表需求开发的快速可视化智能报表产品,定位面向直接用户及现场支持开发人员,为软件厂商现场人员或最终用户高级IT人员提供的一个免开发的报表模型生成平台,操作便捷、简单易用。通过配置报表数据、报表引擎,进行报表的呈现。用户只需要在查询面板中输入查询参数即可查看关注的数据。报表数据源支持Oracle数据库、SQLServer数据库、SybaseIQ数据库、GBase数据库、Rest接口,访问数据的方式为SQL语句方式或存储过程。SSP@Report技术架构报表作为用户使用最日常、最频繁的产品,有着不可替代的简略性、直观性、便捷性,在一般情况下,大部分用户仍会选择报表作为数据呈现的主要方式。本产品设计目标主要是根据各类分析场景在图形、表格呈现上具有很多共性元素,针对这些元素进行抽象,提供灵活的数据呈现与多维分析视图,由实施人员根据需要,定义布局、模块及模块内容指标,完成分析专题。SSP@Report产品通过多次的需求调研,最终开发完成了目前的不仅功能强大,并且实现便捷的产品,可以极大的提升现场对报表需求响应的时间和速度,同时做到了实施周期短、后期维护无需投入过多的人力和时间的目标。SSP@GISSSP@GIS服务是公司基于ArcGIS地图引擎、百度地图引擎、Google地图引擎之上二次开发的GIS产品,目前在电信、金融领域广泛使用。该GIS产品既具备漫游、缩放、鹰眼图、查找等基本功能,也具有话务密度分布图等符合移动业务需求功能,用户通过该平台能快速定位全网高话务小区分区,为用户优化小区提供数据支撑。目前也通过泰森多边形方法,重新计算话务量密度分布、TD流量分布,使流量在GIS分布更准确和科学。SSP@GIS技术架构智能地图是针对企业级用户开发的地图系统。目前GIS应用行业众多,大型的厂商如百度、高德等都是在自己的领域非常突出,但是他们没有针对一般企业的订制功能开发。智能地图弥补了针对企业订制功能的空缺。智能地图在移动通讯领域拥有广泛的应用场景,主要完成了如下功能:将传统的表格数据以更为直观的方式展现在地图上,基站、小区及其他POI信息都可以在地图上显示;资源的具体分布、覆盖情况也直观的在地图上呈现出来。系统还提供了诸多的分析方法,对资源以及部分指标进行分析:泰森多边形算法构建基站或者小区的网格、聚合算法分析资源的分布情况、栅格化及密度图渲染算法分析指标、场景自定义场景分析热点区域、迁徙图分析终端及流量迁徙情况等,同时对投诉、路测等信息进行分析展示。这些功能都是针对移动通讯领域开发的,对用户了解网络情况,优化与建设网络有重要的意义。智慧地图针对通讯运营商开发的功能也适用于其他运营商,强大的算法能力和处理数据的能力,得到了用户的肯定,同时也填补了这一块的空缺。智能地图使用场景灵活,可以作为独立系统使用,也可以作为插件嵌入到其他系统中使用,维护成本低且可移植性强,以高效方式为用户提供服务。这样灵活的开发方式和部署方式,还可以开发特定功能应用于其他行业中。SSP@DsightSSP@Dsight是一个基于大数据的可视化多维分析系统,SSP@Dsight主要包括数据模型创建、数据展现和数据挖掘三个主要阶段。数据模型创建是整合企业业务系统原始数据的第一步,是建立数据仓库的前提。数据仓库是一种新型的数据组织及存储方式,将企业的业务数据以一种多维的形式进行重新组织,形成适合于决策分析的数据存储格式,为企业管理者和决策者提供所需的面向决策分析的数据。随着信息化的发展“数据仓库”已耳熟能详,大中型企业已建立起或正在逐步建立针对历史数据的数据仓库。数据展现是要将数据仓库中的数据以更为灵活、直观、可视化的方式展示,使用户快速、准确、方便地得到数据背后的知识。数据仓库建成后,选择功能强大的分析平台及前端展现工具至关重要。3D全景分析图SSP@Dsight3D全景分析SSP@Dsight技术构架PowerMap在线分析,在3D地图上通过拖拽,制作图层,图层叠加,3D效果图可旋转产品特点支持多种数据源:数据分析的数据源即支持Oracle、MySQL、MSSQLServer等传统数据库源,也支持GreenPlum、Vertica、Gbase等MPP数据源,数据源适应能力强;支持大数据分析:系统支持集成Hadoop以及Spark平台进行大数据分析和处理,为用户提供海量数据分析的能力;分析方式多样:系统提供枢轴表、二维表等多种数据分析方式,支持上卷、下钻、切片、切块、等多种分析方法;提供丰富的大数据可视化能力:大数据由于数据量大,维度和关系复杂,不适合传统的柱图、线图等呈现,系统针对大数据提供多种大数据可视化的图表用于呈现多维度、大数据量的分析和挖掘结果;系统兼容性强:整个系统基于JavaScript+JAVA的技术进行开发,支持在各种Linux和WindowsServer服务器上部署,同时软件前端兼容IE、Firefox、Chrome等多种浏览器,并且不需要安装任何插件。SSP@DP-Stream伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。迫切需要设计一个实时系统。SSP@DP-Stream是通用的流数据实时计算系统,以实时数据产出的低延迟、高吞吐和复用性为初衷和目标,采用Topology模型构建分布式流数据计算框架,功能易扩展、部分容错、数据和状态可监控。DP-Stream具有处理实时流数据和静态数据(如本地文件、HDFS文件)的能力,能够提供灵活的实时数据输出,并提供自定义的数据输出接口以便扩展实时计算能力。整体架构SSP@DP-Stream技术架构Flume:通过Flume读取HDFS文件、文本文件、实时数据接口文件,将数据发送到Kafka中间件。Spout:Storm中的消息源,用于为Topology生产消息(数据),一般是从外部数据源(如MessageQueue、RDBMS、NoSQL、RealtimeLog)不间断地读取数据并发送给Topology消息(tuple元组)。Bolt:Storm中的消息处理者,用于为Topology进行消息的处理,Bolt可以执行过滤、聚合、关联、存储、查询数据库等操作,而且可以一级一级的进行处理。最终,Topology会被提交到storm集群中运行;也可以通过命令停止Topology的运行,将Topology占用的计算资源归还给Storm集群。Storm将处理后的数据实时的写入数据库中,或者直接发送到中间件中(HDFS、HBASE、HIVE、Oracle、Mysql、Apollo)。主要应用的场景DP-Stream被广泛用来进行实时日志处理,出现在实时统计、实时风控、实时推荐等场景,具体如下。1)数据源实时不间断,要求用户的响应时间也是实时(比如对于大型网站的流式数据:网站的访问PV/UV、用户访问内容、搜索内容等,实时数据计算和分析可以动态实时地刷新用户访问数据,展示网站实时流量的变化情况,分析每天各小时的流量和用户分布情况)2)数据量大且无法或没必要预算,但要求对用户的响应时间是实时的。比如说:昨天来自每个省份不同性别的访问量分布,昨天来自每个省份不同性别不同年龄不同职业不同名族的访问量分布。产品特性1)流处理特征数据流聚合功能:流聚合将两个或多个数据流聚合成一个数据流,形成统一的分析源数据。流数据筛选功能:具备对数据流进行过滤、计算(包括自定义函数支持)以及横竖表转换(类似spark的flatMap算子),以便对数据进行各种缓存流处理。Groupby支持:对输入的数据流指定一个或多个字段作维度,将其具有的字段作指标通过count、sum、min、max以及自定义的扩展函数进行指标统计。进行流groupby过程中需要具备支持超过内存容量的窗口统计能力,如:小时粒度、天粒度、月粒度。流数据关联功能:关联需要支持全语义的集合关联逻辑,即内关联、外关联与交叉关联。在支持流与流之间的全等关联同时,需要对于准静态数据的关联提供全等关联之外的能力,应用于诸如:ip地址段检索、用户访问url归类等方面的功能支持。即支持like与betweenand关联。关联功能同样需要具备跨较长时间的关联能力。因为在如漫游用户跟踪、长时间用户上网行为分析中,都需要对流数据进行跨小时、乃至跨天的关联。支持灵活的流数据事件处理规则的配置和管理,事件规则是指业务场景下相关接口特定参数的改变而引起的流式数据处理规则的重置。允许用户设定一定的时间窗口,并对这段时间内产生的数据进行分析,满足了用户切片采样的需要。2)复杂事件处理特点流数据处理支持复杂事件处理,复杂事件处理主要作用的场景包括实时营销(识别营销对象和发现营销时机);复杂网络故障识别;实时的物流跟踪。复杂事件处理技术特点:支持超长时间窗口(100天以上)。支持迭代、多事件时序。支持复合数据结构处理(嵌套、数组)。支持缓存访问和用户自定义函数。高性能:每核每秒处理6万事件以上,单节点支持亿级状态机数量。高可用:数据均衡的分布式冗余备份,节点增加、减少时,自动负载均衡以及自动建立数据冗余备份(一致性哈希)。易用性:高级PQL语法、编辑器高亮显示和实时辅助提示。3)实时决策支持实时决策支持提供海量事件流的实时决策能力,包括CEP、规则引擎、分布式内存Cache等。以利益最大化、主动发掘市场需求、提高客户体验度为目标,支撑业务系统快速判断业务信息并及时作出决策。通常被应用系统(例如营销、广告、客户关怀等)集成作为决策分析系统。4)分布式支持要求并行任务自动调度功能,流数据并行计算支持任务调度控制功能,实现任务的多节点自动平衡分配。高可用性和拓展性,支持节点、运行项目故障切换功能。多节点集群支持节点的自动切换、运行项目的自动接管。支持Active-Active模式高可用部署,故障失效节点被正常节点无缝平滑接管,上下游应用在故障切换中无人工干预。支持在线节点收缩和扩展,且不影响正常业务的使用。支持新应用的动态部署,动态添加新的作业,并在作业之间导入或导出数据流。平台运行时可以动态地添加或删除新的输入流、输出流和节点,而这个过程无需重新启动系统。支持线性扩展,当用户需要增加集群内的节点以获得更好的性能时,用户可以通过硬件的添加而获得近似相同比例的处理能力的提升。5)管理监控特征提供性能监控、跟踪调试功能。在线的性能监控分析,对外提供平台运行项目的性能指标输出,包括数据流的吞吐量、延时以及计算资源利用率等信息。完善的日志能力,提供平台、许可、运行时自定义调试、输出消息的日志输出功能。支持图表和图形的方式来在线实时监控服务器性能、节点事件处理性能指标。告警支持呈现告警级别、告警内容、发生时间、告警处理建议等信息展示。SSP@Gandalf建设目标Gandlaf提供一个面向电信领域的深度DPI工具,为数据变现提供基础能力,透析信令数据DPI信息。解析用户电商、餐饮、阅读、视频、资讯、社交、音乐等行为,用来数据的经营的变现,为精准营销、舆论监控和用户行为分析。价值分析1)有效的部署工作人员运用网络雷达技术替代人工浏览的方式,将会节省大量人力,并将负责分析互联网信息的人员从枯燥的重复性的查看互联网信息的工作中解放出来,把更有效的人力投入到对信息结果的处理和防范等重点上。2)降低人工对比分析误差以自然语言处理技术与数据挖掘技术为基础,通过信息关联分析与共享、人工经验知识分享与机器自动学习相结合的方式实现对社会公开情报信息的研判与事件综合分析预测,降低人工对比分析误差,提升分析效率。3)提高行业管理效能系统基于自然语言理解的文本挖掘技术,实时监测一定范围内网站站点所发布信息,通过采集、排重,并根据业务需求定制信息分类,提供信息预警、网络报告、专题聚焦等相关信息分类,提供掌上舆情终端系统,随时随地监测舆情信息,提高了本单位、部门的对于互联网舆情的应对能力和快速反应能力,加强了对社会面信息的全面动态控制能力。4)为领导决策依据系统提供对焦点热点事件的趋势分析,客户画像,精准定位,舆情分布、传播途径等多种分析手段,快速掌握舆情发展动向,为领导决策提供参考作用。5)优势特点系统采用J2EE构架,纯B/S工作模式(通过浏览器就可以对所有业务模块进行管理,无需安装客户端)。SSP@Gandalf系统系统构架功能介绍采集系统1)目标监测范围广支持对新闻、论坛、贴吧、微博、博客、视频、wap、电子报、微信(文章)等目标媒介的抓取及分析,提高对目标信息的时效性。2)信息采集全面利用聚合搜索技术,将百度、谷歌、BING、好搜、搜狗、搜搜、有道、中搜、中国搜索等国内外搜索引擎聚合起来,持续不断的实现对采集目标的抓取,实现对信息的全面获取。在提供灵活信息监测手段的同时,降低
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T/CAOE 27-2021海洋工程生态评估导则
- 员工档案信息管理制度
- 上下邻居之间盖房协议书
- 施工企业合伙分家协议书
- 非应届毕业就业协议书
- 二手车辆推迟过户协议书
- 三方就业协议违约协议书
- 教育培训项目合伙协议书
- 台风清理倒伏树木协议书
- 离婚后小孩改名协议书
- GA/T 544-2021多道心理测试系统通用技术规范
- 腰椎间盘突出症的针刀治疗课件
- 《法理学》考试笔记与重点
- DB44!T+2419-2023全生晒柑普茶生产技术规程
- (52)-疱疹性咽峡炎小儿推拿探秘
- GMP体系文件(手册+程序)
- 柴油叉车日常点检表
- 物流成本管理-日日顺d2d物流成本分析
- 集电线路安装工程质量通病防治
- 大学生动漫创业计划书
- 压铸机维护与保养新
评论
0/150
提交评论