




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、格力大数据项目工作说明书北京西塔网络科技股份有限公司二零一六年一月未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签 未指定书签1 项目目标错误2 建设及服务内容 .昔误2.1 需求调研及数据标准化 错误2.2 大数据基础平台搭建错误2.3 数据采集 错误2.4 分层存储设计错误2.5 数据加工处理错误2.6 数据分析挖掘错误2.7 内存数据库 错误
2、2.8 交互式探查分析错误2.9 数据可视化应用错误2.10 语音智能分析 错误2.11 文本、视频、图片存储错误2.12 大数据平台运维监控 错误2.13 大数据平台任务调度 错误2.14 ETL过程可视化 错误2.15 培训工作 错误3 建设方案 错误4 时间进度与里程碑错误5 费用支付 错误6 需求变更过程错误6.1 变更依据 错误6.2 变更请求处理流程错误7 双方责任 错误8 项目组织架构错误9 假定条件 错误项目目标在珠海格力电器股份有限公司的范围内,分期实现格力工业大数据平台项目的 数据集成、连接、处理、分析、挖掘等相关功能。本期项目包括设计、搭建大数据 平台,接入商技一部、商技
3、二部、计算机中心的销售订单等相关数据,实现设备故 障诊断、故障预测、产品统计、实时查询、营销支持、智能搜索等功能。故障诊断的业务目标:大数据平台处理、分析商用空调运行时采集回传的工况数据,及时、准确定位 运行故障并给出大致原因,为维护部门维修空调设备和系统提供信息支撑,降低故 障定位的时间、范围和工作量,缩短停机时长并提高客户满意度、忠诚度。故障预测的业务目标:大数据平台利用数据挖掘、机器学习技术,通过学习业已存在的设备故障数 据、信息,尤其是发生故障的前兆数据,归纳故障发生的特点、规律知识,并利用 流计算相关技术及时发现潜在的故障及风险,及时预警,减少停机的次数及停机时 长。另外发现停机模式
4、、规律可以进一步应用到产品设计、改进过程中。产品统计的业务目标:大数据平台利用集成的产品及销售数据进行统计分析,用于分析产品的销售情 况,客户情况,销售规律、特点及变化趋势,用于指导产品的个性化设计及产品的 推广销售。实时查询的业务目标:大数据平台利用NewSQL 存储技术存放设备数据,提供特定编号设备、一段时间内工况信息的实时查询功能,用于业务人员分析、判断特定设备在查询时间范围 内的工作状态,总结、发现业务规律。营销支持的业务目标:大数据平台利用集成的产品及销售数据进行分析,发现其中先后、重复购买及交叉购买情况和规律,提醒、推荐客户购买特定的产品和服务,提高产品和服务的 销量。智能搜索的业
5、务目标:大数据平台提供通过语音输入完成产品及销售数据的查询、统计及分析的功能。建设及服务内容以下所有内容基于1 月 19日版本的需求文档。详见格力大数据需求说明1.0文档,建设内容为基于Hadoop生态系统构建大数据平台,内容包括商用空调、家用空 调、销售等历史数据的入库,ETL处理,数据仓库、离线计算、内存计算、实时计 算、即席查询、可视化展示等内容。具体内容如下:需求调研及数据标准化包括功能商技一部、商技二部、销售、审计部门的需求调研、数据调研以及数据标准化。大数据基础平台搭建基于Hadoop搭建大数据平台,包括 HDFS、MapReduce HBase Hive、 Spark, MySq
6、l 集群。使用HDF话储原始数据,供离线分析挖掘;使用Spark/MapReduce执行离线任务;使用HBase故实时查询;使用 Hive/SparkSQL 做数据仓库;使用MySql集群存储分析结果书,供上层应用查询。数据采集大数据采集包括非结构化数据、结构化数据的采集,非结构化数据采用FlumeN丽集,Oracle/SQLServer/MySQL关系数据库中的结构化数据采用 Sqoop收集。此外还有实时流数据采用分布式消息队列采集。Flume收集非结构化数据,Flume是一个高可用的,高可靠的,分布式的海量数据采集、聚合和传输的系统,Flume 支持定制各类数据发送方,用于收集数据;同时,
7、Flume提供对数据进行简单处理,并写入到HDFSfroSqoop收集结构化数据,Sqoop(发音:skup),主要用于在Hadoop(Hive)与传 统的数据库(mysql 、 postgresql.)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到 Hadoop的HDFSt,也可以 将HDFS勺数据导进到关系型数据库中。Sqoop,类似于其他ETL工具,使用元数据 模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。实时
8、数据处理,通过采集层数据通过消息队列组件Kafka 接入到SparkStreaming里,SparkStreaming实时处理后把结果存到 Hbase或Mysql等关系 数据库中供用户查询。分层存储设计通过将给定文件、数据集或应用程序的必需数据特征对数据进行分层存储设计,满足不同的应用场景。提供数据利用率与使用效率。将常用数据存储在高速设备上,而不太常用的数据存储在低速设备上。在宏观上,数据可以在不同的设备之间进行数据复制迁移,分层保存。数据加工处理对数据进行分析和加工。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。经过加工清洗后的数据根据不同的数据类型,选择不同数据存储方式,可以
9、存入HDF耿离线挖掘,或者存储到实时性高的MPF据库进行统计分析。数据分析挖掘大数据分析系统以机器学习、数据挖掘等作为核心技术,构建于大数据管理系统和云计算平台之上。其中,大数据管理系统提供数据的存储与查询功能,云计算平台提供分布式并行计算服务。通过分布式计算与统计分析服务器访问大数据系统,实现KPI 与报表统计分析服务。采用 SparkMLlib 做为数据挖掘和机器学习框架,MLlib 是 Spark 的标准机器学习框架,MLlib 相对于其他机器学习库包具有更加优异的性能或者更容易入门。MLlib 机器学习库具有完整的机器学习框架和各类别机器学习算法,满足各种场合的需求。 Mllib 随着
10、 Spark 版本一起发布和应用。本系统采用MLlib 构建在 Hadoop之上对大数据进行挖掘处理,实现故障诊断、故障预测、配件库存优化等深度挖掘。内存数据库内存数据库是将全部数据驻留内存的分析型数据库系统,采用内存计算技术,从根本上解决了数据仓库由于磁盘I/O 导致的性能瓶颈问题,具有性能高、成本低、灵活、可扩展等众多优良特性,尤其适合做为大数据的计算引擎、分析引擎使用。把热点数据加载到内存数据库中,提供交互式探查分析、智能查询分析等功能。交互式探查分析基于内存数据库快速查询,使用明细数据,免去清洗、聚合过程,更快速地分析和揭露数据中蕴含的问题, 直接由业务人员使用,免去提需求、澄清、确认
11、沟通环节,快速实现分析意图,提高了发现和解决问题的效率使用时可由全部数据快速过滤出关注的部分数据进行分析;关注数据的特征可进一步由明细数据刻画、佐证;可按需保存分析场景、导出明细数据付诸解决。优异的用户体验,以客户体验为中心设计,侧重易理解(业务视角,选择、过滤、分析)、易用(平铺、图形操作)、去除干扰(功能隐藏)、快速响应(内存计算)、增加趣味性(改分档数)。数据可视化应用提供通过实时查询、产品统计功能,不做个性化推送。语音智能分析大数据平台提供语言智能分析,通过录入语言,将语言转换为文本,并对文本进行分词和语义分析,提交到大数据平台完成产品产品及销售数据的查询、统计及分析的功能。文本、视频
12、、图片存储大数据平台增加文本、音视频、图片等非结构化数据的存储。大数据平台运维监控提供格力大数据平台管理、运维工具及说明,包括服务器和运维系统都正常运行,运维系统可以对集群所有物理机进行性能监控,包括但不限于以下指标:CPUS用率、内存使用率、硬盘利用率、网络流量、IO负载、系统负载均值、ETL监控、数据质量监控、等服务器性能指标进行监控。运维要考虑大数据平台的可扩展性,支持:1、 在线添加节点2、 服务扩展3、 组件的升级4、 异常处理:挂了的节点如何恢复,记录日志方便追踪大数据平台任务调度任务调度系统能够对各类任务进行配置、启动、跟踪。同时,应并具备任务联动能 力,即可以将多个任务通过流程
13、组装成一个联合任务,各任务之间存在相互制约关 系,任务调度管理能够根据各任务的执行状态、结果来自动的启动后续任务,任务 间允许并发及串行两种模式。要求各任务的配置应当为可视化的配置。对于任务启动至少包括定时启动和条件启动两种模式。同时允许管理员进行任务的 手动执行。任务执行可设定优先级,比如按销售 技术,质量售后(销售量大的销售量小 的 生产,检验来设定。ETL过程可视化ETL尽量满足可配置性及可视化操作,如果甲方购买了第三方ETL可视化工具如kettle、Dataflow、Syncsoft等工具,乙方应支持甲方做集成工作。培训工作从格力大数据平台未来的使用及运行来看,北京西塔提供的培训将达到
14、如下的目标:?完成知识的转移承建单位开发完成一个软件系统后,将通过培训工作实现知识的转移,不仅包括软 件系统的使用方法,同样还包括业务理念、系统运行维护方法、技术开发方法等满 足系统未来业务拓展需要的各项技能与方法。?实现全员的应用应用系统的建设目标即要建设一个全员参与使用的系统,因此培训的目标之一,也 是要使业务人员均可以熟练使用该系统,增强业务人员的知识储备,提高整个使用 应用系统的业务人员素质。?保障系统的安全运行对格力大数据平台的技术管理人员进行技术培训,使其能掌握有关软件产品及系统 的使用、维护、管理,达到能独立进行管理、故障处理、日常测试维护、个性化应 用开发等工作目的,以保障北京
15、西塔所提供的应用系统能够正常、安全地运行。通过以上培训使用户系统管理员能够独立完成平台的设置、管理、故障恢 复、应急处理等,能够进行日常的数据库备份及恢复操作、能够独立处理常见突发 事件及操作员提出的常见操作问题。建设方案详见格力大数据项目技术方案.docx。时间进度与里程碑格力工业大数据平台建设。项目工期要求:总工期10个月分3个阶段:里程碑阶段性成果与提交物时间(月)付款1.项目签约人员进场30%2.、基础平台搭建&业 务模型设计数据调研报告、 数据标准化文档 需求规格说明书 功能设计说明书220%3.业务需求开发ETL、业务模型开发、 大数据服务接口开发、 大数据标准可视化系统开
16、发、 MPP内存数据库、 交互式探查分析、 智能语音搜索330%4.大数据管理系统大数据运维监控系统 大数据任务管理系统 大数据安全管理系统210%5.项目终验产品配置说明应用系统部署架构说明 平台监控、维护说明310%费用支付以合同为准。需求变更过程变更依据1 .变更请求? 除特殊紧急情况,只处理书面变更请求。2 .变更标准?当工作说明书中建设内容所说明的工作项因某种原因(如实际业务变更、可 实现性变更等)发生增加、减少或变更时,认为变更发生。3 .变更申请样式详见需求变更申请表.docxo变更请求处理流程? 客户项目经理将书面变更请求提交项目经理? 项目经理与技术经理或软件架构师研究可行性
17、? 项目经理将研究结果与变更请求一同提交项目控制委员会审批?控制委员会将审批结果提交所有相关人? 若审批通过,项目经理将变更请求提交项目团队执行相应修改项目管理计划以便后续跟踪双方责任甲方:珠海格力电器股份有限公司乙方:北京西塔网络科技股份有限公司甲方责任自合同签定后,成立项目领导协调小组并委派高层经理参与项目委员会,协调解决实施过程中的各种问题;共同审核批准项目实施计划;共同进行项目实施过程中的重大事件的决策;共同根据项目过程中的进度、质量、技术、资源、风险等实行宏观监控;帮助协调项目组织中甲方相关方的工作关系自合同签订后,委派项目经理或协调人在项目的各个阶段,包括需求调研、系统开发、系统实
18、施、验收测试用 例制定、验收测试、合同收尾与上线后支持等,协调项目组织中甲方或 其它相关方的工作关系,包括相关的业务人员、技术人员等有责任根据双方确认的实施进度提供必要的工作环境和工作支持,及时 应乙方的要求向乙方提供实施过程中所需的各种资料和数据、配合乙方 人员的工作在项目的各个阶段乙方提交评审请求后,包括需求、设计、验收测试用例与验收报告,甲方有责任在 2个工作日内提供反馈确认在项目实施过程中,能及时版乙方的通知组织有关人员参与测试与培训工作。甲方需提供给乙方一个20人的办公场所,以及宿舍、出入证。甲方需要参与项目开发维护人员需要具备以下条件:开发人员:熟悉java或scala语言,具有一
19、定的软件开发、设计经验。运维人员:深入理解linux 系统,运维体系结构,精于容量规划、架构设 计、 性能优化;精通一门以上脚本语言(shellperlpython等);熟悉Hadoop大数据生态圈,包括 HDFS YARN Hive、HBase Spark等使用人员:有一定的计算机知识,能熟练使用SQL语言以及浏览器。乙方责任乙方承诺所提供的大数据相关软件具有自主知识产权,不侵犯任何第三者的 合法权益。负责甲方项目实施范围内的开发与实施工作委派项目经理根据项目进展及工作范围要求整合工作计划,并监督实施,控制进 度;协调项目组内人员的分工合作,资源分配; 向双方汇报项目状况,提出建议及改进措施; 负责用户需求汇总和分析;与用户进行有效的沟通协调负责需求
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科学复习2025年二级消防工程师考试试题及答案
- 高级会计对财务危机的应对考量试题及答案
- 企业安全生产培训标准化教材
- 掌握串联电路课件
- 建筑项目部员工招聘与选拔培训课件
- 幼儿园中班看电影流程图
- 对偶与算法教学课件解析
- 防水涂料施工工艺流程
- 2025年磁卡宽片项目建议书
- 高级审计师考试新颖思路试题及答案
- 客运驾驶人从业行为定期考核制度
- 【课件】高二下学期期中考试成绩分析家长会课件
- 2022年同等学力人员申请硕士学位日语水平统一考试真题
- DBJ51∕T 153-2020 四川省附着式脚手架安全技术标准
- 游泳池设备操作培训课件
- 城轨道交通人因事故分析及评价研究
- (完整版)羊水栓塞应急预案演练记录
- ZYWL-4000型履带式钻机
- (高清版)建筑防护栏杆技术标准JGJ_T 470-2019
- 脑梗死标准病历、病程记录、出院记录模板
- 50MPa路面抗折混凝土配合比
评论
0/150
提交评论