



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、参考品牌序仪器设备(需提供三号名称个品牌 )1大数据分析*平台用户需求书参考型号(与品数 单牌对应技术指标量 位的三个型号)1. 基础模块:( 1)系统采用 B/S 架构,即浏览器 / 服务器架构。可通过浏览器直接访问平台;屏蔽复杂的大数据分析底层技术,提供可视化数据分析用户界面。( 2)提供 8 个 Hadoop 生态链产品,包含 HDFS、Yarn 、 MapReduce、Hive 、Spark 组件;同时支持原生 Hadoop、 cloudera Hadoop 、 Hortonworks Hadoop ;基于分布式运算,可并行处理数据。(3)提供 4 个数据挖掘引擎,包含云分类引擎、云聚
2、类引擎、云关联规则引擎、云智能推荐引擎。*1 套( 4)支持用户权限区分,分为系统管理员和普通用户。( 5)支持作业调度、作业监控和作业管理等大数据作业任务管理;支持实时监控平台、子节点运行情况及指标 (CPU、内存、存储 ) 。( 6)支持工作流,包括工作流定义、流程属性配置、流程服务等;通过拖拽组件的形式,无需编程即可实现数据挖掘流程。(7)支持建模中间结果在线预览,过程数据可视化。(8)数据源管理支持 3 种数据来源数据上传数据, 分别为本地计算机、 关系型数据库及 HDFS,其中本地上传文件支持 CSV类型;支持数据分享功能,实现同平台用户数据功共用。( 9)支持工作流,包括工作流定义
3、、流程属性配置、流程服务等;通过拖拽组件的形式,无需编程即可实现数据挖掘流程。( 10)支持建模中间结果在线预览,过程数据可视化。( 11)支持定时任务设置功能,可创建任务组,定时周期支持秒、分、小时、日、周、月、年为单位;支持任务之间依赖的功能。( 12)支持后续的系统资源扩展,通过增加硬件资源可实现支持实验人数的增加。2. 算法单元 :分布式算法包括6 大类共 37 种算法,其中包括数据预处理13 种、统计分析6 种,分类算法7 种、聚类算法4 种、回归算法6 种、协同过滤1 种。分别为:(1)数据预处理包括:数据去重、记录选择、数据映射、反映射、数据拆分、SQL 探索、空值处理、数据标准
4、化、衍生变量、表合并、表堆叠、哑变量处理、数据离散化。(2)统计分析:行列数目统计、频数统计、全表统计、主成分分析、相关分析、卡方检验。(3 )分类算法包括:逻辑回归、决策树分类、梯度提升树分类 (GBDT) 、朴素贝叶斯、随机森林、 SVM支持向量机、多层感知机分类器。( 4)聚类算法包括: K-Means 算法、二分 k 均值算法,混合高斯模型 (GMM)、LDA。( 5)回归算法包括:线性回归、广义线性回归、决策树回归、梯度提升树回归、随机森林回归、保序回归。协同过滤算法包括: ALS (建模、评估、预测)。3. 接口扩展:( 1)接口模块基于标准 RESTful 设计,用户可以方便,快
5、捷的通过浏览器在线浏览、测试各个接口。( 2)数据源接口: 提供从分布式文件系统 HDFS以及大数据仓库 Hive 创建数据源接口调用标准。( 3)工程管理接口:提供新建,修改,删除,查询用户工程的接口调用标准。( 4)系统组件管理接口:提供新建,修改,删除,查询系统组件的接口调用标准。( 5)模型管理接口:提供查询,应用模型进行预测的接口调用标准。任务调度接口:提供数据源,工程的调度,包括依赖任务,定时任务等的接口调用标准。1. 基础模块 :( 1)包含 4 台 Linux 虚拟机(裸机)集群。( 2)配置 vim 文本编辑、 SSH远程登录、 NTP时间同步等软件2.Hadoop 增强模块
6、:(1)支持分布式文件系统HDFS,具有高度容错性,对硬件性能要求低;能提供高吞吐量的数据访问,适合大规模数据集上的应用;可以实现流的形式访问(streaming access)文件系统中的数据。( 2)支持分布式计算框架 MapReduce,可用于大规模数据集的并行运算;支持作业调度和集群资源管理;数据 / 代码互定位;系统优化;出错检测和恢复等。( 3)支持集群资源管理 YARN,可为上层应用提供统一的资源管理和调度,提高集群利用率,实现资源统一管理和数据共享;负责应用程序提交、与调度器协商资源以启动ApplicationMaster 、监控 ApplicationMaster运行状态并在
7、失败时重新启动它等。2大数据开发*(4)基础 Common平台,主要包括 FileSystem 、RPC和串行化库以及配置文件和日志操作等。*1 套实训平台(5)含有蓄水池抽样 MapReduce实现,包含配套工程源码、测试数据、相关文档等。(6)含有 KMeans算法 MapReduce实现,包含配套工程源码、测试数据、相关文档等。(7)含有 TF-IDF 算法 MapReduce实现,包含配套工程源码、测试数据、相关文档等。3. 基于 Hadoop 的 Hive 增强模块 :(1)作为数据仓库工具,可以将结构化的数据文件映射为一张数据库表。(2)提供简单的SQL查询功能,可直接执行相关Hi
8、veQL 脚本、进行数据导入导出等。( 3)支持大数据集的批处理作业。( 4)含有航空客户价值分析数据预处理模块案例,包含配套工程源码、测试数据、相关文档等。4. 基于 Hadoop 的 HBase增强模块 :(1)基于列的模式,适合于非结构化的数据存储,具有高可靠性、高性能、可伸缩等特点。(2)可直接执行相关 HBase Shell 交互式终端命令、进行数据导入导出、使用 MapReduce与HDFS进行交互。( 3)含有基于 HBase冠字号查询系统的模块案例,包含配套工程源码、测试数据、相关文档等。5. 基于 Hadoop 的 Pig 增强模块 :( 1)适合于使用 Hadoop 和 M
9、ap/Reduce 平台来查询大型半结构化数据集。( 2)允许对分布式数据集进行类似SQL 的查询。(3)可直接执行相关Pig Latin脚本、进行大数据分布式文件系统HDFS上的各种数据处理。(4)含有 Pig 数据处理综合案例,包含配套工程源码、测试数据、相关文档等。6. 基于Hadoop 的 Spark增强模块 :(1)包含大数据快速计算Spark 模块环境,如Spark Core 、 Spark SQL 、 Spark Mllib。(2)可直接启动Spark-shell进行操作,也可以和YARN进行整合,可直接操作HDFS,兼容性强。( 3)启用内存分布数据集,能够提供交互式查询,还可以优化迭代工作负载。( 4)含有基于 Spark MLlib 的电影推荐系统,包含配套工程源码、测试数据、相关文档等。7. 基于 Hadoop 的 Oozie 增强模块 :(1)包含 Hadoop、 Hive 、 HBase、 Pig 、Spark 等集成环境。(2)作为管理 Hadoop
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川电力职业技术学院《卫生法4》2023-2024学年第二学期期末试卷
- 商丘职业技术学院《计算机视觉基础》2023-2024学年第二学期期末试卷
- 山东体育学院《数字测图原理与方法A》2023-2024学年第二学期期末试卷
- 大连大学《临床中药学2》2023-2024学年第二学期期末试卷
- 湖北民族大学《特殊教育管理学》2023-2024学年第二学期期末试卷
- 宁波幼儿师范高等专科学校《机械制造工艺基础》2023-2024学年第二学期期末试卷
- 成都医学院《聚合物基复合材料》2023-2024学年第二学期期末试卷
- 重庆工贸职业技术学院《物理课程标准与教材研读》2023-2024学年第二学期期末试卷
- 四川艺术职业学院《教育改革》2023-2024学年第二学期期末试卷
- 天津理工大学中环信息学院《雷达原理与系统》2023-2024学年第二学期期末试卷
- 省级一网统管网格化社会治理指挥手册(含事项清单)
- 四川省成都市青羊区2024年四年级数学第二学期期末调研试题含解析
- 输液反应的应急预案及处理流程课件
- 水稻工厂化育秧技术规程
- 污水处理设备运行记录台账
- 2024年合肥市蜀山区中考二模英语试题含答案
- 抖音团购培训
- (古诗对比阅读)《登幽州台歌》与《登飞来峰》联读设计2022
- 影视特效与栏目包装智慧树知到期末考试答案2024年
- 如何有效地开展集体备课
- MOOC 工程经济学原理-东南大学 中国大学慕课答案
评论
0/150
提交评论