文化资源大数据共享平台建设方案_第1页
文化资源大数据共享平台建设方案_第2页
文化资源大数据共享平台建设方案_第3页
文化资源大数据共享平台建设方案_第4页
文化资源大数据共享平台建设方案_第5页
已阅读5页,还剩175页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精选文库 甘肃文化资源大数据共享平台甘肃文化资源大数据共享平台 建设方案建设方案 项 目 建 设 单 位 甘肃省社会科学院 编 制 单 位 甘肃图博网络科技股份有限公司 编 制 日 期 二 一八年十月 精选文库 目目 录录 第一章第一章项项目概述目概述 12 1 1项目概况 12 1 1 1项目名称 12 1 1 2建设单位 12 1 2建设背景 12 1 3项目建设目标及内容 14 1 3 1项目建设目标 14 1 3 2项目建设内容 15 1 3 3项目建设周期 15 1 4方案编制依据 16 1 4 1国家 省级相关政策文件 16 1 4 2信息系统相关行业标准 17 第二章第二章项项目需求分析目需求分析 18 2 1省社科院对平台的职能需求 18 2 2省社科院对平台的科研需求 18 2 3其他社会需求 19 2 4核心业务功能需求 19 2 4 1文化资源大数据 一智网 19 2 4 2文化资源大数据 一朵云 20 2 4 3文化资源大数据 一平台 20 精选文库 2 5全院综合信息管理 20 2 5 1数据量 业务量分析 21 2 5 2各类数据及文档 21 2 5 3数据总量预测 22 2 6非功能性需求分析 22 2 6 1软件性能需求分析 22 2 6 2大数据平台性能需求分析 23 2 6 3安全需求分析 23 2 6 4其他需求分析 24 第三章第三章总总体建体建设设方案方案 26 3 1建设思路 26 3 2建设原则和策略 26 3 3总体建设任务与分期建设内容 27 3 3 1总体建设任务与目标 27 3 3 2分期建设任务 28 3 3 2 1一期建设 2019 28 3 3 2 2二期建设 2020 28 3 3 2 3三期建设 2021 28 3 4总体设计方案 29 3 4 1总体架构 29 3 4 2云平台及物理网络架构 29 3 4 3安全体系架构 30 精选文库 3 4 4关键技术选型 31 3 4 4 1J2EE企业级开发架构 31 3 4 4 2云计算技术 33 3 4 4 3Hadoop大数据技术 35 3 4 4 4大数据挖掘技术 41 3 4 4 5B S技术 42 3 4 4 6ESB企业服务总线 48 3 4 4 7基于SOA的体系架构 49 3 4 4 8消息队列技术 51 3 4 4 9Web Services技术 53 3 4 4 10JSON技术 59 3 4 4 11XSLT服务 59 3 4 4 12XML技术 60 3 4 4 13ETL数据仓库技术 62 3 4 4 14统一安全机制 64 3 4 4 15数据预处理技术 65 3 4 4 16数据压缩技术 66 3 4 4 17数据存储技术 68 3 4 4 18关联规则挖掘技术 69 3 4 4 19知识计算技术 70 3 4 4 20OLTP技术 72 3 4 4 21OLAP技术 75 精选文库 第四章第四章标标准准规规范建范建设设方案方案 77 4 1数据标准规范 78 4 1 1元数据标准 78 4 1 2数据元标准 78 4 1 3数据管理使用标准 78 4 2接口标准规范 81 4 2 1数据交换接口 81 4 2 2数据认证接口 81 4 2 3数据访问接口 82 4 2 4数据服务接口 82 4 3运维标准规范 82 4 3 1运维服务体系标准 83 4 3 2运维服务体系内容标准 83 4 3 3运维服务运营流程标准 83 第五章第五章数据交数据交换换平台建平台建设设方案方案 83 5 1数据交换平台介绍 83 5 2数据交换平台功能 84 5 2 1数据获取 84 5 2 2数据校验 84 5 2 3数据分发 84 5 2 4数据存储访问 85 5 2 5数据交换 85 精选文库 5 3数据交换内容及格式 85 5 4信息交换方式 86 5 4 1基于Web Services服务的方式 86 5 4 2基于数据库接口的方式 86 5 4 3基于文件交换的方式 87 5 5企业服务总线 ESB 88 5 5 1平台特点 89 5 5 1 1基于SOA架构 90 5 5 1 2包含常用服务及功能 90 5 5 1 3提供服务交互功能 91 5 5 1 4支持现在主流接口服务 91 5 5 1 5支持稳定高效的数据集成和交换 91 5 5 1 6具备安全性和高可靠性功能 91 5 5 1 7针对用户的系统应用延伸具有良好的扩展性 92 5 5 2平台介绍 92 5 5 2 1软件实现模式 92 5 5 2 2总体架构 93 5 5 3系统构成 93 5 5 3 1服务注册管理 94 5 5 3 2集成服务管理平台 95 5 5 3 3数据服务平台 96 5 6数据交换安全 96 5 6 1数据存储安全 96 精选文库 5 6 2数据访问安全 97 5 6 3数据传输安全 97 第六章第六章大数据平台建大数据平台建设设方案方案 97 6 1大数据平台建设目标 97 6 2大数据平台构建原则 98 6 3大数据平台总体框架 99 6 4大数据平台总体功能 100 6 4 1数据采集与抓取 100 6 4 2数据分析与处理 102 6 4 3数据检索 103 6 4 4数据可视化 103 第七章第七章应应用系用系统统建建设设方案方案 105 7 1一智网 105 7 2社科文献数字化工程 105 7 2 1建设内容 105 7 2 2报刊期刊数字化实施方案 107 7 2 2 1报刊期刊的扫描 108 7 2 2 2OCR文字处理及质检 110 7 2 2 3双层pdf处理 113 7 2 2 4图像文本转换 114 7 2 2 5按模板导入 115 7 2 3实现功能 115 精选文库 7 2 3 1报刊在线阅读 115 7 2 3 2期刊在线阅读 118 7 3数据资源采集系统 121 7 4全院综合管理系统 121 7 4 1统一门户 122 7 4 2应用整合 123 7 4 3门户主要实现功能 125 7 4 3 1信息发布 125 7 4 3 2信息提示 125 7 4 3 3数据集中展示 125 7 4 3 4文档内容管理 126 7 4 3 5知识分享 127 7 4 3 6单点登录整合 127 7 4 3 7统一认证 128 7 4 3 8应用功能集成 129 7 4 3 9门户的个性化定制 132 7 4 4门户接入方式 134 第八章第八章项项目目实实施方案施方案 135 8 1实施步骤 135 8 1 1需求工程 135 8 1 2系统研发 135 8 1 2 1系统设计 135 精选文库 8 1 2 2系统实现 135 8 1 3系统测试 136 8 1 3 1测试原则 136 8 1 3 2测试内容 138 8 1 3 3测试执行 138 8 1 3 4问题解决 138 8 1 4系统上线 139 8 1 5用户培训 139 8 1 6试运行 139 8 1 7系统确认 140 8 1 7 1确认方法 140 8 1 7 2确认标准 140 8 1 8系统验收 141 8 1 8 1初验 141 8 1 8 2终验 142 8 2培训方案 143 8 2 1培训策略 143 8 2 2培训师资 144 8 2 3培训方式 145 8 2 4培训对象 145 8 2 5培训环境 146 8 2 6培训内容 147 8 3技术支持及服务 150 精选文库 8 3 1售后技术服务保障体系概述 151 8 3 2热线服务 152 8 3 3服务热线 153 8 3 4服务内容 153 8 3 5技术支持 156 8 3 6客户跟踪 157 8 3 7项目实施阶段的客户跟踪 158 8 3 8项目验收后的客户跟踪 159 8 3 9驻场服务与应急服务 160 8 3 10保修期服务 160 8 3 11保修期后服务 161 8 3 12保密承诺 162 8 3 13项目承诺 162 8 3 14售后服务承诺 164 第九章第九章项项目目风险风险及管控及管控 165 9 1实施范围和项目管理的风险 166 9 1 1显著改变项目的实施范围 166 9 1 2业务需求不能体现业务本质 166 9 1 3文档审阅和签署不及时 167 9 1 4关键任务时间分配不合理 168 9 2项目成员的风险 168 9 2 1双方项目组人员的频繁更换 168 精选文库 9 3关于硬件 网络和软件的风险 169 9 3 1项目开始时硬件和网络不到位 169 9 3 2系统软件产品存在缺陷 Bug 169 第十章第十章项项目效益与目效益与评评价指价指标标分析分析 170 1 1经济效益分析 170 1 2社会效益分析 171 第十一章第十一章投投资资概算概算 172 精选文库 第一章第一章 项目概述项目概述 1 1项目概况项目概况 1 1 1项目名称项目名称 甘肃文化资源大数据共享平台建设项目 1 1 2建设单位建设单位 甘肃省社会科学院 1 2建设背景建设背景 党的十九大以来 习近平总书记把发展哲学社会科学摆在 突出重要位置 多次就哲学社会科学工作发表重要讲话 做出 了一系列重大决策部署 为繁荣发展哲学社会科学指明前进方 向 中国特色哲学社会科学在理论和实践上都迈出了坚实步伐 面向新时代 党的十九大报告提出了 深化马克思主义理论 研究和建设 加快构建中国特色哲学社会科学 加强中国特色 新型智库建设 的要求 广大哲学社会科学工作者要按照立足 中国 借鉴国外 挖掘历史 把握当代 关怀人类 面向未来 的思路 守正笃实 砥砺前行 为新时代贡献中国特色哲学社 会科学的独特力量 习近平总书记在谈到如何繁荣发展中国特 色哲学社会科学时 要求我们善于 运用互联网和大数据技术运用互联网和大数据技术 精选文库 加强哲学社会科学图书文献 网络 数据库等基础设施和信 加强哲学社会科学图书文献 网络 数据库等基础设施和信 息化建设息化建设 这为信息化时代的人文社会科学研究的方式变革 与理论创新指出了正确的方向 大数据正在成为当前中国社会 快速信息化的最重要表征之一 应当深刻认识大数据及其对人 文社会科学研究所提供的机会与挑战 自觉促进人文社会科学 研究的变革与创新 甘肃省政府办公厅日前印发 甘肃省数据信息产业发展专 项行动计划 以下简称 计划 计划 指出 我省将立足 于服务 一带一路 建设 实施丝绸之路信息港建设工程 到201 9年 初步形成丝绸之路信息港基本框架 中新南向通道信息支 撑体系基本建成 到2020年 丝绸之路信息港初步建成 到202 5年 在甘肃形成 一带一路 数字经济高地 丝绸之路信息港成 为服务和支撑中西亚和中东欧及蒙古的通信枢纽 成为区域信 息汇聚中心和大数据服务输出地的重要载体 把甘肃建成网络 强省 数字经济大省 甘肃省社会科学院是甘肃省委 省政府直属的哲学社会科 学研究机构和综合性智库 前身为甘肃省哲学社会科学研究所 近年来 按照习近平总书记在2013年4月提出的 建设中国特 色新型智库 要求 致力于将我院打造成为陇原最具国内影响力 的 特色智库 高端智库 数字智库 聚焦大经济 大文化 大管理3大主业板块 打造9个子智库 建设7大平台 提升综合 保障 精选文库 目前甘肃省社会科学院主要职能是以学术著作 科学论文 调查研究报告 资料翻译和文献整理等形式向社会各界提供 科研产品等 目前拥有五大专题数据库 甘肃省社会科学院专家 及成果数据库 甘肃省扶贫开发与全面建成小康数据库 甘肃 省云平台 甘肃省丝绸之路经济带黄金段建设数据库 甘肃省 生态文明建设与国家级生态安全屏障综合实验区数据库 但现 在有的数据间相互验证性薄弱 数据孤岛 数据丰富程度不够 数据规范性不够等诸多问题 上述问题严重影响了数据质量 使得数据的运用仅仅停留在决策层面的初级判断 缺乏深入研究 的数据基础 为解决上述数据问题 利用大数据时代无所不在的网络及 其他数据佐证支持 使得甘肃省社会科学院能够真正运用大数 据实时挖掘技术 利用各种新兴算法对各专业 各部门数据进 行深度挖掘 并实时对数据进行分析 使得这些数据形成有效 数据结果 从而丰富和发展马克思列宁主义 毛泽东思想的基 本理论和邓小平建设有中国特色的社会主义理论 为甘肃丝绸 之路信息港建设提供理论依据及政策咨询 为社会发展和民主 法制建设提供理论指导和实施方案 推动社会主义精神文明建 设 研究和吸收世界各国的优秀科学文化 推动学科建设 为 省委省政府提供有力决策支持依据 精选文库 1 3项目建设目标及内容项目建设目标及内容 1 3 1项目建设目标项目建设目标 甘肃文化资源大数据共享平台的建设目标是 将云计算 互联网技术 大数据技术 现代统计分析技术充分融合 集数 据采集 加工处理 分类计算 分析预警 报告展示 管理服 务 数据共享等功能为一体 实现院内业务优化整合 专业数 据管理有效融通 数据资源全面开放共享 全面建成以 一网 一云一平台 为核心的甘肃文化资源大数据共享平台 打造数 据和行业标准 立足甘肃 服务全国 1 3 2项目建设内容项目建设内容 文化资源大数据共享平台围绕 一网一云一平台 为中轴 依托并利用甘肃政务云平台与院 内现有的硬件资源 实施网络资源 计算资源 存储资源 安 全资源 应用支撑的集约建设 实现各类专题数据库 自有馆 藏资源 研究成果和课题 全国优质期刊杂志论文等数据和资 源的汇聚共享 以数据采集 加工处理 分类计算 分析预警 报告展示 管理服务 数据共享等功能为一体 实现院内业 务优化整合 专业数据管理有效融通 数据资源全面开放共享 精选文库 1 3 3项目建设周期项目建设周期 项目按照总体设计 分步实施原则 进行三年的规划设计 与项目实施 第一阶段 2019年 完成项目的需求调研 分析设计 整合和利用甘肃政务云平台 建成文化资源大数据 一朵云 第二阶段 2020年 建成文化资源大数据 一智网 和 一平台 整合 融通 接入 数字化各个原有院内专题库 文档文献 期刊论文 第三方档案库和数据资源 第三阶段 2021年 持续完善文化大数据共享平台各个 功能 对平台上的数据进行充分利用 实现数据的情报采集 知识加工 资源共享 数据编排 数据可视化的一体化大数据 平台 1 4方案编制依据方案编制依据 1 4 1国家 省级相关政策文件国家 省级相关政策文件 国务院关于积极推进 互联网 行动的指导意见 国发 2015 40号 促进大数据发展行动纲要 国发 2015 50号 关于运用大数据加强对市场主体服务和监管的若干意 见 国办发 2015 51号 精选文库 国务院关于实施西部大开发若干政策措施的通知 国发 2000 33号 文化部 一带一路 文化发展行动计划 2016 2020年 文外发 2016 40号 推动共建丝绸之路经济带和21世纪海上丝绸之路的愿 景与行动 国家发展改革委 外交部 商务部 2015年3月 甘肃省深入推进 互联网 行动实施方案 甘政发 2015 97号 关于加强中国特色新型智库建设的意见 甘肃省数据信息产业发展专项行动计划 1 4 2信息系统相关行业标准信息系统相关行业标准 计算机信息系统安全保护等级划分准则 GB17859 1999 信息系统安全等级保护基本要求 GB T22239 2008 信息系统安全保护等级定级指南 GB T22240 2008 信息系统安全等级保护实施指南 信安字 2007 10号 信息系统通用安全技术要求 GB T20271 2006 精选文库 信息系统等级保护安全设计技术要求 信安秘字 200 9 059号 信息系统安全管理要求 GB T20269 2006 信息系统安全工程管理要求 GB T20282 2006 信息系统物理安全技术要求 GB T21052 2007 网络基础安全技术要求 GB T20270 2006 信息系统安全等级保护体系框架 GA T708 2007 信息系统安全等级保护基本模型 GA T709 2007 信息系统安全等级保护基本配臵 GA T710 2007 信息系统安全等级保护测评要求 报批稿 信息系统安全等级保护测评过程指南 报批稿 信息系统安全管理测评 GA T713 2007 第二章第二章项目需求分析项目需求分析 2 1省社科院对平台的职能需求省社科院对平台的职能需求 甘肃省社会科学院主要职能是以学术著作 科学论文 调 查研究报告 资料翻译和文献整理等形式向社会各界提供科研 产品等 目前拥有五大专题数据库 但出现了数据标准规范不 统一 现有数据间相互验证性薄弱 数据孤岛 数据丰富程度 不够 数据扩展性和数据可视化不足等问题 这些问题影响了 数据质量和专题库的使用效率 使得数据的应用仅仅停留在决 精选文库 策层面的初级判断 缺乏深入研究的数据基础 亟需要将各个 专题数据库以及院内现有的各类著作 论文期刊 调研报告 自有馆藏资源 成果库等整合到统一数据平台上 形成省情数 据库资源 充分体现 为科研服务 为科研铺路 的服务职能 激发全院的综合研究活力和智慧服务能力 同时 依托大数据平台 将全面展现甘肃省的各个阶段的 文化资源和科研成果 牢牢掌握省社科院在全省经济与社会发 展大浪潮下的社会科学领域的工作领导权 管理权 话语权 承担起省委省政府的最高效的社会科学研究的 智囊团 的职 责 2 2省社科院对平台的科研需求省社科院对平台的科研需求 有限的馆藏能力 服务能力与省院科研人员广泛的知识需 求之间的矛盾越来越突出 已经严重影响到今后的科学研究工 作的展开 大数据的海量信息在时空上具有传统抽样数据无法 比拟的广度和深度 其全样本的性质能够在最大程度上避免科 研工作者经验有限性对研究过程客观性的负面影响 研究者不 仅能通过对大量数据实时 动态的监测与分析来解决社会问题 更能通过这些海量数据来思考 设计和实施研究计划 可以 通过数据的相关性测量揭示事物的本来面目 发现规律和展示 规律 提炼出重要的理论 以大规模数据分析为特征的研究方 法的广泛应用 使社会科学的科学性显著提升 学科融合趋势 精选文库 进一步增强 2 3其他社会需求其他社会需求 将社科院的馆藏资源 研究成果共享出来 服务于相关科 研机构 高校与学者 政府及企业等 甘肃省社会科学院作为全省社会科学研究的最高殿堂 省 委省政府的思想库 智囊团 为政府和社会提供决策咨询服务 为全省经济社会发展提供智力服务 而以往传统的以课题研 究 学术交流报告活动 论文撰写等形式的研究成果往往存在 利用率较低 历史资料查找不方便 无法实现数据共享和资源 开放 2 4核心业务功能需求核心业务功能需求 2 4 1文化资源大数据文化资源大数据 一智网一智网 建设甘肃文化资源大数据 一智网 实现各类专题数据 库 自有馆藏资源 研究成果和课题 全国优质期刊杂志论文 等数据和资源的汇聚共享 着眼全省社会科学研究工作 开展 社科类数据信息资源规划 编制全省社会科学信息资源目录 设计健全数据信息资源的利用与获取的途径 为决策层提供情 报先决 政策咨询和宏观预测服务 在科学决策 制度设计 国家软实力等方面充分发挥专业化 思想库的作用 形成聚集 民智 万众创新 科学引领咨询与决策的局面 精选文库 2 4 2文化资源大数据文化资源大数据 一朵云一朵云 充分利用甘肃政务云平台与院内现有的硬件资源 在不进 行新增基础设施建设的前提下 高效融合形成甘肃文化资源大 数据云平台 实施网络资源 计算资源 存储资源 安全资源 应用支撑的集约建设 形成统一支撑服务 监控运维 安全 运行的文化资源云平台 2 4 3文化资源大数据文化资源大数据 一平台一平台 建设甘肃文化资源大数据 一平台 采用SOA 微服务技 术理念将各种基础中间件以及第三方工具软件 通过数据交换 平台进行集成 提供包括用户与权限管理 元数据管理 数据 交换 数据 ETL 处理 数据采集 数据加工等各类基础技术支撑为载体的 数 据中台 2 5全院综合信息管理全院综合信息管理 省社科院目前已建有协同办公系统 人事管理系统 财务 管理系统 专题数据库 门户网站等等七个应用系统 各个系 统独立使用 系统间无法实现数据提取 信息共享和统一管理 形成了一个个应用孤岛 日常监管维护困难 系统的后期扩 展和升级都出现了瓶颈 通过ESB以及Portal技术 将全院各个应用系统进行数据共 精选文库 享 信息互通 并通过内部门户将各个系统的关键信息 待办 列表 共享数据等进行集中展现 打造省社科院统一的综合管 理应用平台 2 5 1数据量 业务量分析数据量 业务量分析 2 5 2各类数据及文档各类数据及文档 数据类型数据类型数据来源数据来源数据结构数据结构 蓝皮书院内自有纸质 电子文档 陇上文存院内自有纸质 电子文档 规划方案院内自有纸质 电子文档 系列要报院内自有纸质 电子文档 四报一刊国家纸质 电子文档 核心期刊论文国家纸质 电子文档 第三方数据知网 万方 第三方 来源 电子文档 互联网数据互联网结构化数据 2 5 3数据总量预测数据总量预测 精选文库 2 6非功能性需求分析非功能性需求分析 2 6 1软件性能需求分析软件性能需求分析 1 系统访问量需支持同时在线用户数1000人 支持150 最大用户数的15 个并发用户的系统响应时间小于3秒性能 2 平台连接时间 指排除网络 硬件及其他相关因素后 客户端与网站WEB服务器连接所需要的时间 在100ms以内 3 平台响应时间 指从发送HTTP HTTPS请求给WEB服务 器 到WEB服务器发送过来第一个字节的间隔时间 即网站处 理访问请求的时间差 在100ms以内 4 平台下载响应时间 指从WEB服务器接收到第一个响 应字节所需要的时间 排除网络 硬件等其他相关因素 在1s 以内 5 平台二级页面及正文页支持响应速度在200ms以内 6 平台信息内容发布高效便捷 支持从内容发布到展现不 能超过20s 排除网络 硬件 大文件等其他相关因素 7 平台支持对外服务连续运行30天 平均年故障时间 3 天 平均故障响应时间 20分钟 2 6 2大数据平台性能需求分析大数据平台性能需求分析 更高可靠性 稳定性的 可管可控 集群 更完整地实现与现有统计数据架构融合 精选文库 强大的内存分布式计算能力 更高性能 更灵活的各类数据采集支持 实现更快速 更灵活的业务开发 扩展 为未来提供更好的扩展 扩容支持 2 6 3安全需求分析安全需求分析 安全需求可以从物理层 网络层 主机层 应用层 数据 安全 安全管理等方面加以分析 按照三级等保的要求 建设 大数据管理平台 保障系统设计 实现符合国家安全要求 1 在物理安全方面 要根据实际情况建立相应的安全防护 机制 2 在网络安全方面 要解决信息网络的安全域划分和逻辑 隔离 实现纵深的防御体系 对各个安全域 要防范黑客入侵 身份冒充 非法访问 要解决信息在安全域间传输时的完整 性 可用性 保密性问题 要解决移动接入用户身份鉴别和安 全传输等问题 3 在主机安全方面 要解决操作系统安全 数据库安全 病毒及恶意代码防范等问题 4 从应用安全需求进行分析 要实现全网统一的身份鉴别 和授权访问机制 5 在数据安全方面进行分析 要解决重要终端用户敏感信 息和数据的完整性 可用性 保密性问题 数据的访问控制等 精选文库 问题 6 在安全管理方面 要考虑政策 法规 制度 管理权限 级别划分 安全域划分 责任认定 安全培训等 制定切实 有效的管理制度和运行维护机制 建设支撑安全管理的技术支 撑体系 2 6 4其他需求分析其他需求分析 1 开放式架构需求 构建开放式平台系统框架 在满足基本要求的基础上 支 撑融合新技术 加载新应用 扩展新功能 随技术发展变化持 续升级 实现平滑扩充和灵活扩展 2 开放性和标准性 以主流成熟技术为基础 采用符合国际标准 国家标准 工业标准规范要求的软件 建设与已建成系统对接的标准接口 规范协议 3 稳定性和健壮性 由于系统的特殊性 因此要求系统的软件必须要有良好的 异常处理能力 对各种异常数据和事件有恰当的处理 软件必 须具备可靠的资源 如内存 回收管理能力 软件的设计必须确保无数据丢失 在遇到大量数据涌入的 时候应能应付而不至于失去继续运行的能力 任意软件模块在 等待消息回应时若由于通信对方的故障而无法回应的情况下不 精选文库 能因此而挂起 软件某一部分的错误不应影响整体的继续运作 4 可扩展性和相对独立性 系统的软件架构应能支持新功能的增加 新功能的增加包 括两种情况 一是某一功能模块增加新的功能 二是系统加入 新的模块 新功能的增加不应导致系统其他部分甚至系统架构 较大的修改 多个软件模块应能根据需要运行于同一或不同的服务器上 模块的调用者不需要知道被调用模块所运行的服务器的物理 位置 管理系统设计的一个重要考量是既要达到各主要功能的 有机结合 又要保存各功能模块的相对独立性 以便于将来的 修改和扩展 5 易用性和界面友好性 整个项目已BS架构为主 支持常见的操作系统和浏览器 方便用户快速使用 在界面风格上 保持与互联网主要平台的操作模式和用户体验 一直 界面风格采用扁平化设计 精选文库 第三章第三章 总体建设方案总体建设方案 3 1建设思路建设思路 深入贯彻党的十九大精神 高举中国特色社会主义伟大旗 帜 坚持以马克思列宁主义 毛泽东思想 邓小平理论 三 个代表 重要思想 科学发展观为指导 深入贯彻习近平总书 记系列重要讲话精神 以服务党和政府决策为宗旨 以政策研 究咨询为主攻方向 以完善组织形式和管理方式为重点 以改 革创新为动力 运用互联网和大数据技术 加强哲学社会科学 图书文献 网络 数据库等基础设施和信息化建设 努力建设 面向现代化 面向世界 面向未来的中国特色新型社科信息体 系 更好地服务党和国家工作大局 为实现中华民族伟大复兴 的中国梦提供智力支撑 3 2建设原则和策略建设原则和策略 坚持党的领导 把握正确导向 坚持党管智库 坚持中国特色 社会主义方向 遵守国家宪法法律法规 始终以维护国家利益 和人民利益为根本出发点 立足我国国情 充分体现中国特色 中国风格 中国气派 坚持围绕大局 服务中心工作 紧紧围绕党和政府决策急需的 精选文库 重大课题 围绕全面建成小康社会 全面深化改革 全面推进 依法治国的重大任务 开展前瞻性 针对性 储备性政策研究 提出专业化 建设性 切实管用的政策建议 着力提高综合 研判和战略谋划能力 坚持科学精神 鼓励大胆探索 坚持求真务实 理论联系实际 强化问题意识 积极建言献策 提倡不同学术观点 不同政 策建议的切磋争鸣 平等讨论 创造有利于智库发挥作用 积 极健康向上的良好环境 坚持改革创新 规范有序发展 按照公益服务导向和非营利机 构属性的要求 积极推进不同类型 不同性质智库分类改革 科学界定各类智库的功能定位 加强顶层设计 统筹协调和分 类指导 突出优势和特色 调整优化智库布局 促进各类智库 有序发展 3 3总体建设任务与分期建设内容总体建设任务与分期建设内容 3 3 1总体建设任务与目标总体建设任务与目标 文化资源大数据共享平台围绕 一网一云一平台 为中轴 依托并利用甘肃政务云平台与院 内现有的硬件资源 实施网络资源 计算资源 存储资源 安 全资源 应用支撑的集约建设 实现各类专题数据库 自有馆 精选文库 藏资源 研究成果和课题 全国优质期刊杂志论文等数据和资 源的汇聚共享 以数据采集 加工处理 分类计算 分析预警 报告展示 管理服务 数据共享等功能为一体 实现院内业 务优化整合 专业数据管理有效融通 数据资源全面开放共享 3 3 2分期建设任务分期建设任务 3 3 2 1一期建设 一期建设 2019 完成项目的需求调研 分析设计 整合和利用甘肃政务云 平台 建成文化资源大数据 一朵云 建设部分 一平台 及 一智网 内容 完成院内院外第三方等相关数据资源目录 的调研 分析 整理工作 3 3 2 2二期建设 二期建设 2020 建设并完成文化资源大数据 一智网 和 一平台 整 合 融通 接入 数字化各个原有院内专题库 文档文献 期 刊论文 第三方档案库和数据资源 3 3 2 3三期建设 三期建设 2021 持续完善文化大数据共享平台各个功能 对平台上的数据 进行充分利用 实现数据的情报采集 知识加工 资源共享 数据编排 数据可视化的一体化大数据平台 精选文库 3 4总体设计方案总体设计方案 3 4 1总体架构总体架构 3 4 2云平台及物理网络架构云平台及物理网络架构 基于甘肃政务云平台资源 搭建甘肃文化资源大数据共享 平台 对外 对内提供统一的应用及数据服务 同时考虑到省 社科院现有硬件资源充裕 可充分利用硬件资源将整个平台的 核心数据部分存放在院内 有利于数据的安全性和独享性 精选文库 3 4 3安全体系架构安全体系架构 本次项目总体安全架构主要包含三个体系 信息系统安全 管理体系 信息系统安全技术体系 信息系统安全运维体系 具体内容描述如下 信息系统安全管理体系 主要包括信息系统安全管理建设 系统建设管理 安全组织机构和人员安全管理 对系统建设 管理流程进行定义和管控 以及信息相关安全制度和人员安全 管理制度 信息系统安全技术体系 包括安全计算环境 安全区域边 界安全通信网络三部分内容 信息系统安全运维体系 包括安全计算环境 日常运维管 理 PDCA模型等 精选文库 3 4 4关键技术选型关键技术选型 3 4 4 1J2EE企业级开发架构企业级开发架构 本次项目采取集中统一部署方式 采用B S结构技术的系统 实现 基于WEB方式的客户端实现 采用J2EE技术 体现其开 放性 跨平台 扩展性好等成熟技术 同时采用国际标准的J2E E三层架构 使应用表现层和运用逻辑层 数据存储层的分离 从架构上保证了系统的灵活 高效 并能完成负载平衡 项目 建设充分考虑到未来系统的扩展性 系统将支持可拆可合的分 布式部署模式 1 基于J2EE标准的软件体系架构 J2EE是符合OMG标准的纯面向对象的技术体系结构 J2EE 已成为一个标准的企业应用服务体系结构 它把企业的整体应 用服务分成四层标准的逻辑结构 数据层 业务逻辑层 应用 逻辑层和表现层 并以此为基础扩展可以形成N层体系结构 基于组件技术的企业应用服务可以灵活地配置和组装 因而获 得了较好的稳定性 高可靠性和可扩展性 不受平台的束缚 方便地移植和重用 合理集成以J2EE为标准的软件产品及采用 中间件技术的组件或构件产品建立面向服务的SOA架构体系 可以得到较好的稳定性 高可靠性和可扩充性 方便移植和重 用 2 面向服务的SOA体系架构 精选文库 面向服务的体系结构 service oriented architecture SOA 是一个组件模型 它将应用程序的不同功 能单元 称为服务 通过这些服务之间定义良好的接口和契约 联系起来 接口采用中立的方式进行定义 独立于实现服务的 硬件平台 操作系统和编程语言 这使得构建在各种这样的系 统中的服务可以以一种统一和通用的方式进行交互 通过SOA 架构 可以根据需求通过网络对松散耦合的粗粒度应用组件进 行分布式部署 组合和使用 3 面向对象的开发设计方法 面向对象的开发设计方法顺应了人类思维习惯 让软件开 发人员在解决空间中直接模拟问题空间中的对象及行为 通过 模块化与封装 改善了软件结构 提高了软件的灵活性 并且 它是对软件开发过程所有阶段综合考虑而得到的 从生存期的 一个阶段到下一个阶段所使用的方法与技术具有高度的连续性 并将面向对象分析 OOA 面向对象设计 OOD 和面向 对象程序设计 OOP 集成在一起 它的突出优点在于改进了 软件生存期各个阶段之间的界面 以类作为软件分析 设计和 实现的基本单元 降低了系统部件之间的耦合度并使得软件部 件的复用成为可能 从而提高了生产质量和效率 同时最大程 度的支持了软件重用及大型软件的增量开发 4 高效安全的三层架构体系 本项目将使用业界成熟的B A S架构 同时系统应用也将使 精选文库 用MVC三层架构 即持久层 展示层和业务逻辑层 分层的优 势在于 上层的逻辑不需要了解所有的底层逻辑 它只需要了 解和它邻接的那一层的细节 通过严格的区分层次 大大降低 了层间的耦合度 某一层次的下级层可以有不同的实现 例如 同样的编程语言可以在不同的操作系统和不同的机器中运行 同一个层次可以支持不同的上级层 通过接口的标准化 可以 很容易的用新的实现来替换原有层次的实现 每个层次实现特 定的功能 利于各层逻辑的复用 逻辑清楚 降低系统复杂度 利于标准化 3 4 4 2云计算技术云计算技术 云计算代表着一种新兴的信息技术 将是我国走向信息社 会的一个必经阶段 它适应了用户的需求和软件即服务的发展 趋势 体现了信息系统聚集的趋势 集中服务模式 是一种能够提供动态资源池 虚拟化和高可用 性的新一代计算模式 它可以快速调动系统中所有可以利用的 资源 组成一个虚拟化环境 提供高性能运算服务 不仅大大 地提高了信息处理能力 而且彻底改变了计算与存储的方式 极大的降低了成本 提高了效率 其相关技术要点如下 1 自动化技术 自动提供基础资源 用户需要则提供 不需要则立即自动 收回 用户可以根据需要 动态增加或减少服务资源 不用考 精选文库 虑资源来源或者资源是否够用 2 虚拟化技术 包括网络虚拟化 服务器虚拟化 存储虚拟化等 实现了 对底层物理资源的抽象 使其成为一个个可以被灵活生成 调 度 管理的基础资源单位 3 读写分离技术 采用读写分离技术 以适应海量用户的不同操作 当访问 峰值时 不会因用户访问读写不同操作而导致用户数据丢失 4 全局负载均衡技术 由于信息系统的聚集 使用了云计算技术的平台将面临大 量用户的访问 使用全局负载均衡技术可根据不同区域因用户 数量的多少对网络资源的进行自动调节和分配 不因某个区域 访问用户数量多而造成用户使用的障碍 5 高带宽 高计算能力 使用了云计算技术的平台将面向大量用户提供服务 数据 量 包括图片 视频等 将日益增多乃至海量 必须要有高带 宽与高计算能力作为硬件保障 6 资源统一管理 高效利用 采用虚拟化技术 分布式计算和存储等技术 实现资源的 池化管理 支持对虚拟机和物理机的管理 同时各种资源对外 提供管理接口 采用虚拟化和业务安全机制 支持多个虚拟机 共享物理资源 而互不影响 提高了服务器资源的利用率 通 精选文库 过对业务忙闲交错和峰谷交错的特点分析 将空闲或处于谷底 的业务进行迁移 从而清理出一些机器将其休眠或关闭 达到 节能的效果 故障发生时采用虚拟化的数据漂移技术 实现数 据或虚拟磁盘瞬间漂移 保证服务器的工作连续性和高可用性 3 4 4 3Hadoop大数据技术大数据技术 Hadoop是一个由Apache基金会所开发的分布式系统基础架 构 充分利用集群的威力进行高速运算和存储 Hadoop实现了一个分布式文件系统 Hadoop Distributed File System 简称HDFS HDFS有高容错性的特点 并且设计用 来部署在低廉的 low cost 硬件上 而且它提供高吞吐量 high throughput 来访问应用程序的数据 适合那些有着超大数据集 large data set 的应用程序 HDFS放宽了 relax POSIX的要求 可以以 流的形式访问 streaming access 文件系统中的数据 Hadoop的框架最核心的设计就是 HDFS和MapReduce H DFS为海量的数据提供了存储 则MapReduce为海量的数据提供 了计算 1 优点 精选文库 Hadoop是一个能够对大量数据进行分布式处理的软件框架 Hadoop以一种可靠 高效 可伸缩的方式进行数据处理 Hadoop是可靠的 因为它假设计算元素和存储会失败 因 此它维护多个工作数据副本 确保能够针对失败的节点重新分 布处理 Hadoop是高效的 因为它以并行的方式工作 通过并行处 理加快处理速度 Hadoop还是可伸缩的 能够处理PB级数据 此外 Hadoop依赖于社区服务 因此它的成本比较低 任 何人都可以使用 Hadoop是一个能够让用户轻松架构和使用的分布式计算平 台 用户可以轻松地在Hadoop上开发和运行处理海量数据的应 用程序 它主要有以下几个优点 1 高可靠性 Hadoop按位存储和处理数据的能力值得人们信赖 2 高扩展性 Hadoop是在可用的计算机集簇间分配数据并完成计算任务 的 这些集簇可以方便地扩展到数以千计的节点中 3 高效性 Hadoop能够在节点之间动态地移动数据 并保证各个节点 的动态平衡 因此处理速度非常快 4 高容错性 精选文库 Hadoop能够自动保存数据的多个副本 并且能够自动将失 败的任务重新分配 5 低成本 与一体机 商用数据仓库以及QlikView Yonghong Z Suite等数据集市相比 Hadoop是开源的 项目的软件成本因此 会大大降低 Hadoop带有用Java语言编写的框架 因此运行在Linux生产 平台上是非常理想的 2 Hadoop大数据处理的意义 Hadoop得以在大数据处理应用中广泛应用得益于其自身在 数据提取 变形和加载 ETL 方面上的天然优势 Hadoop的分布 式架构 将大数据处理引擎尽可能的靠近存储 对例如像ETL 这样的批处理操作相对合适 因为类似这样操作的批处理结果 可以直接走向存储 Hadoop的MapReduce功能实现了将单个任 务打碎 并将碎片任务 Map 发送到多个节点上 之后再以单个 数据集的形式加载 Reduce 到数据仓库里 3 核心架构 Hadoop由许多元素构成 其最底部是Hadoop Distributed File System HDFS 它存储Hadoop集群中所有存储节点上的文 件 HDFS 对于本文 的上一层是MapReduce引擎 该引擎由 JobTrackers和TaskTrackers组成 通过对Hadoop分布式计算平台 精选文库 最核心的分布式文件系统HDFS MapReduce处理过程 以及数 据仓库工具Hive和分布式数据库Hbase的介绍 基本涵盖了Hado op分布式平台的所有技术核心 1 HDFS 对外部客户机而言 HDFS就像一个传统的分级文件系统 可以创建 删除 移动或重命名文件等等 但是HDFS的架构是 基于一组特定的节点构建的 这是由它自身的特点决定的 这 些节点包括NameNode 仅一个 它在HDFS内部提供元数据 服务 DataNode 它为HDFS提供存储块 存储在HDFS中的文件被分成块 然后将这些块复制到多个 计算机中 DataNode 这与传统的RAID架构大不相同 块的 大小 通常为64MB 和复制的块数量在创建文件时由客户机决 定 NameNode可以控制所有文件操作 HDFS内部的所有通信 都基于标准的TCP IP协议 2 MapReduce 最简单的MapReduce应用程序至少包含3个部分 一个Map 函数 一个Reduce函数和一个main函数 main函数将作业控制 和文件输入 输出结合起来 在这点上 Hadoop提供了大量的接 口和抽象类 从而为Hadoop应用程序开发人员提供许多工具 可用于调试和性能度量等 MapReduce本身就是用于并行处理大数据集的软件框架 MapReduce的根源是函数性编程中的map和reduce函数 它由两 精选文库 个可能包含有许多实例 许多Map和Reduce 的操作组成 Map 函数接受一组数据并将其转换为一个 键 值对 列表 输入域中的每个元素对应一个 键 值对 Reduce函数接受Map函数生成的列表 然后根据它们的 键 为每个键生成一个 键 值对 缩小 键 值对 列表 4 文件操作 HDFS并不是一个万能的文件系统 它的主要目的是支持以 流的形式访问写入的大型文件 如果客户机想将文件写到HDFS上 首先需要将该文件缓存 到本地的临时存储 如果缓存的数据大于所需的HDFS块大小 创建文件的请求将发送给NameNode NameNode将以DataNode 标识和目标块响应客户机 同时也通知将要保存文件块副本的DataNode 当客户机开 始将临时文件发送给第一个DataNode时 将立即通过管道方式 将块内容转发给副本DataNode 客户机也负责创建保存在相同 HDFS名称空间中的校验和 checksum 文件 在最后的文件块发送之后 NameNode将文件创建提交到它 的持久化元数据存储 在EditLog和FsImage文件 5 Hadoop和高效能计算 网格计算的区别 在Hadoop出现之前 高性能计算和网格计算一直是处理大 数据问题主要的使用方法和工具 它们主要采用消息传递接口 Message Passing 精选文库 Interface MPI 提供的API来处理大数据 高性能计算的思想 是将计算作业分散到集群机器上 集群计算节点访问存储区域 网络SAN构成的共享文件系统获取数据 这种设计比较适合计 算密集型作业 当需要访问像PB级别的数据的时候 由于存储 设备网络带宽的限制 很多集群计算节点只能空闲等待数据 而Hadoop却不存在这种问题 由于Hadoop使用专门为分布式计 算设计的文件系统HDFS 计算的时候只需要将计算代码推送到 存储节点上 即可在存储节点上完成数据本地化计算 Hadoop 中的集群存储节点也是计算节点 在分布式编程方面 MPI是 属于比较底层的开发库 它赋予了程序员极大的控制能力 但 是却要程序员自己控制程序的执行流程 容错功能 甚至底层 的套接字通信 数据分析算法等底层细节都需要自己编程实现 这种要求无疑对开发分布式程序的程序员提出了较高的要求 相反 Hadoop的MapReduce却是一个高度抽象的并行编程模 型 它将分布式并行编程抽象为两个原语操作 即map操作和re duce操作 开发人员只需要简单地实现相应的接口即可 完全 不用考虑底层数据流 容错 程序的并行执行等细节 这种设 计无疑大大降低了开发分布式并行程序的难度 网格计算通常是指通过现有的互联网 利用大量来自不同 地域 资源异构的计算机空闲的CPU和磁盘来进行分布式存储 和计算 这些参与计算的计算机具有分处不同地域 资源异构 基于不同平台 使用不同的硬件体系结构等 等特征 从而 精选文库 使网格计算和Hadoop这种基于集群的计算相区别开 Hadoop集 群一般构建在通过高速网络连接的单一数据中心内 集群计算 机都具有体系结构 平台一致的特点 而网格计算需要在互联 网接入环境下使用 网络带宽等都没有保证 结合甘肃省生态环境监测监管网络建设现状及业务需求 依据软件架构设计 拟采用Hadoop大数据技术实现海量数据的 分析处理 实现全省数据的统一 规范化管理 实现各行业审 计数据的资源共享 3 4 4 4大数据挖掘技术大数据挖掘技术 常用的挖掘方法有分类 回归分析 聚类 关联规则 神 经网络方法 Web数据挖掘等 这些方法从不同的角度对数据 进行挖掘 1 分类 分类是找出数据库中的一组数据对象的共同特点并按照分 类模式将其划分为不同的类 其目的是通过分类模型 将数据 库中的数据项映射到某个给定的类别中 可以应用到涉及应用 分类 趋势预测中 2 回归分析 回归分析反映了数据库中数据的属性值的特性 通过函数 表达数据映射的关系来发现属性值之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论