信息化业务需求汇总表-基于容器云技术的人工智能平台建设_第1页
信息化业务需求汇总表-基于容器云技术的人工智能平台建设_第2页
信息化业务需求汇总表-基于容器云技术的人工智能平台建设_第3页
信息化业务需求汇总表-基于容器云技术的人工智能平台建设_第4页
信息化业务需求汇总表-基于容器云技术的人工智能平台建设_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、附件1信息化建设业务需求分析报告(基于容器云技术的人工智能平台建设)中报部门(单位):XXXX (盖章)中报时间:年 月目录 TOC o 1-5 h z HYPERLINK l bookmark4 o Current Document 1概述1系统建设现状1必要性分析 1建设目标3 HYPERLINK l bookmark6 o Current Document 2业务需求3人工智能云平台3业务需求描述 3业务流程6业务数据63集成需求74实施范围75其他需求7可靠性7信息安全7可维护性7易修改7易测试7系统灾备设计81概述系统建设现状国网浙江信通公司作为国网浙江电力的信息化支撑单位,率先建成

2、融合企业云计算大数据一体化服务平台和全业务统一数据中心的浙电云”平台。目前已有219台服务器规模,部署了 30个技术组件,并完成39套企业核心业务系统全业务数据的汇集,合计 数据表39674张,总的数据存储量达527TB。初步构建企业数据统一汇集共享机制,已 累计为公司50多个项目的80多个互联网+”创新应用提供数据服务支持,形成了 互联 网+”智能运检、互联网+”营销服务、互联网+”规划、互联网+”电力物资、运监大数据 和财务精益化等新型业务形态雏形。建成用电客户标签库、大数据运营监测系统、智能 运检管控平台、供电服务指挥系统、配电网规划辅助决策等创新业务应用。企业数据统 一汇集共享机制及业

3、务创新运营机制的初步建成,为人工智能在国网浙江电力的试点应用落地及铺开打下了较为坚实的基础。必要性分析人工智能在电力能源有很广泛的应用技术场景,可以对如下技术场景进行储备: ?多功能场景分析系统,包括摄像机自动标定、人员检测、人员跟踪、姿势分类、行 为分析、三维重建等模块。? 利用无人机,巡线机器人和遥感卫星等对书店设备本体和输电通道环境进行立体巡 检和风险评测,基于人工智能图片识别技术有效的处理图片以及视频技术,准确识 别出输变电设备本体的缺陷和输电线路的潜在风险。? 基于导航图像的知识积累和人工智能,通过对空间导航和智能巡检规划,优化巡检 路径和重点排查区域。? 通过人工智能图像识别技术,

4、识别用电现场危险行为,增强用电现场作业的安全性 和效率。? 基于深度学习技术对云观测图像中的云层和云系进行识别和辨识,并对其演化进行 预测,实现对云层遮挡条件下光伏功率的快速波动的预测,提供新能源跨省、跨区 域高效消纳能力。随着新能源持续高比例运行、电力电子装置大量应用、电力市场化水平不断提高, 电力系统的动态非线性、多时间尺度、不确定性和难预测性表现得更加突出,以人工智 能为核心的数据驱动方法相对于基于物理模型的分析方法,更加精准地刻画电力系统特-1 -征,。同时,为了应对上述变化,电力系统部署了众多用于监测、 控制、管理的信息通信 系统,产生着大量的数据,在电网安全与控制领域、输变电领域、

5、配用电领域、新能源 领域等应用场景下表现出大维度、小样本、非结构化的数据特性,目前常规的统计分析、 数据挖掘、机器学习,难以满足需求。机器学习构建任何适用于生产环境的机器学习系统都涉及各种组件的组合,通常会 混合供应商和手动解决方案。连接和管理这些服务已然不易,再加上复杂的环境设置, 都为机器学习应用带来了巨大的障碍。基础设施工程师通常会在测试单个模型之前,花 费大量时间手动调整部署和升级的解决方案。更糟的是,这些部署与他们部署的集群紧 密相关,以至于这套技术栈不便迁移。如果没有重构,将模型从笔记本电脑移动到高可 扩展的云集群几乎是不可能的。以上的问题造成了大量人力和物力的浪费,并为每次迁 移

6、造成了引入bug的机会。通过使用kubernete溶器云的一键配置集群规模和设备, 更 方便地使用CPU和GPU可配置为使用 CPU或GPU,并通过单一设置调整集群的 大小,支持训练加速等等特性解决以上问题。建设目标.搭建人工智能云平台,包括图像标注系统,模型开发和训练平台,模型服务托管 平台。打通数据 殁块山艮务流程,为算法科学家提供一站式开发体验。.人工智能算法包含:图像分析(人、物、OCR)、文本类型(对话机器人基础算 法、文本分析、知识图谱构建基础算法、文本分类、语义分析)、语音类型(声纹识别、 语音识别、异音检测、语音质量检测、语音合成)、机器学习(推荐系统、时序预测、无 监督算法)

7、等。将这些常用算法包直接上架到人工智能平台算法商店进行统一管管,提 升开发效率。.打造安全高效的数据存储管理平台,将内部和外部数据集统一存储在数据存储 管理平台上。并支持通过对象存储或分布式文件存储实现数据的快速访问和更新。2业务需求人工智能平台硬件配置业务需求描述(1)平台硬件配置9台2u 12*4T SATA 存储机器(72线程,128G)序号产品型号详细配置单位数量单价合计备注安擎服务器EG520R-G10存储节点整机部分机架式2U台9毛.00(+)配件CPUE5-2697v4 18 核 36 线程颗280500.00/85,500.00主板X10DRL-I (集成 I350 2 口千兆

8、网卡)块1机箱RM23624H01 (两块 800W冗余电源,2U,12盘位,带2*2.5寸尾盘)台1内存32G DDR4 RECC根4raid 卡LSI 9361-8I 含线(1G)块1硬盘4T SATA 3.5 寸块12万兆网卡Intel X520SR2 含模块块1导轨副16台2u 8*240G计算节点(72线程,128G)序号产品型号详细配置单位数量单价合计备注安擎服务器EG520R-G10管理节 点整机部分机架式2U台6W.00(+)配件CPUE5-2697v4 18 核 36 线程颗270900.00空96,300.00主板X10DRL-I (集成 I350 2 口千兆网卡)块1机箱

9、RM23608H01 (两块 550W冗余电源,2U,8盘位)台1内存32G DDR4 RECC块4SSDS4500 240G SSD块8万兆网卡Intel X520SR2 含模块块1导轨副150 台 1 机 4 卡 GPU 1080ti 机器(56 线程,128G)规模说明:集群类型集群用途说明规模预估备注管理集群管理集群:.多台服务器节点组建高可用主控集 群。.多台服务器节点组建高可用镜像仓 库集群。7台服务器镜像节点服务器存储用量较大。存储集群存储集群:.人工智能平台配置,状态信息存储。.训练数据集(视频,图片,文本,语 音等类型文件)存储。.模型训练输出文件存储(训练模型文 件,训练事

10、件文件,训练日志文件)。11台服务器视频监控类存储资源计算参考公 式:存储(TB) = 2.16TB3.24TB/天 x摄像头数(单位:千台)x存 储天数。GPU集群GPU集群:.部分GPU节点用于模型训练任务。.部分GPU节点用于模型服务实例运 行。50台GPU服务器(每台4块GPU显卡)由于GPU厂商的限制,多个训 练任务不能同时公用一块 GPU 卡,所以每个训练任务至少独占 一块GPU卡。资源参考公式:服务器(台)=分析场景类别(种)X 模型训 练实例数+模型实例数? 4。业务流程无业务数据无人工智能云平台建设业务需求描述(1)划分实验域与生产域针对浙电云平台应用运行中产生的海量数据搭建

11、人工智能平台训练的实验域和调用人 工智能平台模型服务的生产域,生产域紧密结合浙电云平台以及运行应用。其中包括三 大组件:训练数据管理组件,AI模型训练组件,模型托管组件。(2)基于kubernetes容器云在不同的基础设施上轻松可重复、便携的部署和管理松散耦合的微服务应用,根据需 求进行缩放,利用kubernetes为使用者提供简单的清单,以便可以轻松地在任何位置使 用机器学习堆栈在kubernetes上运行。此外,容器云技术可以基于部署集群进行自我配 置,最大化使用资源。(3)基本公共组件平台综合管理功能,主要针对平台管理员角色,其中功能包含:账号管理、多租户 管理、计算存储网络资源管理、告

12、警管理、日志管理、监控管理、插件扩展中心功能。(4)训练数据管理对接和管理底层存储,将存储资源分配给平台用户,平台用户基于管理员已分配存 储空间来存储训练数据集。已存储的数据集可以在平台上进行数据标记操作。存储数据 中包含训练代码文件,可以通过jupyter notebook进行在线修改训练代码以及Debug。AI 训练结束后对训练产生的事件、日志、模型文件进行存储。(5) AI模型训练模型训练包含前期训练的项目参数配置、资源分配、任务提交、任务提交后的资源 调度以及资源紧张时任务插队系统,以及在训练过程中资源监控、训练日志、训练可视 化展示,模型评估以及模型导出的全生命周期管理。(6)模型托

13、管模型托管包括模型运行环境定义,模型发布实例数定义,模型运行后的弹性伸缩策 略定义,客户端调用示例代码段生成,模型运行后GPU等资源监控告警,模型实例运行日志收集与展示。2.2.2业务流程2.2.3业务数据无2.3人工智能算法库与数据资料库业务需求描述(1)人工智能算法库由于人工智能应用的开发复杂度高,不仅仅涉及到软件前端和后端的开发,还要 涉及到人工智能模型和算法的研发、开发人员对于人工智能算法的了解。平台应具备 常见的基础算法库,基于人工智能场景的丰富,我们需要的算法库包括但不限于:图像分析:? 人:人脸识别、人脸检测、人体检测、人体跟踪、行为分析? 物:物品识别、细粒度分类、缺陷检测?

14、OCR:车票 OCR、通用 OCR、发票 OCR、表格 OCR文本类型:? 对话机器人基础算法? 文本分析? 知识图谱构建基础算法? 文本分类? 语义分析语音类型:? 声纹识别? 语音识别?异音检测?语音质量检测?语音合成机器学习:?推荐系统:1.基于图像识别的电商内容推荐系统;2.基于深度学习的用户行为推荐-6 -系统;3.基于深度学习的排序算法。? 时序预测:1.非参数时序预测;2.机器学习时序预测;3.深度学习时序预测。? 无监督算法:1.聚类算法;2.降维算法。(2)人工智能数据资料库建设搭建人工智能数据资料库,将内部和外部数据集统一存储在资料库中,支持通过对象 存储或块存储实现数据的

15、快速访问和更新。业务流程无业务数据无2.4典型场景应用验证业务需求描述(1)智能工单问答机器人与工单知识图谱验证1)构建知识图谱知识图谱是一项在语义层级对于语言进行梳理和整理的技术,可以简单分为通用知识图谱和领 域知识图谱两类。通过建设好的知识图谱,我们可以自动进行推理,让我们的语义相关产品更加智 能。通用知识图谱建立是一个长期的、十分巨大的工程,耗费人力和物力。为了提供项目的可行性,我们这里主要探讨的是如何建立一个细分领域的知识图谱,通常包含的步骤是:?语料准备针对要建立知识图谱的领域,尽可能全的搜集相关语料,包括产品介绍,问答,工单等。对语 料进行一定程度的清洗,剔除无关的部分,按照领域和

16、类别进行梳理。如果语料数量庞大,可以有 代表性的整理其中一部分,然后请算法工程师和知识工程师根据以整理的语料进行建模,利用机器 学习的方法整理相关语料,从而节省人力,提升效率。? 抽取实体针对整理好的原始语料,请领域专家和相应的内容编辑人员从中抽取本领域的各种实体(一般 是专有名词、概念等)、以及实体的相关属性。这一步要求有较高的专业知识以及一定的知识工程、 知识管理能力,一般由领域专家和知识工程师联合起来共同完成。在实际的项目进行中,也可以通 过人机结合的方式,由领域专家提出相关要求,并整理出一系列样本范例,然后由算法工程师建立 相应的机器学习模型做大规模抽取。? 建立关系有了实体/属性的数

17、据之后,下一步是请领域专家在实体之间建立相应的关系,比如包含关系、 继承关系、从属关系等等。这部分工作一般是由领域专家给出关系的类型和基本样例,由算法工程 师建模在原始语料上进行挖掘,有了初步结果之后由领域专家进行审核矫正,并将相关结果反馈给 算法工程师进行模型调优。? 导入数据库为了提升效率、便于检索,知识图谱的存储一般需要专业的数据库存储层,特别是数据量很大 的时候,一般不适合用传统的关系式数据库进行存储。针对较大规模的知识图谱,我们一般建议采 用专业的图数据库进行存储,而规模较小的知识图谱,可以考虑用自定义的数据结构直接存储在内 存中,一般也可以应对日常的各种应用。? 开发应用至此知识图

18、谱的建立过程基本完成,往下由开发人员根据具体的应用场景进行开发。一般图数 据库会提供一系列的开发接口,根据不同的应用需求,例如问答、检索、匹配计算、知识展示等等 调用相应的接口进行开发。2)文档解析系统文档解析流程分内容结构 化礴录书格首先,文本抽取模块从原始文档中初步抽取出文本。之后的内容纠错模块对抽取出初步文本进行各 种类型的纠错。例如原始抽取可能无法区分不属于一列的同行信息,内容纠错模块利用机器学习模 型和自然语言处理模型区分出不同的列,然后再把不同列的信息进行重新整合。原始文档中除了正文外,还会包含大量的非正文内容,如标题、页眉、页脚和标注等。这些信 息在文本抽取模块抽取后是混合在正文

19、内容中的。内容结构化模块的目的是利用机器学习分类模型 把这些内容分门别类地从正文中剥离出来。3)表格解析系统表格解析 流程文档中包含复杂的表格,而这些表格信息又是文档的重要组成部分。首先,文本抽取模块从原 始文档中初步抽取出文本。之后的表格定位模块利用位置信息和所在位置的内容定位到表格的具体 位置。表格/文本对齐模块把表格中的内容与具体单元格进行对齐,对齐后的数据进入表格解析模块。表格解析模块识别跨行跨列的单元格、以及表格跨页,表中表等复杂情况,对它们分别做解析并以合适的结构存储最终的结果。4)知识点抽取系统知识点抽取系统利用人工标注的少量样例数据,训练深度学习模型,然后利用训练好的模型从 新

20、文档中抽取对应的知识点。利用深度学习和迁移学习模型,少量的人工标注投入,就能获得泛化 性很好的新知识点抽取能力。利用阅读理解技术中最新的句间注意力(Inter-Attention )和句内注意力(Intra-Attention )机制,我们在原有阅读理解模型的基础上,研发了准确度更高,可解释性更好的注意力匹配模型:Attention-MC模型。下图是Attention-MC模型的结构。固刑biPl*:mi i i m利用阅读理解技术,直接从文档中抽取所需的 知识点词向通过无监督训练获得新的知识点抽取仅需107 00个 样本即可5)对话机器人核心技术在完成多个具体对话机器人项目后,我们发现可以依据问题类型的不同,来划分对话子机器人。不同的对话子机器人,使用最适合场景的技术框架来实现,以便应对不同类型的用户问题。所有这些对话子机器人,通过路由子机器人( RouteBot)进行整合,最终形成 DeepBot对话框架。不只是单轮的FAQ机耕人利用相代消婚,省嘀消解实现多能 对话效果在用户问嶷意眼不明稿的情况下, 有tt对快烛进行反向相间的问是,针时不同用户苦像 的用户.给出不同答篁不同背

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论