2023智能矿山数据融合共享AI大规模预训练模型技术要求_第1页
2023智能矿山数据融合共享AI大规模预训练模型技术要求_第2页
2023智能矿山数据融合共享AI大规模预训练模型技术要求_第3页
2023智能矿山数据融合共享AI大规模预训练模型技术要求_第4页
2023智能矿山数据融合共享AI大规模预训练模型技术要求_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能矿山数据融合共享AI大规模预训练模型技术要求目次前言 III范围 1规范性引用文件 1术语和定义 1大模型FoundationModels 1人工智能artificialintelligence 1人工智能系统artificialintelligencesystem 1模型训练modeltraining 2推理reasoning 2训练数据trainingdata 2自然语言处理naturallanguageprocessing;NLP 2缩略语 2大模型功能要求 3大模型通用要求 3矿山大模型功能要求 3算法兼容性要求 4兼容算法框架要求 4大模型接口技术要求 5矿山大模型与上层应用之间的接口 5矿山大模型与数据源之间的接口 5矿山大模型与人工智能系统使能平台之间的接口 5大模型对数据的技术要求 5L0通用预训练大模型数据要求 5L1行业预训练大模型数据要求 6L2部署模型数据要求 6大模型对软硬件平台的要求 7计算能力 7IIIII11软件能力 8大模型的部署规范 8大模型部署架构 8中心云部署要求 9边缘节点部署要求 10附 录A(资料性附录)矿山大模型应用场景 11附 录B(资料性附录)人工智能系统功能参考架构 14智能化矿山数据融合共享AI大规模预训练模型技术要求范围本文件规定了AI大规模预训练模型功能要求、接口技术要求、对数据的技术要求、对软硬件平台的要求,以及部署规范。本文件适用于基于工业互联网架构的矿山大模型人工智能系统的规划设计、工程建设、运营管理和运行维护。规范性引用文件用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T41867-2022信息技术人工智能术语术语和定义下列术语和定义适用于本文件。FoundationModels“大规模”和“预训练”通用数据上进行预训练,大幅提升AI的泛化性、通用性、实用性。artificialintelligence(学科)人工智能系统相关研制和应用的研究和开发。[GB/T41867-2022,3.1.2]artificialintelligencesystem(学科)人工智能系统相关研制和应用的研究和开发。工程系统。PAGEPAGE10PAGEPAGE3注1:该工程系统使用人工智能相关的多种技术和方法,开发表征数据、知识、过程等的模型,用于执行任务。注2:人工智能系统具备不同的自动化级别。[GB/T41867-2022,3.1.8]modeltraining利用训练数据,基于机器学习算法,确定或改进机器学习模型参数的过程。[GB/T41867-2022,3.2.18]reasoning从给定的前提进行论证并得出结论。[GB/T41867-2022,3.2.30]trainingdata用于训练机器学习模型的输入数据样本子集。[GB/T41867-2022,3.2.35]naturallanguageprocessing;NLP(系统)基于自然语言理解和自然语言生成的信息处理。[GB/T41867-2022,3.3.16]缩略语下列缩略语适用于本文件。AI:人工智能(ArtificialIntelligence)IaaS:基础设施即服务(InfrastructureasaService)NLP:自然语言处理(NaturalLanguageProcessing)CV:计算机视觉(ComputerVision)RTSP:实时流传输协议(RealTimeStreamingProtocol)大模型功能要求大模型通用要求方面,符合下列规定:应支持图像、文本、语音等多模态数据;10亿量级超大规模架构设计,可灵活扩展至百亿量级,满足多样化硬件速度需求;应支持超大批次训练优化,保持收敛过程稳定;应支持多样化训练方式,包括无监督训练与监督训练;模型的高精度生产;值。矿山大模型功能要求L210.2.23。能够实现不同矿山场景数据,任务的高效复用,应符合下列规定:应支持海量无标注数据构建行业预训练模型,通过行业数据预训练,大模型应拥有更强的针对行业数据的表征能力以及对不同场景的泛化能AIAIAI/旋转/图像加噪声,图像仿真等算法对图像进行预处理,提升图像识别精度。同时可以根据更新数据快速进行模型迭代,做到“边学边用”。针对不同区域各地方言情况,做到通过自动化训练文本语言模型小包的方式,实现大模型复用,语言模型小包方言个性化部署,达到区域场景定制效果;3活部署;中的遗忘机制,实现模型的持续优化;2~3样本中长尾分布等“小数据”问题;宜支持行业定制,结合行业先进知识开发定制化解决方案。算法兼容性要求算法兼容性应满足如下要求:算法应支持物体检测、图像分类、字符识别(OCR)任务场景;WindowsLinuxAndroidMacOS等;IntelCPUNVIDIAGPUJetsonCPU等,部分硬件包含Python部署和C++部署;算法应支持不同量级的数据、不同类型数据进行模型训练和模型推理。兼容算法框架要求飞桨(PaddlePaddle)KerasTensorflowPytorch环境。矿山大模型应具备直接调用多种模型的能力,可调用的文件格式应包括:*.ckpt(TensorFlow模型)、*.h5(Keras模型)、*.pth(Pytorch模型)等。大模型接口技术要求矿山大模型与上层应用之间的接口以下规范:HTTPS协议;接口需要进行认证鉴权;HTTPresetful接口,便于理解使用。矿山大模型与数据源之间的接口API接口HTTPSresetful矿山大模型与人工智能系统使能平台之间的接口下规范:HTTPS协议;接口需要进行认证鉴权;HTTPresetful接口,便于理解使用。大模型对数据的技术要求10TB1TB10万小时要求。L0通用预训练大模型数据要求通用预训练模型数据应遵循如下要求:1种场景。720P符合要求的图像。对语音的数据要求:16k16bit签为中文简体汉字,如包含英文,统一大小写用词规范进行标准化转写,标注文件统一采用utf-8格式。音频数据符合信息安全规范要求,获取途径合规合法。大数据要求至少十万小时量级;定制数据要求:语音数据要求同“大数据数据要求”,文本数据要求统一编码gbk应用场景真实使用的汉字或者英文,无任何出简体汉字英文字母空100少1M;短板数据要求:语音数据要求同“大数据数据要求”,主要挖掘模10%左右目标。L1行业预训练大模型数据要求L1行业预训练大模型数据应遵循如下要求:L11000万量级以上。对图片的数据要求:图片质量应达到至少720P分辨率,不能出现过曝,低曝,运动模糊等不符合要求的图像;矿山行业大部分场景环境特殊,光线效果差,成像图片需要清晰没对语音的数据要求:同“L0通用预训练大模型数据要求”。L2部署模型数据要求L2部署模型数据应遵循如下要求:对图片的数据要求:应满足每类的场景大于50720P不能出现过曝,低曝,运动模糊等不符合要求的图像;矿山行业大部分场景环境特殊,光线效果差,成像图片需要清晰没对语音的数据要求:同“L0通用预训练大模型数据要求”。大模型对软硬件平台的要求计算能力计算能力应遵循如下要求:CPU训练/推理服务器和基GPU/NPU的训练推理服务器。训练服务器主要部署在中心侧,推理服务器主要部署在中心侧(心侧)和边缘侧(矿山侧)。边缘节点(矿山侧)体机组成,应符合下列规定:边缘推理服务器配置应符合下列规定:和更新业务应用(容器应用、AI模型文件),处理业务的功能;视频接入平台配置应符合下列规定:Linux操作系统,7×24小时稳定运行;超融合,高性能;监控架构,省去存储服务器以及转发服务器,具有绿色节能的特点;支持媒体块存储技术,消除磁盘碎片提升磁盘写入性能;支持录像备份,关键数据双重备份;支持缓存补录技术,保证业务数据的完整性;应配置高性能电脑,包含主机、显示器,需带独立显卡;200W像素,宜有变焦功能;应配置补光灯,增加光照,保障成像质量。生产系统数据打通。软件能力软件能力应具备如下要求:AI训练、模型部署等动作。AI置等功能。AI能呈现。大模型的部署规范大模型部署架构L1L1AIL2L2部署模型分发到各个边缘节点上完成推理,达到训练部署的闭环。图1 云边协同架构图部署在中心云侧的人工智能大模型平台,提供统一的开发、训练和运营运维能力。利用中心训练算力池进行模型训练、模型评估,完成训练和验证的模型,可按需部署到边缘推理服务器生产环境。云端-L1行业预训练大模型参数规模在十亿L1行业预训练大模型通过抽取以及蒸馏(可选)得,其参数范围覆盖百万至十亿量级,支持边端多样化部署。中心云部署要求型统一部署管理,应符合以下要求:进行进一步的突破;境应支持分布式训练能力,以持续提升训练效率和精度;应实现人工智能模型管理与部署,随着算法模型的不断丰富和应用范围建立矿山等生产领域的人工智能生态。边缘节点部署要求监控应用运行。PAGEPAGE13PAGEPAGE12附 录A(资料性附录)矿山大模型应用场景AI圈,可以全面提升煤矿智能化水平。依托人工智能平台、AI算法方面的技术积累,引入AI大模型的理念,降低人工智能开发门槛,缩短模型训练周期,开启人工智能的“工业化开发模式”。以下是人工智能在各生产系统应用的典型应用场景。图1 矿山大模型应用场景表大类场景描述1.综采面智能放顶煤(视频、声音、煤层厚度等因子)综采面全景视频拼接滚筒、护帮板防碰撞检测煤壁片帮识别刮板输送机堆煤识别刮板输送机断链识别刮板输送机刮板损坏识别刮板输送机异物检测危险区域进入线槽电缆掉落检测转载机破碎滚筒挡煤链2.掘进面危险区域进入空顶作业检测敲帮问顶合规检测探放水作业合规检测瓦斯抽采作业合规检测作业序列视频分析卸压钻钻杆数统计3.机电智能化语音询问与调度设备运行状态监测设备故障诊断与智能运维钢丝绳表面状态监测4.主运输皮带异物识别转载点堆煤识别皮带跑偏识别皮带撕裂识别煤量识别(煤量视频图像分析)及煤流调速危险区域进入皮带卡子损坏检测光纤传感托辊检测5.地质矿压危险等级评估矿井水害预测及分析隐蔽致灾地质构造预测冲刷带发育区预测瓦斯富集区预测构造煤发育区预测煤层厚度分布预测煤岩异构区域分布检测6.洗煤厂煤流超粒度识别溜槽、胶带机机头卡堵识别浅槽分选机异常状态识别磁选机翻花断流识别烟雾、火焰识别煤泥水泄漏识别筛机煤层厚度监测胶带机煤量精准预测振动筛异常分析智能洗选参数优化7.人员行为出入井人脸识别出入井人数统计人员违章概率排名及人员跟踪人员未按安全防护规范穿戴检测人员睡岗识别人员离岗识别人员摔倒识别抽烟识别人员违规跨越电子围栏8.矿山环境保护与修复矿山生态环境空-天-地协同监测矿区开采沉陷监测矿区土地利用变化遥感监测矿区植被退化监测矿区水体质量监测矿区生态修复效果评价矿区生态退化预警9.其它安全隐患分析危险区域周界防护智慧溜井管理附 录B(资料性附录)人工智能系统功能参考架构人工智能系统在智能化矿山中的技术参考架构图图2 智能化矿山技术参考架构图参考国家能源局《煤矿智能化建设指南(2021年版)》,人工智能系统在智能化矿山技术参考架构图中的位置如图2所示。各层的功能描述如下:人与物、物与物相联,实现智能化识别、定位、跟踪监控和管理。工业承载:实现矿山物联网和云平台之间传送各种数据业务。矿山工业互联网平台:面向矿山行业信息化、数字化、智能化需求,构弹性供给、高效配置的工业云平台。AI应用场景。基于矿山大模型的人工智能参考架构图图3 基于矿山大模型的人工智能参考架构图基于矿山大模型的人工智能功能架构如图3所示,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论