版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医疗健康大数据平台数据智能化处理要求和测试方法本文件规定了医疗健康大数据平台数据智能化处理的技术要求和测试方法,涉及医疗健康数据的数据理解管理、数据准备管理、数据标准管理、算法建模管理、算法模型验证管理、算法模型部署管理、数据安全管理、性能要求、安全性等要求和测试方法。本文件适用于医疗健康大数据平台数据智能化处理功能的开发、测试、评估与验收等。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件GB/T39725-2020信息安全技术健康医疗数据安全指南3术语与定义下列术语和定义适用于本文件。医疗健康大数据healthcarebigdata个人医疗健康数据以及由个人医疗健康数据加工处理之后得到的健康医疗相关电子数结构化数据structureddata一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述[来源:GB/T35295-2017,定义2.2.13]非结构化数据unstructureddata不具有预定义模型或未以定义方式组织的数据。功能单元通过获取新知识或技能,或通过整理已有的知识或技能来改进其性能的过程。2下列缩略语适用于本文件。SQL结构化查询语言API应用程序编程接口EMR电子病历FTP文件传输协议URL统一资源定位符RTSP实时流传输协议DNN深度神经网路CNN卷积神经网络LSTM长短时记忆网络RNN循环神经网络ApplicationProgrammingInElectronicmedicalreUniformResourceLRealTimeStreamingProtDecpNcuralNetworkConvolutionalNueralNetRecurcntNeuralNetwo5总体要求医疗健康大数据平台用于规范医疗健康数据在采集、存储、使用、加工、流通及服务等方面的基本流程。通过规范在数据挖掘、算法建模、以及模型的评估等维度的管理能力,保证数据智能处理的质量。医疗健康大数据平台数据智能化处理应支持以下能力;数据理解管理、数据准备管理、数据标注管理、算法建模管理、算法模型验证管理、算法模型部署管理、数据安全管理、性能要求、安全性等。6医疗健康数据类别6.1数据分类分级基本原则按照医疗健康数据对国家安全、公共利益或个人、组织合法权益的影响和重要程度,参考GB/T39725-2017,对医疗健康数据进行分级分类,在医疗健康大数据平台数据智能化处理中提供基本遵循。6.2医疗健康数据分类医疗健康数据可以分为个人属性数据、健康状况数据、医疗应用数据、医疗支付数据、卫生资源数据与公共卫生数据等5类。各类数据具体内容如表1所示。在卫生信息领域使用的数据元、数据集、值域代码等相关标准可参考相应卫生信息标准。表1健康医疗数据类别与范围4个人生物识别信息,包括基因、指纹、声面部特征等;情况的助据所涉及的与费用相关的数1)医疗交易信息,包括医保支付信息、交易金额、指可以反映卫生服务人员、例如不能标识个人身份的数据,各科室医生数据主体造成中等程度的损害。限于获得授权的项日组范国内使用数据主体造成较高程度的损害例如可以直接标识个人身份的数据,仅限于4程度的损害。7.1数据理解管理医疗健康大数据平台智能化处理应具备数据汇集和加载能力,具有整合多源数据,并且集成数据、扩充数据的能力,应包含以下功能:a)应支持接入结构化数据,如库表等格式:b)应支持接入多种半结构化数据,包括但不限于:csv、xls、xlsx等格式;c)宜支持接入多种图片类非结构化数据,包括但不限于:png、jpg、jpeg、bap等格式;d)宜支持接入多种音频类非结构化数据,包括但不限于:mp3、wav等格式;e)宜支持接入视频类非结构化数据,如mp4、avi、mov等格式:f)应支持本地文件接入数据,如本地单个上传、批量上传等:g)宜支持网络协议接入数据,如FTP、URL、RTSP、共享存储等;h)应支持通过用户界面配置数据接入的参数,如数据源、数据类型、接入方式等;i)应支持数据预览能力:支持有权限用户随机选择多条数据进行概览:j)应支持数据描述:基于以获得数据、包括日期格式、数量、字段特征等对数据进行全方面多维度描述。包括数据关键属性分布、属性间关系、聚合结果、亚群属性、以及基本统计学描述功能。医疗健康大数据平台智能化处理应具备数据探索能力,可视化数据发现结果,分析假设并进一步检查数据子集和数据特征。数据探素需要至少涵盖以下功能:a)应支持全表统计统计数据集的大小、条数。每个字段的基本分布如最大值、最小值、均值、标准差、中位数,分位数、有效值个数、类别总数、出现最多的值等。基本统计量全覆盖,并且支持按设定的参考字段进行细分对比,精准把握各字段的基础特点:b)应支持直方图:针对用户所选的数值字段和设定的参考字段,绘制直方图、分类别对比直方图以及概率密度曲线,全面把握数值型字段的分布特点。并且支持一键去掉最大最小疑似异常值,展示直方图最合理的区段c)应支持百分位图:针对用户所选的数值字段和设定的参考字段,绘制百分位图和分类别对比百分位图,从累计分布的角度进一步挖掘数据的特性d)应支持频次图针对用户所选的字符型字段。绘制所有取值(或类别)的频次、占比图,全面把握字符型字段的分布特点;e)应支持异常检测:针对用户所选择的数值字段,绘制箱型图,发掘所有疑似异常值:f)应支持散点图:针对用户所选的数值字段,绘制其与其他所有数值字段之间的两两散点图,挖掘字段之间的所有线性、非线性相关性:g)应支持相关矩阵;一键计算并展示全表所有数值型字段之间的线性相关系数热力图,一眼洞察高度相关字段:5h)应支持指标评估:针对用户选择的字段,生成字段的评估报告,包括参考字段分析、直方图、百分位图、频次图、箱型图、散点图、相关矩阵热力图、特征重要性排序等,多维度解读指标数据信息:)应支持全表评估:全表所有字段的质量评估报告,包括全表质量统计表、参考字段分析、空缺值分析、重复数据分析、相对标准差分析、类别总数分析、相关性分析、偏斜度分析、特征重要性分析等,全面快速掌握整张表的数据质量和问题。7.2数据准备管理医疗健康大数据平台智能化处理应具备以下数据准备功能:a)应支持数据选择功能支持有权限的用户浏览数据目录,并逐层递进。支持数据按目录或其他形式分类展示。有权限的用户可以根据业务需求和数据理解需求选择适当的数据作为挖掘和分析素材:b)应支持数据清洗功能,支持有权限的用户根据自身实际情况选择合适工具对数据进行重新审查和校验。数据清洗功能应保障删除重复信息、纠正存在的错误,并保证数据一致性。数据清洗功能主要涵盖缺失值处理、极端值处理、类别数值化处理等清洗能c)应支持数据转换;支持有权限用户将不一致的数据标准化(即不同业务系统的相同类型的数据统一),或按业务需求的数据粒度进行数据聚合,或按一定的业务规则进行重新计算;d)应支持特征工程:支持有权限的用户对于数据的特征重要性评估、特征变换、特征选择、以及特征生成功能;e)应支持统计学分析:支持有权限的用户对于数据做假设检验、协方差计算、概率密度计算等;1)应支持数据整合功能:支持有权限的用户根据业务和工作需求选择合适工具把在不同数据源的数据收集、整理、清洗,转换后加载到一个新的数据源;g)应支持数据拆分功能;支持有权限的用户可自定义训练集、测试集的拆分比例。医疗健康大数据平台智能化处理宜具备数据标注功能:a)可支持数据标注服务;支持自定义标注服务,标注需求方应按照数据标注工作流程将标注需求提交到标注责任人。标注责任人统一对标注任务进行分派与管理,并将标注结果提交到数据平台;b)可支持数据标注工具:仅支持评测通过的标注工具,避免标注工具中存在的安全隐患对数据资产造成损失;c)可支持数据标注管理:数据标注中间成果不可长期留存在数据标注终端;标注过程不允许在未经标注责任人授权的情况下对数据执行标注以外的任何操作,包括但不限于修改、删除、截屏、转存、分享等。医疗健康大数据平台智能化处理应具备以下建模功能:a)应支持建模工具和建模技术:支持有权限的用户根据业务需求,选择符合安全规范的建模工具以及建模技术。对于开源类模型,在保障数据安全合规的前提下保障用户可以接入开源类工具并及时更新工具包保障工具的可用性6b)应支持基本机器学习模型支持逻辑分析、随机森林、LightGBM分类模型、图模式匹配、时间序列分析、智能聚类、文本分类、回归分析、协同分类、自然语言处理等基本机器学习模型:c)宜支持深度学习模块支持TensorFlow、Caffe及》ONet等主流的机器学习框架。包含DNN、CNN、LSTM、RNN及自定义深度学习算法:d)应支持建立模型:支持有权限的用户在选定模型后可以调整模型参数。按照参数业务逻辑选择参数设置并且给出选择参数的理由:e)应支持模型描述:支持有权限的用户生成模型描述文档,对模型进行解释:f)应支持预测类模型:平台需提供预测其他数据集的功能,并对预测结果展示和下载的功能:g)应支持管理开源类算法:支持有权限用户设立开源算法链接白名单和黑名单功能7.5算法模型验证管理医疗健康大数据平台智能化处理应支持评估结果分析:支持有权限的用户选择匹配模型的量化评估指标,并具有可视化指标的功能,用于最终模型选择判断标准。医疗健康大数据平台智能化处理应具有以下模型部署功能:a)应支持有权限用户使用SQL框架自行开发部署算法,并将算法管理或者发布于特定平台便于调用和查找。算法具有唯一标识用于信息查询和日志生成;b)宜支持Spark或Pyspark框架自行开发部署算法,并将算法管理或者发布于特定平台便于调用和查找,算法具有唯一标识用于信息查询和日志生成;c)宜支持算法任务管理支持有权限用户管理算法任务,包括查看任务详情、停止任务、以及克隆任务的功能;d)宜支持监控与维护;支持有权限的用户监视模型运营效果以及制定维护模型策略e)宜支持算法API化:支持有权限用户算法管理保存与载入,实现对算法模块重新利用以及进一步迭代调优。支持算法注册用于线下算法转化为可以线上调用的API接口,促进算法与业务进一步融合;f)宜支持算法辅助功能:支持有权限用户算法载入、算法注册、以及算法API用量查看功能;g)宜支持算法部署最终报告;支持有权限用户生成算法工作交付成果证明。数据安全管理是结合信息安全的技术手段保证医疗健康数据资产使用和交换共享过程中的安全。为数据提供适当的认证、授权、访问和审计,以防范可能的数据安全隐患。该模块需具备以下基础功能:a)应支持数据脱敏:支持脱敏加密规则、算法以及任务的管理;支持静态脱敏,如在非生产环境,将数据脱敏转换后提取到脱敏数据库中b)应支持数据分类分级:支持信息安全等级分类和密级分类,包括自动分类分级和人工分类分级:支持基于人工智能算法的实体识别、文本解析等文本数据的分类分级:c)应支持异常监控:支持数据生存周期的安全监控,并在出现安全隐患时发出预警;d)应支持安全项扫描:支持根据设置的安全词库和安全规则,扫描指定数据源,识别敏感信息;7e)应支持引入主动隐私保护技术,构建隐私模型,对具有隐私泄露凤险的数据,进行风险监测、风险评估、主动提醒、责任追测。医疗健康大数据平台应满足以下性能要求:a)应支持适宜的响应时间:用户进行在线实时查询业务操作,支持查询时间低于5秒的秒级搜素:b)应支持适宜的系统容量:可存储的医疗健康数据(包括EMR数据、生物样本库数据、实验室数据等)满足实际工作需求:c)应支持适宜的系统并发用户数:用户同时并发数量满足协同工作实际需要。7.9安全性要求医疗健康大数据平台应满足以下安全性要求:a)应支持用户身份认证:支持创建用户账户,设置口令和权限:支持定义用户组,设立口令标准、管理用户,口令,用户组等;支持用户身份验证与鉴权;b)应支持角色授权:支持权限配置、查询功能权限的分配情况:支持权限的禁止和互斥关系的配置:c)应支持租户隔离:管理用户、口令、用户组和权限。医疗健康大数据平台应满足以下要求a)应支持兼容性:兼容不同操作系统、浏览器及主流硬件平台;b)应支持高可用性:无单点故障,具备主节点失效恢复机制;支持软件中的任一构件更新、加载时,在不更新与上下构件的接口的前提下,不影响业务运转和服务c)应支持易用性:易于安装和使用,用户界面友好;d)应支持可扩展性;采用分布式多处理机结构,支持硬件动态扩展;支持平滑无中断在线扩容或新增业务8.1数据理解管理2)用户注册完成并已分配相应权限,且该1)在数据处理管理页面,选择库表等格式结构化2)在数据处理管理页面,选择csv、xls、xlsx等格式半结3)在数据处理管理页面,选择png、jpg、jpeg、bmp等格式图片类非结构化数据,导4)在数据处理管理页面,选择mp3、wav等格式音频类非结构5)在数据处理管理页面,选择mp4、avi、mov等格式视频类非结构化数据,导入:6)在数据处理管理页面,选择本地文件接入8)在数据处理管理页面,添加数据源配置,选择配置数据源、数据类型、10)在数据处理管理页面,查看多维度数据描述展示:11)在数据处理管理页面,查看全表统计展示:12)在数据处理管理页面,选择设置数据字段,查看直方图展13)在数据处理管理页面,选择设置数据字段,查看百分位图展示:14)在数据处理管理页面,选择设置数据字段,查看频次图展15)在数据处理管理页面,选择设置数据字段,查看异常检测箱型图展示;16)在数据处理管理页面,选择设置数据字段,查看散点图展17)在数据处理管理页面,查看相关矩阵热力图展示;18)在数据处理管理页面,选择设置数据字段,查看评估报19)在数据处理管理页面,查看全表评估报8)在步骤8)中,数据源配置成功,能够按照数据源配置方10)在步骤10)中,能够多维度显示数12)在步骤12)中,能够展示直方图18)在步骤18)中,能够生成展示评估报告;1)数据管理环境能够正常运行;2)用户注册完成并已分配相应权限,且该用户已登录;1)数据管理界面,对数据进行数据选择功能并执行,并保2)数据管理界面,对数据进行数据清洗功能如去重、补缺等算法需求,并3)数据管理界面,对数据进行数据转换任务,保6)数据管理界面,对数据进行数据整合任务,1)在步骤1)中,可以浏览数据目录,并选择到相应的数据作为挖掘和分析素材;2)在步骤2)中,输出的数据已按照数据清洗算法进行处理;3)在步骤3)中,输出的数据己按照数据转换算法进行处理;6)在步骤6)中,不同数据源的数据整合到一个新的数据源;测试目的:验证医疗健康大数据平台支持对2)用户注册完成并已分配相应权限,且该用户已登录;1)在数据标注管理页面,发起数据标注服务申请;填写数据标注需求需求列表,查看已提交的数据标注需求申请;2)打开数据标注需求审批模块,平台管理员浏览用户提交的数据标注需求申请;选需求申请,通过审批并分发数据标注任务;返回数据标注需求审批模块,求状态;切换至申请该数据服务的账号,查看已申请的数据需求的状态;注需求状态;8.4算法建模管理2)用户注册完成并已分配相应权限,且该用户已登录;1)进入算法建模管理页面,记录页面的各种建模方式;理等基本机器学习模型任一算法模型,保存并运行任务;定义深度学习算法等任一算法模型,保存并运行任务;的执行结果;6)在算法建模管理页面,选择预测类模型,保存并运行任务;3)在步骤3)中,能够成功运行深度学习算法;5)在步骤5)中,能够生成模型描述文档对模型进行解释;测试目的:验证医疗健康大数据平
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川光明能源发展集团有限公司公开招聘见习生笔试考试参考试题及答案解析
- 2026四川凉山州中西医结合医院招聘60人考试笔试备考试题及答案解析
- 2025山东青岛颐杰鸿利科技有限公司招聘3人考试笔试模拟试题及答案解析
- 2025浙江KT2025122301ZP0000宁波能源集团股份有限公司招聘1人笔试考试备考题库及答案解析
- 2026年江苏中医针灸学(相关专业知识)主治医师模拟练习题及答案解析
- 2026江西铜业建设监理咨询有限公司社会招聘1人考试笔试模拟试题及答案解析
- 2026年卫生专业技术资格考试中医针灸学主治医师(相关专业知识)模拟练习题及答案解析(甘肃陇南)
- 稀土永磁材料工安全专项测试考核试卷含答案
- 炭素煅烧操作工诚信道德水平考核试卷含答案
- 2025重庆大足区教育事业单位面向应届生考核招聘42人笔试考试参考试题及答案解析
- 骨盆骨折患者麻醉管理要点
- 2025贵阳人文科技学院教师招聘考试试题
- 高职院校产教融合共同体建设国内外研究动态及启示
- T/CWAN 0068-2023铜铝复合板
- 儿童寓言故事-乌鸦喝水
- 弱电系统维护中的安全和文明措施
- 紧急状态下护理人力资源调配
- 安全生产文明施工评价报告
- 眼科滴眼药水课件
- 2024-2025学年青海省西宁市七年级(上)期末英语试卷(含答案)
- 2025中级消防设施操作员作业考试题及答案(1000题)
评论
0/150
提交评论