CN116048811B 基于资源复用的全同态加密神经网络推理加速方法及系统 (山东大学)_第1页
CN116048811B 基于资源复用的全同态加密神经网络推理加速方法及系统 (山东大学)_第2页
CN116048811B 基于资源复用的全同态加密神经网络推理加速方法及系统 (山东大学)_第3页
CN116048811B 基于资源复用的全同态加密神经网络推理加速方法及系统 (山东大学)_第4页
CN116048811B 基于资源复用的全同态加密神经网络推理加速方法及系统 (山东大学)_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

号基于资源复用的全同态加密神经网络推理本公开提供了一种基于资源复用的全同态待加速的全同态加密神经网络的信息以及FPGA进行运算处理时最优的硬件资源配置方案;其全同态加密运算以及全同态加密神经网络的各间采用同态基本操作模块的复用;同时,对于2获取待加速的全同态加密神经网络的信息以及FP将所述全同态加密神经网络的信息以及硬件资源信息,输入预先其中,所述硬件资源分配模型的处理策略为:针对全同态加密运所述针对全同态加密运算以及全同态加密神经网络的各网络层内进行并行及流水优2.如权利要求1所述的一种基于资源复用的全同态加密神经网络推理加速方法,其特操作占用的DSP数量,BRAMr为Ir层使用3.如权利要求1所述的一种基于资源复用的全同态加密神经网络推理加速方法,其特4.如权利要求1所述的一种基于资源复用的全同态加密神经网络推理加速方法,其特35.如权利要求1所述的一种基于资源复用的全同态加密神经网络推理加速方法,其特6.如权利要求1所述的一种基于资源复用的全同态加密神经网络推理加速方法,其特资源信息主要包括额定DSP资源数量及BR数据获取单元,其用于获取待加速的全同态加密神经网络的信息以及资源配置单元,其用于将所述全同态加密神经网其中,所述硬件资源分配模型的处理策略为:针对全同态加密运所述针对全同态加密运算以及全同态加密神经网络的各网络层内进行并行及流水优于,所述处理器执行所述程序时实现如权利要求1_6任一项所述的一种基于资源复用的全理器执行时实现如权利要求1_6任一项所述的一种基于资源复用的全同态加密神经网络推4[0002]本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技[0003]使用全同态加密(FHE:FullyHomomorphicEncryption)技术保护卷积神经网络同态加密的卷积神经网络(FHE_CNN)需要对大量数据进行计算,同时也需要大量的存储空[0006](2)基于更底层的硬件层面的优化,具体的,常用的硬件平台包括图形处理器(GraphicsProcessingUnit,GPU)、现场可编程门阵列(Field_programmableGate56[0035](1)本公开提供了一种基于资源复用的全同态加密神经网络推理加速方法,所述[0036](2)所述方案针对FPGA硬件部署的瓶颈,即计算资源利用效率低和片上存储空间7[0040]图1为本公开实施例中所述的NKS层(即不包含KeySwitch操作的层)的流水示意[0044]图5(a)至图5(b)为本公开实施例中所述的FHE_CNN网络层内的缓冲区复用示意[0045]图6为本公开实施例中所述的基于资源复用的全同态加密神经网络推理加速方法[0046]图7(a)至图7(b)为本公开实施例中所述的基于Lola_MNIST网络的并行度配置结[0050]图11为本公开实施例中所述的一种基于资源复用的全同态加密神经网络推理加[0058]FPGA(FieldProgrammableGateArray)现场可编程逻辑门阵列,是一种半定制8[0062]当前针对隐私数据进行运算的主流技术有安全多方计算(MPC:Multi_party9[0082]进一步的,所述全同态加密神经网络的信息主要包括同FPGA的硬件资源信息主要包括额定DSP资源数量及B[0086]在全同态加密和神经网络结合的基础上,针对全同态加密运算以及FHE_CNN层内作是同态基本操作(后面简称为基本操作),包括模乘(Modularmult)、模加(Modular式之间有时候存在依赖关系导致无法并行计算,我们后面对不同的情况进行不同的设计。作需要进行多个基本操作的计算,才能计算下一个密文,因此该方案的流水间隔取决于[0093]KS层一般用于计算同态矩阵乘法,其中,[0097]将片上缓冲区(Buffer)以存储一个RNS多项式的空间为存储单位。由于基本操作使用结果。以图4(a)为例,CC_add的输入和输出复用Bb1这个Buffer;以图4(c)为例,[0100]中间级复用是指FHE_CNN层内相邻的操作用同一个Buffer进行运算,而根据数据[0101]最高级复用是指不同的FHE_CNN层共用同一组Buffer。根据一层计算完再计算下最终使用Buffer的总量是所有层各自Buffer用表示NKS层内部同态操作的并行度和同态操作内部KSKS,NKSNKSNKS总数。在满足每个同态操作使用DSP的总和小于DSP;使用BRAM最多的层的BRAM数量小于表示NKS层内部同态操作的并行度和同态操作内部神经网络包含的所有层,lr表示其中的一个层。DSPmax表示该FPGA开发板拥有的DSP数量,BRAMmax表示该FPGA开发板拥有的BRAM的总数。在满足每个同态操作使用DSP的总和小于[0173]本实例选择的神经网络为Lola_MNIST。是一个五层的用来对MNIST数据集进行预[0179]针对两种低功耗的FPGA开发板进行实验测试,来验证FHE_CNN在嵌入式FPGA上的部署实现是可行的。具体而言,一个是中端FPGAALINXACU9EG(withXilinxZynq是高端FPGAALINXACU15EG(withXilinxZynqUltraScale+MPSoCXCZU15EG),拥有3,是1到6,最高级并行的解空间为1到无穷。我们遍历解空间的所有解,最终得到在FPGA其他基本操作为1;同态操作内部的并行度,PC_mult为3,CC_Mult为1,Rescale为3,即使是并行度降低对总时延影响不大,从而把CC_mult低并行度节约下来的资源用于其他Fc1层占据了最多的推理时间,通过BRAM复用手段使得FC1层使用的BRAM由25.8%增加到[0189]本实验使用Lola_Cifar网络测试全同态加密神经网络推理的FPGA加速器设计方[0195]使用的FPGA开发板分别为ALINXACU9EG(withXilinxZynqUltraScale+MPSoCXCZU9EGdevice)和ALINXACU15EG(withXiliinxZynqUltraScale+MPSoCXCZU15EG)。[0199]通过实验1与实验2,证明我们的加速框架对多个FHE_CNN加速效果都能够达到和果。该框架实现了自动化生成给定神经网络和给定FPGA开发板的硬件资源最优配置,对FHE_CNN硬件优化部署提供了一种解[0213]本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步[

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论