CN110609804B 半导体器件和控制半导体器件的方法（瑞萨电子株式会社）

上传人：1*** IP属地：山西上传时间：2026-04-28 格式：DOCX 页数：112 大小：8.14MB 积分：12 举报 版权申诉

CN110609804B 半导体器件和控制半导体器件的方法（瑞萨电子株式会社）_第2页

CN110609804B 半导体器件和控制半导体器件的方法（瑞萨电子株式会社）_第3页

CN110609804B 半导体器件和控制半导体器件的方法（瑞萨电子株式会社）_第4页

CN110609804B 半导体器件和控制半导体器件的方法（瑞萨电子株式会社）_第5页

已阅读5页，还剩107页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

WO2017006512A1,2017.01.US2009304268A1,2009.本申请的各实施例涉及半导体器件和控制地输入的输入数据执行数据处理并顺序地输出处理器的输出数据与多个预定数据中的每个预算术操作结果并将它们输出到动态重新配置处2其中所述数据处理单元(11)被配置为1)顺序地接收第一输入数一输入数据执行数据处理，并且3)顺序地将作为所述数据处理的结果的第一输出数据其中所述第一数据传输单元(13)被配置为1)从所述数据处理单元(11)接收所述第一中的多个运算单元之中被分组为第一算术单元组的多其中所述加速器的所述并行算术部分(121)中的所述第一算术单元组，被配置为1)从所述第一数据传输单元(13)顺序地接收所述第一输出数据(DQout)，2)在所述第一输出数据(DQout)与多个预定数据中的每个预定数据之间并行地执行算术运算，并且3)向所述第其中第二数据传输单元(14)被配置为1)从所述加速器接收所述多个算术运算结果(DPout)，并且2)按顺序向所述数据处理单元输出所述多个算术运算结果作为所述第一输其中所述数据处理单元(11)被配置为与所述第一输出数据(DQout)并行地顺序地输出其中所述第一数据传输单元(13)还被配置为将所述第二输出数据选择性地输出到所述加速器的所述并行算术部分(121)中的所述多个算术单元之中被分组为与所述第一算术其中所述第二算术单元组被配置为：1)顺序地从所述第一数其中所述第一数据传输单元(13)基于所述加速器(2)相对于所述数据处理单元(11)的其中，当所述第一数据传输单元(13)被设置为所述第一模式元(13)将所述第一输出数据(DQout)和所述第二输出数据分别输出到所述第一算术单元组其中，当所述第一数据传输单元(13)被设置为所述第二模式元(13)顺序地选择所述第一输出数据(DQout)和所述第二输出数据并将所选择的结果输出其中所述第一输出数据(DQout)被共同地输入到所述第一算术单元组的所述多个算术其中所述第一算术单元组的所述多个算术单元中的每个算术单元在所述多个预定数据中的对应的预定数据与所述第一输出数据(DQout)之33.根据权利要求1所述的半导体器件，其中所述加速器的所述并行算术单元中的所述多个算术单元中的每个算术单元包括加法器其中所述第二数据传输单元(14)向所述数据处理单元(11)顺序地输出所述第二算术其中所述数据处理单元(11)与针对所述第一输入数据的所述数据处理并行地执行对其中所述第二数据传输单元(14)按顺序输出所述多个第一算术运算结果和所述多个其中所述第二数据传输单元(14)基于所述加速器(2)相对于所述数据处理单元(11)的所述处理速度的所述处理速度而被设置为第三模式其中，当所述第二数据传输单元(14)被设置为所述第三模式元(14)按顺序输出所述第一算术单元的所述第一算术运算结果作为所述第一输入数据其中，当所述第二数据传输单元(14)被设置为所述第四模式元(14)集体地选择所述第一算术运算结果中的至少两个算术运算结果以作为所述第一输7.根据权利要求1所述的半导体器件，其中所述第一数据传输单元(13)被配置为将所述第一输出数据(DQout)或所述第二输出数据选择性地输出到8.根据权利要求1所述的半导体器件，其中所述第一数据传输单元(13)选择所述第一输出数据(DQout)和所述第二输出数据并将所述第一输出数据(DQout)和所述第二输出数9.根据权利要求1所述的半导体器件，其中所述算术单元中的每个算术单元包括多个13.根据权利要求12所述的半导体器件，其中被分组为所述第一算术单元组的第一集合的算术单元和被分组为所述第二算术单元组的第二集合的算术单元被共同地提供有从4其中所述第一算术单元组中的第一集合的算术单元和所述第二算术单元组中的第二集合的算术单元被分别提供有从所述本地存储器读出的使用所述数据处理单元对所述第一输入数据(DQin)从所述数据处理单元顺序地输出所述数据处理的结果作在加速器(2)处由所述数据处理单元顺序使用所述加速器(2)来在从所述数据处理单元顺序地输出的所述第一输出数据(DQout)与多个预定数据中的每个预定数据之间并行地执行算术运算，并且输出多个算术从所述第一数据传输单元向所述数据处理单元(11)顺序地输出所述多个算术运算结其中所述加速器包括并行算术部分，所述并行算术部分包括具其中所述第一数据传输单元将所述第一算术单其中所述第一数据传输单元(13)基于所述加速器(2)相对于所述数据处理单元(11)的其中，当所述第一数据传输单元(13)被设置为所述第一模式元(13)按顺序输出所述第一算术单元的所述第一算术结果作为所述第一输入数据(DQin)，其中，当所述第一数据传输单元(13)被设置为所述第二模式元(13)集体地选择所述第一算术结果中的至少两个算术结果以作为所述第一输入数据5[0002]于2018年6月15日提交的日本专利申请号2018-114861的公开内容(包括说明书、配置处理器被称为可动态重新配置处理器(DRP)或阵列型处理器。动态重新配置处理器是能够通过根据顺序地给出的操作指令动态地切换多个处理器元件中的每个的操作内容和器相关的技术被公开于例如日本专利No.3674515(专利文件1)[0005]另外，"SIMD"[在线](搜索于2018年1月26日)，互联网<URL:https:///wiki/SIMD>(非专利文件1)和“Mechanismsfor30timesfasterlook-at-googles-first-tensor-processing-unit-tpu.html>(非专利文件2)公开了与并[0006]然而，专利文件1中公开的动态重新配置处理器的处理性能不足以执行大规模算数据处理单元顺序地输出的第一输出数据与多个预定数据中的每个预定数据之间并行地由加速器按顺序保持的多个算术处理结果并顺序地输出算术处理的结果作为第一输入数在从数据处理单元顺序地输出的第一输出数据与多个预定数据中的每个预定数据之间并6[0010]图1是示出了根据第一实施例的半导体器件被安装于其中的半导体系统的配置示[0020]图11是用于解释动态重新配置处理器的数据输出与数据输入之间的关系的定时[0031]图22是图示了当输入模式是第一输入模式时加速器中的数据传输单元和并行算[0032]图23是图示了当输入模式是第二输入模式时加速器中的数据传输单元和并行算[0033]图24是图示了当输入模式是第三输入模式时加速器中的数据传输单元和并行算[0034]图25是图示了当输入模式是第四输入模式时加速器中的数据传输单元和并行算[0035]图26是图示了当输入模式是第五输入模式时加速器中的数据传输单元和并行算[0036]图27是图示了当输入模式是第六输入模式时加速器中的数据传输单元和并行算[0037]图28是图示了当输入模式是第七输入模式时加速器中的数据传输单元和并行算7[0038]图29是示出了当输出模式是第一输出模式时加速器中的并行算术单元和数据传[0039]图30是示出了当输出模式是第二输出模式时加速器中的并行算术单元和数据传[0040]图31是示出了当输出模式是第三输出模式时加速器中的并行算术单元和数据传[0041]图32是图示了当输出模式是第四输出模式时加速器中的并行算术单元和数据传[0042]图33是图示了当输出模式是第五输出模式时加速器12中的并行算术单元和数据[0043]图34是图示了当输出模式是第六输出模式时加速器中的并行算术单元和数据传[0044]图35是图示了当输出模式是第七输出模式时加速器中的并行算术单元和数据传[0045]图36是图示了当在并行化的最大程度上设置输入数据的情况下执行操作时并行[0046]图37是图示了当通过使输入数据的并行化最小来执行操作过程时并行算术部分[0047]图38是图示了当通过在中等程度上并行地设置输入数据来执行操作过程时并行[0048]图39是图示了当针对两个输入数据中的每个执行并行算术操作时并行算术部分[0049]图40是图示了根据第二实施例的半导体器件被安装于其中的半导体系统的配置[0051]以上描述的程序可以使用各种类型的非瞬态计算机可读介质被存储并提供给计计算机可读介质可以经由有线或无线通信路径(诸如电线和光纤)将程8[0053]图1是示出了根据本发明的第一实施例的半导体系统1被安装于其上的半导体系可以使用加速器来执行大量常规数据处理，并且使用数据处理单元来执行其他数据处理，换多个处理器元件中的每个的操作内容和多个处理器之间的连接来对电路进行动态地重发布到处理器元件中的每个。处理器元件中的每个包括例如至少指令存储器和算术单元。算术单元根据存储在指令存储器中的多个操作指令之中的由指令指针指定的操作指令来件中的每个根据从对应的处理器元件的指令存储器读取的操作指令来设置对应的处理器[0058]数据传输单元13根据例如并行算术部分121所需的算术处理的并行化程序来分布[0059]加速器12在从数据传输单元13顺序地输出的数据DPin与n(n是等于或大于2的整(n-1)不被区分并且可以被简单地称为的m个数据相对应的m×n片数据被存储在本地存储器122中。并行算术部分121由并行地执9行算术处理的多个算术单元配置。并行算术部分121在数据DPin与多个预定数据D_0至D_体地，CPU2准备数据串(描述符)用于详细地指令加速器12以及数据传输单元13和14的操序来指令数据传输单元13分布数据DPin或对其进行序列化。DMA15根据并行算术部分121的算术处理的并行化程序来指令数据传输单元14对并行地输出的n片数据DPout进行组合的64位宽的数据DQout作为数据DQout_0至DQout_3。DRP11不限于输出四个通道的数据[0070]并行算术部分121包括例如并行算术单元MAC256_0至MAC256_3。并行算术单元MAC256_0至MAC256_3中的每个包括并行地执行算术处理的256个算术单元。数据DPin_0至DPin_3分别被输入到并行算术单元MAC256_0至MAC256[0071]并行算术单元MAC256_0通过相对于64位宽(16位宽×4组)数据DPin_0使用最大256个算术单元(四组64个单元)来并行地执行算术处理输[0072]类似地，并行算术单元MAC256_1通过相对于64位宽(16位宽×4组)数据DPin_1使用最大256个算术单元(四组64个单元)来并行地执行算术处理输出最大256个算术处理结术单元(四组64个单元)来并行地执行算术处理输出最大256个算术处理结果。并行算术单元MAC256_3通过相对于具有64位宽(16位宽×4组)的数据DPin_3使用最大256个算术单元(四组64个单元)来并行地执行算术处理输出最大256个算术处理单元MAC256_0之前和之后提供的数术单元MAC64_0至MAC64_3中的每个由并行地执行算术处理的64个算术单元[0075]64位宽数据DPin_0的第0位至第15位(在下文中被称为数据DPin_00)被输入到并中被称为数据DPin_03)被输入到并行算术单元MAC6[0076]并行算术单元MAC64_0使用最大64个算术单元对16位宽数据DPin_00并行地执行算术处理并输出最大64个算术处理结果的算术处理结果，每个算术处理结果都具有16位可以使用最大64个算术单元对16位宽数据DPin_02并行地执行算术处理并输出最大64个算术单元对16位宽数据DPin_03并行地执行算术处理并输出最大64个算术处理结果，每个算[0077]并行算术单元MAC256_1至MAC256_3具有与并行算术单元MAC256_0的配置相同的64个算术处理结果作为数据DPout__1，每个算术处理结果具有16位宽。并行算术单元MAC256_2对数据DPin_2执行算术处理，并且输出四组最大64个算术处理结果作为数据理，并且输出四组最大64个算术处理结果作为数据DPout_3，每个算术处理结果具有16位[0080]数据传输单元14例如从包含于从并行处理器MAC256_0并行地输出的数据DPout_0中的四组中的每组(每组具有64个16位宽数据)中逐个地进行选择并顺序地输出包括四组每组的所有数据以便输出一组中的64个16位宽数据并且然后输出下一组中的64个16位宽出的数据DPout_1中的四组中的每组(每组具有64个16位宽数据)中逐个地进行选择并顺序从包含于从并行处理器MAC256_2并行地输出的数据DPout_2中的四组中的每组(每组具有64个16位宽数据)中逐个地进行选择并顺序地输出包括四组16位宽数据的数据DQin_2(即，64位宽数据DQin_2)。数据传输单元14顺序地例如从从并行处理器MAC256_3并行地输出的DPout_3中的四组中的每组(每组具有64个16位宽数据)中逐个地进行选择并输出包括四组DQin_3执行算术处理，并且将算术处理结果顺序地输出到外部存储器3。数据DQin_0至DQin_3可以用于计算数据DQout_0至且使用数据处理单元来执行其他数据处理，使得能够甚至在大规模算术处理(诸如深度学[0084]在下文中，将参考图4和图5描述使用根据本实施例的半导体器件1的神经网络的[0086]如图5所示，DRP11从外部存储器3读出加速器12的算术处理所需的数据(步骤的接收到的数据的顺序将从DRP11顺序地输出的数据乘以存储在本地存储器中的数据(对电路配置进行重新配置使得乘法累加计算操作所需的输入数据根据可以由加速器12同时被输出为由k行×n列的元素组成的矩阵数应的包括矩阵数据W和偏置值b的初始设置信息被存储在加速器12的本地存储器122中(图6可以与DMA15分离地提供，并且从外部存储器3读取的初始设置信息可以使用专用于加速[0092]加速器12将从本地存储器122读取的偏置值b设置为并行算术部分121的相应算术[0093]图9是示出了行数据In1(矩阵数据In的第一行数据)和矩阵数据W的乘法表达的特设第一行数据由20列的元素a0,0a0,1...a0,19组成，第二行数据由20列的元素a1,0a1,1...a1,19组成，并且第20行数据(其是最后一行)由20列的元素a19,0a19,1...a19,19组术部分121中提供的多个算术单元之中的20个算术单元121_0至121_19。算术单元121_0至[0096]在算术单元121-j(j是0至19中的任一个)中，从本地存储器122读取的偏置值b被乘以从本地存储器122读取的矩阵数据W中的第一行的元素a0,j(对应于16位宽的预定数据×b1)与存储在寄存器RG1中的值(a0,j×b0)相加并将加法结果传[0100]当完成从寄存器RG1到寄存器RG2的数据传输(图6的时间t5)时，能够由算术单元t9)同时将存储在寄存器RG2中的算术操作结果传输到数据传输单元14(对应于图6中的时阵数据In中的第一行数据In1的输出的完成到第三行数据In3的输出的开始的时段)期间对[0102]数据传输单元14顺序地选择从算术单元121_0至121_19输出的20个算术操作结果地输出的数据DQin由DRP11在图6中的时间t7至t1[0104]当加速器12完成针对从第一层的矩阵数据In的第一行到第k行的所有行数据的算[0105]优选的是，本地存储器122具有存储与至少两层的矩阵数据In相对应的初始设置期间，用于对第二层的矩阵数据In的操作的初始设置信息可以被传输到本地存储器122的[0106]另一方面，即使本地存储器122不具有足够的存储空间来存储与一层矩阵数据In相对应的初始设置信息或者具有足够的空间来存储与一层矩阵数据In相对应的初始设置器122不具有足以存储与第三层的矩阵数据In相对应的初始设置信息实施例的半导体器件和包括半导体器件的半导体系统可以使用加速器来执行大量常规数算术单元TN1以及乘法器MX2被提供在多个算术单元中的全部中，所以存在电路规模增加0包括并行地执行算术操作处理的64个算术单元121_0至121_63。算术单元121_0至121_63[0117]由于并行算术单元MAC64_1至MAC64_3具有与并行算术单元MAC64_0的配置相同的[0119]图16是示出了作为并行操作器MAC64a_0的并行算术单元MAC64_0的第一修改的示[0121]以这种方式，甚至当并行算术单元MAC64a_0执行针对从本地存储器122读出的具然后从具有16位宽的数据中顺序地选择一位并执行并行算术操作处理来抑制来自本地存[0122]并行算术单元MAC64a_1至MAC64a_3具有与并行算术单元MAC64a_0的配置相同的输单元13的数据加到寄存器RG1中存储的数据或者从寄存器RG1中存储的数据减去来自数[0125]图17是示出了作为并行操作器MAC64b_0的并行操作器MAC64_0的第二修改的示意[0126]这里，选择器SL1顺序地逐位地选择并输出从本地存储器122读取的16位宽数AD1从来自数据传输单元13的16位宽数据减去存储在寄存器RG1中的数据。选择器SL2基于从选择器SL1输出的1位宽数据的值来选择并输出加法器AD1的加法结果或减法器SB1的减被存储在寄存器RG2中并且然后输出到数据传输单[0128]并行算术单元MAC64b_1至MAC64b_3具有与并行算术单元MAC64b_0的配置相同的[0130]图18(包括并行算术单元的多个算术单元的第三修改)示出了作为并行操作器个并行算术单元121c_0至121c_63。算术单元121c_0至121c_63中的每个以1位为单位在来自数据传输单元13的16片1位数据与从本地存储器122读取的16片1位数据之间执行算术操[0133]图18中示出的配置的操作这还能够通过如图19所示的并行算术单元的配置来实[0135]图19是示出了作为并行操作器MAC64d_0的并行操作器MAC64_0的第四修改的示意[0136]XNOR电路XNR1以1位为单位对来自数据传输单元13的16片1位数据和从本地存储器122读取的16片1位数据执行负异或操作。当XNOR电路XNR1的输出值以二元单位观察时，和从本地存储器122读取的16位数据被视为二元数时，当弹出计算器CNT1的输出值表示具[0137]如以上所描述的，并行算术单元MAC64d_0以1位为单位通过16片并行地在来自数据传输单元13的16片1位数据与从本地存储器122读取的16片位数据之间执行算术操作处0可以实现与并行算术单元MAC64d_0的操作[0138]并行算术单元MAC64d_1至MAC64d_3具有与并行算术单元MAC64d_0的配置相同的[0140]图20(包括并行计算器的多个操作器的第五修改)示出了作为并行计算器MAC64e_通过当操作结果为负时输出0并且否则例如通过使用偏置值输出1来输出激活的值作为1位[0143]图21是示出了作为并行算术单元MAC64f_0的并行操作器MAC64_0的第六修改的示由CPU设置寄存器来固定地指定，或者可以通过描述要在描述符中指定的模式的信息来为吞吐量来切换算术操作的内容。并行算术单元MAC64e_1至MAC64e_3具有与并行算术单元文中，将描述根据其中数据经由数据传输单元13从DRP11被输入到加速器12的操作模式(在下文中被称为输入模式)的通过数据传输单元13的元13以及加速器12的示意图。在这种情况下，数据传输单元13使用选择电路131输出64位03分别被输入到并行算术单元MACMAC64_0至[0149]数据传输单元13与并行算术单元MAC256_1至MAC256_3之间的关系与数据传输单元13以及加速器12的示意图。在这种情况下，数据传输单元13使用选择电路131将数据DQout_00划分成组成32位(16位×2)的数据DQout_0的两个16位数据片DQout_00和DQout_输入到并行算术单元MACMAC64_0至MAC[0151]数据传输单元13与并行算术单元MAC256_1至MAC256_3之间的关系与数据传输单些16位数据DPin_00至DPin_03分别被输入到并行算术单元MACMAC64_0至[0153]数据传输单元13与并行算术单元MAC256_1至MAC256_3之间的关系与数据传输单成64位数据DQout_0(16位×4)的16位数据DQout_00至DQout_03中选择16位数据DQout_00并行算术单元MACMAC64_0至MAC6[0155]数据传输单元13与并行算术单元MAC256_1至MAC256_3之间的关系与数据传输单组成32位数据DQout_0(16位×2)的16位数据DQout_00和DQout_01(在图26中示出的示例00至DPin_03。这些16位数据DPin_00至DPin_03分别被输入到并行算术单元MACMAC64_0至[0158]数据传输单元13与并行算术单元MAC256_1至MAC256_3之间的关系与数据传输单组成48位的数据DQout_0(16位×3)的16位数据DQout_00至DQout_02(在图27中示出的示例DPin_00至DPin_03。这些16位数据DPin_00至DPin_03分别被输入到并行算术单元[0161]数据传输单元13与并行算术单元MAC256_1至MAC256_3之间的关系与数据传输单组成64位的数据DQout_0(16位×4)的16位数据DQout_00至DQout_03(在图28中示出的示例的数据DPin_00至DPin_03。这些16位数据DPin_00至DPin_03分别被输入到并行算术单元[0164]数据传输单元13与并行算术单元MAC256_1至MAC256_3之间的关系与数据传输单为了使加速器12的处理性能最大化，优选的是，将加速器12的处理速度调整为稍慢于DRP[0166]如以上所描述的，根据本实施例的半导体器件1可以任意地改变对经由数据传输DRP11的数据输出速率被调节以匹配加速器12的处理吞吐量时数据处理是高效的。具体文中，将描述根据其中数据经由数据传输单元14从加速器12被输出到DRP11的操作模式(在下文中被称为输出模式)的通过数据传输单元14的数据传输的示例。数据DPout_0由数[0169]图29是示出了当输出模式是第一输出模式时加速器12中的并行算术单元MAC256_算术单元MAC64_0并行地输出的最大64个16位数据DPout_00中顺序地选择一个数据，并且并行地输出的最大64个16位数据的DPout_01中选择一个数据来顺序地输出16位数据DQin_最大64个16位数据DPout_03被顺序地选择，并且顺序地输出所选择的数据作为16位数据[0170]并行算术单元MAC256_1至MAC256_3与数据传输单元14之间的关系和并行算术单[0171]图30是示出了当输出模式是第二输出模式时加速器12中的并行算术单元MAC256_外，通过从具有从并行处理器MAC64_1并行地输出的最大64个16位数据的DPout_01中逐个地输出的最大64个16位数据的DPout_02中逐个地进行选择来顺序地输出16位数据DQin_逐个地进行选择来顺序地输出16位数据D[0173]在此之后，选择电路141_2输出16位数据DQin_00，并且随后输出16位数据DQin_由从选择电路141_2输出的数据DQin_00和DQin_01之一与DQin_02和DQin_03之一组成的具[0174]数据传输单元14可以备选地使用选择电路141_2输出16位数据DQin_00和16位数[0175]并行算术单元MAC256_1至MAC256_3与数据传输单元14之间的关系和并行算术单[0176]图31是示出了在输出模式是第三输出模式的情况下加速器12的并行算术单元路141_1和第二选择电路141_2组成的选择电外，通过从具有从并行算术单元MAC64_1并行地输出的最大64个16位数据的DPout_01中逐并行地输出的最大64个16位数据的DPout_02中逐个地进行选择来顺序地输出16位数据DQin_02。另外，通过从具有从并行算术单元MAC64_3并行地输出的最大64个16位数据的DPout_03中逐个地进行选择来顺序地输出16位数据DQ顺序地输出所选择的数据作为16位宽数据DQin[0179]并行算术单元MAC256_1至MAC256_3与数据传输单元14之间的关系和并行算术单[0180]图32是示出了在输出模式是第四输出模式的情况下加速器12的并行算术单元路141_1和第二选择电路141_2组成的选择电16位数据DQin_03(在图32的示例中为F1[0182]其后，选择电路141_2备选地输出16位数据DQin_00和16位数据DQin_01作为32位[0183]并行算术单元MAC256_1至MAC256_3与数据传输单元14之间的关系和并行算术单制的情况下高效地执行了并行算术操作处理之后从加速器12输出的数据的数据传输速度[0185]图33是示出了在输出模式是第五输出模式的情况下加速器12的并行算术单元路141_1和第二选择电路141_2组成位数据DPout_00中进行逐个地选择，并且顺序地输出所选择的数据作为16位数据DQin_00据DQin_00至DQin_03并收集两个数据片作为32位宽[0188]并行算术单元MAC256_1至MAC256_3与数据传输单元14之间的关系和并行算术单速率限制的情况下高效地执行了并行算术处理之后从加速器12输出的数据的数据传输速[0190]图34是示出了在输出模式是第六输出模式的情况下加速器12的并行算术单元路141_1和第二选择电路141_2组成的选择电位数据DPout_00中进行逐个地选择，并且顺序地输出所选择的数据作为16位数据DQin_00据DQin_00至DQin_03并收集三个数据片作为48位宽[0193]并行算术单元MAC256_1至MAC256_3与数据传输单元14之间的关系和并行算术单率限制的情况下高效地执行了并行算术处理之后从加速器12输出的数据的数据传输速度[0195]图35是示出了在输出模式是第七输出模式的情况下加速器12的并行算术单元路141_1和第二选择电路141_2组成的选择电位数据DPout_00中进行逐个地选择，并且顺序地输出所选择的数据作为16位数据DQin_00且被顺序地输出作为16位数据DQin_03(在图35的示例中为F1据DQin_00至DQin_03并收集四个数据片作为64位宽[0198]并行算术单元MAC256_1至MAC256_3与数据传输单元14之间的关系和并行算术单制的情况下高效地执行了并行算术处理之后从加速器12输出的数据的数据传输速度可以[0201]图36是示出了当利用最大程度的并行化对输入数据执行算术操作时并行算术部输单元13分别分布到并行算术单元MAC256_0至MAC256_3中提供的并行算术单元MAC64_0至些算术操作结果可以被转换成期望位宽的数据并输出到DR[0202]图37是示出了在并行化的程度为最小单元的情况下对输入数据执行算术操作的情况下并行算术部分121的算术操作的流的示意图。如图37所示，从DRP11输出的数据DQout_0由数据传输单元13被提供到并行算术单元MAC256_0中提供的并行算术单元MAC64_个算术单元之中的一至64个算术单元来对数据DQout_0(数据DPin_0)并行地执行算术操[0203]图38是示出当利用以中等水平设置的并行化程度对输入数据执行算术操作时并行算术部分121的算术操作处理的流的示意图。在图38的实施例中，从DRP11输出的数据DQout_0由数据传输单元13分别分布到并行算术单元MAC256_0中提供的并行算术单元MAC64_0至MAC64_3和并行算术单元MAC256_0中提供的并行算术单元MAC64_0至MAC64_2并数据DQout_0(数据DPin_0和DPin_1)并行地执行算术操作[0204]图39是示出了当对两个输入数据中的每个执行并行算术操作时并行算术部分121元13分别分布到并行算术单元MAC256_0中提供的并行算术单元MAC64_0至MAC64_3和并行算术单元MAC256_1中提供的并行算术单元MAC64_0至MAC64_2并提供为数据DPin_0和DPin_1。另外，从DRP11输出的数据DQout_2由数据传输单元13分布到并行算术单元中提供可以使用例如400个算术单元对数据DQout_0(数据DPin_0和DPin_1)并行地执行算术操作，并且使用例如120个算术单元对数据DQout_2(数据DPin_2)并行地执据的算术操作处理的多个算术单元可以被提供有从本地存储器122读出的个体预定数据，[0207]图40是示出了根据第二实施例的半导体器件1a被安装于其上的半导体系统SYS1a给出的操作指令(应用)比当执行动态重新配置操作(DRP11)时的动态重新配置指令(应[0209]另外，DRP11a被提供有用于独立地操作对要被发送到加速器12的数据的处来自加速器12的数据被输入到的外部输入端子、以及指向外部存储器3的写入数据被输出得能够甚至在大规模算术处理(诸如深度学习处理)中执[0212]在以上描述的第一实施例和第二实施例中，描述了其中从本地存储器122读出的地存储器122读取的公共预定数据可以被提供到组成并行算术部分121的多个算术单元中元顺序地输出的第一输出数据与多个预定数据中的每个预定数据之间并行地执行算术处持的多个算术处理结果并顺序地输出算术处理的结果作为第一输入

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN110609804B 半导体器件和控制半导体器件的方法（瑞萨电子株式会社）

文档简介

温馨提示

最新文档

评论

CN110609804B 半导体器件和控制半导体器件的方法 （瑞萨电子株式会社）

文档简介

温馨提示

最新文档

评论

相关文档

CN110609804B 半导体器件和控制半导体器件的方法（瑞萨电子株式会社）