版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
US2001032228A1,2001.1US2002169813A1,2002用于有符号字的双复数与复共轭乘法的系本申请公开了用于有符号字的双复数与复将来自第一和第二紧缩数据源操作数中的多个紧缩数据元素位置的数据值复用至至少一个乘据源操作数中的共享紧缩数据元素位置处的数2将来自所述第一紧缩数据源操作数和所述第二紧缩数据源操作数中的多个紧缩数据二紧缩数据源操作数中的共享紧缩数据元素位将所述实部存储到所述目的地操作数中的第一紧缩数据元素位置,将每个复数对的乘积的实部和虚部输出至加法器网络以计算实结果舍入所述第二复数的复共轭与所述第一复数的乘对指令解码,所述指令具有用于第一紧缩数据源操作数将来自所述第一紧缩数据源操作数和所述第二紧缩数据源操作数中的多个紧缩数据述第二紧缩数据源操作数中的共享紧缩数据元素位置处将所述实部存储到所述目的地操作数中的第一紧缩数据元素位置,3将每个复数对的乘积的实部和虚部输出至加法器网络以计算实结果舍入所述第二复数的复共轭与所述第一复数的乘4[0008]图4B是图示根据本发明的一个实施例的构成完整操作码字段的具有专用向量友[0009]图4C是图示根据本发明的一个实施例的构成寄存器索引字段的具有专用向量友[0011]图6A是图示根据本发明的实施例的示例性有序流水线以及示例性寄存器重命名[0012]图6B是图示根据本发明的实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构[0019]图13是根据本发明的各实施例的对照使用软件指令转换器将源指令集中的二进5[0022]上文讨论的复向量操作先前需要执行多个指令序列以生[0023]本文详述用于通过相比执行多个操作来执行双复数与复数乘法进行加速(并且因此通常使用更少的功率)来改善计算机本身的双复数与复共轭乘法指令的实施例。对该指[0024]图1图示双复数与复共轭乘法指令的示例性执行。双复数乘加指令格式包括用于目的地(紧缩数据目的地(DST)120)和两个源(向量紧缩数据源1(SRC1)102和向量紧缩数据6第二复数对可以在S1E/S1F和S2E/S2F处。在一些实施例中,第三复数对在S1C/S1D和S2C/7临时寄存器(TEMP1)可以存储虚部(例如,其中SRC1[15:0]对应于SRC1102的元素A,SRC1[31:16]对应于SRC1102的元素B,并且对于SRC2是类似的)。类似地,第三临时寄存器以存储虚部(例如,其中SRC1[79:64]对应于SRC1102的元素E,并且SRC1[95:80]对应于89[63:48]对应于SRC1102的元素D,并且对于SRC2是类似的)。类似地,第七临时寄存器法和有符号加法以计算实结果和虚结果。例如,S2A*S1A的值可以存储在第一临时寄存器[0047]图2图示用于处理诸如双复数与复共轭乘法指令之类的指令的硬件的实施例。如[0050]寄存器(寄存器堆)和/或存储器208将数据存储为要被执行电路操作的指令的操[0053]在一些实施例中,引退/写回电路将目的地寄存器在架构上提交到寄存器或存储[0055]在一些实施例中,双复数与复共轭乘法指令包括VPCCMULWRSDESTR,SRC1,SRC2存器)操作数进行编码的指令使用那个操作数来有条件地控制逐元素的计算操作以及结果操作/更新。一般而言,操作掩码寄存器可支持具有如下元素尺寸的指令:单精度浮点言操作数的操作掩码遵从以下属性:1)如果对应的操作掩码位未被置位(这暗示没有异常它必须被归零(归零掩蔽);3)对于具有存储器操作数的一些指令,对于具有掩码位0的元寄存器的元素获得的每个索引值乘以4并且然后加到基址以计算[0057]在一个实施例中,具有vm32{x,y,z}的形式的SIB型存储器操作数可以标识使用数比例因数和包括各个元素(其中的每个元素是32位的索引值)的向量索引寄存器来指定{x,y,z}的形式的SIB型存储器操作数可以标识使用SIB型存储器寻址指定的存储器操作数个元素是64位的索引值)的向量索引寄存器来指定存储器地址的数组。向量索引寄存器可[0061](根据需要)在305处检取与经解码的指令的源操作数相关联的数据值,并且调度和第二紧缩数据源操作数中的多个紧缩数据元素位置的数据值复用至至少一个乘法器电来自第一和第二紧缩数据源操作数中的多个紧缩数据元素位置的数据值复用至至少一个一复数的乘积的实部和虚部;以及将实部存储到目的地操作数中的第一紧缩数据元素位[0071]7.示例6的装置,其中用于乘[0079]15.示例14的方法,其中用于乘积的实自第一和第二紧缩数据源操作数中的多个紧缩数据元素位置的数据值复用至至少一个乘复数的乘积的实部和虚部;以及将实部存储到目的地操作数中的第一紧缩数据元素位置,并且将虚部存储到目的地操作数中的第二紧[0082]18.示例17的非暂态机器可读介质,其中[0083]19.示例17的非暂态机器可读介质,其[0084]20.示例17的非暂态机器可读介[0085]21.示例17的非暂态机器可读介[0086]22.示例17的非暂态机器可读介质,其[0087]23.示例22的非暂态机器可读介质,其中用述了包括用于执行本文详述的方法的电路的支持指令的为具有该指令格式的字段(所包括的字段通常按照相同顺序,但是至少一些字段具有不同定该操作码的操作码字段和用于选择操作数(源1/目的地以及源2)的操作数字段;并且该ADD指令在指令流中出现将使得在操作数字段中具有选择特定操作数的特[0095]VEX编码允许指令具有多于两个的操作数,并且允许SIMD向量寄存器比128位位[7-5])由VEX.R位字段(VEX字节1,位[7]–R)、VEX.X位字段(VEX字节1,位[6]–X)以及该第一源寄存器操作数以反转(1补码)形式被指定;2)VEX.vvvv对目的地寄存器操作数编[0098]实操作码字段430(字节3)还被称为操作码字节。操作码的部分在该字段中被指操作数(Rrrr中的rrr)进行编码;或者被视为操作码扩展且不用于对任何指令操作数进行SS452(位[7-6])。先前已经针对寄存器索引Xxxx和Bbbb参考了SIB.xxx454(位[5-3])和[0103]图5是根据本发明的一个实施例的寄存器架构500的框图器的较低阶256个位覆盖(overlay)在寄存器ymm0-15上。较低的16个zmm寄存器的较低阶128个位(ymm寄存器的较低阶128个位)覆盖在寄存器xm与现有的x86寻址模式一起使用以对存储器操作数寻址。这些寄存器通过名称RAX、RBX、[0105]标量浮点栈寄存器堆(x87栈)545,在其上面重叠了MMX紧缩整数平坦寄存器堆550——在所图示的实施例中,x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据乱序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包[0111]图6A是图示根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图。图6B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框[0114]前端单元630包括分支预测单元632,该分支预测单元632耦合到指令高速缓存单冲器636耦合到指令取出单元638,该指令取出单元638耦合到解码单元640。解码单元640690包括存储用于某些宏指令的微代码的微代码ROM或其他介质(例如,在解码单元640中,或以其他方式在前端单元630内)。解码单元640耦合到执行引擎单元650中的重命名/分配[0115]执行引擎单元650包括重命名/分配器单元652,该重命名/分配器单元652耦合到引退单元654和一个或多个调度器单元的集合656。(多个)调度器单元656表示任何数量的集群660包括一个或多个执行单元的集合662以及一个或多个存储器访问单元的集合664。或各自具有其自身的调度器单元、(多个)物理寄存器堆单元和/或执行集群的存储器访问元672。指令高速缓存单元634还耦合到存储器单元670中的第二级(L2)高速缓存单元676。[0117]作为示例,示例性寄存器重命名的乱序发布/执行核架构可如下所述地实现流水重命名/分配器单元652执行分配级608和重命名级级612;5)(多个)物理寄存器堆单元658和存储器单元670执行寄存器读取/存储器读取级尔市的ARM控股公司的ARM指令集(具有诸如NEON的任选的附加扩展)),其中包括本文中描个物理核为物理核正在同时多线程化的线程中的每一个线程提供逻辑核)、或其组合(例一些实施例中,该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组[0122]图7A-图7B图示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑[0123]图7A是根据本发明的实施例的单个处理器核以及它至管芯上互连网络702的连接向量单元710使用分开的寄存器集合(分别为标量寄存器712和向量寄存器714),并且在这发明的替代实施例可以使用不同的方法(例如,使用单个寄存器集合或包括允许数据在这[0124]L2高速缓存的本地子集704是全局L2高速缓存的一部分,该全局L2高速缓存被划高速缓存的本地子集704的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集704中,并且可以与其他处理器核访问其自身的本地L2高速缓存子集并行地被快速访高速缓存704的L1数据高速缓存706A部分,以及关于向量单元710和向量寄存器714的更多或NMOS)中的任何技术被实现在一个或多个速缓存单元的集合806、以及耦合到集成存储器控制器单元的集合814的外部存储器(未示和操作核802A-N的那些部件。系统代理单元810可包括例如功率控制单元(PCU)和显示单元。PCU可以是对核802A-N以及集成图形逻辑808的功率状态进行调节所需的逻辑和部件,含如本文中所公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备一般都是合器中枢920包括图形存储器控制器中枢(GMCH)990和输入/输出中枢(IOH)950(其可以在分控制器中的一个或这两者被集成在(如本文中所描述的)处理器内,存储器940和协处理器些指令内的可以是协处理器指令。处理器910将这些协处理器指令识别为具有应当由附连理器800的某一版本。在本发明的一个实施例中,处理器1070和1080分别是处理器910和[0141]处理器1070和1080示出为分别包括集成存储器控制器(IMC)单元1072和1082。处1016可以是外围部件互连(PCI)总线或诸如PCI快速总线或另一I/O互连总线之类的总线,存储单元1028诸如可包括指令/代码和数据1030的盘驱动器或者其他大容量存储设备。此[0152]至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令[0153]此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)的随机存取存储器[0157]图13是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制有至少一个第一指令集核的处理器1316表示通过兼容地执行或以其他方式执行以下各项来执行与具有至少一个x86指令集核英特尔处理器基本相同的功能的任何处理器:1)英特理器上运行以便取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替任何其他过程来表示允许不具有第一指令集处理器或核的处理器或其他电子设备执行第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《传播学概论》教学大纲
- 2026年长期护理保险失能评估与待遇支付题库
- 2026年清廉机关建设标准知识测试
- 2026年企业营销战略中的品牌建设问题探讨
- 2026年国家文化市场综合执法队伍招聘考试指南
- 2026年个人财务管理规划与实施要点回顾题目
- 2026年实验员面试实验室消防安全检查
- 2026年防汛抗旱会商机制专项竞赛题库
- 2026年农机驾驶员考试发证与驾驶证审验换证问答
- 中国金属基3D打印材料行业研究报告:市场规模、供需态势、发展前景预测
- DB31/T 637-2012高等学校学生公寓管理服务规范
- (三模)乌鲁木齐地区2025年高三年级第三次质量监测文科综合试卷(含答案)
- 2025年全国大学生海洋知识竞赛试题及答案(共三套)
- 胸部创伤救治流程图解
- 2025年共青团入团考试测试题库及答案
- 2025第二届卫生健康行业网络与数据安全技能大赛备赛试题库资料500题(含答案)
- 湖南省长沙市湖南师大附中教育集团2022-2023学年七下期中数学试题(原卷版)
- 《结肠癌病例讨论》课件
- 洞箫曲谱200首带目录
- 装载机司机专项培训课件
- DB41∕T 2540-2023 公路桥梁伸缩缝锚固区混凝土快速维修技术规程
评论
0/150
提交评论