




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
可配置可扩展T*CORE处理器
及在天文图像处理中的应用-面向AST3项目的硬件加速器设计郭炜天津大学VLSI设计与应用研究所天文信息技术联合实验室可配置可扩展T*CORE处理器
及在天文图像处理中的应用-面传输触发体系结构与T*CORE内容大纲1面向天文图像处理的T*CORE设计2传输触发体系结构与T*CORE内容大纲1面向天文图像处理的T未来芯片将整合数千个小核心未来芯片将整合数千个小核,而不是只依赖于某个单一的复杂核。
多任务处理技术可使整体的运算吞吐量高很多。许多小核及小的存储器的芯片,芯片面积减少,功耗大为降低。
-Intelfellow
ShekharBorkar未来芯片将整合数千个小核心未来芯片将整合数千个小核,而不是嵌入式解决方案专用芯片(ASIC:ApplicationSpecificIntegratedCircuit)缺少灵活性通用处理器(CPU,DSP)效率低、功耗大专用指令集处理器(ASP/ASIP:ApplicationSpecificInstructionprocessor)兼顾灵活性、高性能、低功耗等优点传输触发体系结构:TransportTriggeredArchitecture(TTA)由TUDelft的H.Corporaal等在1991年提出属于ASP/ASIP嵌入式解决方案传输触发体系结构(TTA)传输触发体系结构(TTA)TTA处理器指令格式instructionoperationsourceTTA处理器只包含一种操作:数据传输操作MOVE超长指令字(VLIW)TTA处理器指令格式instructionoperation模块化松耦合可配置可扩展高性能低成本低功耗TTA处理器的优势/劣势架构组合和设计空间不确定编译器设计复杂代码优化的困难指令膨胀迅速模块化TTA处理器的优势/劣势架构组合和设计空间不确定T*CORE处理器T*CORE是基于TTA架构可配置可扩展的处理器一种处理器模板更多的可配置性与扩展性更灵活的指令架构特制的软硬件协同设计流程及相关工具集硬件模块库T*CORE处理器T*CORE是基于TTA架构可配置可扩展T*CORE处理器设计的关键可配置性可扩展性扩大了T*CORE处理器架构的选择范围,进行设计空间探索尤为重要。需要在更高的抽象层次上对架构进行仿真,通过设计空间探测获得最优架构方案支持自定义的指令及更多可见的编程细节使得手工编程几乎成为不可能。一个高效的可重定目标编译器是T*CORE处理器的性能得以充分发挥的关键高效的软硬件协同设计方法及相关工具集的设计是决定T*CORE能否被广泛应用的关键.T*CORE处理器设计的关键可配置性可扩展性扩大了T*COR软硬件协同设计流程及工具集软硬件协同设计流程及工具集T*COREA0424v1芯片面向音频解码(mp3)的应用2009年6月,采用GSMC0.13umCMOS工艺,成功MPW流片T*COREA0424v1芯片面向音频解码(mp3)的应用MP3解码性能分析计算密集型部分采用硬件加速器–Tcore协处理器MP3解码性能分析计算密集型部分采用硬件加速器–Tcor面向MP3解码SoC架构实现实时MP3解码的工作频率:30MHz;功耗:<1W面向MP3解码SoC架构实现实时MP3解码的工作频率:30MT*COREA0424v1硬件架构T*COREA0424v1硬件架构T*COREA0424v1指令架构指令宽度96-bit,分为4个slot,宽度分别为16-bit,16-bit,32bit,32bit只有slot1可以执行跳转操作各个slot所支持的立即数宽度不同T*COREA0424v1指令架构指令宽度96-bit,分实现指令压缩提高代码密度T*COREA0424v1空操作复用空指令复用+特殊的load/store单元设计:DCT32节省81%实现指令压缩T*COREA0424v1空操作复用空指令复用T*COREA0424v1版图T*COREA0424v1版图传输触发体系结构与T*CORE内容大纲1面向天文图像处理的T*CORE设计2传输触发体系结构与T*CORE内容大纲1面向天文图像处理的T天文图像空间变换核降晰算法天文图像相减:同一天区不同时刻拍摄的天文照片(源图像)同模板图像(参考图像)进行差异比较,分析出不同时刻星迹变化情况。降晰处理:由于气象、背景光线等因素导致图像清晰度不同,每个恒星的点扩散函数不同,因此在相减之前必须对模板图像进行降晰处理。Alard等人提出的空间变换核降晰算法:在时间空间(而不是在傅立叶空间)完成卷积核的计算执行降晰运算,即执行卷积运算:最后对C和源图像执行相减操作,得到变源。其中,R:模版图像;K:核函数;C:降晰后的模版图像天文图像空间变换核降晰算法天文图像相减:其中,R:模空间变换核降晰算法各模块所占计算比重对使用Alard算法所实现的软件ISIS分析功能所占计算比重求局部核函数16.2%求局部核函数系数5.6%求解核函数3.9%执行降晰运算74.3%
空间变换核降晰算法各模块所占计算比重对使用Alard算法所计算量最大部分为执行降晰运算以图像大小为2K×2K、卷积核为19×19为例,执行降晰运算时需要的计算为2K×2K×19×19=1.51×109次
计算量最大部分为执行降晰运算以图像大小为2K×2K、卷积核降晰运算的硬件设计自定义的浮点数格式将双精度64-bit浮点格式的数据变为自定义32-bit浮点格式的数据,硬件面积减少约一倍。对精度的影响类型SNR(db)单精度75.220086自定义93.263391降晰运算的硬件设计自定义的浮点数格式类型SNR(db)单降晰运算的硬件设计数据存储方式和计算流程根据所采用的降晰运算的规律,分析了数据复用的可行性,在设计Tcore处理器的应用软件时,采用特殊的数据存储方式降晰运算的硬件设计数据存储方式和计算流程降晰运算的硬件设计Tcore协处理器内部架构降晰运算的硬件设计Tcore协处理器内部架构降晰运算的硬件设计硬件系统结构图
降晰运算的硬件设计硬件系统结构图性能比较(仅卷积运算部分)方案主频(HZ)功耗(W)计算时间(ms)纯软件2.66G13061062本文设计125M1.793301性能比较(仅卷积运算部分)方案主频(HZ)功耗(W)计有待解决的问题大尺寸图像(10Kx10K),卷积核(30x30).多个T*CORE架构问题:图像划分,核间通讯,存储墙有待解决的问题大尺寸图像(10Kx10K),卷积核(3谢谢!谢谢!可配置可扩展T*CORE处理器
及在天文图像处理中的应用-面向AST3项目的硬件加速器设计郭炜天津大学VLSI设计与应用研究所天文信息技术联合实验室可配置可扩展T*CORE处理器
及在天文图像处理中的应用-面传输触发体系结构与T*CORE内容大纲1面向天文图像处理的T*CORE设计2传输触发体系结构与T*CORE内容大纲1面向天文图像处理的T未来芯片将整合数千个小核心未来芯片将整合数千个小核,而不是只依赖于某个单一的复杂核。
多任务处理技术可使整体的运算吞吐量高很多。许多小核及小的存储器的芯片,芯片面积减少,功耗大为降低。
-Intelfellow
ShekharBorkar未来芯片将整合数千个小核心未来芯片将整合数千个小核,而不是嵌入式解决方案专用芯片(ASIC:ApplicationSpecificIntegratedCircuit)缺少灵活性通用处理器(CPU,DSP)效率低、功耗大专用指令集处理器(ASP/ASIP:ApplicationSpecificInstructionprocessor)兼顾灵活性、高性能、低功耗等优点传输触发体系结构:TransportTriggeredArchitecture(TTA)由TUDelft的H.Corporaal等在1991年提出属于ASP/ASIP嵌入式解决方案传输触发体系结构(TTA)传输触发体系结构(TTA)TTA处理器指令格式instructionoperationsourceTTA处理器只包含一种操作:数据传输操作MOVE超长指令字(VLIW)TTA处理器指令格式instructionoperation模块化松耦合可配置可扩展高性能低成本低功耗TTA处理器的优势/劣势架构组合和设计空间不确定编译器设计复杂代码优化的困难指令膨胀迅速模块化TTA处理器的优势/劣势架构组合和设计空间不确定T*CORE处理器T*CORE是基于TTA架构可配置可扩展的处理器一种处理器模板更多的可配置性与扩展性更灵活的指令架构特制的软硬件协同设计流程及相关工具集硬件模块库T*CORE处理器T*CORE是基于TTA架构可配置可扩展T*CORE处理器设计的关键可配置性可扩展性扩大了T*CORE处理器架构的选择范围,进行设计空间探索尤为重要。需要在更高的抽象层次上对架构进行仿真,通过设计空间探测获得最优架构方案支持自定义的指令及更多可见的编程细节使得手工编程几乎成为不可能。一个高效的可重定目标编译器是T*CORE处理器的性能得以充分发挥的关键高效的软硬件协同设计方法及相关工具集的设计是决定T*CORE能否被广泛应用的关键.T*CORE处理器设计的关键可配置性可扩展性扩大了T*COR软硬件协同设计流程及工具集软硬件协同设计流程及工具集T*COREA0424v1芯片面向音频解码(mp3)的应用2009年6月,采用GSMC0.13umCMOS工艺,成功MPW流片T*COREA0424v1芯片面向音频解码(mp3)的应用MP3解码性能分析计算密集型部分采用硬件加速器–Tcore协处理器MP3解码性能分析计算密集型部分采用硬件加速器–Tcor面向MP3解码SoC架构实现实时MP3解码的工作频率:30MHz;功耗:<1W面向MP3解码SoC架构实现实时MP3解码的工作频率:30MT*COREA0424v1硬件架构T*COREA0424v1硬件架构T*COREA0424v1指令架构指令宽度96-bit,分为4个slot,宽度分别为16-bit,16-bit,32bit,32bit只有slot1可以执行跳转操作各个slot所支持的立即数宽度不同T*COREA0424v1指令架构指令宽度96-bit,分实现指令压缩提高代码密度T*COREA0424v1空操作复用空指令复用+特殊的load/store单元设计:DCT32节省81%实现指令压缩T*COREA0424v1空操作复用空指令复用T*COREA0424v1版图T*COREA0424v1版图传输触发体系结构与T*CORE内容大纲1面向天文图像处理的T*CORE设计2传输触发体系结构与T*CORE内容大纲1面向天文图像处理的T天文图像空间变换核降晰算法天文图像相减:同一天区不同时刻拍摄的天文照片(源图像)同模板图像(参考图像)进行差异比较,分析出不同时刻星迹变化情况。降晰处理:由于气象、背景光线等因素导致图像清晰度不同,每个恒星的点扩散函数不同,因此在相减之前必须对模板图像进行降晰处理。Alard等人提出的空间变换核降晰算法:在时间空间(而不是在傅立叶空间)完成卷积核的计算执行降晰运算,即执行卷积运算:最后对C和源图像执行相减操作,得到变源。其中,R:模版图像;K:核函数;C:降晰后的模版图像天文图像空间变换核降晰算法天文图像相减:其中,R:模空间变换核降晰算法各模块所占计算比重对使用Alard算法所实现的软件ISIS分析功能所占计算比重求局部核函数16.2%求局部核函数系数5.6%求解核函数3.9%执行降晰运算74.3%
空间变换核降晰算法各模块所占计算比重对使用Alard算法所计算量最大部分为执行降晰运算以图像大小为2K×2K、卷积核为19×19为例,执行降晰运算时需要的计算为2K×2K×19×19=1.51×
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 15614-11:2025 EN Specification and qualification of welding procedures for metallic materials - Welding procedure test - Part 11: Electron and laser beam welding
- 2025华电内蒙古腾格里大基地项目面向华电系统内外公开招聘106人笔试题库历年考点版附带答案详解
- 2025中建材(安徽)新材料基金管理有限公司招聘1人笔试题库历年考点版附带答案详解
- 2025中国联合网络通信有限公司贵州省分公司校园招聘(81个岗位)笔试题库历年考点版附带答案详解
- 2025年电子竞技行业电竞产业与全球赛事研究报告
- 2025年传媒行业传统媒体数字化转型探讨报告
- 2025年智能物流行业智能物流系统应用与全球物流发展研究报告
- 2025年肿瘤康复学化疗不良反应处理模拟测试答案及解析
- 2025年房地产行业政策调控与城市发展规划研究报告
- 2025年建筑行业建筑设计与城市规划研究报告
- 《高级会计学(第9版)》习题答案
- 快手磁力聚星星选达人认证考试试卷答案
- 一元二次方程-相似三角形-锐角三角函数复习
- 冰皮月饼的制作方法课件
- 在职党员到社区报到登记表“双报到”登记表
- 降低10炉脱硝系统液氨消耗量0
- 地下储藏室产权使用权转让协议
- 高考专题复习:小说专题训练人称的交替使用
- 大数据在高速公路收费稽查打逃方面的应用
- TY/T 3001-2006中国青少年儿童 手腕骨成熟度及评价方法
- GB/T 9722-2006化学试剂气相色谱法通则
评论
0/150
提交评论