毕业设计翻译 10031124陈扬_第1页
毕业设计翻译 10031124陈扬_第2页
毕业设计翻译 10031124陈扬_第3页
毕业设计翻译 10031124陈扬_第4页
毕业设计翻译 10031124陈扬_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科生毕业设计 论文 本科生毕业设计 论文 外文科技文献译文外文科技文献译文 译文题目 中文 时钟频率的变化和多核处理器的吞吐量时钟频率的变化和多核处理器的吞吐量 对模具对模具和内模参数的影响对模具对模具和内模参数的影响 英文 Impact of Die to Die and Within Die Parameter Variations on the Clock Frequency and Throughput of Multi Core Processors 学 院 工学院 专业班级 10 电子信息工程 1 班 学生姓名 陈 扬 学 号 10031124 指导教师 许晓洁 日日 期期 20142014 年年 1 1 月月 2 2 日日 外文科技文献译文 1 译文译文 时钟频率的变化和多核处理器的吞吐量对模具对模具和内模参数的影响 基思答 鲍曼 会员 IEEE 阿拉河 Alameldeen 会员 IEEE SRIKANTHT 斯里尼瓦桑 会员 IEEE 和 Chris B 威尔克森 会员 IEEE 摘要摘要 一个统计性能模拟器被开发用来探索参数变化的最大时钟的影响多核的频 率 FMAX 和吞吐量的分布处理器在将来的 22 纳米技术 该模拟器捕获 的管芯到管芯 D2D 和内模 WID 晶体管的影响并在关键路径延迟互连 参数变化死 模拟器的一个关键组成部分是分析性的多核处理器的吞吐量模型 使计算高效 准确的吞吐量的计算 比较与周期精确模拟器的性能 对于单线 程 和高度并行的多线程 MT 的工作负荷 基于以前的微处理器 三角架构设 计多核心处理器与任何小型 中型或大型核预计在 22 纳米技术进行调查一个广 泛的设计选择 这三个多核心处理器最大吞吐量恒定的管芯面积内进行优化 传统的单核处理器也缩小到 22 纳米技术提供一个基准比较 其显著的贡献从本 论文主要有 1 产品层面的变化分析多核处理器必须注重吞吐量 而不是 仅仅 FMAX 和 2 多核心处理器更宽容的变化比单核处理器由于内存延迟 的影响较大和带宽的吞吐量 为了阐明这两点 统计模拟表明 多核和单核与 等效的总核心面积的处理器也有类似的 FMAX 分布 平均为 9 和标准差下降 5 为 MT 的应用 而相比之下 单核处理器 内存延迟和带宽限制显著限 制上 FMAX 吞吐量依赖于多核处理器 从而降低了吞吐量意味着退化和标准偏 离 50 为中小型核心设计 30 的大型核心设计 这种改进的通量分布表明 多核心处理器 外文科技文献译文 2 能显著降低了产品的设计和工艺开发由于参数变化较复杂单核处理器 从而实 现更快的上市时间高性能的微处理器产品 关键词 时钟频率分布 关键路径延迟的变化 裸片到裸片 D2D 变 型中 管芯间的变化 内模的变化 最大时钟频率 FMAX 分布 多核 参数的波动 参数变化性能分布 通量分布 内模 WID 的变化 1 引言引言 微处理器一直是脆弱的参数变化在生产过程中 如收稿 2008 年 5 月 17 日 经修订的 2008 年 8 月 15 日 首次出版 2009 年 5 月 19 日 公布 2009 年 11 月 18 日当前版本 作者是与英特尔公司 希尔斯伯勒 OR 97124 美国 电子邮箱 keith a bowman alaa r alameldeen SRIKANTH t srinivasan chris wilkerson 数字对象标识符 10 1109 TVLSI 2008 2006057 工艺技术的不断扩展 不同的晶体管和互连特性增加相对于标称设计目标 参数变化带来的不利影响在最大时钟频率 FMAX 和微处理器的功率也变 得更加显着的技术定标 1 2 参数的变化可以被分类分为两类 芯片对芯 片 D2D 和内模 WID D2D 的变化 从很多到很多 晶圆到晶圆 以 及所产生的在晶圆内变化的部分 影响到所有晶体管和在模具互连平分 相反 WID 的变化 由随机和系统组件 诱导不同穿过模具的电特性 3 随机 WID 参数变化波动随机和独立地从设备到设备 即 设备到设备相关为零 一从 重复的 WID 系统参数变化结果和指导原则 其中设备到设备的相关性根据经验 确定的之间的距离的函数的设备 虽然系统 WID 的变化呈现出相关行为 这些 变化的轮廓可以随机从模具更改为死亡 从设计的角度 系统地参与发展变化 表现为连续的 平滑相关随机 WID 变化 1 3 6 在设计高性能微处理器的重要性准确估计参数变化的影响对产品级性能直 接关系到整体收入的公司 高估增加了设计的复杂性 这可能导致更高的功率 消耗 增加了在设计时 增加了芯片尺寸 排斥其他好的设计方案 甚至错过 外文科技文献译文 3 市场窗口 3 相反 低估可能危及产品性能和总产率以及增加的硅调试时间 3 综上所述 高估变化影响的设计努力和低估变化影响的制造努力 在最近几代技术 多核心处理器拥有成为一个高能效的方法来设计高性能 微处理器 多核心处理器采用更大于 1 芯上的管芯 其中核心和核心的数量复 杂性是一个关键的设计折衷 多核心处理器可以实现比单核处理器更好的性能 通过在执行线程多线程 MT 的应用整个内核平行 以往的研究已经调查了 D2D 的影响 在 FMAX 和功率分布 WID 参数变单 核处理器的 1 2 4 5 7 8 该参数变化对功率 泄漏的地方是 thedominant 变化分量 并不能从根本上改变的影响从单核到多核处理器 多核 处理器可以使更精细的粒度配售部分芯片进入睡眠状态 当芯片上的所有晶体 管都在一个操作模式 然而 D2D 的相对效果和在泄漏的 WID 参数变化预计是 相似单核和多核处理器之间 与此相反 多核设计代表了微处理器的根本性转 变从传统的单核心设计的性能 凡在 MT 应用的并行性在整个开发芯在模具中 本文的 D2D 和 WID 参数变化的影响在多核心的 FMAX 和吞吐量的分布处理器 9 进行了探讨 吞吐量指标表示实际的微处理器的性能 从而提供了一个器件 和电路参数的构架层次的角度来看变性 在第二节中 一个分析多核处理器通 过模型推导 以实现准确的吞吐量计算对于高度并行的工作负载运行时的效率 在第三节中 三多核处理器和单核处理器预计在未来的 22 纳米技术根据历史数 据和传统的比例趋势 施加的分析通过模型中 多核心处理器优化是在第四节 描述 最大限度地通过三个多核心处理器 在第五节 分析通过模型集成到一 个统计性能模拟器 其拍摄 D2D 的影响 并在整个模具关键路径延迟 WID 参 数变化生成 FMAX 和吞吐量的分布对于给定的多核设计 在第六节 参数变化 的影响在三个 FMAX 和吞吐量的分布和分布最佳的多核处理器和单核处理器提 出 第七节最后结的关键见解 2 多核处理器的吞吐量模型多核处理器的吞吐量模型 外文科技文献译文 4 紧凑的吞吐量分析模型推导 使多核的计算效率和精确预测处理器的吞吐 量为高度并行 MT 的应用程序 自带统计性能仿真器 其中将要描述在第五部 分 进行上千吞吐量计算每多核心的设计 运行时效率是一个重要的特征 出 于这个原因 一个分析建模方法是理想而不是在计算上昂贵的吞吐量模拟器 吞吐量模型推导开始通过分离模面积 在两个主要部分作为 die A 1 2 NLcoresdie AAA 是总面积分配给内核 其中每个芯假定包含私有级 L1 指令和数据缓存 cores A 与芯的总电平 2 L2 高速 N缓存区域共享缓存 以兆字 2NL A MB NL NL A A S 1 2 2 节为单位的二级缓存大小为计算公式为 MB NL NL A A S 1 2 2 2 其中是每 1 字节的高速缓存区域 如由下式确定工艺技术 MB A1 对于一个给定的工作负载 每个指令 CPI 的周期为一单核被建模为 3 1 1 2clkmissLratecom FLSMCPICPI 消费物价指数的计算组成部分 是核心 CPI 具有完善的 L2 缓存 即 无 com CPI 缓存未命中 是独立处理器的时钟频率的 clk F 命中率 com CPI 1 2Lmiss SM 是每个指令未命中的高速缓存中的数的大小 丢失率 是平均 1 2L S clkmiss FL 每个 L2 高速缓存未命中周期数 是一种 clk F 的函数 和 clkmiss FL clkmiss FL 的产物指内存延迟和内存带宽的组件的消费物价指数 是有效 1 2Lrate SM 1 2L S 的二级缓存大小为一个核心 如果铁心没有在高速缓存共享的代码或数据 则 平均每个核心的缓存大小为整个二级高速缓存的大小 Nth 1 2 1 2 NSS NLL 对于共享的代码或数据应用 工作集大小是由平均数调整 内核共享的 share N 外文科技文献译文 5 L2 高速缓存行的 是一个 N 函数 平均缓存大小为一个单一的核心是 NNshare 计算如 10 4 1 2 1 2 NNN S S share NL L 投影的命中率对于不同大小的高速缓存中 平方根规则的拇指是典型的应用 该款机型缓存缺失率 5 MBL rate Lrate SS MBM SM 1 1 2 1 2 1 是一兆 对于一些应用 所述平方根模型 5 中比工作集模型 不准确的 MB S1 地方的命中率保持不变 为高速缓存大小的增加 直到工作组适合在高速缓存 中 随后 在命中率急剧脱落 由于高速缓存大小的命中率相关性是应用具体 的 单个核心的命中率是在模拟多个高速缓存大小与工业周期精确模拟器以确 定个别适当的命中率模型应用程序 根据在宽的应用范围的模拟 平方根模型 提供了最准确的逼近平均命中率 建模每个周期指令 IPC 的多核处理器 有限的片外存储器带宽的影响被 捕获通过分离成两个分量为 clkmiss FL clklink pr clkmem clkmiss FL N FL FL 6 片外 DRAM 内存延迟 计算作为周期的平均数目 DRAM 阵列中使 clkmem FL 用了取得数据 在建模外的顺序利用非阻塞核心内存级并行 MLP 是因为平均数并行内存请求 分每个请求块中的处理器总数的 clkmem FL pr N 一小部分内存延迟 11 对于顺序阻断核心 等于之一 总的链 pr N clklink FL 外文科技文献译文 6 路延迟 包括延迟 OFTHE 物理片环节 排队等待时间 例如 守候在思念处理 状态寄存器 MSHRs 和总线队列 被计算为周期为一个平均数片外 clklink FL 存储器的访问 被分离成两个分量如 clklink FL clkqclksclklink FLFLFL 7 和是服务和排队延迟每个高速缓存未命中 分别 是物 clks FL clkq FL clks FL 理片链路延时数据对面的链接遍历处理器的 DRAM 芯片和背部 在没有传输假 设错误 被计算为平均排队延迟 假设物理片连接到内存代表一个 clkq FL M D 1 队列 马尔可夫到达率与要求一个确定性的服务时间和要求提供无限多 源 被被建模为 clkq FL 8 1 2 U FUL FL clks clkq 是链路利用率 使用小定律 被计算为UU clks FLU 9 该参数是每个周期的存储器请求的数目 其计算公式为 1 2Lrate SMNIPC 10 代表了 IPC 的多核处理器与核心 由 7 9 总链路等待时间 NIPCN 的计算如 1 2 2 clks clks clksclklink FL FL FLFL 11 外文科技文献译文 7 如在页面的底部 在 IPC 中所述 12 对于多核处理器从 3 6 并计 算出 11 10 从是的一种函数 12 简化为一元二次 NIPC NIPC 方程 其中的根源 公式导致的显式表达式 和依赖 NIPC clks FL clkmem FL 于被建模为和 clk F nomclkclknomclkmemclkmem FFFLFL 是标称处理器的时钟频率 假设所有 nomclkclknomclksclks FFFLFL nomclk F 核具有相同的吞吐量 中的说明每秒的多核处理器的计算 13 在N clk FTP 该页面的底部 和代表了内存延迟和通过 clkclklatmem FFCPI clkclkbwmem FFCPI 带宽的组件 这被建模为 prnomclk nomclkmem Lrate clk clklatmem NF FL SM F FCPI 1 2 14 和 15 中在该页面的底部 额外的假设适用于权衡精度运行效率 1 吨基准 测试是完全并行 即只有水货 MT 的应用部分为蓝本 2 平均基准性能是一 个合适的指标 用于评估一般趋势 以及 3 将附加的线程间的相互作用和操 作 系统开销当在多核调度线程处理器可以忽略不计 在 13 的分析模型 15 被验证为单线程 ST 和高度并行的应用程 序的 MT 对于意法半导体的应用 1 芯被假定为具有访问整个 L2 缓存 虽然 该模型主要针对的表现高度并行的 MT 的应用中 分析模型是容易通过调整命 中率修改为 ST 的应用到 在验证分析型号为 ST 的应 1 2Lrate SM 2 NLrate SM 用 平均的模型预测 IPC 从 460 工作负荷与工业相比 周期精确模拟器不同的 核心类型和缓存尺寸 460 的工作负载包括服务器 多媒体 游戏 SPEC2K 和办公室生产力应用程序 唯一的工作量 具体型号参数 和是通过用一个完美的 L2 缓存操作模拟器中提 1 MBMCPI ratecomcomprCPI N 取 外文科技文献译文 8 12 1 2 1 2 1 2 clks clks clks pr clkmem LrateCOM FL FL FL N FL SMCPI N CPI N NIPC 13 clk Fbwmem clk Flatmem clk com clk F CPI F CPI F CPI N FNIPCNTP clkclk 15 1 2 1 1 1 2 nomclk nomclksclk clk nomclksclk nomclk nomclks Lrate clk clkbwmem F FLF F FLF F FL SM F FCPI 和通过操作提取具有 1 MB 高速缓存 和 1 MBMrate pr N com CPI 1 MBMrate 在分析模型应用价值代表平均跨越 460 工作量提取的值 比较分析模式跨 pr N 产业周期精确模拟器各种核心类型和 L2 高速缓存大小 该模型预测的 IPC 平均 为 460 的工作负载是在模拟的 4 结果 在证实为高度并行的应用程序的 MT 的分析模型 工控机模型 12 与阿 西模拟比较 12 在图 1 适用于各种识别 挖掘 以及合成 RMS 指标 13 跨 越核心的数量中所含的多核心处理器 这些基准有效值着眼于矩阵面向数据操 作的基本构建块并且越来越多地被利用的计算建模和过程的复杂系统 13 基准 包括 1 k 均值 模糊聚类 cmeans 2 基质稀疏矩阵 由对角矩阵ADAtA 由乘法稀疏矩阵的转置 3 sparse mvm sym 对称稀疏矩阵向量D AtA 乘法 4 dense mmm 稠密矩阵 矩阵乘法 以及 5 sparse mvm 疏矩阵向 量乘法 在阿西模拟器 12 的计算结果每个工作负载 同时捕捉多个核心的作用 共享二级缓存 和之间的互连网络 L2 高速缓存和片外 DRAM 内存 在图的比 较 1 是基于 2 宽的有序内核与一个 32 MB 二级高速缓存 128 字节的高速缓 存行大小 和 200 周期的内存延迟 从用作核心 唯一的工作量 具体1 pr N 投入到分析模型是和 其中被提取从阿西模拟器一个核心 com CPI 1 MBMrate 外文科技文献译文 9 为 3 的基准 k 均值 和 dense mmm 平方根 5 高速缓存未命中率ADAt 模型被应用 对于其他两个基准 sparse mvm sym 和 sparse mvm 工作组模 型被用于估计缓存未命中率 对于 k 均值 dense mmm 和ADAt sparse mvm 基准 分析模型非常同意阿西姆模拟 其中最坏情况下的误差小于 5 该 sparse mvm sym 基准包含大段串行执行的 导致了 22 的最坏情况模 型误差 虽然该模型是不准确的对于 MT 的应用与串行执行的大部分 多核处 理器的吞吐量模型吻合与阿西模拟器 MT 与应用大段并行执行 并与一个工业 周期精确模拟器为 ST 的应用 如前面所讨论的 分析模型主要目标高度并行工 作负载的 MT 微不足道的串行执行 在本文的其余部分 MT 的应用被认为完美地并行化 其中该分析模型是足够准确的 如果 MT 的应用与串行执行的大部分被认为在 未来的工作 那么在分析吞吐量模型 13 15 可以是延长 14 以改 善这些应用程序的准确性 3 多核心处理器设计多核心处理器设计 在第 IV 节优化多核处理器和在探索参数变化的多核的影响处理器 FMAX 和吞吐量在第六节 三个独立的多核处理器进行了评价 这三款处理器 外文科技文献译文 10 图 1 从 12 IPC 模型预测与阿西模拟器比较 12 适用于各种基准 RMS 13 相对于芯的数目 包含任一小型 中型或大型来调查范围的多核处理器的设计选项 此外 一个传统的单核处理器 包含一个单一的核心 作为比较的基线 小 中 大 核心是基于英特尔奔腾 P54C 按顺序 15 该英特尔奔腾 III 出序 16 而英特尔酷睿 2 先进外的顺序 17 的微处理器 分别 在图 2 本产品引 进技术的产生 核心面积 平均 归一化平均吞吐量的 SPECint 高速缓存 clk F 的大小 电源电压 和核心功率为每核心 20 类型是基于历史数据 15 DD V 总结 注该核心区不包括二级缓存区 Impact of Die to Die and Within Die Parameter Variations on the Clock 外文科技文献译文 11 Frequency and Throughput of Multi Core Processors Keith A Bowman Member IEEE Alaa R Alameldeen Member IEEE Srikanth T Srinivasan Member IEEE and Chris B Wilkerson Member IEEE Abstract A statistical performance simulator is developed to explore the impact of parameter variations on the maximum clock frequency FMAX and throughput distributions of multi core processors in a future 22 nm technology The simulator captures the effects of die to die D2D and within die WID transistor and interconnect parameter variations on critical path delays in a die A key component of the simulator is an analytical multi core processor throughput model which enables computationally efficient and accurate throughput calculations as compared with cycle accurate performance simulators for single threaded and highly parallel multi threaded MT workloads Based on microarchitecture designs from previous microprocessors three multi core processors with either small medium or large cores are projected for the 22 nm technology generation to investigate a range of design options These three multi core processors are optimized for maximum throughput within a constant die area A traditional single core processor is also scaled to the 22 nm technology to provide a baseline comparison The salient contri butions from this paper are 1 product level variation analysis for multi core processors must focus on throughput rather than just FMAX and 2 multi core processors are more variation tolerant than single core processors due to the larger impact of memory la tency and bandwidth on throughput To elucidate these two points statistical simulations indicate that multi core and single core processors with an equivalent total core area have similar FMAX distributions mean degradation of 9 and standard deviation of 5 for MT applications In contrast to single core processors memory latency and bandwidth constraints significantly limit the throughput dependency on FMAX in multi core processors thus reducing the throughput mean degradation and standard deviation by 50 for the small and medium core designs and By 30 for the large core design This improvement in 外文科技文献译文 12 the throughput distribution indicates that multi core processors could significantly reduce the product design and process devel opment complexities due to parameter variations as compared to single core processors enabling faster time to market for high performance microprocessor products Index Terms Clock frequency distribution critical path delay variations die to die D2D variations inter die variations intra die variations maximum clock frequency FMAX distri bution multi core parameter fluctuations parameter variations performance distribution throughput distribution WID variations I INTRODUCTION parameter variations in the manufacturing process As ICROPROCESSORS have always been vulnerable to Manuscript received May 17 2008 revised August 15 2008 First published May 19 2009 current version published November 18 2009 The authors are with Intel Corporation Hillsboro OR 97124 USA e mail keith a bowman alaa r alameldeen srikanth t srinivasan intel com chris wilkerson Digital Object Identifier 10 1109 TVLSI 2008 2006057 process technology continues scaling variations in transistorand interconnect characteristics are increasing relative to nom inal design targets The adverse effects of parameter variations on the maximum clock frequency FMAX and power of a mi croprocessor are also becoming more pronounced with tech nology scaling 1 2 Parameter variations can be classified into two categories die to die D2D and within die WID D2D variations resulting from lot to lot wafer to wafer and a portion of the within wafer variations affect all transistors and interconnects on a die equally Conversely WID variations con sisting of random and systematic components induce different electrical characteristics across a die 3 A random WID pa rameter variation fluctuates randomly and independently from device to 外文科技文献译文 13 device i e device to device correlation is zero A systematic WID parameter variation results from a repeatable and governing principle where the device to device correlation is empirically determined as a function of the distance between the devices Although systematic WID variations exhibit a cor related behavior the profile of these variations can randomly change from die to die From a design perspective systematic WID variations behave as continuous and smooth correlated random WID variations 1 3 6 In designing high performance microprocessors the impor tance of accurately estimating the impact of parameter varia tions on product level performance directly relates to the overall revenue of a company An overestimation increases design com plexity possibly leading to higher power consumption an in crease in design time an increase in die size rejection of other wise good design options and even missed market windows 3 Conversely an underestimation can compromise product per formance and overall yield as well as increase the silicon debug time 3 In summary overestimating variations impacts the de sign effort and underestimating variations impacts the manufac turing effort In recent technology generations multi core processors have emerged as a power efficient approach to designing high per formance microprocessors Multi core processors employ more than one core on a die where the number of cores and core complexity is a key design tradeoff Multi core processors can achieve better performance than single core processors for multi threaded MT applications by executing threads in parallel across the cores Previous research has investigated the impact of D2D and WID parameter variations on the FMAX and power distribu tions of single core processors 1 2 4 5 7 8 The impact of parameter variations on power where leakage is the dominant variation component does not fundamentally change from single core to multi core processors A multi core pro cessor may enable much finer granularity in placing portions of the chip into a sleep state When all transistors on the chip are in an operational mode however the relative effect of D2D and WID parameter 外文科技文献译文 14 variations on the leakage is expected to be sim ilar between single core and multi core processors In contrast the multi core design represents a fundamental shift in micro processor performance from the traditional single core design where the parallelism in MT applications is exploited across the cores in a die In this paper the impact of D2D and WID parameter varia tions on the FMAX and throughput distributions of multi core processors 9 is explored The throughput metric represents the actual microprocessor performance thus providing an architecture level perspective of device and circuit parameter variability In Section II an analytical multi core processor throughput model is derived to enable accurate throughput cal culations for highly parallel workloads with runtime efficiency In Section III three multi core processors and a single core processor are projected for a future 22 nm technology gener ation based on historical data and traditional scaling trends Applying the analytical throughput model a multi core pro cessor optimization is described in Section IV to maximize the throughput of the three multi core processors In Section V the analytical throughput model is integrated into a statistical performance simulator that captures the effects of D2D and WID parameter variations on critical path delays across a die to generate FMAX and throughput distributions for a given multi core design In Section VI the impact of parameter vari ations on the FMAX and throughput distributions of the three optimal multi core processors and the single core processor is presented Section VII concludes by summarizing the key insights II MULTI CORE PROCESSOR THROUGHPUT MODEL A compact analytical throughput model is derived to enable computationally efficient and accurate projections of multi core processor throughput for highly parallel MT applications Since the statistical performance simulator which will be described in Section V performs thousands of throughput calculations per multi core design the runtime efficiency is an essential fea ture For this reason an analytical modeling approach is desired rather than a computationally expensive throughput simulator 外文科技文献译文 15 The throughput model derivation starts by separating the die area in two main die A parts as 1 2 NLcoresdie AAA is the total area allocated to the cores where each core Is assumed to cores A contain private level 1 L1 instruction and data caches is the total level 2 L2 2NL A cache area with cores sharing the cache The L2 cache size in units of megabytes is calculated as MB NL NL A A S 1 2 2 2 Where is the cache area per 1 MB as determined by process technology MB A1 For a given workload the cycles per instruction CPI for a single core are modeled as 3 1 1 2clkmissLratecom FLSMCPICPI the computation component of CPI is the core CPI CPI with a perfect L2 com CPI cache i e no cache misses is inde pendent of the processor clock frequency com CPI clk F the miss rate is the number of misses per instruction for a cache 1 2Lmiss SM the miss penalty is the average number of cycles per L2 cache miss clkmiss FL is a function of clk F The product of and repre sents the clkmiss FL clkmiss FL memory latency and memory bandwidth components of CPIis the effective L2 1 2L S cache size for one core If the cores do not share code or data in the cache then the av erage cache size per core is of the entire L2 cache Nth 1 size For applications that share code or data the working set size is 2 1 2 NSS NLL adjusted by the average number of cores that share an L2 cache line where share N is a func tion of N The average cache size for a single core is calculated NNshare 外文科技文献译文 16 as 10 4 1 2 1 2 NNN S S share NL L To project the miss rate for caches of different sizes thesquare root rule of thumb is typically applied which models the cache miss rate as 5 MBL rate Lrate SS MBM SM 1 1 2 1 2 1 where is 1 MB For some applications the square rootmodel in 5 is less MB S1 accurate than the working set model where the miss rate remains constant as cache size increases until the working set fits in the cache subsequently the miss rate sharply falls off Since the miss rate dependency on cache size is ap plication specific the miss rate of a single core is simulated at multiple cache sizes with an

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论