筑波大学大学院インテル特别讲义.doc_第1页
筑波大学大学院インテル特别讲义.doc_第2页
筑波大学大学院インテル特别讲义.doc_第3页
筑波大学大学院インテル特别讲义.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

筑波大学大学院特別講義筑波大学情報工学研究科専攻XXXX学籍番号XXXX課題C(lap.c)最適化作業lap.c示Intel Xeon E5-2699V32個用上実行,最適化。時行作業。、 事前調査) 実行環境実行環境Intel Xeon E5-2699V3個用PC。E5-2699v3Haswell基18x86-64 CPU。命令SSEAVX2。) 最適化主機能、浮動小数点数二次元配列扱。、非常基本的方法使。配列関計算、二重配列値逐一計算。初期化時sin、cos計算多時間使。自身実行時実行回数指定可能、実行時間表示。、 最適化環境:Intel Xeon E5-2699V3 x 2、32GB以上RAM、OSCentOS向Linux使用:、Intel C+ Composer XEIntel VTune Analyzer XE最新版、C、OpenMP開発第日:文前、自動化禁止文入。、icc-O0-O2、基本機能、計算結果Intel動作確認。第日:Intel-vec-report機能使用、化箇所原因探。、論理構造実行結果変前提、化箇所修正。第日:前日続、化可能自動的化(外層)部分#pragma simd化強制。、性能妨問題()、限解決。変換場合、行。第日:並列化段階入。-par引数自動並列化有効化、-par-report並列化箇所原因探。各文前、並列化強制文入。第日第日:前見化並列化箇所原因、書直前提総合的最適化案提出、実証。第日第日:効率良、並列化向(OpenCL、OpenMP)書直、前最適化案比較。、最適化結果予期確認方法実行環境性能、数両方非常良。、化並列化両方性能影響当。、今回最適化最適化結果予期、自身構造考。大体部分。計算使用二次元配列、固定、時間複雑度考無視。初期化部分検証部分、回実行、反復回数対時間複雑度O(1)。主要計算行関数lap_main、入力反復回数回行、内変数使、時間複雑度O(n)。反復回数多、O(1)部分計算時間無視良、lap_main考。lap_main内、先言及中三子。最初、変数10倍数判断。計算時間(回整数比較)比、無視。、一二重(XSIZE-2)*(YSIZE-2)回浮動小数点数代入、二次元配列一部内容;一(XSIZE-2)*(YSIZE-2)回、浮動小数点数回足算、回割算、回代入。毎回計算独立、前回計算結果依存。従、配列内容完全並列化。、一、割算前回足算結果依存、並列化。定数4.0割算、浮動小数点数割算命令遅、定数0.25掛算自動的書換場合。Intel 64 and IA-32 Architectures Optimization Reference ManualAppendix C、HaswellAVX使場合、256掛算(VMULPD)遅延()足算(VADDPD)遅延()約1.67倍。代入考、遅延正常。、Amdahl法則利用、理論上、36並列化最大性能向上倍。加、化x87計算比、化AVX計算方速、1.1-1.5倍性能出、最終的理論性能向上値最適化前約4倍。総体的性能向上確認、clock()精度低測定方法以外、外部rdtsc用、Vtune性能計測専用使。、最適化対象方法関数main: 二次元配列初期化。起動時間影響。最適化方法並列化。関数lap_main: 二次元配列、二配列用計算二。最適化方法化並列化。関数verify: 二二次元配列含数値差総和計算。最適化方法並列化。、最適化対象最適化問題点、静的二次元配列精度浮動小数点数記録。今段階10000x10000足、規模拡大足。malloc()、考書直考。lap_main中二子、一回実行操作量少、自動並列化不向。要、二子統合。最適化最後、並行化特化書直決定。手順行、C最適化限界、手動最適化結果速書容易。課題解答以上。課題 社CPU他社製品比較、最強向CPU対決存知、現在x86-64向CPU市場、二会社製品分。IntelAMD系CPU、1998年Pentium II vs K6-2、会社参入激性能市場競争続。現時点(2015年6月8日)Intel社AMD社向最強CPU仕様比較。製品名Intel Core i7-5960XAMD FX-9590HaswellPiledriver製造Intel 22nm 3D Tri-GateSOI HKMG 32nmLGA 2011-v3Socket-AM3+数(数)8(16)8(8)定格3.0 GHz4.7 GHz最大3.5 GHz5.0 GHzQPI、6.4GT/sHyperTransport、2.4GHzL164 KB x 8384 KBL2256 KB x 82 MB x 4L320 MB8 MB命令x86,x87,x86-64,MMXSSE,SSE2,SSE3,SSE4AVX,AVX2,FMA,AES-NI,VT-xx86,x87,x86-64,MMX,SSE,SSE2,SSE3,SSE4AVX,FMA,AES,AMD-VGPUDDR4-2133DDR3-2133TDP140W220 W発売日2014年8月29日2013年7月6日価格()$1000$269表最強CPU仕様比較二CPU比、Core i7-5960x優以下。)自社工場自社優製造製造。Intel、半導体製造者(TSMC、GlobalFoundries、)、常優位性保。例Intel14nm量産化Core M出荷2014年9月、半導体製造者14nm量産始。2015年3月最初Intel以外14nm(Samsung Exonos 7420)出荷。製造優位性、他社高基本性能低電力消費。)命令多。i7-5960xAVX2、FX-9590。)数同、周波数低、最終的性能i7-5960x方良。AnandTech、各項目、i7-5960x方成績高。Intel優位性明示。)消費電力低。i7-5960xTDPFX-959080W低、先通性能優位性、性能対消費電力比、i7-5960x方遥優。AMD FX-9590優以下。)性能対価格良。同AnandTech、FX-5950性能i7-5960x80%、性能i7-5960x6080%。、FX-9590価格i7-5960x4分1。)同AnandTech、性能i7-5960x低、差小。AMD、Pentium4時代伝統的向印象。化、遅。最新FPS、二以上物理CPU充分活用例少。、同性能使、対CPU性能影響重要。結論、Intel製造Haswell優位性、i7-5960x性能電力消費明AMDFX-9590圧倒。、性能対価格面、FX-9590方上。、将来CPU提案現在CPU性能発展、大体Moore法則従。、法則失効。0.25um、0.18um、0.13um32nm、22nm、14nm小、量子力学領域入、小物理的極限達。従、Intel含各CPUSoC設計者、性能上昇、化、並列化異種混在(GPU、DSPCPUdie入)力入。、対反応遅。科学計算約20年、約10年前対応、一般向、未一二使多。最近領域、Apple社独自A7、A8性能ARM系CPU遥超。明化難向最適化。、物理極限来前、私向CPU現在、数増続正思。一方CPU、TDP拘高性能出。SoC、一部Android SoC数4以上増必要、Apple総消費電力抑前提、性能向上優先発展良思。参考資料Wikipedia, /wiki/List_of_AMD_FX_microprocessorsThe Intel Haswell-E CPU Revi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论