No C Mesh Torus 2 D Mesh 2

  • Slides: 24
Download presentation

No. C のトポロジ ~Mesh, Torus~ • 2 -D Mesh • 2 -D Torus –

No. C のトポロジ ~Mesh, Torus~ • 2 -D Mesh • 2 -D Torus – RAW [Taylor, IEEE Micro’ 02] – a. SOC [Liang, IEEE TVLSI’ 04] (※) はルータ, – No. C [Dally, DAC’ 01] – No. C [Marescaux, FPL’ 02] は計算コアを表す

スループット理想値 ~Channel bisection~ N=n*n N=16 N=64 N=256 Mesh 2 n 8 16 32 Torus

スループット理想値 ~Channel bisection~ N=n*n N=16 N=64 N=256 Mesh 2 n 8 16 32 Torus 4 n 16 32 64 HT 4 4 8 16 32 24 40 72 FT FHT 4 n + 8 (※) FHTはFat H-Tree, FTは(2, 4, r)のFat Tree, Torus 分HTはH-Treeを表す 2個分 • Fat H-Tree – H-Tree 2個 – コア-ルータ間チャネルによる Torus Fat H-Tree は Torus より高い Bisection Bandwidth を実現

平均ホップ数 • Fat H-Tree – DTRは最短ルーティング – STR, TORは非最短 routing N=16 N=64 N=256 DOR

平均ホップ数 • Fat H-Tree – DTRは最短ルーティング – STR, TORは非最短 routing N=16 N=64 N=256 DOR 4. 67 7. 33 12. 67 Torus DOR 4. 14 6. 06 10. 03 Mesh HT tree 3. 61 5. 43 7. 36 FHT STR 3. 20 5. 02 6. 90 FHT DTR 3. 20 4. 84 6. 78 FHT TOR 3. 20 5. 65 10. 83 Fat H-Tree の Dual Tree routing は最も平均ホップ数が小さい

結合網の面積 ~No. C の合成~ • No. C 全体の合成 – 16コア, 64コア – Design Compiler

結合網の面積 ~No. C の合成~ • No. C 全体の合成 – 16コア, 64コア – Design Compiler – 0. 18 um プロセス Buf • ルータの構造 – 1 -flit = 32 -bit – 4段パイプライン – Wormhole Switching • NI の構造 – 入力側: 2 -flit FIFO – 出力側: 2 -flit FIFO Fat H-Tree のみ 2 -port NI Buf Input Ports Crossbar 使用した Wormhole ルータ [松谷, SACSIS’ 06]