Szmtgpek felptse 5 elads a CPU gyorstsa pipeline
- Slides: 39
Számítógépek felépítése 5. előadás a CPU gyorsítása, pipeline, cache Dr. Istenes Zoltán ELTE-TTK 1
5. előadás tartalma • • Processzor gyorsítási lehetőségek Pipeline feldolgozás Cache gyorsító tár CISC vs. RISC. . . Bitszelet processzorok Co-processzorok Pédák processzorokra. . . 2
Órajelfrekvencia, idő, távolság • 1 „normál” kapu kapcsolási idő = 10 ns • 300 MHz = 0. 3*10 e 9 1/s -> 3 ns • 300. 000 km/s = 0. 3*10 e 9 m/s -> 0. 3 m/ns 3
Processzor gyorsítási lehetőségek művelet végzés gyorsítása ? utasítás végrehajtás gyorsítása ? párhuzamosítás ! 4
Műveletvégzés gyorsítása Összeadás átvitel-előrelátás (addition carry-lookahead) 5
Teljes összeadó „késleltetése” (ripple carry) y 3 x 3 1+ c 4 s 3 y 2 x 2 c 3 1+ s 2 y 1 x 1 c 2 1+ s 1 y 0 x 0 c 1 c 0 1+ s 0 késleltetés (3 dt) 1 dt = 1 kapu kapcsolási idő (kb. 10 ns) 6
Gyorsított összeadás • • Ci+1=Xi. Yi+Xi. Ci+Yi. Ci Ci+1=Gi+Pi. Ci ahol Gi=Xi. Yi és Pi=Xi+Yi Gi = generate (Xi=Yi=1) Pi = propagate (Xi vagy Yi = 1) 7
4 bites átvitel-előrelátás („carry lookahead”) • C 1=G 0+P 0. C 0 • C 2=G 1+P 1. C 1 =G 1+P 1. G 0+P 1. P 0. C 0 • C 3=G 2+P 2. C 2 =G 2+P 2. G 1+P 2. P 1. G 0+P 2. P 1. P 0. C 0 • C 4=G 3+P 3. C 3 =G 3+P 3. G 2+P 3. P 2. G 1+P 3. P 2. P 1. G 0+P 3. P 2. P 1. P 0. C 0 8
Szorzás ROM-ból kiolvasással 0*0 0*1 0*2 0*3 1*1 1*2 1*3 2*0 2*1 2*2 2*3 3*0 3*1 3*2 3*3 X Y 00 00 00 01 00 10 00 11 01 01 01 10 01 11 10 00 10 01 10 10 10 11 11 00 11 01 11 10 11 11 Z 0000 0001 0010 0011 0000 0010 0100 0110 0000 0011 0110 1001 X Y MEM 16 x 4 bit Z • gyors, egyszerű, olcsó • tetszőleges függvényre • csak kisméretben alkalmazható 9
Pipeline feldolgozás (csővezeték, futószalag feldolgozás) 10
„Pipelining” • részfázisokra bontás • független részfázisok, önálló erőforrásokkal • az egyik fázis eredménye a következő induló adata 11
Utasítások egymás utáni végrehajtása utasítás dekódolás operandus végrehajtás előkészítés meghatározás 1. utasítás feldolgozása 2. utasítás feldolgozása 3. utasítás feldolgozása idő 12
Utasítás végrehajtás fokozatokra bontása utasítás előkészítés dekódolás operandus meghatározás végrehajtás utasítás feldolgozása végrehajtás op. meghatározás dekódolás út. előkészítés idő 13
Csővezetékszerű utasítás végrehajtás (pipelined) 2. utasítás feldolgozása 3. utasítás feldolgozása 1. utasítás feldolgozása végrehajtás op. meghatározás dekódolás út. előkészítés 1 1 2 3 4 5 3 4 5 6 7 5. . . idő. . . 14
Problémák a pipeline-vel tárolóhivatkozás : • lassú memória miatt várni kell az operandusokra • egyszerre kéne ugyanabból a tárból adatot és utasítást elérni vezérlés átadó utasítások. . . megszakítások. . . folyamatos pipeline feldolgozás megszakítása, felfüggesztése 15
Memória utasítások a pipeline-ben • várakozó ciklusok beiktatása - „lyukak” a pipeline-ben • késleltetett memória utasítás - utasítások átrendezése, üres utasítás beiktatása load R 1, (A) load R 2, (B) add R 3, R 1, R 2 16
Elágazások kezelése a pipeline-ben • az ugrási cím csak az utasítás feldolgozása után lesz ismert. . . • ha „rossz” ágat utasításait kezdi el feldolgozni akkor a pipeline-t (és az utasítások hatásait) törölni kell. . . • delayed branch (NOP utasítással feltöltés) 17
Adatok felhasználása a pipeline-ben • adat függőség add R 3, R 1, R 2 sub R 4, R 3, R 0 ütközések : • írás utáni írás : 2. írás után ír az 1. • írás utáni olvasás : 2. előbb olvas mint az 1. ír • olvasás utáni írás : 2. előbb ír mint az 1. olvas • olvasás utáni olvasás : -) instruction scheduling. . . internal forewarding. . . scoreboarding. . . 18
Pipeline összefoglalás • egyszerű elv • bonyolult, „trükkös” megvalósítás • sokat segíthet a fordítóprogram 19
Cache „gyorsító” tár 20
Cache memória Probléma : a központi memória általában sokkal lassabb (5 x-10 x-. . . ) mint a processzor. . . Kicsi, gyors (drága!), puffer memória a központi memória és a processzor közé. . . Cache memória CPU Központi memória 21
„Tipikus” cache • • 64 Mbyte memóriához 64 Kbyte cache 20 x gyorsabb 1/1000 méret 98% cache találat 22
Cache működés (olvasás) CPU által generált memóriacím küldése a cache-nek : 1. ha az adat a cache-ben van (cache hit, cache találat) : • adat elküldése a CPU-nak 2. ha az adat nincs a cache-ben (cache miss, cache „nemtalálat”, „találat hiba”) : • a generált memóriacím küldése közp. memóriának • adat kiolvasása a központi memóriából, • adat elküldése a CPU-nak, és a cache-be 23
Cache • a memória és a cache között blokkos adatátvitel (4 -64 szó) • teli cache esetén egy cache blokkot fel kell szabadítani (helyettesítési eljárások) 24
Cache hatása az átlagos elérési időre és a hatékonyságra (példa) Adatok : • cache elérési idő tc = 160 ns • memória elérési idő tm = 960 ns • átlagos cache találati arány h = 90% Kérdés : • mennyi az átlagos elérési idő ? (ta) • mekkora a hatékonyság növekedés ? (g) 25
Cache hatása az átlagos elérési időre és a hatékonyságra (példa) ta = h*tc + (1 -h)*(tc+tm) = 0. 9*160 + 0. 1*(960+160) = 256 ns (átlagos elérési idő) r = tm/tc = 960/160 = 6 g = 1/(1+r*(1 -h)) =1/(1+6*0. 1) = 0. 625 = 62. 5% (hatékonyság növekedés) 26
Cache hatása (Super. SPARC példa) • • CPU 0. 75 CPI (cycles per instruction) 3% cache miss memória késleltetés 10 ciklus 1. 33 memória referencia / utasítás • cache miss „büntetés” 0. 4 CPI 0, 75*1, 33*3%*10 • 35% teljesítmény csökkenés 1 -1/(1+3%*(10+1)) 27
Memória „leképzése” a cache-ra Teljesen asszociatív cache Közvetlen leképzésű cache Csoport asszociatív cache 28
Teljesen asszociatív cache (fully associative cache) központi memória blokk „i” (0<=i<=M-1) leképezhető bármelyik „j” (0<=j<=N-1) cache blokkra M=2 m N=2 n 0 „j” m 0 k memória j . . . N-1 M-1 blokkméret : k 29
Közvetlen leképzésű cache (direct mapping cache) egy-egy memória blokk csak meghatározott helyre kerülhet (I-way set associative cache) 0 0 memória i MOD N i DIV N m-n i k N-1 M-1 k 30
Közvetlen leképzésű cache címformátuma memória blokk cím M=2 m m bit m-n bit n-bit „tag” cache blokk cím N=2 n 31
Közvetlen leképzésű cache a memória cím „alsó” n bitje a memória cím „felső” m-n bitje 0 „tag” 0 memória i MOD N. i DIV N m-n i k N-1 M-1 k 32
Csoport asszociatív cache (set associative cache) S csoport blokkonként S=2 s a memória cím „alsó” n-s bitje a memória cím „felső” m-n+s bitje 0 blokk csoport „tag” 0 cache csoport cím 0 memória j . . . m-n+s k N-1 N/S-1 k M-1 33
Cache-ben lévő adat megváltoztatása cache - memória koherencia fenntartása ! • azonnali átírás (write-through) : blokk tartalom módosítás esetén a blokk visszaírása a memóriába • visszamásolási eljárás (write back) : • a frissen betöltött blokk „dirty” („piszkos”) bitje = 0 • blokk tartalom módosítás esetén dirty bit = 1 • blokk cache-ból törlésekor : ha dirty bit = 1 akkor vissza kell írni a memóriába (különben nem) 34
CISC vs. RISC processzorok CISC = Complet Instruction Set Computer (teljes utasítás készletű számítógép) RISC = Reduced Instruction Set Computer (csökkentett utasítás készletű számítógép) 35
CISC vs. RISC processzorok CISC • „könnyebb programozás” • összetett utasítások, sokféle címzési mód • utasítás végrehajtás több órajel alatt • mikroprogramozott • . . . RISC • egyszerűbb, gyorsabb • optimalizált fordítók • kevés utasítás és címzési mód • rögzített utasítás forma • utasítás végrehajtás 1 órajel alatt • kevés memória hozzáférés • sok regiszter • huzalozott vezérlő • pipeline feldolgozás 36
CISC vs. RISC CISC (VAX) • 14 féle címzési mód • 250 utasítás RISC • 1 féle címzési mód • 32 (50) regiszter. . . • 30 -40 utasítás 37
Bit-szelet processzorok Bit-szelet (bit slice) processzor • • • példa : AM 2901 4 bites ALU + regisztertömb 3 aritmetikai, 5 logikai művelet 9 bites vezérlés állapot jelek 38
Segédprocesszorok co-processzorok • gyorsabb lebegőpontos, mátrix, grafikai műveletek • új utasítások, adattípusok, regiszterek • együttműködés a processzorral 39
- Public candy companies
- Elads
- Elads crm
- Linear pipeline processor
- Superscalar pipeline design
- Stack based cpu
- Cycle per instruction
- Little man computer loop
- In this scheme cpu execution waits while i/o proceeds.
- Pertukaran data antara cpu dan modul i/o melalui...
- Qqqqqn
- Inf
- Technologies for network based systems
- What are the external parts of computer
- Cpu consists of
- Xxapple mega
- Alu uc
- Microprocessore cpu
- Buffer cpu
- Cpu
- Marie's cpu architecture
- Arm cpu comparison
- Apakah himpunan berikut termasuk himpunan kosong atau bukan
- Tensilica processor
- Microprocessor architecture diagram
- Cpu instructions
- Cpu peripheral
- Ukuran cpu
- Cpu scheduling project
- Berikut ini merupakan storage device adalah
- The cpu speed is measured by
- Cpu
- Oma-dm client high cpu
- Ram rom cpu
- Struktur cpu
- General purpose cpu
- Fcfs gantt chart
- Cpu datapath
- Oracle automatic diagnostic
- Maqueta de las partes internas del cpu