Szchenyi Istvn Egyetem Hibatr rendszerek 1 Szchenyi Istvn
Széchenyi István Egyetem Hibatűrő rendszerek 1
Széchenyi István Egyetem Hibatűrés - Alapdefiníció • Hibatűrő rendszerek – ideálisan olyan rendszerek, melyek végrehajtják feladatukat hardware és szoftver hibáktól függetlenül • Gyakorlatban – soha nem garantálhatunk hibamentes működést minden körülmények között • Gyakran előforduló hibatípusokra szorítkozunk 2
Széchenyi István Egyetem Hibatűrés szükségessége - Környezet • Számítástechnikai rendszer ki lehet téve – Elektromágneses zavaroknak – Részecskebombázásnak – Vibrációnak • Nagyszámú hiba esetén a rendszer nem lesz képes hasznos eredményeket produkálni hibatűrő képesség implementálása nélkül 3
Széchenyi István Egyetem Hibatűrés szükségessége – Magas komplexitású rendszerek • Komplex rendszerek komponensek millióiból állhatnak • Minden komponensek van hibavalószínűsége • A nagymennyiségű eszköz azt jelentheti, hogy a meghibásodási valószínűség magas • Magas meghibásodási frekvencia esetén a rendszer használhatatlanná válhat 4
Széchenyi István Egyetem Hibatűrés mértékei • Fontos, hogy legyenek mérőszámaink hibatűrésre • Egy mérték egy matematikai absztrakció mely csak egy részét fejezi ki a tárgy természetének 5
Széchenyi István Egyetem Tradicionális mértékek • Feltételezés: A rendszer csak két állapotban lehet: ‘’up”, vagy ‘’down” • Példák: Villanykörte: vagy jó, vagy kiégett. Vezeték vagy összekapcsol, vagy • Két tradicionális mérték: Reliability and Availability (Megbízhatóság és Rendelkezésre állóság) • Reliability (megbízhatóság), R(t): annak valószínűsége, hogy a rendszer „up” a [0, t] intervallumban, feltéve, hogy „up” volt 0 nál • Availability (rendelkezésre állóság) , A(t), az az időrész amelyben a rendszer „up” volt a [0, t] intervallumban • Pont Availability, Ap(t), annak valószínűsége, hogy a rendszer „up” t időpontban • Származtatott mérték: MTTF - Mean Time To Failure – átlagos idő amely alatt a rendszer „up” marad mielőtt szervizre vagy javításra kerül sor 6
Széchenyi István Egyetem Több mérték kell • Az a feltételezés, hogy a rendszer csak ‘’up”, vagy ‘’down” állapotban lehet, nagyon korlátozó • Példa: Ha egy processzor millió kapujából egy 0 -ba ragad de a többi működik lehetséges, hogy ez csak minden 25 ezredik órában hat a kimenetre • A processzor nem hibamentes de nem definiálható ‘’down”állapotúnak • Szükség van több mértékre a tradicionális mértékeken kívül 7
Széchenyi István Egyetem Általánosabb mértékek • Capacity Reliability (kapacitás megbízhatóság) – annak valószínűsége, hogy a rendszerkapacitás (például throughput) t időben meghalad egy adott küszöbértéket • Más kiterjesztés – mindent az alkalmazás szempontjából gondoljunk át • Ezzel a megfontolással jutunk el a Performability (teljesítőképesség) mértékhez 8
Széchenyi István Egyetem Számítástechnikai Kapacitás • Példa: N processzoros rendszer • A rendszer mindaddig tolerálja a processzorhibát ameddig legalább egy processzor működőképes • Legyen Pi = Prob {i processzor működőképes} • R(t) = Σ Pi • Legyen c egy processzor számítástechnikai kapacitása (azon fix méretű feladatok száma amit a processzor képes végrehajtani) • i processzor számítástechnikai kapacitása: Ci = i · c • A rendszer számítástechnikai kapacitása : Σ Ci · Pi 9
Széchenyi István Egyetem Performability (teljesítőképesség) • Alkalmazásoknál szokás definiálni ‘’teljesítményszinteket” L 1, L 2, . . . , Ln • Mindegyik egy szerviz minőséget jelent amit az alkalmazás biztosítani képes • Performability egy vektor (P(L 1), P(L 2), . . . , P(Ln)) ahol P(Li) annak valószínűsége, hogy a számítógép elég jól funkcionál ahhoz, hogy elérje az Li teljesítményszintet 10
Széchenyi István Egyetem Hálózat Connectivity Mértékek • Vizsgáljuk a processzorokat összekötő hálózatot • Klasszikus Node and Line Connectivity – A node-ok és line-ok minimális száma melyek meghibásodása esetén a rendszer „szétkapcsolttá” (disconnected) válik • A mérték azt jelzi mennyire sérülékeny a rendszer a szétkapcsoltságra • Ha egy rendszer szétkapcsol egy (kritikusan pozícionált) node meghibásodására az sérülékenyebb, mint az amely csak néhány node meghibásodása esetén válik szétkapcsolttá 11
Széchenyi István Egyetem Connectivity - Példák 12
Széchenyi István Egyetem Hálózat Resilience (ellenállóképesség) Mértékek • Klasszikus hálózat csak két állapotban lehet: kapcsolt, vagy szétkapcsolt (connected and disconnected) • Nem mond semmit hogyan degradálódik a hálózat mielőtt szétkapcsolttá válik ahogy a node-ok meghibásodnak • Két mérték: – Átlagos node-pair távolság – Network diameter - maximum node-pair távolság • Számítás: node és/vagy link meghibásodási valószínűség ismeretében 13
Széchenyi István Egyetem További hálózati mértékek • Mi történik hálózat szétkapcsoláskor? • Ha egy nagy és több kis részre bomlik, jobban működhet mintha nagyszámú kis részre • Új mérték: szétkapcsoláskor a legnagyobb komponens 14
Széchenyi István Egyetem Redundancy (terjengősség) • Redundancy hibatűrőség kulcsfogalma • Redundancy definíciója extra komponensek bevonása a rendszer tervezésekor annak érdekében, hogy a rendszer működését meghibásodások kevésbé befolyásolják • Négy formáját vizsgáljuk 15
Széchenyi István Egyetem Hardware Redundancy • Extra hardware hozzáadása komponens meghibásodás hatásának kiküszöbölésére • Statikus Hardware Redundancy – hibahatás közvetlen (azonnali) kiküszöbölése • Példa: Három processzor azonos funkcióval. Többségi kimenet felülírja egy meghibásodott processzor kimenetét. • Dinamikus Hardware Redundancy – tartalék alkatrészek a jelenleg aktív komponens meghibásodása esetén aktivizálódnak • Hibrid Hardware Redundancy – Statikus és Dinamikus technikák kombinációja 16
Széchenyi István Egyetem Software Redundancy • Software redundancy több szoftveres csapattal biztosítható • Azonos funkció különböző változatait írják • Reméljük, hogy a különbségek biztosítják, hogy nem mindegyik verzió hibázik ugyanannál az bemenő adatnál 17
Széchenyi István Egyetem Információ és Idő Redundancy • Információ redundancy: bitek hozzáadása az adatbitekhez oly módon, hogy az adatbitek hibája detektálható, vagy javítható legyen • Hiba detektáló és javító kódok • Információ redundancy hardware redundanciát kíván a hozzáadott bitek feldolgozására • Idő redundancy: feltételezi, hogy járulékos idő áll rendelkezésre mely alatt a hibás végrehajtás megismételhető • Sok hiba tranziens – bizonyos idő után eltűnik • Ha elég az idő a hibás egység „magához térhet” és megismételheti az elhibázott számítást 18
Széchenyi István Egyetem Hardware hibák osztályozása • Három hibatípus: – Tranziens hibák – viszonylag rövid idő alatt megszűnnek Példa – memória cella tartalma elektromágneses interferencia következtében megváltozik Átírás a jó tartalommal megoldja a problémát • Permanens hibák - soha nem szűnnek meg, a komponenst ki kell javítani vagy kicserélni • Időszakos hibák – ciklus aktív és hibás állapot között Példa – megbízhatatlan csatlakozó 19
Széchenyi István Egyetem Hibagyakoriság • A hibagyakoriság függ a komponens korától, a hőmérséklettől, a „sokkhatások” feszültségétől és a technológiától • Korfüggés rendszerint a „fürdőkád” görbével írható le 20
Széchenyi István Egyetem Fürdőkád görbe • Nagyon fiatal rendszereknél magas hibagyakoriság: van esély, hogy gyári hibás alkatrész átcsúszott a gyártási QC-n • Idővel ezeket kijavítjuk és a rendszer életének döntő részében állandó hibagyakoriságot mutat • Nagyon öreg rendszereknél az öregedési effektus lép be ahol a hibagyakoriság ismét megnő 21
Széchenyi István Egyetem Tapasztalati formula λ - hibagyakoriságra • λ = πL πQ (C 1 πT πV + C 2 πE) – πL: Tanulási tényező, (mennyire kiforrott a technológia) – πQ: Gyártási folyamat Quality tényező (0. 25 és 20. 00 között) – πT: Hőmérsékleti tényező, (0. 1 és 1000 között), arányos exp(-Eα/k. T)-val ahol Eα az aktivizálási energia elektronvoltokban az adott technológiára, k a Boltzmann állandó T a hőmérséklet Kelvin fokban – πV: Feszültség stressz tényező CMOS eszközökre (1 és 10 között hőmérséklet és tápfesz függvényében); más technológiáknál 1 – πE: Környezeti sokkhatás tényező : 0. 4 -től (légkondícionált környezet), 13. 0 -ig (barátságtalan környezet) – C 1, C 2: Komplexitás tényezők; kapu és lábszám függőek chipeknél • További részletek: MIL-HDBK-217 E handbook 22
Széchenyi István Egyetem Környezeti hatások • Nagy energiájú részecskék hatásának kitett, valamint szélsőséges hőmérséklethatások között működő rendszerek gyakrabban hibásodnak meg • Hasonlóan például autók számítógépei, ipari számítógépek melyek magas hőmérsékleten és vibrációs hatások alatt működnek 23
Széchenyi István Egyetem Meghibásodások és Hibák • Meghibásodás hardware defektus vagy szoftver (programozási hiba) • Hiba a meghibásodás manifesztációja • Például, összeadó áramkör melynek kimenetei 1 -be ragadtak. Meghibásodás, de (még) nem hiba. Akkor hiba ha használjuk az összeadót és az eredménynek 0 -nak kellene lenni. 24
Széchenyi István Egyetem Meghibásodások és Hibák terjedése • Meghibásodások és hibák egyaránt tovaterjedhetnek a rendszerben • Ha egy chip zárlatba megy okozhatja közeli chipek meghibásodását • Hiba terjedhet azáltal, hogy egy processzor kimenetét gyakran használják más áramkörök bemenetként • Összeadó példa: hibás kimenet más számitásoknál szerepelhet bemenetként így a hiba tovaterjed 25
Széchenyi István Egyetem Containment Zonák • Ilyen szituációk elkerülésére a tervezők containment zónákat iktatnak a rendszerbe • Határok melyek meggátolják a zónák közötti hibaterjedést. – Független tápegység minden zónára – Zónák elektromos elszigetelése – Redundáns egységek szavazó áramkörrel 26
Széchenyi István Egyetem Time to Failure - Analítikus Model • Vegyük a következő modellt: – N azonos komponens, valamennyi hibátlan t=0 -nál – Mindegyik komponens működőképes marad ameddig valamilyen meghibásodás történik – Minden hipa permanens és más komponensek meghibásodásánál függetlenül történik – Először egy komponensre fókuszálunk • T – a komponens élettartama – az idő a meghibásodásig • T valószínűségi változó • f(t) – T sűrűségfüggvénye • F(t) – T kumulatív eloszlásfüggvénye 27
Széchenyi István Egyetem Valószínűségi interpretáció • F(t) – annak valószínűsége, hogy a komponens t-ben, vagy az előtt meghibásodik – F(t) = Prob (T ≤ t) • f(t) – a pillanatnyi hibagyakoriság – f(t)dt= Prob (t ≤ T ≤ t+dt) • Mint bármely sűrűségfüggvény ( t ≥ 0 -ra definiálva) ∞ ∫ – 0 f(t) dt =1 – f(t) ≥ 0, minden t ≥ 0 • Ezen függvények viszonya: – f(t)=d. F(t)/dt – F(t)= 0∫t f(s) ds 28
Széchenyi István Egyetem Reliability (megbízhatóság) és Hiba (Hazárd) gyakoriság • Egy komponens megbízhatósága - R(t) – R(t) = Prob (T>t) = 1 - F(t) • t időben egy komponens meghibásodási valószínűsége, p(t) – feltételes valószínűség: a komponens t-időben meghibásodik feltéve, hogy azelőtt nem hibásodott meg – p(t) = Prob (t ≤ T ≤ t+dt | T ≥ t) = Prob (t ≤ T ≤ t+dt) / Prob(T ≥ t) = f(t)dt / (1 -F(t)) • Egy komponens hiba (vagy hazárd) gyakorisága t időben, h(t), p(t)/dt-ként van definiálva – h(t) = f(t)/(1 - F(t)) • Mivel d. R(t)/dt = -f(t), h(t) = -1/R(t) d. R(t)/dt 29
Széchenyi István Egyetem Állandó meghibásodási gyakoriság • Ha a meghibásodási gyakoriság időben állandó h(t) = λ – akkor • d. R(t) / dt= - λ R(t) ; R(0)=1 • A differenciál egyenlet megoldása R(t) = e(- λ t) f(t)= l e(- λ t) F(t)=1 - e(- λ t) • Állandó meghibásodási gyakoriságot akkor és csak akkor kaphatunk, ha T, a komponens élettartama exponenciális eloszlású 30
Széchenyi István Egyetem Mean Time to Failure • • MTTF – T élettartam várható értéke ∞ MTTF = E[T] = 0∫ t f(t) dt d. R(t)/dt= - f(t) ∞ MTTF = 0∫ - t d. R(t)/dt dt = [-t R(t) ] | ∞ 0 + 0∫∞ R(t) dt • -t R(t) = 0 t=0 -ban és t= ∞-ben mivel R(∞)=0 ∞ • Következésképp MTTF= 0∫ R(t) dt • Ha a hibagyakoriság állandó λ R(t) = e (- λ t) MTTF = 0∫∞ e (- λ t) dt = 1/ λ 31
Széchenyi István Egyetem Weibull eloszlás - Bevezetés • Legtöbb megbízhatósági számításnál állandó meghibásodási gyakoriság λ feltételezett, más szóval – az alkatrész T élettartam exponenciális eloszlása • Vannak esetek amikor ez az egyszerűsítő feltételezés nem megfelelő • Példa - ‘’infant mortality” (kezdeti meghibásodás) és ‘’wear-out” (elöregedés) fázisok a fürdőkád görbén • Ilyen esetekben megbízhatósági számításokra gyakran használt a T élettartam Weibull eloszlása 32
Széchenyi István Egyetem Weibull eloszlás - Egyenlet • A Weibull eloszlásnak két paramétere van, λ és β • Az alkatrész T élettartamásak sűrűség függvénye: f(t)= λ β t(β-1) e(- λ t β) • A hiba gyakoriság Weibull eloszlásnál h(t)= λ β t(β-1) • A hiba gyakoriság h(t) idővel csökken β <1 -re, idővel növekszik β >1 -re, és állandó β =1 -re, ami megfelelő a kezdeti meghibásodás, az öregedés és a közbenső állapot leírására 33
Széchenyi István Egyetem MTTF Weibull eloszlásra • Reliability (megbízhatóság) Weibull eloszlásra R(t) = e(- λ t β) • Az MTTF Weibull eloszlásra 1/ β MTTF = Γ(1/β)/(β λ ) • ahol Γ(x) a Gamma függvény • Speciális eset β = 1 az Exponenciális eloszlás állandó hibagyakorisággal 34
Széchenyi István Egyetem Kanonikus Strukturák • Nagyobb struktúrák individuális komponensekből konstruálhatók • Komplex struktúrák alapstruktúrákból konstruálhatók • Az individuális komponensek hibái között statisztikus függetlenséget feltételezünk • Alapstruktúrák – Soros rendszer – Párhuzamos rendszer – M out of N rendszer 35
Széchenyi István Egyetem Soros rendszer • A komponensek úgy kapcsolódnak, hogy bármelyikük meghibásodása a rendszer meghibásodását eredményezi 36
Széchenyi István Egyetem Soros rendszer megbízhatósága • Soros rendszer megbízhatósága Rs(t) – N modul megbízhatóságának szorzata • Ri(t) az i-edik komponens megbízhatósága N Rs(t) = ∑ Ri(t) i=1 37
Széchenyi István Egyetem Soros rendszer – állandó hibagyakoriság • Ha minden modulnak állandó λi a hibagyakorisága - λi t Ri(t) = e - λs t - ∑ λi t Rs(t) = e • λs = ∑ λi a soros rendszer állandó hibagyakorisága • Mean Time To Failure soros rendszerre • MTTFs = 1/ λs = 1/ ∑ λi 38
Széchenyi István Egyetem Párhuzamos rendszer • Párhuzamos rendszer modulok olyan elrendezése amelyben csak valamennyi modul meghibásodása esetén lép fel rendszermeghibásodás 39
Széchenyi István Egyetem Párhuzamos rendszer megbízhatósága • Rp(t) – a párhuzamos rendszer megbízhatósága N 1 - Rp(t) = Π (1 - Ri(t)) i=1 N Rp(t) = 1 - Π (1 - Ri(t)) i=1 40
Széchenyi István Egyetem Párhuzamos rendszer – állandó hibagyakoriság • Ha minden modulnak állandó λi a hibagyakorisága - λi t N - λi t Ri(t) = e ; Rp(t) = 1 -Π (1 -e ) i=1 • Példa – párhuzamos rendszer két modullal - λ 1 t - λ 2 t -(λ 1 + λ 2)t Rp(t) = e +e -e • MTTF of a parallel system with the same λ N MTTFp =∑ 1/(i λ) i=1 41
Széchenyi István Egyetem M out of N Rendszerek • M out of N rendszer N azonos komponensből áll ahol akkor történik meghibásodás ha kevesebb, mint N komponens működik hibátlanul • Legismertebb példa a Triplex (TMR) • Három azonos komponens szavazó áramkörrel. 2 out of 3 rendszer, Ameddig a processzorok többsége azonos eredményt produkál a rendszer funkcionálisnak tekintendő 42
Széchenyi István Egyetem M out of N rendszer megbízhatósága • N azonos komponens • R(t) – egy individuális komponens megbízhatósága • A rendszer megbízhatósága annak valószínűsége, hogy N-M, vagy kevesebb komponens hibásodott meg N-M i N-i Rm_of_n(t) = ∑ C(N, i) (1 -R(t) ) R(t) i=0 ahol C(N, i) = N ! / [i ! (N-i) !] 43
- Slides: 43