Gpi adatbrzols Szmrendszerek Szm helyirtke Szm alaki rtke

Gépi adatábrázolás

Számrendszerek Szám helyiértéke Szám alaki értéke Számjegyek: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 Számrendszer alapja: 10 Szám valódi értéke Decimális számrendszer

q-alapú számrendszer 10 -es alapú q alapú x szám q-alapú számrendszerbeli alakja: an…a 1 a 0, ha: Számjegyek: 0, 1, . . . , (q-1)

Bináris számrendszer Számjegyek: 0, 1 A számítástechnika a bináris számrendszerre épül

Hexadecimális számrendszer 16 -os alapú Számjegyek: 0, 1, . . . , 9, A, B, C, D, E, F

Számrendszerek: összefoglaló Decimális Bináris Hexa-decimális q-alapú Alap 10 2 16 q Számjegyek 0, 1, 2, . . . , 9 0, 1, . . . , 9, A, B, C, D, E, F 0, . . . , q-1 Helyiértékek . . . , 100, 1 . . . , 8, 4, 2, 1 . . . , 256, 1 . . . , q 2, q 1, q 0 512 valódi értéke 5· 100+1· 10+2· 1 110 valódi értéke 1 · 100+1 · 10+0 · 1 1· 4+1· 2+0 · 1 5· 256+1· 16+2· 1 1 · 256+1 · 16+0 · 1

2 hatványai 10 -ed rendig 21 22 23 24 2 4 25 26 27 28 29 8 16 32 64 128 256 512 210 1024

Definíciók Ü Bit – egyetlen bináris jegy Ü Bájt (byte) – egy 8 -bites egység (8 jegyű bináris szám) Ü 1 KB (kilobájt) = 210 bájt = 1024 bájt Ü 1 MB (megabájt)= 220 bájt = 10242 bájt = = 1 048 576 bájt Ü 1 GB (gigabájt) = 230 bájt = 10243 bájt = = 1 073 741 824 bájt Ü 1 TB (terabájt) = 240 bájt = 10244 bájt = = 1 086 511 627 776 bájt

Információ. . . Számítógép: Ü információk tárolására és feldolgozására szolgáló eszköz. Információ: Ü A címzettje számára új, vagy általa nem ismert adat, hír, közlés vagy tájékoztatás. Ü A releváns adat, amely valamely bizonytalanság megszüntetéséhez elegendő. Nem minden adat információ! Csak az értékes (fontos) adat. Ü alapegysége: bit Ü mérése: bájt-okban

Információ. . . Adat: ÜValakinek vagy valaminek a megismerését, jellemzését segítő tény, részlet. ÜValamilyen formában rögzített ismeret = potenciális információ. ÜJellege szerint kvantitatív vagy kvalitatív. Információ sokfélesége (numerikus adatsor, szöveg, zene, egyetlen elektronikus jel, kép, videofelvétel, …)

Információ tárolása Ü Memória Ü Ü ideiglenes tárolás kikapcsoláskor tartalma elvész kisebb kapacitás gyors elérés Ü Háttértárak Ü hosszú távú, biztonságos tárolás Ü lassabb elérés Ü általában nagyobb tárkapacitás

Információ kódolása Ü Kódolás: közölnivalónknak a szokásos-tól eltérő ábrázolása, kifejezéséi formája Ü A számítógépen a tárolandó, feldolgo -zandó információt bináris kódkészlettel fejezzük ki Ü matematikai modell

Matematikai modellezés - elsődleges szimbólumok halmaza (amit ábrázolni akarunk ) Ü - kódok ábécéje, elemei betűk (segítségükkel kódolunk) Ü n hosszúságú szavak halmaza: Ü

Matematikai modellezés Ü összes szavak halmaza: Ü kód: injektív leképezés Ü egyenletes (pl. számjegyek bináris ábrázolása 4 biten) Ü nem egyenletes (pl. Morse ábécé) Ü dekódolás: Ü egyértelműen dekódolható függvény

Szövegek kódolása Ü Karakterek – betűk, számjegyek, írásjelek, speciális jelek összefoglaló neve; Ü gépi reprezentálása: binárisan Ü 1 karakter 1 bináris számkód Ü Hogyan? Kódolási szabványok

ASCII kódolás… Ü American Standard Code for Information Interchange Ü 1 karakter 1 byte Ü 256 -féle kód; kódtáblában rögzítve Ü Alap karakterkészlet (rögzített): 0 - 127 Ü Kiegészítő karakterkészlet-grafikus jelek vagy nemzeti jelek (cserélhető, adott országra jellemző kódlapok): 128 - 255 Példák: 852 -es Közép-Kelet-Európa, ISO-8859 -2 (latin-2) Ez utóbbi tartalmazza a latin betűs szláv nyelvek (horvát, szlovén, szlovák, cseh, lengyel), és a magyar, román, német nyelv ékezetes betűit.

Magyar ékezetes karakterek A karakter CWIkódja 852 -es kódja ANSIkódja ASCII-kódja á Á é É í Í ó Ó ö 160 143 130 144 161 141 162 149 148 160 181 130 144 161 146 162 224 148 160 0225 0193 0233 0201 0237 0205 0243 0211 0246 130 144 161 162 148

Magyar ékezetes karakterek A karakter CWI-kódja 852 -es kódja ANSI-kódja ASCII-kódja Ö ő Ő ú Ú ü Ü ű Ű 153 147 163 151 129 154 150 152 153 181 228 163 233 129 154 251 235 0214 0193 0244 0250 0218 0252 0220 0251 0219 153 163 129 154

ASCII karaktercsoportok Ü Ü Ü Számjegyek: 0, 1, …, 9 Betűk: angol abc kis-, nagybetű Írásjelek: pl. szóköz, (, ), /, !, … Ékezetes betűk Grafikus karakterek (nem használjuk) Vezérlő karakterek: Ü nyomtató, Ü szöveg megjelenése a képernyőn Ü CR: sor elejére pozicionálás Ü LF : soremelés (CR+LF : sorvége jel) Ü FF : lapváltás

Karakterek - (további definíciók) Ü Numerikus karakterek: 0, 1, …, 9 Ü Alfabetikus karakterek: a, b, …, z, A, B, …, Z Ü Alfanumerikus karakterek: 0, 1, …, 9, a, b, …, z, A, B, …, Z

Az Unicode szükségessége Ü Az internet előretörésével egyre erősebb lett arra az igény, hogy a sok-sok karakterkódolás helyett egyetlen univerzális karakterkódolást alkalmazzanak, amit minden szoftver ugyanúgy képes kezelni. Ü Például egy magyar „árvíztűrő” szót egy Kínában használt levelezőszoftver vagy egyéb szoftver képes legyen ugyanígy megjeleníteni, illetve a nálunk használt szoftverek is a kínai karaktereket.

Unicode (ISO-10646) szabvány Ü minden nyelv karaktere (pl. görög, kínai, cirill, héber, japán, koreai) egyetlen karakterkészlettel ábrázolható: platform-, program- és nyelvfüggetlen Ü 1 karakter ábrázolására 2 bájtot használ Ü 65536 elemű kódtábla (fix) Ü első 128 elem: ASCII kódtábla első fele Ü többi elem: minden más egyidejűleg Ü 256 bájtos blokkokra van felosztva a különböző nyelvek részére. Ü Unicode formátumok: UTF-8, UTF-16, UTF-32

UTF-8 Ü változó hosszúságú formátum Ü 1 -4 bájtot használ (8, 16, 24, ill. 32 bit) a karakterektől függően (pl. az ASCII karaktereket 1 bájton ábrázolja, a magyar nyelvben használa-tos idézőjeleket 3 bájton) Ü Ezt a formátumot használja az IE, a Mozilla, mivel kompatibilis az ASCII kóddal Ü a leghatékonyabban használható; sok adatbázis-rendszer, a UNIX rendszer, a Microsoft Windows XP, és majdnem minden XHTML ezt használja

UTF-16 Ü változó hosszúságú formátum Ü a legtöbb karakter ábrázolása 16 biten történik Ü a többi karaktert rendezett párként fejezi ki 16 bit-egységen (32 bit) Ü főként karakterfűzérek kezelésének implementációjában használatos

UTF-32 Ü rögzített hosszúságú formátum, minden karaktert 32 biten ábrázol Ü egyelőre ritkán használatos Ü ritka karakterek, teljes scriptek kódolására alkalmazzák Ü fix hosszúsága miatt könnyen kezelhetők vele a tömbök Ü elképzelések szerint az összes élő, halott és mesterséges kultúra írásjeleinek ábrázolására elegendő kb. kétmillió szám ( 221)

Számok ábrázolása Ü Fixpontos (fixed point) Ü Lebegőpontos (floating point) Felhasználói szinten: decimális Belső ábrázolás: bináris Tizedesjel: tizedespont (bináris számrendszerben: kettedespont)

Fixpontos számábrázolás Ü Ábrázoláskor a kettedesjel helye rögzített, de nem szerepel a szám kódjában (a vir-tuális vesszőhöz igazodunk) Ü az első bit az előjelbit (s) Ü Jelölések: I –egész rész bitjeinek száma, F – törtrész bitjei, n – ábrázolási dimenzió

Lebegőpontos számábrázolás Ü Tizedesjel helye változó Ü Az ábrázolható számtartomány lényegesen megnő Ü Felírási mód: mantissza vagy karakterisztika (exponens) számrendszer alapja Ü Példák: normalizált alak 13*108 0. 13*1010 0. 654*10 -2

Lebegőpontos számábrázolás Ü 1 és 2 közötti mantissza: Ü Példa: Ü lebegőpontos ábrázolás: x-et 1 és 2 közötti mantisszával fejezzük ki Ü ábrázolási forma; a bitek megoszlása: bitek száma s c m 1 E M

Lebegőpontos számábrázolás Ü Ü s – előjelbit (0 -pozitív, 1 -negatív) c – karakterisztika, c=e+q m – mantissza (1 és 2 közötti alakban) Megjegyzés: az 1 és 2 közötti mantisszás alakban, a kettedes vessző bal oldalán levő 1 -es számjegyet nem ábrázoljuk, csak a műveletek elvégzésekor teszi oda a gép

Ábrázolási standardok Ü IEEE (Institute of Electrical and Electronics Engineers) egyszeres pontosság (singleprecision) Ü IEEE kétszeres pontosság (double-precision) Ü IEEE kiterjesztett kétszeres pontosság (double extended) Ü IEEE négyszeres pontosság (quadrupleprecision) Ü Turbo Pascal valós (real 48) Ü TP kiterjesztett (extended) Ü http: //babbage. cs. qc. edu/courses/cs 341/IEEE 754 references. html
- Slides: 31