Osnovi raunarskih sistema Zapis teksta u raunaru Zapis

  • Slides: 39
Download presentation
Osnovi računarskih sistema Zapis teksta u računaru

Osnovi računarskih sistema Zapis teksta u računaru

Zapis tekstova u računaru

Zapis tekstova u računaru

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Šta je to tekst? l

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Šta je to tekst? l Tekst ¡ . . . ili dokument je "informacija namenjena ljudskom sporazumevanju koja može biti prikazana u dvodimenzionalnom obliku. . . Tekst se sastoji od grafičkih elemenata kao što su karakteri, geometrijski ili fotografski elementi ili njihove kombinacije, koji čine sadržaj dokumenta. " (ISOdefinicija) 3/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Tekst je niz karaktera l

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Tekst je niz karaktera l Iako obično tekst zamišljamo kao dvodimenzioni objekat, u računarima se tekst predstavlja kao jednodimenzioni (linearni) niz karaktera. l Potrebno je, dakle, uvesti specijalne karaktere koji označavaju prelazak u novi red, tabulator, kraj teksta i slično 4/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Zapis karaktera u računaru Računari

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Zapis karaktera u računaru Računari su zasnovani na binarnoj aritmetici l Cele brojeve je moguće predstaviti u binarnom sistemu l Osnovna ideja je svakom karakteru pridružiti odredjeni ceo broj na unapred dogovoreni način l Ove brojeve zovemo kodovima karaktera (character codes) l 5/5

Matematički fakultet Osnovi računarskih sistema Koliko karaktera želimo da predstavimo u računarima? l Tokom

Matematički fakultet Osnovi računarskih sistema Koliko karaktera želimo da predstavimo u računarima? l Tokom vladaf@matf. bg. ac. yu razvoja računarstva broj karaktera je postajao sve veći l Pošto je u početku razvoja englesko govorno područje bilo dominantno osnovno je bilo predstaviti sledeće karaktere : 6/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Englesko govorno područje l Velika

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Englesko govorno područje l Velika slova engleskog alfabeta : A, B, . . . , Z l Mala slova engleskog alfabeta : a, b, . . . , z l Cifre : 0, 1, . . . , 9 l Interpunkcijske znake : . , : ; ’+*-_ i slično l Specijalne znake : kraj reda, tabulator i slično 7/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Standardni karakterski kodovi Sedamdesetih godina

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Standardni karakterski kodovi Sedamdesetih godina su se pojavile tabele standardnih karakterskih kodova dovoljne za zapis pomenutih karaktera l Najpoznatiji su • EBCDIC – IBM-ov standard, korišćen uglavnom na mainframe računarima, pogodan za bušene kartice • ASCII – Standard iz koga se razvila većina današnjih standarda l 8/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu ASCII l ASCII (American Standard

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu ASCII l ASCII (American Standard Code for Information Interchange) l ASCII sedmobitan (broj karaktera je 128) 9/5

Matematički fakultet ASCII tabela Osnovi računarskih sistema vladaf@matf. bg. ac. yu 10/5

Matematički fakultet ASCII tabela Osnovi računarskih sistema vladaf@matf. bg. ac. yu 10/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Primeri l Karakter A se

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Primeri l Karakter A se zapisuje kao (41)16 tj. 0 x 41 što je (65)10 tj. (1000001)2 l Razmak se zapisuje kao (20)16 što je (32)10 tj. (0100000)2 l Zapišite cifru 3 u ASCII kodu l Zapišite tekst CET fakultet u ASCII kodu 11/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Oznaka za kraj reda l

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Oznaka za kraj reda l Oznaka za kraj reda se ne zapisuje isto u svim operativnim sistemima l Pod Windows ova se oznaka se zapisuje sa dva karaktera (CR LF), 0 x. D 0 x. A tj. 13 10 – istorijski razlozi (stari štampači) l Unix koristi samo karakter CR tj. 0 x. D 12/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Šta sa ostalim jezicima? l

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Šta sa ostalim jezicima? l Razvojem računarstva se javlja potreba kodiranja tekstova i na drugim jezicima l Kroz istoriju su postojala mnoga rešenja, od kojih su se neka zadržala, a neka su nestala 13/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Kodne strane l Pod kodnom

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Kodne strane l Pod kodnom stranom (Code page) tj. skupom karaktera (Character set, charset) podrazumevamo uredjenu listu karaktera predstavljenih svojim karakterskim kodovima 14/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Kodne strane l Podaci se

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Kodne strane l Podaci se u računarima obično zapisuju bajt po bajt l ASCII je sedmobitni standard l ASCII karakteri se zapisuju tao što se u svakom bajtu bit najveće težine postavi na 0 l To ostavlja prostor za novih 128 karaktera čiji binarni zapis počinje sa 1 15/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Kodne strane Ovaj prostor se

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Kodne strane Ovaj prostor se može popuniti na razne načine l Rešenje nije univerzalno, jer svakako na svetu postoji više od 256 različitih karaktera l Postavljeni su razni standardi dopunjavanja ovih 128 karaktera l Svim ovim kodnim stranama je zajedničko prvih 128 karaktera i oni se poklapaju sa ASCII l 16/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Kodne strane l Ovako napravljene

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Kodne strane l Ovako napravljene kodne strane obično omogućuju kodiranje tekstova na više srodnih jezika (obično i geografski bliskih) l Nama su uglavnom važne kodne strane napravljene za centralno-evropske (Central European) latinice, kao i ćirilične kodne strane 17/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Najčešće korišćene kodne strane kod

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Najčešće korišćene kodne strane kod nas ISO 8859 -2 (Latin 2) l ISO 8859 -5 (Ćirilična) l Windows 1250 l Windows 1251 (Ćirilična) l • Prve dve su delo medjunarodne organizacije za standardizaciju (International Standard organization), dok su naredne dve Microsoft-ovi standardi 18/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Latin 1 l Poželjno je

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Latin 1 l Poželjno je poznavati i osnovnu kodnu stranu ISO 8859 -1 (Latin 1) jer je veoma često postavljena kao podrazumevana kodna strana. Ona se koristi za zapis tekstova na zapadno evropskim jezicima (Western European) 19/5

Matematički fakultet Osnovi računarskih sistema ISO 8859 -1 (Latin 1) vladaf@matf. bg. ac. yu

Matematički fakultet Osnovi računarskih sistema ISO 8859 -1 (Latin 1) vladaf@matf. bg. ac. yu 20/5

Matematički fakultet ISO 8859 -2 Osnovi računarskih sistema vladaf@matf. bg. ac. yu 21/5

Matematički fakultet ISO 8859 -2 Osnovi računarskih sistema vladaf@matf. bg. ac. yu 21/5

Matematički fakultet Windows 1250 Osnovi računarskih sistema vladaf@matf. bg. ac. yu 22/5

Matematički fakultet Windows 1250 Osnovi računarskih sistema vladaf@matf. bg. ac. yu 22/5

Matematički fakultet Windows 1251 Osnovi računarskih sistema vladaf@matf. bg. ac. yu 23/5

Matematički fakultet Windows 1251 Osnovi računarskih sistema vladaf@matf. bg. ac. yu 23/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Primeri l Kako izgleda reč

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Primeri l Kako izgleda reč MIT zapisana u kodnoj strani ISO 8859 -2? A u Windows 1250? A u Windows 1251? l A reč lišće? l Šta predstavlja niz kodova 138 65 111 33 u kodnoj strani ISO 8859 -2? A u Latin 1? 24/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Višebajtni karakterski kodovi Iako navedene

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Višebajtni karakterski kodovi Iako navedene kodne strane omogućuju kodiranje tekstova koji nisu na engleskom jeziku nije moguće npr. u istom tekstu mešati ćirilicu i našu latinicu. l Azijskim jezicima nije dovoljno 256 mesta za zapis svih karaktera. l Zbog toga se uvode višebajtni karakterski kodovi l 25/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu MBCS l Pre svega zbog

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu MBCS l Pre svega zbog potreba istočno azijskih korisnika uvedeni su tzv. višebajtni skupovi karaktera tj. Multi-Byte Character Sets (MBCS) 26/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu MBCS Ideja je u tome

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu MBCS Ideja je u tome da se najčešće korišćeni karakteri zapisuju koristeći samo jedan bajt, dok se ostali karakteri zapisuju koristeći dva bajta, tj. koristi se mešavina jednobajtnih i dvobajtnih karakterskih kodova (pod UNIX-om nekad čak i trobajtnih) l Ovo značajno otežava tumačenje podataka l 27/5

Matematički fakultet MBCS Osnovi računarskih sistema vladaf@matf. bg. ac. yu 28/5

Matematički fakultet MBCS Osnovi računarskih sistema vladaf@matf. bg. ac. yu 28/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UCS, ISO 10646, UNICODE Kasnih

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UCS, ISO 10646, UNICODE Kasnih osamdesetih, dve velike organizacije su pokušale standardizaciju tzv. Univerzalnog skupa karaktera (Universal Character Set - UCS) l To su bili ISO, kroz standard 10646 i projekat UNICODE organizovan i finansiran uglavnom od strane američkih firmi koje su se bavile proizvodnjom višejezičkog softvera. l 29/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu ISO 10646 l ISO 10646

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu ISO 10646 l ISO 10646 je zamišljen kao 4 bajtni standard. Pri tome se prvih 65536 karaktera koriste kao osnovni višejezični skup karaktera dok je ostali prostor ostavljen kao proširenje za drevne jezike, celokupnu naučnu notaciju i slično. 30/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UNICODE Vremenom su se pomenuta

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UNICODE Vremenom su se pomenuta dva projekta združila i nastao je jedinstven dvobajtni standard koji jednostavno nazivamo UNICODE l UNICODE svakom karakteru dodeljuje dvobajtni kod l Prvih 128 karaktera se poklapaju sa ASCII standardom, dok su sledećih 128 napravljeni tako da se pokalapaju sa Latin 1 standardom l 31/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Primeri l Zapisati reč MIT

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Primeri l Zapisati reč MIT koristeći UNICODE l Zapisati reč višnjičica ćirilicom i latinicom u UNICODE kodu 32/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UCS-2 Unicode standard u suštini

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UCS-2 Unicode standard u suštini predstavlja veliku tabelu koja svakom karakteru dodeljuje broj. l Standardi koji opisuju kako se niske karaktera onda prevode u nizove bajtova se dodadno definišu l ISO definiše UCS-2 standard koji jednostavno svaki UNICODE karakter prevodi u odgovarajuća dva bajta l 33/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UTF Tekstovi kodirani preko UCS-2

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UTF Tekstovi kodirani preko UCS-2 standarda sadrže veliki broj nula, koje obično u operativnim sistemima poput UNIX-a i u programskom jeziku C imaju specijalno značenje. l Iz istog razloga softver koji je razvijen za rad sa dokumentima u ASCII formatu ne može da radi bez izmena nad dokumentima kodiranim preko UCS-2 standarda l 34/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UTF l. A Unicode transformation

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UTF l. A Unicode transformation format (UTF) algoritam koji svakom UNICODE karakteru dodeljuje odredjeni niz bajtova čija dužina varira od 1 do najviše 6. l UTF je ASCII kompatibilan, što znači da se ASCII karakteri zapisuju pomoću jednog bajta, na standardni način. 35/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UTF-8 l Najčešće korišćena varijanta

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu UTF-8 l Najčešće korišćena varijanta ovog agloritma je UTF-8 koja je dovoljna za zapis svih dvobajtnih UNICODE karaktera l Pored ovoga ISO uvodi i UTF-16, UTF-32, kao i standard UCS-4 36/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Karakteri, Glifovi, Fontovi l Vrlo

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Karakteri, Glifovi, Fontovi l Vrlo često se ne pravi jasna razlika izmedju karaktera i njihove grafičke reprezentacije l Grafičku reprezentaciju karaktera nazivamo glifovima (glyph) l Skupove glifova nazivamo fontovima (font ) 37/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Karakteri, glifovi, fontovi l Korespodencija

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu Karakteri, glifovi, fontovi l Korespodencija izmedju karaktera i glifova ne mora biti jednoznačna l Jedan glif može da predstavi više karaktera (ligature) l Isti karakter može da se predstavlja različitim glifovima u zavisnosti od svoje pozicije u reči 38/5

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu WGL 4 Windows uvodi skup

Matematički fakultet Osnovi računarskih sistema vladaf@matf. bg. ac. yu WGL 4 Windows uvodi skup karaktera pod imenom Windows Glyph List 4 (WGL 4) koji sadrži preko 600 karaktera koji se koriste u evropskim jezicima l Za razliku od tradicionalnih fontova koji u sebi sadže glifove za karaktere jedne kodne strane, True. Type fontovi koji podržavaju WGL 4 standard sadrže glifove za sve evropske karaktere l 39/5