Merkiststandardeista Teppo Risnen http www oamk fiteraisan Teppo

















- Slides: 17
Merkistöstandardeista Teppo Räisänen http: //www. oamk. fi/~teraisan/ Teppo. raisanen@oamk. fi
Yleistä n n Kaikki käyttäjälle käyttöliittymässä esiintyvät merkit pohjautuvat binääridataan Tarvitaan sopimus siitä, mitä merkkiä tietty binäärijakso vastaa, esim. 00110101 = ’K’ vai 00110101 = ”£” n Sopimukset = Merkistöstandardit
Yleistä n n n Tavallisin tietokoneen tapa käsitellä dataa on jakaa se 8 -bittisiin tavuihin 8: lla bitillä voidaan esittää 256 erilaista bittiyhdistelmää => esim. 256 erilaista merkkiä Kun bittien (tavujen) määrää kasvatetaan kasvaa mahdollisten yhdistelmien määrä 2: n potensseina
ASCII n n n ASCII (American Standard Code for Information Interchange) julkaistiin 1968 ASCII perustuu 7: ään bittiin => 128 yhdistelmää Määrä on riittämätön erikoismerkkien ja eri kielten grafeemien ilmaisuun
ASCII n n n Alkuperäinen US-ASCII ei sisällä esim. skandinaavisia vokaaleita ASCII: n suomalainen versio ISO-646 -SF sisältää äöåü-merkit Merkit saatiin käyttöön korvaamalla USmerkistön merkkejä
ISO 8859 -1 n ISO 8859 -1 on ASCII-merkistön 8 bittinen laajennos n n Tuli käyttöön 1982 Tukee länsieurooppalaisten kielten merkkejä Tunnetaan myös Latin 1 -nimellä 8859 -15 -versio laajensi kielitukea, mutta on vähän käytetty
Muut 8 -bittiset merkistöt n n ASCII-merkistöstä on olemassa lukuisia ISO-laajennoksia Lisäksi käytössä on lukuisia muita 8 bittisiä merkistöjä kuten esim. n n KOI-8 -versiot Applen Mac. Roman-merkistö MSWindowsin merkistöt HP: n HP-Roman
Monitavuiset merkistöt n n n Lokalisoinnista ja laajennoksista huolimatta 8 bittiä on riittämätön määrä monien kielten merkintään 1976 julkaistiin japanin kieltä varten JIS X 0208 –merkistö (n. 9000 merkkiä) Monitavuisia merkistöjä kehitettiin erityisesti Aasian alueella
Unicode n n n Yleismaailmallinen ja kattava merkistö Tarkoituksena kehittää muut merkistöt korvaava standardi Kehitystyö alkoi 1980 -luvulla n n Versio 3. 0 kuvasi 16 bitillä 49 194 merkkiä Nykyään merkintään käytössä 17 16 -bittistä tasoa => yli miljoona erilaista merkkiä
Unicode-merkistökoodaukset n Koodausversiot ovat n n n UTF-8 = merkkien tavumäärä vaihtelee UTF-16 = käytössä 1 tai 2 tavuparia UTF-32 = jokainen merkki esitetään 4 tavulla
Unicoden käyttö n n n Unicoden 64 ensimmäistä merkkiä ovat ASCII-yhteensopivia Unicoden 128 ensimmäistä merkkiä ovat ISO-8895 -1 -yhteensopivia Unicode-tuki puuttuu edelleen monista kielistä ja ohjelmistoista
Unicoden käyttö n n Win. XP tukee Unicodea (esim. Word. Pad) Vain hyvin harvat Fontit kykenevät esittämään koko Unicode-merkistön Java-ohjelmointikieli tukee Unicodea XML tukee unicodea
XML ja merkistöt n n ASCII-editorilla kirjoitettu XML perustuu oletusarvoisesti UTF-8 -standardiin => Skand. vokaalit eivät käytössä Pohjoismaiset vokaalit saadaan käyttöön julistamalla dokumentti ISO 8859 -1 merkistön mukaiseksi
Esimerkki <? xml version="1. 0" encoding="iso-88591"? > <ääkköset> äääööö </ääkköset>
XML ja merkistöt n n Tekstieditoreilla kirjoitetut XML-tiedostot kannattaa yleensä julistaa iso-8859 -1: n mukaisiksi Muiden kuin suomenkielisten dokumenttien koodaustapojen suhteen tulee olla varovainen
Unicode-tuki n n Tämän linkin takana on luettelo Unicodea tukevista ja tukemattomista editoreista Esim. Dreamweaverin MX-versio sisältää tuen mutta aik. versiot 5. 0: aan saakka eivät
Unicode-tuki n n n Win. XP: n pikkueditoreilla (Word. Pad ja Note. Pad) voidaan tiedosto tallentaa Unicode-muodossa Merkistö valitaan tallennusdialogin valikosta Huom. Unicodena tallennettu tiedosto ei avaudu oikein Unicodea tukemattomassa editorissa