XML in TEI Toma Erjavec Seminar projekta Neznani

  • Slides: 27
Download presentation
XML in TEI Tomaž Erjavec Seminar projekta Neznani rokopisi slovenskega slovstva 17. in 18.

XML in TEI Tomaž Erjavec Seminar projekta Neznani rokopisi slovenskega slovstva 17. in 18. stoletja: informacijsko-tehnološko podprta evidenca, znanstvene objave in analize 24. 4. 2008 ZRC-SAZU

ZDRAVLJICA Prijatlji! odrodile so trte vince nam sladkó, ki nam oživlja žile, srce razjásni

ZDRAVLJICA Prijatlji! odrodile so trte vince nam sladkó, ki nam oživlja žile, srce razjásni in oko, ki utopi vse skrbi, v potrtih prsih up budi! …

<? xml version="1. 0" encoding="utf-8"? > <pesem> <naslov>ZDRAVLJICA</naslov> <kitica> <vrstica>Prijatlji! odrodile</vrstica> <vrstica>so trte vince

<? xml version="1. 0" encoding="utf-8"? > <pesem> <naslov>ZDRAVLJICA</naslov> <kitica> <vrstica>Prijatlji! odrodile</vrstica> <vrstica>so trte vince nam sladkó, </vrstica> <vrstica>ki nam oživlja žile, </vrstica> <vrstica>srce razjásni in oko, </vrstica> <vrstica>ki utopi</vrstica> <vrstica>vse skrbi, </vrstica> <vrstica>v potrtih prsih up budi!</vrstica> </kitica> … </pesem>

Kaj je XML? XML je standard, ki omogoča hranjenje in procesiranje besedil v elektronski

Kaj je XML? XML je standard, ki omogoča hranjenje in procesiranje besedil v elektronski obliki, ne glede na operacijski sistem oz. vrsto naprave. n standard XML je projekt konzorcija W 3 C in je javen n XML je “metajezik” - omogoča definiranje specifičnih jezikov za različne zvrsti dokumentov n

Zakaj potebujemo standarde za zapis digitalnih podatkov? Ponavadi je (bil) zapis digitalnih podatkov vezan

Zakaj potebujemo standarde za zapis digitalnih podatkov? Ponavadi je (bil) zapis digitalnih podatkov vezan na določen računalniški program, npr. urejevalnik besedil Problemi: n zastaranje: zaradi hitrega tehnološkega napredka programi postanejo zastareli, podatki, ki so nanje vezani pa neberljivi n izmenjava: podatke je težko izmenjevati med različnimi programi n uporaba: podatke je težko uporabljati za različne namene n razumljivost: podatke razume samo program - ni zanesljivih in javno dostopnih specifikacij za zapis podatkov n pravilnost: ne moremo vedeti, ali so podatki zapisani v skladu s specifikacijami določenega formata ali ne

Kaj je označevalni jezik? n nabor označevalnih konvencij, ki jih uporabljamo za zapis besedil

Kaj je označevalni jezik? n nabor označevalnih konvencij, ki jih uporabljamo za zapis besedil z njim ekspliciramo interpretacijo besedila označevalni jeziki morajo določati: u kako so oznake ločene od besedila, u katere oznake so dovoljene, u katere oznake so zahtevane, u (kaj oznake pomenijo)

Struktura dokumentov XML <pesem> <naslov>ZDRAVLJICA</naslov> <kitica> <vrstica>Prijatlji! odrodile</vrstica> <vrstica>so trte vince nam sladkó, </vrstica>

Struktura dokumentov XML <pesem> <naslov>ZDRAVLJICA</naslov> <kitica> <vrstica>Prijatlji! odrodile</vrstica> <vrstica>so trte vince nam sladkó, </vrstica> … </kitica> … </pesem> n dokument = besedilo + oznake n element = začetna oznaka + vsebina + končna oznaka n element vsebuje besedilo ali elemente ali oboje (ali nič)

Prazni elementi z vsebino: <oznaka> … </oznaka> n prazni elementi nimajo vsebine: <oznaka/> n

Prazni elementi z vsebino: <oznaka> … </oznaka> n prazni elementi nimajo vsebine: <oznaka/> n uporabljajo se za označevanje “točk” v dokumentu, npr. za prelome strani n <oznaka/> = <oznaka></oznaka> n

Atributi se uporabljajo za opis lastnosti elementov Npr: <tabela status='popravljeno' xml: id=“tabela. 01">. .

Atributi se uporabljajo za opis lastnosti elementov Npr: <tabela status='popravljeno' xml: id=“tabela. 01">. . . </tabela> n n n lastnost podamo kot par atribut-vrednot znotraj začetne oznake vrednost mora biti znotraj enakih narekovajev, bodisi enojnih ali dvojnih; nekateri specialni atributi (xml: id, xml: lang) imajo predpono xml:

Komentraji n n Komentraji se lahko pojavijo kjerkoli v besedilu (vendar ne v oznakah)

Komentraji n n Komentraji se lahko pojavijo kjerkoli v besedilu (vendar ne v oznakah) Komentra se začne s <!-- in konča z --> Npr. : <naslov>ZDRAVLJICA</naslov> <kitica> <vrstica>Prijatlji! odrodile <!--ali je to mogoče “obrodile”? --> </vrstica> … Opomba: v XML se 'meta-oznake' začnejo s <! ali <?

Primer: jezikoslovno označen korpus

Primer: jezikoslovno označen korpus

Primer: slovar

Primer: slovar

Entitete (delčki) XML n n n n Dokumenti XML lahko vsebujejo tudi reference na

Entitete (delčki) XML n n n n Dokumenti XML lahko vsebujejo tudi reference na t. i. entitete ob procesiranju XML se referenca nadomesti z nadomestnim nizom, entiteto referenca na entiteto se začne z znakom “in”, & in konča s podpičjem, ; nekaj entitet je predefiniranih v XML: < (<), > (>), & (&), &apos; (‘), " (“) 1 < 2 mora biti napisan kot 1 < 2 Mlinar & Mlinar mora biti napisano kot Mlinar & Mlinar entitete se uporablja tudi za druge namene, npr. za kodiranje znakov unikoda, npr. &#x 0 F 32;

Dobro oblikovan dokument XML n dokument se začne z deklaracijo XML, npr. <? xml

Dobro oblikovan dokument XML n dokument se začne z deklaracijo XML, npr. <? xml version="1. 0" encoding="iso-8859 -1" ? > n oznake in entitete so pravilno napisane narobe: <a x=y>1 &lt 2<a> n dokument mora biti drevo: u vsaka začetna oznake mora imeti svojo končno oznako u elementi se morajo gnezditi narobe: <a>…<b>…</a>…</b> u dokument ima eno samo vrhnjo oznako n tak dokument XML je dobro oblikovan (well-formed XML document)

Podatkovna struktura XML <poem><title>The SICK ROSE</title> <stanza><line>O Rose thou art sick. </line> <line>The invisible

Podatkovna struktura XML <poem><title>The SICK ROSE</title> <stanza><line>O Rose thou art sick. </line> <line>The invisible worm, </line> <line>That flies in the night</line> <line>In the howling storm: </line></stanza> <stanza><line>Has found out thy bed</line> <line>Of crimson joy: </line> <line>And his dark secret love</line> <line>Does thy life destroy. </line></stanza></poem> datoteka je linearna ~ podatkovni poem title line The SICK ROSE O Rose thou art sick line The invisible worm, model je drevo stanza line line That flies in the night In the Has found out thy bed Of crimson joy And his dark secret love Does thy life destroy. howling storm:

Kaj je narobe? <greeting>Hello world!</greeting> <greeting>Hello world!</Greeting> <greeting><grunt>Ho</grunt> world!</greeting> <grunt>Ho <greeting>world!</greeting></grunt> <greeting><grunt>Ho world!</greeting></grunt> <grunt

Kaj je narobe? <greeting>Hello world!</greeting> <greeting>Hello world!</Greeting> <greeting><grunt>Ho</grunt> world!</greeting> <grunt>Ho <greeting>world!</greeting></grunt> <greeting><grunt>Ho world!</greeting></grunt> <grunt type=loud>Ho</grunt> <grunt type="loud"></grunt> <grunt type= "loud"> <grunt type ="loud"/>

Sheme XML n n Če bi v XML dokumentih lahko uporabljali katerekoli elemente, bi

Sheme XML n n Če bi v XML dokumentih lahko uporabljali katerekoli elemente, bi bil rezultat kaos XML omogoče zapis formalnih gramatik t. i. shem, ki definirajo nabor elementov za posamezne zvrsti dokumentov tako lahko npr. napišemo shemo za poezijo, za kuharske recepte, za opis rokopisov, … shema določi: u imena vseh elementov, ki se lahko uporabljajo u imena in podatkovne tipe atributov u pravila o gnezdenju elementov

Pravilen dokument XML n Dokument XML, ki upošteva pravila zapisana v neki shemi se

Pravilen dokument XML n Dokument XML, ki upošteva pravila zapisana v neki shemi se imenuje pravilen dokument XML (valid XML document) n pozor: shema ne more določiti kaj posameznimi elementi pomenijo - to lahko naredi samo spremna dokumentacija, ki je nujna priloga k vsaki shemi

Čemu služijo sheme? n n zagotovijo, da dokument uporablja samo predefinirane elemente, atribute in

Čemu služijo sheme? n n zagotovijo, da dokument uporablja samo predefinirane elemente, atribute in entitete postavijo strukturna pravila, kot npr. ‘vsako poglavje se mora začeti z naslovom’ ali ‘recept mora vsebovati seznam sestavin’ zagotovijo, da se enaka stvar vedno enako imenuje obstaja več jezikov za definiranje shem (DTD, W 3 C sheme, ISO Relax. NG sheme)

Standardizirane sheme n n Za določeno zvrst dokumentov in aplikacijo lahko shemo napišemo sami

Standardizirane sheme n n Za določeno zvrst dokumentov in aplikacijo lahko shemo napišemo sami vendar pa uporabnost XML sloni na dejstvu, da mnogo XML shem že obstaja, skupaj z dokumentacijo in programsko opremo, ki jih interpretira Nekatere sheme so standardi ISO, nekatere priporočila konzorcija W 3 C, in potem je še TEI…

Čemu TEI? TEI nudi okvir za definicijo raznovrstnih shem za zapis besedil v namene

Čemu TEI? TEI nudi okvir za definicijo raznovrstnih shem za zapis besedil v namene znanstvene obravnave n n n definira in poimenuje več sto uporabnih besedilnih kategorij ponuja nabor modulov, s katerimi je mogoče definirati sheme, ki ozančujejo te kategorije ponuja tudi mehanizem za prilagajanje in kombiniranje teh definicij z novimi, vendar znotraj istega konceptualnega modela

Od kod izvira TEI? n n n Začetek je v raziskovalnem projektu s področja

Od kod izvira TEI? n n n Začetek je v raziskovalnem projektu s področja humanistike u podprtem s strani mednarodnih znastvenih združenj ALLC, ACH, ACL u financiran 1990 -1994, ZDA in EU Glavni vplivi u digitalne knjižnice in zbirke besedil u jezikovni korpusi u akademske podatkovne zbirke Mednarodni konzorcij ustanovljen 1999 http: //www. tei-c. org/

Cilji TEI n n boljša izmenjava in integracija akademskih vsebin podpora za vsa besedila,

Cilji TEI n n boljša izmenjava in integracija akademskih vsebin podpora za vsa besedila, v vseh jezikih, iz vseh obdobij uvajanje za začetnike: kaj označiti — torej, kodifikacija priporočene uporabe podpora za strokovnjake: kako označiti — torej, ohlapen okvir, v katerega je možno umestiti nepredvidljive razširitve Ti, na prvi pogled nezdružljivi cilji so realizirani v fleksibilnem in modularnem okolju

Priporočila TEI Zbirka priporočil za označevanje besedil, ki pokriva tako splošne besedilne strukture, kot

Priporočila TEI Zbirka priporočil za označevanje besedil, ki pokriva tako splošne besedilne strukture, kot tudi nekatera ozko specializirana področja osnovana (vendar ne omejena) na obstoječe prakse n Zbirka definicij elementov z dokumentacijo in pripadajočimi pravili za različne jezike definicij shem XML n Modularni sistem za ustvarjanje shem prilagojenih lastnim potrebam n Zadnja inačica priporočil (2007) se imenuje TEI P 5, prosto dostopna, v HTML in PDF (1300 strani) c. f. http: //www. tei-c. org/Guidelines/P 5/ n

Dediščina TEI n način, da spoznamo kaj besedilo “resnično” je kodifikacija obstoječe akademske prakse

Dediščina TEI n način, da spoznamo kaj besedilo “resnično” je kodifikacija obstoječe akademske prakse nabor uveljavljenih predpostavk in prioritet na področju digitalizacije besedil: u poudarek na vsebini in funkciji (ne pa na izgledu) u iskanje generičnih rešitev (ne pa vezanih na posamezne aplikacije)

Kaj TEI nudi? Priporočila n Način za definicijo sheme TEI XML za naš projekt

Kaj TEI nudi? Priporočila n Način za definicijo sheme TEI XML za naš projekt (Roma) n Podporni programi, npr. za konverzijo TEI XML v HTML ali PDF n Prijazen dopisni seznam tei-l n Letna srečanja n

Uporabniki TEI Čez 100 projektov naštetih na strani Projekti TEI n Glavna področja: u

Uporabniki TEI Čez 100 projektov naštetih na strani Projekti TEI n Glavna področja: u digitalne knjižnice u tekstnokritične izdaje u besedilni korpusi u slovarji n