Symposium Die phonetischphonologischen orthoepischen und orthographischen Unterschiede zwischen

  • Slides: 10
Download presentation
Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen Institut

Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen Institut für Slawistik, Universität Graz April 2007 Izrada korpusa u kontekstu „frameworka“ na osnovu modela AM Institut für Informationsverarbeitung in den Geisteswissenschaften Hubert Stigler

Gralis Text-Korpus: "je. *"

Gralis Text-Korpus: "je. *"

Agenda § § § § Workflow za izradu Gralis Text-Korpusa Korpusni tekst iz perspektive

Agenda § § § § Workflow za izradu Gralis Text-Korpusa Korpusni tekst iz perspektive obrađivača Validiranje korpusnih tekstova na osnovu XML Asset Management sistemi (AMS) Primjer upotrebe iz književnosti Model sadržaja korpus-asset-a AMS scenariji primjene u izradi korpusa

Workflow za generiranje Gralis Text-Korpusa • • Anotacija korpusa u običnom Office Pretvaranje dokumenta

Workflow za generiranje Gralis Text-Korpusa • • Anotacija korpusa u običnom Office Pretvaranje dokumenta na osnovu Makro-a u TEI Validiranje tročlanog teksta na osnovu XML Generiranje vertikaliziranih, aliniranih fajlova iz korpusa za BKS

Korpusni tekst iz perspektive obrađivača Crveni markeri odlomaka obilježavaju granice segmenata, koji se na

Korpusni tekst iz perspektive obrađivača Crveni markeri odlomaka obilježavaju granice segmenata, koji se na početku ubacuju pomoću Makro-a i primjenom regularnih izraza. Ako je potrebno, granice segmenata se tokom obrade mogu interaktivno – premještanjem ili brisanjem – korigirati.

Validiranje korpusnih tekstova na osnovu XML Korpusni tekstovi koji se nalaze u direktoriju validiraju

Validiranje korpusnih tekstova na osnovu XML Korpusni tekstovi koji se nalaze u direktoriju validiraju se u Bulk-Modus-u, kao i vertikalizirani fajlovi koji su potrebni za daljnju obradu pomoću IMS Corpus Workbencha 1. Gralis build. Corpus 1. 1 © Hubert Stigler Searching for file triples in directory: /data/xo/gralis/data/ -- file triple: Albanija_dospjela_na_listu ok -- file triple: Albanski_politicari ok -- file triple: Albert_Einstein couldn't found hr -- file triple: Americka_vlada_izjavila couldn't validate bs -- file triple: Americki_predsjednik segment error hr: 6; sr: 6; bs: 5 -- file triple: Anatole_France ok. . . 124 file triples were processed 121 file triples were written to the corpus files 3 non valid triples were found Execution terminated normally 1 Developed by Institute for Natural Language Processing, University of Stuttgart

Asset Management sistemi § Služe kao osnova za upravljanje meta-podacima digitalnih resursa. § Nude

Asset Management sistemi § Služe kao osnova za upravljanje meta-podacima digitalnih resursa. § Nude mogućnost da se preko persistentne citiranosti Asset-i jednostavno integriraju u web-kontekste (forumi za učenje, “Frameworks” itd. ) § Daju na raspolaganje (inteligentne) strategije pretrage. § Omogućavaju suradnju u obradi i upravljanju Asset-a. § Omogućuju izrazu zbirki za različite svrhe. § Nude mogućnosti za uređenje šifri.

Primjer: zbirka članaka Ulricha Schulza-Buschhausa http: //gams. uni-graz. at/container: usb http: //gams. uni-graz. at/rss?

Primjer: zbirka članaka Ulricha Schulza-Buschhausa http: //gams. uni-graz. at/container: usb http: //gams. uni-graz. at/rss? pid=container: usb

Model sadržaja Korpus-asset-a Asset služi kao kontejner u kome se čuvaju metapodaci i tokovi

Model sadržaja Korpus-asset-a Asset služi kao kontejner u kome se čuvaju metapodaci i tokovi podataka bilo kojeg tipa: tekstovi, audio-/video-fajlovi itd. AMS nudi dodatnu mogućnost u tzv. Modelu sadržaja definiranja metode objekata (npr. XSLT-transformacije i sl. ), koji operiraju podacima u Asset -u. • Metapodaci • • Dublin Core REL-EXT: opisuje relacije s drugim Asset-ima • Tokovi podataka • • Thumbnail: predstavlja Asset u kontejnerima i kolekcijama TEI-izvor: primarni tekst Asset-a u formatu TEI DOC: primarni tekst Asset-a u formatu MS WORD Razni XSLT-style-sheetovi za formatiranje sadržaja u Asset-u • Metode za upotrebu: bdef: html/get, bdef: PDF/get, bdef: Verticalized/get, bdef: La. Te. X/get

AMS scenariji primjene u izradi korpusa § U Asset-korpusu, osim Office-dokumenata, upravljat će se

AMS scenariji primjene u izradi korpusa § U Asset-korpusu, osim Office-dokumenata, upravljat će se i XML-reprezentantima na sve tri jezične varijante korpusnih tekstova. § U vremenu kada HTML- und PDF-Getter-metode korpusnog teksta preko Web-a slobodno stoje na raspolaganju, Office- i TEI-tok podataci, kao i La. Te. X-Getter-metode dostupni su samo za autorizirane korisnike. § Preko HTML- i PDF-Getter-metoda svih korpusnih tekstova generira se Web-prezentacija korpusa. § Svi korpusni tekstovi bit će prilikom obrade poslani jednom kontejneru, koji kao metoda objekta u svom modelu sadržaja omogućava generiranje vertikaliziranih korpusnih podataka za IMS Corpus Workbench § itd. . . Danke für Ihre Aufmerksamkeit! Hvala na pažnji! Хвала на пажњи!