Anotacija in lematizacija zgodovinskih besedil Toma Erjavec Odsek
Anotacija in lematizacija zgodovinskih besedil Tomaž Erjavec Odsek za tehnologije znanja Institut “Jožef Stefan” http: //nl. ijs. si/et/ Maribor, 2007 -06 -21
Uvod 1. 2. 3. 4. cilji spletni strežnik primeri označenih knjig zaključki AHLib II. 23 februar 2007 Tomaž Erjavec
Tehnični cilji projekta Besedila projekta naj bi bila: 1. zapisana v standardni digitalni obliki --> XML/TEI 2. dostopna za internetno branje --> faksimili, struktura (digitalna knjižnica) 3. dostopna za jezikoslovne raziskave --> lematizacija (konkordančniki) AHLib II. 23 februar 2007 Tomaž Erjavec
Izvedba Korektorji: n čistopis, struktura: Word n popravki lemizacije: Excel Spletni servis: n vhod Word + Excel n pretvorba (+ avtomatska lematizacija) n izhod XML + HTML (+ Excel) AHLib II. 23 februar 2007 Tomaž Erjavec
(Zamišljene) prednosti korektorji lahko delajo v domačem okolju (Microsoft Word in Excel) n korekture se ciklično preverjajo preko spletnega servisa (povratna informacija) n avtomatsko generiranje označenega XML n AHLib II. 23 februar 2007 Tomaž Erjavec
Opaženi problemi n n Word dopušča preveč svobode pri urejanju za pretvorbo v strogi nabor oznak XML --> predloga in navodila za korektorje Tehnične nevšečnosti: končnice datotek, programi za komprimiranje, neustrezna inačica Excel Preimenovanje po novem ključu (FPG 00000) Premajhna uporaba (>200 PDF, <20 XML) --> nejasno? premalo obdelanih enot? AHLib II. 23 februar 2007 Tomaž Erjavec
Spletni servis AHLib II. 23 februar 2007 Tomaž Erjavec
Primer oblikovane datoteke Word AHLib II. 23 februar 2007 Tomaž Erjavec
Primer popravljene razpredelnice Excel AHLib II. 23 februar 2007 Tomaž Erjavec
Pretvorba glavni rezultat: XML n izvedena oblika: HTML (za preverjanje, tudi zametek oblike za digitalno knjižnico) n izvedena oblika: Excel (za (nadaljnje) popravke) n AHLib II. 23 februar 2007 Tomaž Erjavec
Struktura dokumenta XML AHLib II. 23 februar 2007 Tomaž Erjavec
Kolofon TEI AHLib II. 23 februar 2007 Tomaž Erjavec
Besedilo AHLib II. 23 februar 2007 Tomaž Erjavec
Jezikovna analiza AHLib II. 23 februar 2007 Tomaž Erjavec
Pogled HTML: začetek AHLib II. 23 februar 2007 Tomaž Erjavec
Pogled HTML: kazalo besedila AHLib II. 23 februar 2007 Tomaž Erjavec
Pogled HTML: besedilo AHLib II. 23 februar 2007 Tomaž Erjavec
Pogled HTML: analiza AHLib II. 23 februar 2007 Tomaž Erjavec
Primeri FPG 00035 K n FPG 00037 K n FPG 00308 K n FPG 00419 K n AHLib II. 23 februar 2007 Tomaž Erjavec
Zaključki n n n servis sicer deluje, vendar je z njegovo uporabo več težav kot smo predvidevali zaenkrat je bilo obdelanih relativno malo knjig, kar otežuje poboljšanje delovanja nadaljnje delo: – obdelava in finalizacija čim večjega števila enot – mogoče poboljšanje modela avtomatske lematizacije – vzpostavitev spletnega konkordančnika – vzpostavitev digitalne knjižnice AHLib II. 23 februar 2007 Tomaž Erjavec
- Slides: 20