OCR and TEI for the production of ELTe

  • Slides: 26
Download presentation
OCR and TEI for the production of ELTe. C Würzburg Training School, 16 -17

OCR and TEI for the production of ELTe. C Würzburg Training School, 16 -17 April 2018

Würzburg Nuremberg – Würzburg Frankfurt – Würzburg oko 120 km

Würzburg Nuremberg – Würzburg Frankfurt – Würzburg oko 120 km

Radionica • Organizatori: Leonard Konle and Fotis Jannidis (University of Würzburg) • Instruktori: Christian

Radionica • Organizatori: Leonard Konle and Fotis Jannidis (University of Würzburg) • Instruktori: Christian Reul, Leonard Konle, and Lou Burnard • Učesnici: Jelena Andonovski (University of Belgrade); Alex Ciorogar (UBB Cluj-Napoca); Simon Gabay (University of Neuchatel); Meliha Handzic (Burch University, Sarajevo); Magdalena Krol (Institute of Polish Language, Polish Academy of Sciences); Ioana Lionte (University of Iasi); Anna Rehorkova (Charles University, Prague); Floriana Sciumbata (Universita Trieste); Anna Maria Sichani (Kings Digital Lab, London); Adeliana Silva (Nova University of Lisbon); Andrejka Zejn (Slovenian Academy of Sciences and Arts).

Prvi dan • Osnove OCR-a i paket Abbyy Fine. Reader (https: //distantreading. github. io/Training/OCRBa

Prvi dan • Osnove OCR-a i paket Abbyy Fine. Reader (https: //distantreading. github. io/Training/OCRBa sics. pdf) • OCR 4 all – open source alat za OCR (Thomas M. Breuel (University of Kaiserslautern/DFKI, Xerox, Google, currently Nvidia).

OCR 4 all - karakteristike • Inicijalno napravljen za OCR starih štampanih knjiga •

OCR 4 all - karakteristike • Inicijalno napravljen za OCR starih štampanih knjiga • Alat otvorenog koda (uskoro? ) • Razumljiv i prilagođen i za korisnike koji nemaju dovoljno tehničkog iskustva • Nezavistan od softverske platforme • Zasnovan na nekoliko alata otvorenog koda (uglavnom OCRopus)

OCRopus • Centralni deo alata OCR 4 all • Alat zasnovan na Pajtonu •

OCRopus • Centralni deo alata OCR 4 all • Alat zasnovan na Pajtonu • Omogućava: preprocesiranje, strukturnu analizu i segmentaciju, prepoznavanje karaktera i treniranje modela

Češki nacionalni korpus - iskustva u digitalizaciji • Anna Řehořková - Institute of the

Češki nacionalni korpus - iskustva u digitalizaciji • Anna Řehořková - Institute of the Czech National Corpus https: //distantreading. github. io/Training/CNC_AR_Wur zburg_TS. pdf

Drugi dan • XML Editor (o. Xygen) • TEI XML označavanje: namena i struktura

Drugi dan • XML Editor (o. Xygen) • TEI XML označavanje: namena i struktura • ELTe. C schemas • TEI header

ELTe. C schemas • ODD (One Document Does it all) chaining tehnika za pripremu

ELTe. C schemas • ODD (One Document Does it all) chaining tehnika za pripremu tri “nivoa” ELTe. C schema-e: odabir adekvatnih atributa i etiketa https: //distantreading. github. io/Training/eltec. Schema. html#(1)

ELTe. C schemas • Nivo 0 (eltec-0): osnovna TEI struktura za kodiranje bilo koje

ELTe. C schemas • Nivo 0 (eltec-0): osnovna TEI struktura za kodiranje bilo koje vrste tekst u okviru ELTe. C-a • Nivo 1 (eltec-1): sa dodatnim elementima za preciznije kodiranje • Nivo 2 (eltec-2): mogućnost lingvističke i semantičke anotacije tekstova, na nivou pojedinačnih tokena i segmenata

Praktični deo • “plain” tekst dobijen tehnikom OCR-a • digitalni dokument nastao u Word-u

Praktični deo • “plain” tekst dobijen tehnikom OCR-a • digitalni dokument nastao u Word-u ili Open Office-u • tekstovi u e. Pub ili HTML formatu pronađeni na internetu

TEI Header • Šta je TEI Header, čemu služi, osnovna struktura • Predlog za

TEI Header • Šta je TEI Header, čemu služi, osnovna struktura • Predlog za unos bibliografskih podataka za ELTe. C • https: //distantreading. github. io/Training/eltec. Hdr. html#(1)

Švabica • https: //github. com/distantreading/WG 1/tree/ master/Sampler/SR

Švabica • https: //github. com/distantreading/WG 1/tree/ master/Sampler/SR

Uvela ruža - Bora Stanković • Skoro pripremljeno • TEI Header?

Uvela ruža - Bora Stanković • Skoro pripremljeno • TEI Header?

Vielen Dank 24. 05. 2018. Jelena Andonovski jelenaandonovski@yahoo. com

Vielen Dank 24. 05. 2018. Jelena Andonovski jelenaandonovski@yahoo. com