OCR and TEI for the production of ELTe
- Slides: 26
OCR and TEI for the production of ELTe. C Würzburg Training School, 16 -17 April 2018
Würzburg Nuremberg – Würzburg Frankfurt – Würzburg oko 120 km
Radionica • Organizatori: Leonard Konle and Fotis Jannidis (University of Würzburg) • Instruktori: Christian Reul, Leonard Konle, and Lou Burnard • Učesnici: Jelena Andonovski (University of Belgrade); Alex Ciorogar (UBB Cluj-Napoca); Simon Gabay (University of Neuchatel); Meliha Handzic (Burch University, Sarajevo); Magdalena Krol (Institute of Polish Language, Polish Academy of Sciences); Ioana Lionte (University of Iasi); Anna Rehorkova (Charles University, Prague); Floriana Sciumbata (Universita Trieste); Anna Maria Sichani (Kings Digital Lab, London); Adeliana Silva (Nova University of Lisbon); Andrejka Zejn (Slovenian Academy of Sciences and Arts).
Prvi dan • Osnove OCR-a i paket Abbyy Fine. Reader (https: //distantreading. github. io/Training/OCRBa sics. pdf) • OCR 4 all – open source alat za OCR (Thomas M. Breuel (University of Kaiserslautern/DFKI, Xerox, Google, currently Nvidia).
OCR 4 all - karakteristike • Inicijalno napravljen za OCR starih štampanih knjiga • Alat otvorenog koda (uskoro? ) • Razumljiv i prilagođen i za korisnike koji nemaju dovoljno tehničkog iskustva • Nezavistan od softverske platforme • Zasnovan na nekoliko alata otvorenog koda (uglavnom OCRopus)
OCRopus • Centralni deo alata OCR 4 all • Alat zasnovan na Pajtonu • Omogućava: preprocesiranje, strukturnu analizu i segmentaciju, prepoznavanje karaktera i treniranje modela
Češki nacionalni korpus - iskustva u digitalizaciji • Anna Řehořková - Institute of the Czech National Corpus https: //distantreading. github. io/Training/CNC_AR_Wur zburg_TS. pdf
Drugi dan • XML Editor (o. Xygen) • TEI XML označavanje: namena i struktura • ELTe. C schemas • TEI header
ELTe. C schemas • ODD (One Document Does it all) chaining tehnika za pripremu tri “nivoa” ELTe. C schema-e: odabir adekvatnih atributa i etiketa https: //distantreading. github. io/Training/eltec. Schema. html#(1)
ELTe. C schemas • Nivo 0 (eltec-0): osnovna TEI struktura za kodiranje bilo koje vrste tekst u okviru ELTe. C-a • Nivo 1 (eltec-1): sa dodatnim elementima za preciznije kodiranje • Nivo 2 (eltec-2): mogućnost lingvističke i semantičke anotacije tekstova, na nivou pojedinačnih tokena i segmenata
Praktični deo • “plain” tekst dobijen tehnikom OCR-a • digitalni dokument nastao u Word-u ili Open Office-u • tekstovi u e. Pub ili HTML formatu pronađeni na internetu
TEI Header • Šta je TEI Header, čemu služi, osnovna struktura • Predlog za unos bibliografskih podataka za ELTe. C • https: //distantreading. github. io/Training/eltec. Hdr. html#(1)
Švabica • https: //github. com/distantreading/WG 1/tree/ master/Sampler/SR
Uvela ruža - Bora Stanković • Skoro pripremljeno • TEI Header?
Vielen Dank 24. 05. 2018. Jelena Andonovski jelenaandonovski@yahoo. com
- Pre production flow chart
- Opta niedersachsen
- Dtd defines
- Tei dtd
- Proscar farmacia tei
- Vino-n codru la izvorul
- Tei lece
- Omacor tei
- Fspos
- Typiska drag för en novell
- Nationell inriktning för artificiell intelligens
- Ekologiskt fotavtryck
- Shingelfrisyren
- En lathund för arbete med kontinuitetshantering
- Personalliggare bygg undantag
- Tidböcker
- Sura för anatom
- Förklara densitet för barn
- Datorkunskap för nybörjare
- Tack för att ni lyssnade bild
- Debatt artikel mall
- Delegerande ledarstil
- Nyckelkompetenser för livslångt lärande
- Påbyggnader för flakfordon
- Tryck formel
- Offentlig förvaltning
- Kyssande vind analys