Szveg s karakterkdols XML alapokon Kirly Pter Arcanum

  • Slides: 13
Download presentation
Szöveg- és karakterkódolás XML alapokon Király Péter Arcanum Adatbázis Kft. Szöveg- és karakterkódolás xml

Szöveg- és karakterkódolás XML alapokon Király Péter Arcanum Adatbázis Kft. Szöveg- és karakterkódolás xml alapokon

A projektek ¨ Hungarológiai alapkönyvtár – Klasszikus társadalomtudományi (művelődéstörténeti) művek: • „spenót” (irodalomtörténet) •

A projektek ¨ Hungarológiai alapkönyvtár – Klasszikus társadalomtudományi (művelődéstörténeti) művek: • „spenót” (irodalomtörténet) • Magyar néprajz II–VIII. • Magyar színháztörténet – Demeter Tibor 40 kötetes bibliográfiája (magyar irodalom idegen nyelven) ¨ „saját” adatbázisaink Szöveg- és karakterkódolás xml alapokon 2

Szedés ¨ Szövegrögzítés – Általában kézi szedés • Rögzített szedési útmutatás (szintek, jegyzetek, képek,

Szedés ¨ Szövegrögzítés – Általában kézi szedés • Rögzített szedési útmutatás (szintek, jegyzetek, képek, különleges karakterek) • Szövegszerkesztővel történik (MS Word, Unipad) – Kapott anyagok konvertálása (MS Word, nyomdai anyagok /Quark. Press, Frame. Maker/, adatbázisok /Access, My. SQL, Pg. SQL/, egyedi/ritkán használt/elavult szoftverek ld. Drótos Laci előadásait) – Automatikus karakterfelismerés Szöveg- és karakterkódolás xml alapokon 3

Szedés: problémák v Képes-e a szedő tagelni? v Milyen formában? v Nem csökkentjük-e drasztikusan

Szedés: problémák v Képes-e a szedő tagelni? v Milyen formában? v Nem csökkentjük-e drasztikusan azt a hatékonyságot, amiben ő a legjobb? v Az egyedi szoftver korlátai (karakterek, szintek, szemantikus elemek) v Hogyan olcsóbb és/vagy gyorsabb? Szöveg- és karakterkódolás xml alapokon 4

Korrektúra v Mindig „kézi” korrektúra (létezik – bár kihalóban – a „korrektor” nevű szakmunkatárs,

Korrektúra v Mindig „kézi” korrektúra (létezik – bár kihalóban – a „korrektor” nevű szakmunkatárs, régebben a nyomdák környékén volt fellelhető) v Korrektúrázási útmutató (általában azonos a szedési útmutatóval) v A szedés kinyomtatásával, papíron, tollal történik v Általában többszöri korrektúraforduló hoz csak kielégítő* eredményt Szöveg- és karakterkódolás xml alapokon 5

Korrektúra: problémák ¨ „Ragaszkodás a tipográfiához” ¨ „Ragaszkodás a helyesíráshoz” – Mindig az adott

Korrektúra: problémák ¨ „Ragaszkodás a tipográfiához” ¨ „Ragaszkodás a helyesíráshoz” – Mindig az adott projekt dönti el, hogy írjuk át a szöveget (akadémiai helyesírás, korabeli ízek megtartása, vélelmezett sajtóhibák) [a közép-latin oklevélszöveg és az indoeurópai nyelvészet professzorának találkozása a korrektúrapéldány fölött] ¨ „pont, vesszőcske” hibák észrevétele ¨ Előre elképzelni az adatbázist, és aszerint dolgozni ¨ „visszajavító” foglalkoztatása szükséges Szöveg- és karakterkódolás xml alapokon 6

Adatbázisépítés ¨ NEM XML! hanem ¨ Teljes szövegű adatbáziskezelő, ami – tud egy sor

Adatbázisépítés ¨ NEM XML! hanem ¨ Teljes szövegű adatbáziskezelő, ami – tud egy sor dolgot, amit az XML ígér – tudunk belőle XML fájlt konvertálni ¨ Alternatívák: ¨ Folio, Word. Perfect, Quark. XPress, Frame. Maker, Open. Office, egyedi szoftverek, pl. Classical Text Editor Szöveg- és karakterkódolás xml alapokon 7

…vagy közvetlen szerkesztés ¨ XML-szerkesztők – o. Xygen, XML Spy, Stylus Studio Quark Xpress

…vagy közvetlen szerkesztés ¨ XML-szerkesztők – o. Xygen, XML Spy, Stylus Studio Quark Xpress ¨ Általános szerkesztők plug-inekkel – j. Edit, Emacs, TEI-Emacs, Eclipse ¨ Programozók egyszerű, de nagyszerű szövegszerkesztői – Text. Pad, Ultra. Edit, Note. Tab Szöveg- és karakterkódolás xml alapokon 8

konvertálás ¨ Folio->FFF (Folio Flat File) ¨ FFF > (Perl scriptek) >XML ¨ Validálás,

konvertálás ¨ Folio->FFF (Folio Flat File) ¨ FFF > (Perl scriptek) >XML ¨ Validálás, hibajavítás (az FFF-ben), újra Quark Xpress konvertálás ¨ XML + XSL > (xsl processzor) > HTML (vagy ami tetszik) ¨ Igény szerint utófeldolgozás (Perl) ¨ HTML validálás, hibakeresés, visszajavítás Szöveg- és karakterkódolás xml alapokon 9

Konvertálás: problémák ¨ Az XSLT a rekurzióra épül, ami nagyon Quark Xpress forrásigényes algoritmus

Konvertálás: problémák ¨ Az XSLT a rekurzióra épül, ami nagyon Quark Xpress forrásigényes algoritmus ¨ Nincsenek kiforrott, gyors processzorok ¨ Nagy fájlok esetén nehézkes a használata (vagy különféle kompromisszumokat kell kötni) ¨ Karakterkonverziók („natív” ansi/ascii karakterek, karakter egyedek) Szöveg- és karakterkódolás xml alapokon 10

Előnyök ¨ Robosztus, többé-kevésbé kompromisszummmentes (ld. szövegkritikai DTD), tartósítható állomány ¨ Beépített hibaellenőrzés ¨

Előnyök ¨ Robosztus, többé-kevésbé kompromisszummmentes (ld. szövegkritikai DTD), tartósítható állomány ¨ Beépített hibaellenőrzés ¨ Egyszerűbb újrafelhasználni, mint a valamilyen célra „kihegyezett” formátumokat ¨ Ha nem is a „megígért” ütemben, de mégiscsak gyarapodó támogatás Szöveg- és karakterkódolás xml alapokon 11

Nehézségek ¨ Konverziós problémák ¨ Nagyfokú munkafegyelem és kooperációs készség szükséges ¨ Pontos előzetes

Nehézségek ¨ Konverziós problémák ¨ Nagyfokú munkafegyelem és kooperációs készség szükséges ¨ Pontos előzetes megállapodások, folyamatos konzultáció ¨ Nincsenek kézhezálló, valóban kényelmesen és gyorsan használható eszközök ¨ Számos dolog csak ígéret és nem jelenvalóság (pl. szofisztikált keresés) ¨ költséges Szöveg- és karakterkódolás xml alapokon 12

< ez nem az a kulcs ¨ Kérdések, problémák, konzultációs és bosszankodási/bosszantási lehetőség: kiru@arcanum.

< ez nem az a kulcs ¨ Kérdések, problémák, konzultációs és bosszankodási/bosszantási lehetőség: kiru@arcanum. hu Szöveg- és karakterkódolás xml alapokon 13