XML TEI un marriage fait aux cieux Comment

  • Slides: 61
Download presentation
XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding

XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines Lou Burnard Oxford University Computing Services

Pourquoi numeriser un texte? • Pour remplacer ou pour enrichir un texte écrit? •

Pourquoi numeriser un texte? • Pour remplacer ou pour enrichir un texte écrit? • Pour aider la recherche, la formation, ou l'enseignement? • Pour quel public? • Pour faire quelque chose de nouveau, ou des choses anciennes d'une manière plus efficace? Lyon, 2001 2

Du point de vue academique, la numerisation offre… • L'integration des ressources diverses –

Du point de vue academique, la numerisation offre… • L'integration des ressources diverses – textes, commentaires, sources, variations… – multimédia, manuscrits, transcriptions, metadata… • La preservation des ressources – Les media s'envolent, les données restent – "multiplication beyond the reach of accident" • Un vaste élargissement d'accessibilité des ressources – quantitative – qualitatitive Lyon, 2001 3

De point de vue informatique, la numerisation offre… • Toute une gamme de problemes

De point de vue informatique, la numerisation offre… • Toute une gamme de problemes techniques • une raison d’ être: la conservation du patrimoine et de la culture contemporaine • des outils bien compris et pratiques – la semiotique – le linguistique – l'encodage Lyon, 2001 4

Ressources encodage modele abstraite ressources numerises analyses

Ressources encodage modele abstraite ressources numerises analyses

Il etait une fois, il y a longtemps, dans une galaxie lointaine…. Lyon, 2001

Il etait une fois, il y a longtemps, dans une galaxie lointaine…. Lyon, 2001 6

The Text Encoding Initiative 1987: Vassar College Conference

The Text Encoding Initiative 1987: Vassar College Conference

Balisage ou babel? Loomings “CALL|chap 1 me Ishmael. Some years ago --- never <C

Balisage ou babel? Loomings “CALL|chap 1 me Ishmael. Some years ago --- never <C long 1> precisely--Loomingshaving little or no mind how money chapter in my purse, and nothing particular to interestchapter[1]{Loomings} me on shore, I thought I would sail about : h 1. 1. Loomings a little and see the watery part of the world” MOBY 001001 LOOMINGS |C 1. chapter Loomings Bonne nouvelle: on peut trouver un logiciel pour traduire Mauvaise. cp; . sp nouvelle: il existe (au moins) 400 formats divers 6 entre a; . ce. bd 1. 400 formats diverses Loomings Lyon, 2001 8 ~x

Echange d'informations (1) A B E C D 20 traductions requises (n 2 -n)

Echange d'informations (1) A B E C D 20 traductions requises (n 2 -n) Lyon, 2001 9

Echange d'informations (2) A standard commun d'echange B C E D 10 traductions requises

Echange d'informations (2) A standard commun d'echange B C E D 10 traductions requises (2 n) Lyon, 2001 10

Un langage d’encodage sert à. . . • specifier les caractères d’un texte •

Un langage d’encodage sert à. . . • specifier les caractères d’un texte • expliciter la/les structures aperçue/s dans un texte • linéariser le texte • specifier les méta-informations, renseignements contextuels etc. . ce qui implique une indépendance totale d’application, du hard, comme du soft

Qu’est-ce que l’encodage? • Un format d'echange s'exprime dans un encodage… • …qui explicite

Qu’est-ce que l’encodage? • Un format d'echange s'exprime dans un encodage… • …qui explicite une théorie concernant un aspect quelconque d’un document – tout encodage est donc une interprétation – aucun langage d’encodage ne peut donc prétendre être ni complet ni exhaustif

Un encodage TEI <text n="moby"> <div type=chapter n="ch 1"> <head rend=centred>Loomings</head> <p><s>Call me <name>Ishmael</name>.

Un encodage TEI <text n="moby"> <div type=chapter n="ch 1"> <head rend=centred>Loomings</head> <p><s>Call me <name>Ishmael</name>. </s> <s>Some years ago — never mind how long ago precisely — having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world. </s></p> Lyon, 2001 13

Origines de la TEI • communauté internationale de recherche • surtout dans sciences humaines,

Origines de la TEI • communauté internationale de recherche • surtout dans sciences humaines, linguistiques • effort international (financement des États Unis, de l’Union Européenne et du Canada) • parrainnée par trois associations erudites (ACH, ALLC, ACL)

Les buts de la TEI • faciliter la création, l’échange, et l’integration des données

Les buts de la TEI • faciliter la création, l’échange, et l’integration des données textuelles informatisées • toute sorte de texte • toutes langues • toute provenance temporelle ou culturelle • La TEI doit servir également à aider. . . – les débutants, cherchant des solutions bien connues et consensuelles – les experts, cherchant à créer de nouvelles solutions

Les "délivrables" de la TEI • un ensemble cohérent de recommandations sur l’encodage, fondé

Les "délivrables" de la TEI • un ensemble cohérent de recommandations sur l’encodage, fondé sur la pratique actuelle • un système extensible, modulaire, polymorphe • une documentation extensive – TEI P 3 : manuel de référence – TEI U 5 , U 6 : manuels introductifs • des textes exemplaires Voir http: //www. tei-c. org

La modus operandi TEI • identifier les traits textuels signicatifs independemment de leur notation

La modus operandi TEI • identifier les traits textuels signicatifs independemment de leur notation ou realisation • se méfier des controverses, et des rafinements excessifs et des simplifications inutiles • cher des solutions génériques

. . . et quelques consequences • • appui. TEI surne le contenu, plutôt

. . . et quelques consequences • • appui. TEI surne le contenu, plutôt présentation «La dispense pasque desur lirelanos un schéma libéral, peucontraire, normatif mais elle collègues, bien au nous permet comme en sciences exactes le rasoir de Occam de directement deplusieurs façon unedisposer structuration fonctionelle, et avec normalisée des textes travaillés selon les possibilités d'enrichissement hypotheses d'autrui » (L. Romary)

Heritage de la TEI • Une facon de considerer ce que le texte est

Heritage de la TEI • Une facon de considerer ce que le texte est vraiment • Une codification des pratiques academiques courantes • Un ensemble d'aprioris et priorites partages dans les perspectives numeriques • … qui reste valable depuis plus de dix ans Lyon, 2001 19

Qui se sert de la TEI? • http: //www. tei-c. org/Applications/ • les bibliothèques

Qui se sert de la TEI? • http: //www. tei-c. org/Applications/ • les bibliothèques informatisées UMICH, CETH, UVA, OTA, Bi. Mi. Ce. Sa, INALF. . . • les projets d'ingenierie linguistique EAGLES, BNC, MULTEX, ECI, Silfide • les chercheurs Women Writers Project, Model Editions Partnership, Le projet Charette

Qu’est-ce que c’est que le {SG, X}ML? • SGML (Standard Generalised Markup Language) est

Qu’est-ce que c’est que le {SG, X}ML? • SGML (Standard Generalised Markup Language) est une norme ISO bien répandue dans le monde informatique; • …dont XML est une forme simplifiée (norme W 3 C) qui remplace l'HTML • Toutes les deux donnent la possibilité d'exprimer une grammaire precise d'encodage: une Document Type Definition (DTD); (facultatif pour XML) • … et de marquer à la fois la structure et la signification des traits textuels

Current TEI activity (1) • First AGM and elections in Pisa, November 2001 •

Current TEI activity (1) • First AGM and elections in Pisa, November 2001 • Elected TEI Council met in London, January 2002 • XML revision (P 4 X) approved at Board meeting in Prague, May 2002 • XML edition published in print, June 2002 • Second AGM, Chicago, October 2002 http: //www. tei-c. org/Services/order/ Lyon, 2001 22

Current TEI activity (2) • New work groups on – character set issues: convergence

Current TEI activity (2) • New work groups on – character set issues: convergence with Unicode – manuscript description – hyperlinking/stand off markup • Work in progress – SGML/XML conversion – Training • Funding problems and opportunities Lyon, 2001 23

Ce qu’il faut savoir à propos de {SG, X}ML • un texte est divisé

Ce qu’il faut savoir à propos de {SG, X}ML • un texte est divisé en éléments, qui peuvent s’imbriquer • les limites des éléments sont marqués par des balises, ayant un type générique et des attributs facultatifs • un texte peut également contenir des entités: par exemple pour représenter les caractères speciaux

L’encodage {X, SG}ML • tout est délimité: • les éléments par des balises de

L’encodage {X, SG}ML • tout est délimité: • les éléments par des balises de debut et des balises de fin • les balises par <. . . > et </. . . > • les entités par &. . . ; • par exemple: <quote lang="fra">L'é tat, c'est moi! </quote>

SGML et XML La TEI s'est servie de SGML pour des raisons – pragmatiques

SGML et XML La TEI s'est servie de SGML pour des raisons – pragmatiques • un standard déjà existant • un standard bien répandu dans l’industrie – théoriques • un système declaratif • un système vérifiable • un système performant, adéquat aux besoins de recherche

SGML et XML • La TEI a beaucoup influence l'evolution de XML • La

SGML et XML • La TEI a beaucoup influence l'evolution de XML • La TEI constitue un modele abstrait, qui peut etre represente ou en SGML ou en XML (ou ailleurs) • Actuellement, on peut generer des DTDs XML specifiques a l'aide du Pizzachef • http: //www. tei-c. org/Software/pizza. html Lyon, 2001 27

Exemple de structuration <text> <front> <!-- page de titre, etc --> </front> <body> <div

Exemple de structuration <text> <front> <!-- page de titre, etc --> </front> <body> <div 1 type='book' n='I' id=JA 0100> <head>Book I. </head> <div 2 type='chapter' n='1' id=JA 0101> <head>Of writing lives in general, . . . <!-- suite du chapitre 1 --> </div 2> <div 2 n='2' id=JA 0102> <!-- chapitre 2 --> </div 2> <!-- suite du tome premier--> </div 1> <div 1 type='book' n='II' id=JA 0200> <!-- tome deuxieme--> </div 1> <!-- encore des tomes --> </body></text>

Structuration de phrases. . . And this Indenture further witnesseth that the said Walter

Structuration de phrases. . . And this Indenture further witnesseth that the said Walter Shandy, merchant, in consideration of the said intended marriage. . . <hi rend=gothic>And this Indenture further witnesseth</hi> that the said <hi rend=italic>Walter Shandy</hi>, merchant, in consideration of the said intended marriage. . . Lyon, 2001 29

…or. . . And this Indenture further witnesseth that the said Walter Shandy, merchant,

…or. . . And this Indenture further witnesseth that the said Walter Shandy, merchant, in consideration of the said intended marriage. . . <seg type=formula>And this Indenture further witnesseth</seg> that the said <name rend=italic>Walter Shandy</name>, merchant, in consideration of the said intended marriage. . . Lyon, 2001 30

A quoi sert une DTD? • définir l’ensemble des éléments, attributs, et entitités possibles

A quoi sert une DTD? • définir l’ensemble des éléments, attributs, et entitités possibles dans un document • definir la manière de les combiner, pe leur contenu • permettre la verification formelle d’un document • aider la gestion automatique des documents

Combien de DTDs faut-il pour supporter les buts de la TEI? • une seule

Combien de DTDs faut-il pour supporter les buts de la TEI? • une seule (approche autoritaire: eg ISO 12083 WKWBFY) • aucune (approche Waterloo: eg OED NWEUMP) • autant qu’il en faut (approche Californien: WNSA) ou peut-on mieux faire?

La solution TEI • plusieurs (400+) éléments • rassemblés en classes sémantiques • organisés

La solution TEI • plusieurs (400+) éléments • rassemblés en classes sémantiques • organisés en «tagsets » (jeux de balises) – du noyau ( «core» ) – de base – additionels une seule DTD à plusieurs aspects

Comment s’en servir? • comment faire un seul schéma capable de gérer l’univers des

Comment s’en servir? • comment faire un seul schéma capable de gérer l’univers des applications voulues? • chaque texte est différent • tous les textes sont pareils • n’importe quel texte peut être utilisé en des manières diverses

Modèle Pizza (manière Chicago) <!ENTITY % base “(deep. Dish | thin. Crust | stuffed)”

Modèle Pizza (manière Chicago) <!ENTITY % base “(deep. Dish | thin. Crust | stuffed)” > <!ENTITY % garniture “( poivron| champignon | saucisse | anchois | anananas |. . . )” > <!ELEMENT pizza - ( %base; , sauce. Tomate & fromage, (%garniture)*) >

Pour créer une application TEI, il faut. . . • prendre le noyau •

Pour créer une application TEI, il faut. . . • prendre le noyau • choisir une base • ajouter les garnitures de choix <!DOCTYPE TEI. 2 system 'tei 2. dtd' [ <!ENTITY % tei. prose 'INCLUDE' > <!ENTITY % tei. analysis 'INCLUDE' > ]> <tei. 2>. . . </tei. 2>

Le noyau • L’en-tête TEI • Un ensemble d’éléments typiques de presque toute sorte

Le noyau • L’en-tête TEI • Un ensemble d’éléments typiques de presque toute sorte de document – éléments structuraux (divisions, paragraphes, vers, discours dramatiques, titres, notes, listes. . . ) – éléments descriptifs (noms, dates, engras. . . ) – modifications éditorialles – liens, références. . .

L’en-tête TEI • description bibliographique normalisée – du document electronique (titre, responsables, maison d’édition,

L’en-tête TEI • description bibliographique normalisée – du document electronique (titre, responsables, maison d’édition, source. . ) – de son encodage (éléments presents, codes internes. . . ) – de sa classification (sujets, genres. . . ) – de son état de revision • facilite la découverte des ressources sur réseau et dans les bases de données

Exemple d'un entete TEI <tei. Header><file. Desc> <title. Stmt><title>Thomas Paine: Common sense, a machine-readable

Exemple d'un entete TEI <tei. Header><file. Desc> <title. Stmt><title>Thomas Paine: Common sense, a machine-readable transcript</title> <resp. Stmt><resp>compiled by</resp> <name>Jon K Adams</name></resp. Stmt></title. Stmt> <publication. Stmt> <distributor>Oxford Text Archive</distributor> </publication. Stmt> <source. Desc><bibl>The complete writings of Thomas Paine, collected and edited by Phillip S. Foner (New York, Citadel Press, 1945) </bibl></source. Desc> </file. Desc><tei. Header> Lyon, 2001 39

Un jeu de balises de base. . . • définit les composants fondamentaux des

Un jeu de balises de base. . . • définit les composants fondamentaux des documents • bases définies: – prose, poésie, théâtre – transcription du discours oral – dictionnaires, terminologies • on peut aussi mélanger les bases – (avec précaution)

Un jeu de balises additionel. . . • ajoute des éléments ou attributs specialisés

Un jeu de balises additionel. . . • ajoute des éléments ou attributs specialisés • sont definis: – linking (liens, jalons, segmentation &c. ) – analyse et interprétation, – structures de traits (feature structures) – manuscrits et sources primaires – apparat critique – études onomastiques – formules, tables, graphiques – méta-informations pertinentes aux corpus • etcetera

Attributs globaux • tout élément est membre de la classe «globale» , et donc

Attributs globaux • tout élément est membre de la classe «globale» , et donc porte les attributs suivants: – id (identification unique) – n (identification locale) – lang (langage, identification du WSD rélévant) – rend (rendition) • on peut étendre la classe globale en choisissant des jeux additionels

Modifications • apres avoir choisi sa pizza, on peut aussi – renommer un élément.

Modifications • apres avoir choisi sa pizza, on peut aussi – renommer un élément. . . – supprimer un élément. . . – ajouter un élément ou changer sa définition • En "cuisinant" sa pizza, on peut l'exporter en XML ou SGML simple • http: //www. tei-c. org/Software/pizza. html

Using the TEI • • • Which modules will you use? How will you

Using the TEI • • • Which modules will you use? How will you customize them? What additional constraints are needed? What software will you develop? Where will it all be documented? Lyon, 2001 45

Quelques applications de la TEI Lite Manuscrits Hypertext

Quelques applications de la TEI Lite Manuscrits Hypertext

TEI Lite: une modification exemplaire • sous-ensemble du noyau avec en plus: – hypertext

TEI Lite: une modification exemplaire • sous-ensemble du noyau avec en plus: – hypertext ( «Hy. Time for Idiots» ) – interprétation analytique – figures, tables • en service à plusieurs Text Archives, Etext Centers etc. • documentés dans le manuel TEIU 5, • voir http: //www. tei-c. org/Lite/ Version francaise chez Cahiers Gutenberg!!

References • a l’interieur d’un seul document, • <ptr> (sans contenu) or <ref> (avec

References • a l’interieur d’un seul document, • <ptr> (sans contenu) or <ref> (avec contenu) • doivent pointer sur une identification (ID) See especially <ref target='SEC 12'> section 12 on page 34</ref>. See especially <ptr target='SEC 12'/>. . <div id='sec 12'> <head>Concerning Identifiers</head>

X-Pointers • pour pointer en dehors du document courant ou sur des objets non-SGML

X-Pointers • pour pointer en dehors du document courant ou sur des objets non-SGML • <xptr> (empty element) or <xref> (with content) • pointent sur en étendu specifié par une echelle de location (a l’interieur d’un entité nommé par l’attribut doc) see especially <xptr doc='doc 2' from="ID (SEC 12)"> see especially <xptr doc='doc 2' from="DESCENDANT (2 DIV 1) (4 P) CHILD (1 QUOTE LANG LAT)">

Liens independent • On peut specifier que deux objets sont liés en pointant sur

Liens independent • On peut specifier que deux objets sont liés en pointant sur tous les deux avec un <link> • qui permet d’encoder une correspondence ou alignment <xptr id='x 1' doc='xdoc'/> <xptr id='x 2' doc='ydoc'/> <link targets="x 1 x 2"/>

A three way alignment <div id=E 98 lang=EN><head>The Study</head> <seg id=E 9801>The Study</seg> <seg

A three way alignment <div id=E 98 lang=EN><head>The Study</head> <seg id=E 9801>The Study</seg> <seg id=E 9802>is a place</seg> <seg id=E 9803>where a Student, </seg> <div id=L 98 lang=LA> <seg id=E 9804>a part from men, </seg> <head>Musé um</head> <seg id=E 9805>sitteth alone, </seg> <seg id=L 9801>Museum</seg> <seg id=E 9806>addicted to his Studies, </seg> <seg id=L 9802>est locus</seg> <seg id=E 9807>whilst he. Studiosus, </seg> readeth</seg> <xptr n='1' id=p 981 doc=com 98> <seg id=L 9803>ubi <seg id=E 9808>Books, </seg> <xptr n='2' id=p 982 doc=com 98 <seg id=L 9804>secretus ab hominibus, from='space (2 d) (75 5) (133 75)'> <seg id=L 9805>studiis deditus, </seg> <xptr id=p 983 lectitat</seg> doc=com 98 <link. Grp type=alignment> <seg n='3' id=L 9806>dum from='space (2 d) (55 L 9801 42) (90 60)'> <link targets='E 9801 p 981'> Lyon, 2001 <link targets='E 9802 <link targets='E 9803 <link targets='E 9804 <link targets='E 9805 <link targets='E 9808 </link. Grp> L 9802 '> L 9803 p 982'> L 9804 '> L 9805 '> L 9808 p 983'> 53

The Beowulf Manuscript MS Cotton Vitellius A xv voir http: //portico. bl. uk/

The Beowulf Manuscript MS Cotton Vitellius A xv voir http: //portico. bl. uk/

Version imprimée (Wrenn, 1953) Hwæt we Gar-Dena in gear-dagum þeod-cyninga þrym gefrunon, hu ða

Version imprimée (Wrenn, 1953) Hwæt we Gar-Dena in gear-dagum þeod-cyninga þrym gefrunon, hu ða æþelingas ellen fremedon. Oft Scyld Scefing sceaþena þreatum, monegum mægþum meodo-setla ofteah; egsode Eorle, syððan ærest wearð feasceaft funden. . .

Transcription or Editing? • tout encodage est forcément une interpretation • le but pourrait

Transcription or Editing? • tout encodage est forcément une interpretation • le but pourrait être – représenter l’objet originel (transcription) – représenter l’objet idéal (editing) • une distinction imprécise

Version informatisée (1) <lg><l>Hwæ t we Gar-Dena in gear- dagum</l> <l>þ eod-cyninga þ rym

Version informatisée (1) <lg><l>Hwæ t we Gar-Dena in gear- dagum</l> <l>þ eod-cyninga þ rym gefrunon, </l> <l>hu ð a æ þ elingas ellen fremedon. <l></lg> <lg><l>Oft Scyld Scefing sceaþ ena þ reatum, </l> <l>monegum mæ gþ um meodo-setla ofteah; </l> <l>egsode Eorle, syð an ærest wearð </l> <l>feasceaft funden. . .

Version informatisée (2) <hi rend='caps'>&H; &wynn; æ t we garde</hi><lb/> na in gear-dagum þ

Version informatisée (2) <hi rend='caps'>&H; &wynn; æ t we garde</hi><lb/> na in gear-dagum þ eod cyninga<lb/> þ rym gefrunon huð a æ þ elinga&s; ellen<lb/> fremedon. oft Scyld Scefing sceaþ e<add>na</add><lb/> þ reatum, moneg<expan sic='&ubar; '>um</expan> mægþum meodosetla <lb/> of<damage desc=blot/>teah egsode <sic corr='Eorle'>eorl</sic> syð an ærest wearð <lb/> fea sceaft funden. . .

Transcrire c’est distinguer. . . • modifications originelles • interventions d’editeur/scripteur/transcripteur • scripteurs et

Transcrire c’est distinguer. . . • modifications originelles • interventions d’editeur/scripteur/transcripteur • scripteurs et changements de scripteur • endommagement physique au medium • usage de blancs, majuscules, format visuel

par exemple. . . • les omissions sont balisés avec <gap> <gap reason='illegible' desc='bloodstain'>

par exemple. . . • les omissions sont balisés avec <gap> <gap reason='illegible' desc='bloodstain'> <gap reason='sampling' desc='figure'> • la regularization (ou l’inverse) avec <reg> ou <orig> <q>I <reg resp="LB" orig="telled"> told</reg> Mary how it would be, </q> he said: <q>I <orig reg="told">telled</orig> Mary how it would be, </q> he said:

Normalization ou correction? • on peut signaler les deux, au meme temps que l’originel.

Normalization ou correction? • on peut signaler les deux, au meme temps que l’originel. . . for his nose was as sharp as a pen and <reg sic="a'">he</reg> <corr sic='table' ed='Gifford'>babbl'd</corr> of green <reg sic='feelds'>fields</reg>

Comment distinguer les responsables? • avec l’attribute hand (main): –<l<l n='108'>Whe n=108>Whe hadon ourour

Comment distinguer les responsables? • avec l’attribute hand (main): –<l<l n='108'>Whe n=108>Whe hadon ourour wyfe at ouratwilour wil hadon well</add> –<addhand='manus 2'>and hand=manus 2>and well</add> toware. </l> –fore to oft Scyld Scefing sceaþ e<add hand='ed 1'>na</add><lb/>

Apparatus criticus informatisé Experience (though non auctorité Were in this world) is right ynough

Apparatus criticus informatisé Experience (though non auctorité Were in this world) is right ynough for me To speke of wo that is in mariage … 1 Experience El Hg : Experiment La. . . <l><app> <rdg wit='El Hg'>Experience</rdg> <rdg wit='La'>Experiment</rdg> </app>&th; oug&h; non auctorite </l>