Manuel générale de TEI

Pour obtenir la version PDF imprimable de ce manuel, tapez Ctrl-P (ou Cmd-P pour les Mac).

Table de matières

Organisation d'un projet d'édition numérique

L'encodage des données en XML-TEI est une étape clé de la création d'éditions numériques. Elle arrive une fois que la source a été numérisée et que le texte a été transcrit. C'est à partir des fichiers TEI que l'on réalise des outils d'exploration du corpus (interface de lecture, index, outils de recherche...)

Les choix d'encodage et la qualité de ce en TEI ont un impact sur la manière dont il sera possible d'explorer le corpus par la suite


image

Information générale sur le XML

Le XML, qu'est-ce que c'est ?

« Extensible Markup Language » ou langage de balisage extensible langage de description informatique permet de décrire des données, ou un texte, en utilisant des balises. Il dissocie les questions de mise en forme, style et agencement du texte de la création du contenu textuel lui-même. Le HTML, utilisé pour créer des pages web, est un dérivé du XML.

Pour en savoir plus sur le XML, vous pouvez lire la documentation du w3c (en anglais).


Le XML - Pourquoi ?

Un encodage XML permet ensuite, à partir d'un document unique, de créer des visualisation ou de chercher des informations en fonction de nos besoins.
image

Quel logiciel pour faire de la TEI ?

Un fichier TEI est un fichier texte, qui contient des informations de structure. Un fichier texte est "transparent", il ne contient rien de plus que ce que vous voyez à l'écran, alors qu'un fichier .odt ou .docx affiche un résultat (texte en gras, taille de police de 12 ou 16 ...) qui est le résultat d'un traitement réalisé à partir de fichiers (au format XML !!) que vous ne voyez pas directement !
image

N'importe quels logiciels capable de gérer des fichiers textes (Notepad++, textEdit...) pourrait être utilisés, mais ces deux là proposent des fonctionnalités qui facilitent l'encodage : autocomplétion, vérification de la validé des fichiers par rapport à la TEI et à des règles personnalisées...

  • Oxygen : (manuel à venor) l'outil par excellence pour la TEI, il contient beaucoup de fonctionnalités pour faciliter la saisie et faire des transformations à partir des fichiers TEI. C'est un logiciel propriétaire qui nécessite d'avoir une licence payante
  • Visual Studio Codium : (manuel ici) ce logiciel est très largement utilisé par les développeur.euses informatiques, il n'est pas spécialisé pour le XML, mais il existe des extensions qui permettent d'avoir des fonctionnalités adaptés à vos usages. Il nécessite un petit peu plus de personnalisation avant d'être utilisable, mais une fois les réglages effectués (vous pouvez vous appuyer sur le manuel rédigé sur le blog de DAHU), il est très pratique. C'est un logiciel libre et gratuit.

Le XML - Les balises ?

  • Les éléments de base du XML sont les balises, elles permettent d’encadrer l’information, en disant : « ici il y a quelque chose d’intéressant, et voilà ce que c’est ».

Exemple d'utilisation :

Le projet commence par proposer à la lecture et à l’étude les fables de <auteur>Jean de la Fontaine</auteur> accompagnée de notes critiques.

Comme on peut le voir dans cet exemple, les balises fonctionnent par paire :

  • La balise ouvrante (<...>) se situe juste avant l’information à encadrer
  • La balise fermante (</...>) se situe juste après
  • L’information encadrée par deux balises (ici "Jean de la Fontaine") est appelée valeur.


  • image
  • Remarque : Dans certains cas, une balise peut-être auto-fermante <.../>. Elle ressemble à une balise ouvrante, mais sa syntaxe diffère légèrement et elle n'a ainsi pas besoin d'être accompagnée par une balise fermante. Une balise auto-fermante se compose comme une balise ouvrante mais contient un slash (/) juste avant son chevron fermant final (>).

Le XML - Arborescence

Le document doit respecter le principe d’arborescence :

  • Une paire de balises peut contenir plusieurs autres paires de balises.
  • Si et seulement si les deux balises (ouvrante et fermante) de chaque paire sont contenues dans cette paire de balises.

image

Le XML - Attributs

Les balises peuvent avoir des attributs, qui permettent de donner des renseignements supplémentaires sur le contenu des balises.

Exemple d'utilisation :

<quote type="translation" xml:lang="en" >The cicada, having sung all summer long,<quote>

  • La balise <quote> (pour « citation ») encadre le nom de l'auteur et contient un attribut @type qui permet de préciser que cette citation est une traduction et @xml:lang permet de préciser la langue
  • Les attributs sont notés à l’intérieur de la balise ouvrante.
Chaque attribut apporte une information supplémentaire.
Dans cet exemple :
  • @type : attribut qui donne le type de citation (ici une traduction) au sein d'une liste préétablie)
  • @xml:lang : attribut qui renseigne sur la langue utilisée.

Le XML - "bien formé"

Un document XML doit impérativement être bien formé pour être utilisable.
Pour cela, il doit impérativement respecter certaines règles de base, notamment :

  • Toute balise ouvrante doit être suivie d’une balise fermante.
  • Les balises ne doivent jamais se chevaucher, c’est-à-dire que si une balise contient une balise ouvrante, la balise fermante associée doit également se retrouver dans la première balise (imbrication des balises).
  • Le document doit contenir une balise racine, qui contient toutes les autres balises. (Dans le cas de la TEI, il s'agira de la balise ... <TEI> !
  • Les caractères spéciaux doivent être encodés (ex : & doit être encodé avec &amp;)
  • Les noms de balise sont sensibles à la casse (<author> ne correspond pas à <Author>)

Une grammaire spécifique du XML, la TEI

La TEI, qu'est-ce que c'est ?

Les projets d'éditions numériques d'ELAN utilisent la grammaire XML-TEI (et c'est le cas de nombreux projets d'éditions numériques )

  • Un jeu de balises et d'attributs XML déjà définis, pensé pour l'édition de sources.
  • Un standard, très largement utilisé qui permet d’échanger des données en utilisant la « même langue » (principe d’interopérabilité).
  • Un fichier XML qui respecte ce jeu de balises = « fichier XML-TEI » ou « fichier TEI ».
  • Un fichier XML-TEI possède un header TEI qui comprend des métadonnées, c’est-à-dire des informations à propos du projet, du fichier lui-même ou du document source puis le texte encodé et enrichis.


Foire aux erreurs

  • « Le type d’élément "p" doit se terminer par la balise de fin correspondante "</p>" »
    Solution : trouver là où manque la balise fermante, probablement juste au-dessus de la ligne d’erreur signalée par Oxygen
  • « element "..." not allowed here; expected the element end-tag or element "...", "...", etc. »
    Solution : la hiérarchie des balises n’a pas été respectée, il doit certainement y avoir une balise manquante avant l’élément souligné en rouge
  • « ID "..." has already been defined »
    Solution : corriger l’identifiant car celui-ci a déjà été utilisé

Quelques ressources


Remarques générales sur le modèle TEI et son manuel