Introduction au langage XML

Les spécificités du balisage des catalogues de médiathèque et des DTD associées

Vous avez atteint une certaine technicité qui, certes, pourra et devra se développer au fur et à mesure que vous prendrez en compte la spécificité de la catégorisation de l'information dans tel ou tel domaine.

En attendant, il nous semble qu'il faudrait tenter d'élucider les « grandes » questions que pose le traitement de l'information pour tel objet et ce faisant — parce qu'un objet n'est jamais totalement indépendant d'un domaine de savoir et de savoir faire — les « grandes » questions que pose le traitement de l'information dans un domaine déterminé.

Pour ce faire, nous devons prospecter dans deux directions :

  • dans la direction des réalisations actuelles (application d'XML, de ses usages, de ses « manières de faire », de ses limites) au domaine que l'on peut appeler « problématique des médiathèques » ;

  • dans la direction des possibles envisageables pour le développement de l'étude des notices documentaires.

De l'écrit au sonore-visuel / Des bibliothèques au médiathèques

La notion de médiathèque relève d'un certain développement de la notion de bibliothèque. Les premières bibliothèques (Alexandrie, Pergame) étaient plutôt des centres de lettrés mais une bibliothèque n'est pas qu'un dépôt de livres, c'est aussi des équipes qui travaillent sur les documents. Dans un premier temps, l'écrit s'est développé :

passage du papyrus (qui date au moins du 4ème millénaire avant J.-C. en Egypte) au parchemin (écriture sur des peaux d'animaux vraisemblablement à partir du 3ème millénaire avant J.-C. mais qui se répand en Grèce surtout à partir du 6ème siècle avant J.-C. puis au 1er siècle après J.-C. après avoir été éclipsé par le papyrus) puis au papier (présent d'abord en Chine peut-être à partir du 2ème siècle avant J.-C., importé en Occident et amélioré par les Arabes vers le 8ème siècle ;

passage du volumen (rouleau comportant des colonnes et consulté de gauche à droite, fait de papyrus ou de cuir) au codex (« calquées » sur les tablettes de cire pour l'écriture, feuilles de papyrus ou, plus généralement, de parchemin groupées en cahiers, qui se répandent surtout à partir du 2ème siècle après J.-C.) ;

passage de l'écriture manuscrite (idéographique à partir du 4ème millénaire avant J.-C. puis partiellement alphabétique à partir du 4ème siècle avant J.-C.) à l'imprimé (vraisemblablement apparu en Asie vers le 9ème siècle avant J.-C., mécanisé par Gutenberg au 15ème siècle).

Puis de nouveaux media sont apparus : l'image s'est affranchie du rôle d'illustration pour devenir un medium à part entière ; on a pu recueillir le son et enregistrer mécaniquement une image. Le numérique et l'agrandissement de la capacité des supports-mémoire ont aussi bouleversé le paysage.

La notion de médiathèque est l'aboutissement de ce long processus. Il en découle la diversité des supports et des modalités de communication (visuelle textuelle ou scripturale, sonore, visuelle iconique).

Remarque

Remarque 1. On notera que « medium » (pluriel « media ») est en italique et ne comporte pas d'accent contrairement à « média » (pluriel « médias »).

Remarque 2. Il est difficile de distinguer clairement les notions de canal de la communication et de modalité de la communication.

La chaine documentaire

La chaine documentaire

Thesaurus & classification

Le mot thesaurus vient du latin et signifie trésor, c'est-à-dire accumulation.

Un thesaurus est un « dictionnaire » ou un « répertoire » de termes normalisés et reliés entre eux par des relations sémantiques. D'ailleurs, le mot trésor a été utilisé pour désigner un des grands dictionnaires de référence pour le français, le Trésor de la langue française ou TLF, en référence à l'utilisation de trésor pour désigner des dictionnaires (cf. le Thresor de la langue françoyse tant ancienne que moderne de Jean Nicot, 1606).

Un thesaurus est donc un lexique sous la forme d'une liste structurée de termes (considérés en général comme des concepts, c'est-à-dire comme des termes porteurs d'une valeur sémantique).

Dès lors que l'on prend en compte le sens de termes, se posent les problèmes de la polysémie et de la synonymie.

Est polysémique un terme qui peut recevoir plus d'une acception. Dans un thesaurus, un terme polysémique entraîne des risques de confusion (comme dans les langages scientifiques). Il faut donc soit chercher à éviter les termes polysémiques soit, lorsque c'est impossible, proposer des désambiguïsations.

Sont considérés comme synonymes deux termes substituables (ce qui n'est pas exactement le cas en linguistique).

On peut aussi définir un thesaurus comme étant une liste organisée de descripteurs reliés entre eux par des relations sémantiques, liste fondée sur des règles terminologiques définies et contraintes.

On peut opposer thesaurus et liste d'autorité : une liste d'autorité est l'équivalent d'un thesaurus, mais ouvert, les utilisateurs professionnels peuvent concourir à l'enrichissement de la liste d'autorité selon un protocole précis.

Un thesaurus permet d'indexer des documents, c'est-à-dire de définir une « carte d'identité » pour le document, qu'il soit papier, sonore, visuel, électronique (on remarquera l'hétérogénéité de cette liste). On a vu, à propos de la chaîne documentaire, que l'on pouvait aussi définir l'indexation comme la traduction de l'analyse d'un document en langage documentaire.

Quelle différence y-t-il entre un lexique et un langage (à distinguer de langue) ? Un langage utilise un lexique mais articule entre eux les éléments du lexique grâce à des règles explicitables.

La notion de thesaurus est une notion relativement récente : elle suppose la recherche d'une « théorisation » sur les notions. Elle permet d'associer des critères de recherche à un document : un document, dans une bibliothèque/médiathèque doit être « vivant », c'est-à-dire consulté ou emprunté. Cela suppose deux modes de « catégorisation » :

  • une « catégorisation » conceptuelle, celle du thesaurus (ou de la liste d'autorité) qui permet d'identifier la ressource dont on a besoin pour tel ou tel objectif ;

  • une « catégorisation » matérielle, celle des « classifications » (Dewey, CDU, cf. ci-dessous) qui permet de retrouver la ressource sur les rayons en libre accès ou dans les « magasins ».

Il existe plusieurs types de classifications, pour des raisons liées à l'histoire (la conception de la classification évolue avec le temps) ou pour des raisons liées au fonds documentaire (plus il est spécialisé, et surtout plus le public d'utilisateurs est spécialisé, plus les modalités de classification peuvent être particulières).

Thesaurus et classification sont donc des notions complémentaires et présentent des intersections (sciences du langage appartient aux deux mais sous des angles différents.

Toute classification a eu ses reprises et ses différentes versions.

Les classifications les plus courantes sont la classification Dewey et la CDU (classification décimale universelle) qui vise à compléter la classification Dewey. Melvil Dewey (1851-1931) était un bibliographe (à ne pas confondre avec John Dewey, 1859-1952, philosophe pragmatiste et pédagogue à qui on attribue souvent la formule learning by doing). La classification Dewey date des années 1987, la CDU de 1905. Une classification tend à être une organisation logique des connaissances.

Exemple : 400 représente les sciences du langage; 800, 400.03 indique qu'il s'agit d'un dictionnaire de sciences du langage.

Ce qui nous importe ici, ce sont les notions de thesaurus et de liste d'autorité : la classification matérielle est importante pour la pratique quotidienne du métier de documentaliste ; la catégorisation par thesaurus et liste d'autorité est une catégorisation conceptuelle, signifiante, problématique centrale en langage XML.

L'opération de catalogage

Un catalogue donne la description bibliographique d'un document. Autrefois, les catalogues étaient des ouvrages rédigés à la main (on en trouve des exemplaires à la Bibliothèque nationale de France, la BNF).

Puis on est passé à des catalogues réalisés sous la forme de fiches papier réunies dans des meubles à tiroirs. On avait alors différents meubles représentant différents catalogues : catalogue auteur, catalogue titre, catalogue matière (c'est-à-dire des sujets traités), parfois catalogue collection ou catalogue format (format des ouvrages papier).

L'informatique a complètement transformé le paysage, en permettant de relier les paramètres (un seul catalogue suffit alors) et en fournissant des systèmes de tri élaborés.

Langage d'indexation

Un langage d'indexation est un langage contrôlé (c'est-à-dire avec des contraintes très fortes) qui introduit des relations sémantiques entre les termes :

  • relations de synonymie ou d'équivalence qui permettent de préciser les termes retenus et les termes rejetés pour éviter les doublons ;

  • relations hiérarchiques qui organisent les termes en termes génériques et termes spécifiques ;

  • relations d'association qui créent des « environnements sémantiques » en mettant des relations entre des termes apparentés mais différents.

On remarquera que la notion de sémantique au fondement de ces relations est très proche de la notion de signification dans le langage XML : c'est la solidarité entre éléments qui produit le sens.

MARC et UNIMARC

MARC (Machine readable catalogue format) est lié aux débuts de l'informatisation des bibliothèques. Il avait plusieurs objectifs : le catalogage, la gestion des acquisitions, la recherche documentaire, la gestion des prêts. Chaque pays avait son propre format, la France fonctionnant avec INTERMARC. Pour assurer l'interopérabilité entre les différents pays, il fallait un moyen d'exporter à l'international les formats codés dans un pays. En 1977, fut publié UNIMARC, Universal MARC Format.

RAMEAU

RAMEAU (Répertoire d'autorité matière encyclopédique et alphabétique unifié) est un langage d'indexation géré par la BNF et utilisé par les bibliothèques universitaires françaises et certaines bibliothèques publiques. Résultat de l'affinement d'une liste d'autorité matière élaborée en 1983, RAMEAU est contemporain des langages de balisage (SGML, ...), alors qu'UNIMARC était « pré-XML ».

Normes et pratiques

Nous avons vu que les langages d'indexation sont des langages « contrôlés », c'est-à-dire des langages fortement contraints. Si l'on compare les langages d'indexation, les langues naturelles et les langages formels, les langages d'indexation sont très proches des langages formels. Dans une langue naturelle, le spectre sémantique d'un mot peut être très large et, par déformations successives, un mot comme canard qui désigne un oiseau aquatique peut en arriver à désigner un journal, ce qui est impossible dans les langages formels et dans les langages d'indexation.

Les normes des langages d'indexation sont très contraignantes mais une norme n'a d'intérêt que si elle est effectivement suivie. C'est pourquoi on recourt souvent aux « bonnes pratiques » (best practices), ce qui revient à remplacer les normes par une modélisation (dans tel cas, faire comme ceci et comme cela). Il faut, bien entendu, que les bonnes pratiques et les normes convergent.

Développements

L'IST (information scientifique et technique) se développe et s'internationalise. De plus l'information est de plus en plus abondante et diversifiée.

On assiste à une certaine radicalisation des normes d'échange. Ainsi, le Dublin Core (qui tire son nom de Dublin, Ohio, où s'est réuni un groupe de travail en 1995) restreint-il les descripteurs à 15 (titre, créateur, sujet, description, éditeur, contributeur, date, type de ressource, format, identifiant, source, langue, relation, couverture, droits).

On assiste aussi à un développement de l'accès aux ressources (Open Archives Initiative) qui a donné l'OAI-PMH (The Open Archives Initiative Protocol for Metadata Harvesting, harvesting signifiant moissonnage) et l'ORI-0AI (outils de référencement et d'indexation – open archives initiative).

L'ensemble de ces développements est de plus en plus lié au langage XML.

Présentation des balises <div> et <group> et leurs propriétés

Les deux balises <div> et <group> ont la particularité de n'être que des balises structurelles contrairement aux autres balises qui sont à la fois structurelles et fonctionnelles.

Dès lors, la question se pose de leur utilité.

<div> est utile pour :

  • créer différentes sections au sein du document (voir l'exemple d'un article de dictionnaire), qui permettent de traiter des objets différents en les mettant sur le même niveau hiérarchique (voir catalogue médiathèque) mais le caractère « vide » de <div> permet d'avoir différents niveaux hiérarchiques de divisions.

  • introduire de la clarté dans la structure globale du fichier

<group> est utile pour :

  • Créer un ensemble de données qui ne sont pas homogènes mais qui partagent des points communs

  • Introduire une vision globale potentielle.

ExempleNous allons montrer une illustration simple de l'utilité de la balise <div> pour structurer une base de données de type "médiathèque"

Dans ce document, nous montrons les structurations différentes de documents que l'on peut trouver dans un catalogue de médiathèque. Nous avons ici trois types de document : un livre, un film et un enregistrement sonore. Ces documents présentent des caractéristiques propres à leur type.

Utlisation de la balise <div> pour structurer un catalogue "médiathèque"[zoom...]
PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)