Introduction au langage XML

Cours
Outils

Les spécificités du balisage des dictionnaires et des DTD associées

Vous avez atteint une certaine technicité qui, certes, pourra et devra se développer au fur et à mesure que vous prendrez en compte la spécificité de la catégorisation de l'information dans tel ou tel domaine.

En attendant, il nous semble qu'il faudrait tenter d'élucider les « grandes » questions que pose le traitement de l'information pour tel objet et ce faisant — parce qu'un objet n'est jamais totalement indépendant d'un domaine de savoir et de savoir faire — les « grandes » questions que pose le traitement de l'information dans un domaine déterminé.

Pour ce faire, nous devons prospecter dans deux directions :

– dans la direction des réalisations actuelles (application d'XML, de ses usages, de ses « manières de faire », de ses limites) au domaine que l'on peut appeler « problématique des dictionnaires » ;

– dans la direction des possibles envisageables pour le développement de l'étude des dictionnaires.

Quelques généralités concernant les dictionnaires.

Rappelons quelques généralités concernant les dictionnaires.

Il est difficile de savoir à quand remontent les premiers dictionnaires. On a trouvé des tablettes bilingues dans la haute Antiquité mais ce sont des listes de mots. Il a existé des dictionnaires monolingues dans l'Antiquité, mais là aussi il est difficile de dire si la notion de dictionnaire correspondait, dans l'esprit de leurs rédacteurs, à ce que nous appelons dictionnaire. Vraisemblablement, non.

Aujourd'hui, un dictionnaire :

liste des sens différents d'un même mot et relie ces sens ;
relie différents mots entre eux par des relations.

Pour le français, les premiers dictionnaires de ce type remontent au 17ème siècle. Le Trésor de la langue française (1606) de Nicot s'appuie encore sur le latin pour définir les mots. Les premiers dictionnaires monolingues français sont ceux de Richelet (1680), de Furetière (1690), de l'Académie française (1694).

Fondamental : La question des normes, de l'encyclopédisme,

La question des normes

Les 17ème et 18ème siècle sont marqués par deux problématiques qui concernent fortement l'évolution des dictionnaires.

L'Académie française se met en place à partir de 1635. Elle a pour objectif de rédiger un dictionnaire, une grammaire, une rhétorique et une poétique (article 26 des statuts). Seul le dictionnaire fera l'objet d'un travail soutenu et continu (une grammaire, très médiocre, paraîtra en 1934). La mise en place de l'Académie correspond à une période où l'on « normalise » le français (Vaugelas, Ménage, Bouhours, etc. s'y emploient) et l'article 24 des statuts précise : « la principale fonction de l'Académie sera de travailler avec tout le soin et toute la diligence possibles à donner des règles certaines à notre langue et à la rendre pure, éloquente et capable de traiter les arts et les sciences ». L'élaboration du dictionnaire participe de ce processus de normalisation.

La première édition du dictionnaire regroupera les mots suivant leurs « racines étymologiques », la deuxième selon l'ordre alphabétique.

La question de l'encyclopédisme

La notion d'Encyclopédie est concomitante des dictionnaires spécialisés (Dictionnaire du commerce de Savary des Bruslons, 1723 ; Dictionnaire universel de mathématiques de Savérien, 1752) : en 1728 paraît Cyclopaedia or Universal Dictionary of Arts and Sciences de Chambers ; en 1751 commence la publication de l'Encyclopédie de Diderot et d'Alembert (Encyclopédie ou Dictionnaire Raisonné des Sciences, des Arts et des Métiers).

Ce ne sont plus des « Histoires naturelles » ou des « Sommes » du savoir humain mais la recherche d'une présentation organisée du savoir humain. Le terme dictionnaire y perd donc son sens mais cela ne signifie pas l'absence de liens entre l'entreprise dictionnairique et l'entreprise encyclopédique : les deux se croisent et la question d'un dictionnaire encyclopédique, c'est-à-dire d'un dictionnaire proposant des définitions englobant des éléments de savoir est posée au 17ème siècle. L'Académie française, après des hésitations, renonce. Furetière rédigera un dictionnaire encyclopédique.

Qu'est-ce qu'un dictionnaire monolingue ?

Nous l'avons vu, un dictionnaire :

liste des sens différents d'un même mot et relie ces sens ;
relie différents mots entre eux par des relations.

Cela c'est le « fonds » du dictionnaire « habituel » ; on y trouve en outre des renseignements comme la catégorie grammaticale de chaque mot ou sa prononciation ou encore son étymologie.

Un dictionnaire est donc un objet multiforme.

Il y a en effet de nombreux types différents de dictionnaires :

monolingues vs bilingues ou plurilingues (mais un dictionnaire plurilingue n'est souvent qu'un lexique juxtaposant des mots) ;
de langue vs encyclopédiques (mais cette division est un peu curieuse : les « langues de spécialité » font partie de la « langue ») ;
étymologiques et historiques (il est difficile de donner l'étymon d'un mot sans reprendre son histoire) ;
terminologiques (destinés à aider les traducteurs) ;
etc.

Remarque : Remarques sur les dictionnaires bilingues

Un dictionnaire bilingue met en rapport deux langues. Cela pose trois types de problèmes :

le problème de la description du mot pour un locuteur allophone ;
le problème des équivalences en langue étrangère ;
le problème de la rétro-traduction ;
le problème des formes complexes.

Décrire un mot pour un locuteur natif consiste à énumérer des sens. Un locuteur allophone a besoin d'une certaine homogénéité de description.

Mettre en évidence la traduction d'un mot pour tel sens suppose une claire identification des usages des deux mots en question.

Si l'on prend un mot donné et sa traduction et si l'on se reporte au mot correspondant de l'autre langue, on ne revient pas toujours au mot primitif.

Les Advanced Learner's Dictionaries pour l'anglais comportent de longues séries d'expressions plus ou moins figées (idiomatic phrases).

Dictionnaire et activité dictionnairique

Un dictionnaire peut être un dictionnaire papier ou un dictionnaire électronique. Il est le résultat d'une activité dictionnairique.

Mais une activité dictionnairique ne vise pas toujours à fabriquer un dictionnaire. Lorsqu'on explique un mot de notre langue à un locuteur allophone (c'est-à-dire locuteur natif d'une autre langue), dès lors que l'on ne se borne pas à dire « cela signifie tel mot dans votre langue » ou « dans ce contexte, cela veut dire [...] », on réalise une activité dictionnairique. Il en est de même lorsqu'on s'interroge sur le sens de tel mot.

L'activité dictionnairique est donc l'activité qui consiste à essayer d'élucider les ou les sens d'un mot ou à relier ce mot à d'autres mots.

Un dictionnaire est un objet structuré selon des normes définies préalablement, ayant un public plus ou moins déterminé et un objectif plus ou moins précis, et pouvant être à caractère commercial.

Dictionnaire et lexique mental

Nous possédons tous un lexique mental, au moins pour notre langue maternelle. Nous ne savons pas très bien comment il est structuré mais nous savons qu'il existe puisque nous communiquons entre nous et que nous pouvons évaluer la pertinence de tel ou tel mot dans tel contexte. La question de la structuration de notre lexique mental est une question complexe comme en témoignent les deux faits suivants aisément constatables :

– lorsque nous cherchons un mot que nous avons « sur le bout de la langue », on procède souvent par formes apparentées (« c'est un adverbe en –ment » ou « ça ressemble à xxx ») ;

– nous associons des mots par thèmes : la mélancolie est proche de la nostalgie, l'état de tristesse étant commun, et toutes deux peuvent provoquer l'abattement, ce qui crée une certaine proximité avec langueur.

Un dictionnaire est en général organisé alphabétiquement et ne comporte comme relations que des liens sémantiques entre mots.

Dictionnaire et structure du lexique

Quelle est la structure d'un lexique ?

Elle est définie par les relations entre les mots. Ces relations peuvent être de différents types :

hyperonymie / hyponymie (siège est un hyponyme de meuble et est un hyperonyme de chaise, fauteuil, tabouret, etc.) ;
méronymie (relation partie / tout ; tronc est un méronyme d'arbre) ;
synonymie (équivalence de sens sous telle ou telle condition) ;
antonymie (deux mots sont opposés comme monter et descendre ou jeune et vieux).

Ces relations ne sont pas toujours triviales et peuvent nécessiter une étude fine.

A ces relations s'ajoute une « non relation », l'homonymie (identité de forme sans relation de parenté ; on a deux étymons différents et la coïncidence de forme est purement accidentelle.

Mais ces relations ne sont que partielles : un lexique n'est jamais totalement structuré.

Fondamental : Catégories ou parties du discours

La notion de phrase est une notion relativement récente. On situe, généralement, son apparition au 14ème siècle. Dans l'Antiquité, on distingue deux niveaux, celui du logos (terme grec traduit en latin par oratio puis en français par discours) et celui du mot. Dès lors, le mot est une partie du logos (logou meros) puis de l'oratio (pars orationis) et enfin du discours (partie du discours, anglais part of speech ou pos).

Au 14ème siècle, apparaît la notion d'oratio perfecta qui est une première formulation d'une notion de type phrase.

Mais les parties du discours sont aussi le résultat d'une catégorisation : un nom est un élément de la classe des mots qui suivent un déterminant et qui peuvent précéder directement un verbe (on remarquera la solidarité entre ces catégorisations).

On peut donc hésiter entre catégorie et partie du discours.

De plus, les catégories / parties du discours ont varié dans le temps.

Les grammairiens grecs ont construit huit catégories (dont l'article) et distinguait le participe du verbe. Les grammairiens latins ont conservé ce nombre mais n'avaient pas d'article ; ils ont donc supprimé la catégorie article et l'ont remplacée par interjection. Au départ, la catégorie adjectif n'existait pas et ce qu'on appelle aujourd'hui adjectif se rangeait sous le nom.

Dans un premier temps, on a distingué nom substantif et nom adjectif puis on a radicalisé cette coupure (au 18ème siècle) en opposant nom et adjectif. Au 20ème siècle, on a regroupé les possessifs, démonstratifs (etc.) — qui relevait auparavant de l'adjectif — et les articles dans une catégorie nommée déterminants.

La catégorisation en catégories grammaticales ou parties du discours n'est donc pas stable et demande une prise de décisions.

Un dictionnaire suppose des choix. Ces choix doivent-ils être indiqués ? justifiés ? Le faire, c'est construire un métadiscours.

Figements et appariements

Toute entreprise de rédaction de dictionnaire est confrontée à la question des « mots qui vont ensemble ». Traditionnellement, on appelle « locution » une séquence de mots qui se comporte grammaticalement comme un mot. On a ainsi des locutions prépositionnelles (à côté de), des locutions conjonctives (bien que), des locutions adverbiales (au fur et à mesure). Un dictionnaire classe alphabétiquement, mais classer « à côté de » à la lettre a est risqué.

Mais les locutions ne sont pas les seuls cas d'appariement de mots. On trouve aussi :

– des expressions figées comme casser sa pipe (on ne casse rien, il n'y a pas de pipe), faire d'une pierre deux coups, passer l'arme à gauche, jeter la pierre à quelqu'un, jeter l'éponge, les proverbes ;

– des collocations comme fièvre de cheval (il y a bien une fièvre mais il n'y a pas de cheval), colère noire, phrase élégante, rire jaune, croire dur comme fer, surfer sur le web, exécuter une ordonnance ;

– des noms composés comme coffre-fort, garde-barrière, ouvre-boîte, porte-fenêtre, qui n'ont pas tous le même statut sémantique ;

– des « verbes supports » qui forment un sens unique avec un nom comme prendre un bain (= se baigner), prendre la décision de (décider de), faire un voyage (= voyager), faire l'analyse de (= analyser), donner son soutien à (= soutenir), donner un avertissement (= avertir) ;

– en anglais, des phrasal verbs comme get/getting at (s'en prendre à, critiquer, atteindre), give/giving up (renoncer), look/looking forward to (attendre impatiemment, espérer), put/putting down (poser, se poser), throw/throwing up (vomir)

– ce que l'on appelle en anglais des lexical bundles (séquence récurrente de quelques mots, bundle signifie paquet) comme as far I know, I think so, pour ce que j'en sais, comme quoi il ne faut jamais ; il s'agit de mots qui « vont généralement ensemble » mais sans pour autant former une expression figée parce qu'ils ne veulent rien dire par eux-mêmes.

En linguistique informatique, on parle fréquemment de chunk pour désigner un syntagme à traiter comme un bloc (en anglais, chunk signifie gros morceau de quelque chose). Mais le statut de chunk ne semble pas encore très bien précisé.

Nous avons parlé d'appariement, que nous avons distingué de figement. A la place d'appariement, nous aurions pu utiliser cooccurrences. Nous avons préféré appariement parce que ce terme met bien en évidence l'opération sous-jacente à toutes les manifestations que nous avons vues : des mots, en petit nombre, s'associent pour former un sens nouveau mais qui reste proche d'au moins une partie des composants.

En revanche, un figement consiste en un processus d'autonomisation du sens. Un appariement peut déboucher ultérieurement sur un figement. Lorsqu'il y a figement, les locuteurs perdent la notion du ou des sens initiaux des composants. Les expressions figées sont l'aboutissement du processus de figement.

Les figements et les appariements ne sont pas toujours faciles à catégoriser et les frontières peuvent apparaître floues. Mais ce type de fonctionnement est important du point de vue dictionnairique : il montre qu'il y a des relations transversales entre les mots et que le sens ne se construit pas toujours par juxtaposition de sens qui se complètent. On constatera des flous terminologiques. Certains catégoriseront comme collocation ce que nous ne verrons que comme une simple cooccurrence, par exemple. Les façons de distinguer et de nommer les catégories variera aussi selon les langues.

Du point de vue dictionnairique, que faire des figements et des appariements ? L'ordre alphabétique ne permet pas de résoudre clairement ce problème. Ainsi, dans le Petit Robert, les noms composés porte-enseigne, [...] porte-fenêtre sont-ils après portée. De même, à quelle entrée rattacher tout à coup ou tout à fait ? Le Petit Robert place tout à coup à l'article coup alors qu'il met tout à fait à l'entrée tout, bien que, dans les deux cas, il n'y ait ni coup ni fait.

Remarque : La question des séparateurs dans les dictionnaires

La notion de séparateur est une notion générale. Elle n'implique pas seulement l'idée de séparation. Un séparateur permet de décomposer une séquence en deux composants plus ou moins catégorisés. Par exemple, en XML, < !-- sépare un commentaire de ce qui le précède : ce qui suit < !-- est catégorisé (c'est un commentaire) mais ce qui précède ne l'est pas.

Dans un dictionnaire, on aura deux sortes de séparateurs :

– les séparateurs qui distinguent des données, par exemple > peut signifier « on en tire », d'autre signe peut séparer deux sens trop proches pour être véritablement distingués mais néanmoins différents, — peut séparer une locution illustrant un emploi de ce qui la précède, etc. ;

– les séparateurs qui distinguent et hiérarchisent comme 1, A, a, etc.

En langue, les guillemets sont des séparateurs : ils distinguent le plan de la citation du plan de la narration.

On ne code pas les séparateurs en XML. Ils seront restitués à l'édition.

Métadonnées

Nous avons déjà vu la notion de métadonnée (2.1.) et nous avons distingué « métadonnées-objets » et « métadonnées-document », les premières caractérisant le contenu du document et les secondes donnant des informations sur le document. Dorénavant, nous utiliserons « métadonnées » pour désigner les « métadonnées-document ».

Quelles vont être les métadonnées pour un dictionnaire ? Un dictionnaire est rarement l'œuvre d'un auteur. Il y aura en général un directeur de publication qui coiffera toutes les éditions du dictionnaire, un chef de projet pour une édition donnée, des rédacteurs pour la rédaction des différents articles et des relecteurs-correcteurs pour l'édition finale. Un dictionnaire est un projet à long terme, il donnera donc lieu à différentes éditions. Le ou les modes d'édition (papier, électronique DVD, électronique web) forment aussi des informations nécessaires.

Toutes ces informations seront des métadonnées.

Présentation des balises <div> et <group> et leurs propriétés

Les deux balises <div> et <group> ont la particularité de n'être que des balises structurelles contrairement aux autres balises qui sont à la fois structurelles et fonctionnelles.

Dès lors, la question se pose de leur utilité.

<div> est utile pour :

créer différentes sections au sein du document (voir l'exemple d'un article de dictionnaire), qui permettent de traiter des objets différents en les mettant sur le même niveau hiérarchique (voir catalogue médiathèque) mais le caractère « vide » de <div> permet d'avoir différents niveaux hiérarchiques de divisions.
introduire de la clarté dans la structure globale du fichier

<group> est utile pour :

Créer un ensemble de données qui ne sont pas homogènes mais qui partagent des points communs
Introduire une vision globale potentielle.

Utilisation des balises <div> et <group> pour structuration des informations[zoom...]

Accueil

Imprimer