Les spécificités du balisage et DTD spécifiques pour corpus

Vous avez atteint une certaine technicité qui, certes, pourra et devra se développer au fur et à mesure que vous prendrez en compte la spécificité de la catégorisation de l'information dans tel ou tel domaine.

En attendant, il nous semble qu'il faudrait tenter d'élucider les « grandes » questions que pose le traitement de l'information pour tel objet et ce faisant — parce qu'un objet n'est jamais totalement indépendant d'un domaine de savoir et de savoir faire — les « grandes » questions que pose le traitement de l'information dans un domaine déterminé.

Pour ce faire, nous devons prospecter dans deux directions :

– dans la direction des réalisations actuelles (application d'XML, de ses usages, de ses « manières de faire », de ses limites) au domaine que l'on peut appeler « problématique des corpus » ;

– dans la direction des possibles envisageables pour le développement de l'étude des corpus.

Rappel : Rappelons quelques généralités concernant les corpus.

A partir des années 1950, la notion de corpus a été soit abandonnée, soit restreinte au domaine de la sociolinguistique. Aujourh'hui, elle revient en force.Mais ce retour appelle deux constat :

les corpus tendent à être de grande dimension afin de « couvrir » un champ qui soit le plus important possible, même si l'obtention de tels corpus n'est pas encore toujours aisée ;
les corpus tendent à être balisés selon des normes qui visent à compléter une simple application de XML.

On a donc une base, le langage XML, et des développements particuliers liés aux fonctionnalités envisageables des documents ou ressources.

On restreindra ici la notion de corpus à celle d'objet textuel écrit, sonore, ou vidéo.

Un corpus vidéo sera constitué de :

texte(s) oral/oraux
image(s) isolables
suite d'images séquençables

Un corpus vidéo sera appelé multimodal. Il peut combiner :

du son
du texte écrit
du visuel

Définition : Qu'est-ce qu'un texte ?

Pour définir texte, il faut d'abord donner sa caractéristique physique fondamentale.

Un texte est physiquement formé de signes graphiques ou sonores regroupés en « mots ».
Un texte est donc un objet qui peut être écrit ou parlé.

Pour définir texte, il faut ensuite définir unité textuelle.

Une unité textuelle est un ensemble de « mots » qui forment une information homogène.

On remarque immédiatement que ces définitions demeurent assez vagues et que « mot » n'est pas ici défini.

On assimilera unité textuelle : à l'écrit, à une phrase ; à l'oral, à une période homogène sémantiquement et prosodiquement.

Avant de poursuivre, il faut se demander ce qu'est un mot.

A l'écrit, un mot sera une unité graphique distinguée par un séparateur gauche et par un séparateur droit.

Classe des séparateurs : blanc, apostrophe, signe de ponctuation (,;:.!?).

Remarque :

Remarque : cela entraînera des erreurs que l'on ne peut éviter qu'en recourant à un lexique défini préalablement

Erreur de type 1 : si l'oiseau correspond bien à deux mots, s'emparer n'est qu'un mot (s' étant une partie de la flexion), s'enfuir et s'envoler seront tantôt un mot (dans la conjugaison) tantôt deux mots afin de permettre enfuies les journées de bonheur ! ou envolées les promesses !

Erreur de type 2 : au fur et à mesure forme une unité-mot (que l'on appelle locution par souci de conserver l'historique de la formation de cette unité) ; puisque a été regroupé, mais pas bien que et parce que ne l'a été que partiellement.

A l'oral, les choses sont plus complexes parce que l'on n'a pas de séparateurs entre les mots. La notion de mot suppose dès lors une procédure de découpage. Un humain procède à ce découpage sans trop de difficultés, dès lors que la chaîne linguistique est audible ; ce qui semble montrer que nous possédons, mentalement, cette procédure de découpage.

Nous ne pouvons traiter ici cette question.

Définition : Qu'est-ce qu'un texte ?

Physiquement, un texte est ce que nous venons d'expliciter partiellement.

Cognitivement, un texte ne peut pas être que cela :

La compréhension d'un texte écrit ou oral fait appel à des opérations transversales (l'anaphore en est un exemple, mais il y en a d'autres, l'interprétation de finalement demande souvent le cumul d'informations précédentes et ce n'est qu'un exemple).
La compréhension d'un texte écrit ou oral fait appel à des opérations de reconstruction (ellipses).
La compréhension d'un texte écrit ou oral fait appel à des opérations trans-textuelles (tout texte s'inscrit dans un intertexte cf. référence)

La compréhension d'un texte écrit ou oral fait appel à une opération de catégorisation en genres discursifs (la même information, X a peur, ne sera pas interprétée identiquement dans un résumé de film, dans un traité des émotions ou dans un roman policier).

Les opérations transversales et les opérations de reconstruction relèveront du codage interne au document. En revanche, les opérations trans-textuelles (intertexte) et les opérations de catégorisation en genres discursifs relèveront du Header.

Remarque : Remarque sur les textes oraux

Un texte oral peut être monologal ou dialogal.

NB. Pourquoi dit-on monologal et dialogal et non monologique et dialogique, empruntant ces termes à Eddy Roulet et à Catherine Kerbrat-Orecchioni ?

Les termes monologique et dialogique ont déjà été utilisés par Mikhail Bakhtine pour distinguer deux types de romans : les romans qui donnent le « mot » de l'auteur sont monologiques (prototype : Tolstoï ) ; les romans qui laissent leur « mot » à chaque personnage sont dialogiques (prototype : Dostoïevski).

Un texte oral monologal déroule la parole d'une seule personne ; un texte oral dialogal met en scène plusieurs locuteurs. Un texte oral dialogal peut comporter des passages monologaux.

Pourquoi distingue-t-on monologal et dialogal ? Parce qu'une production monologale ne comporte que des ajustements au thème alors qu'une production dialogale comporte en outre des ajustements aux réactions des interlocuteurs.

Métadonnées

Nous avons déjà vu la notion de métadonnée (dans Balises - Attributs - Header.) et nous avons distingué « métadonnées-objets » et « métadonnées-document », les premières caractérisant le contenu du document et les secondes donnant des informations sur le document. Dorénavant, nous utiliserons « métadonnées » pour désigner les « métadonnées-document ».

Quelles vont être les métadonnées pour un corpus ? Un corpus peut-être « composé » ou « simple ». Un corpus composé (cf. GROUP ci-dessous) réunit des corpus simples. Les métadonnées d'un corpus composé donneront les informations qui caractérisent l'ensemble du corpus, exemples : « ce corpus est composé de... et de... » ; « tous les documents de ce corpus de ce corpus ont... pour objet » ; « ce corpus représente tel ensemble intertextuel » ; etc.

Les opérations trans-textuelles (intertexte) donneront donc lieu à des métadonnées informant sur un corpus composé.

En revanche, les métadonnées d'un corpus simple (ou de chaque document d'un corpus complexe) donneront des informations sur le document (ou sur tel document d'un corpus complexe), comme :

– l'auteur du document s'il s'agit d'un texte écrit ;

– les locuteurs qui interviennent dans un texte oral dialogal ;

– le lieu et la date (et l'heure, éventuellement) d'enregistrement d'un texte oral ;

– la date et le lieu de publication ou de production d'un texte écrit ;

– le système de normes utilisées pour transcrire un texte oral ;

– le genre discursif du document ;

– etc.

Toutes ces informations caractérisent le document et permettent de le traiter conformément à son contexte et d'en proposer des interprétations raisonnées.

Présentation des balises <div> et <group> et leurs propriétés

Les deux balises <div> et <group> ont la particularité de n'être que des balises structurelles contrairement aux autres balises qui sont à la fois structurelles et fonctionnelles.

Dès lors, la question se pose de leur utilité.

<div> est utile pour :

créer différentes sections au sein du document (voir l'exemple d'un article de dictionnaire), qui permettent de traiter des objets différents en les mettant sur le même niveau hiérarchique (voir catalogue médiathèque) mais le caractère « vide » de <div> permet d'avoir différents niveaux hiérarchiques de divisions.
introduire de la clarté dans la structure globale du fichier

<group> est utile pour :

Créer un ensemble de données qui ne sont pas homogènes mais qui partagent des points communs
Introduire une vision globale potentielle.

Utilisation des balises <div> et <group> pour structuration des informations[zoom...]

Imprimer