Introduction au langage XML

Analyse de composants d'un texte extrait d'un corpus écrit

Nous allons nous interroger sur la notion de corpus et sur la structure d'un texte extrait d'un corpus écrit

Il nous faut nous mettre d'accord sur la notion de corpus avant toute analyse

DéfinitionDéfinition générale de la notion de corpus

Un corpus est un ensemble de données recueillies pour analyse

En linguistique, deux courants se sont fréquemment opposés

– le courant des partisans des données attestées recueillies sous la forme de corpus à analyser (la grammaire distributionnelle étant prototypique de ce courant);

– le courant des partisans des données construites par un locuteur natif (la grammaire générative étant prototypique de ce courant).

Ce n'est toutefois pas le lieu de discuter des arguments des uns et des autres.

En grammaire distributionnelle, le corpus est un ensemble de données recueillies auprès d'un locuteur natif. Cela peut prendre la forme de textes ou de listes d'énoncés.

Mais cette notion de corpus a beaucoup évolué à partir du début des années 1990 (ce qui correspond à la généralisation des grands réseaux comme l'internet). On a commencé alors à parler de « linguistique de corpus » pour désigner un type d'analyse de corpus à l'aide de l'outil informatique.

Remarque

Remarque terminologique : alors qu'en français on dira un corpus vs des corpus, en anglais on aura a corpus vs corpora.

En linguistique de corpus, un corpus est constitué de textes, écrits ou oraux. Mais on peut distinguer différents types de textes. Nous allons nous limiter à deux types de textes :

– le type narratif (récit),

– le type argumentatif.

Nous allons nous interroger sur ce qui distingue ces deux types. Autrement dit, nous allons chercher quelles catégories d'information caractérisent chaque type de textes.

Commençons par le type narratif. Vous pouvez lire le texte ci-contre.

Texte narratif

Que constate-t-on à la lecture de ce texte ?

Ce texte comporte :

– le texte commence par une localisation temporelle (« Ce jour-là »), celle-ci n'est pas obligatoire mais un récit sera souvent localisé temporellement et spatialement ;

– les temps verbaux sont principalement l'imparfait et le passé simple (plutôt le passé composé à l'oral), là encore ce n'est pas obligatoire, on peut avoir un récit au présent, plus rarement au futur ;

– des événements se succèdent (mais ils ne sont pas toujours donnés dans l'ordre temporel strict) ;

– des personnages parsèment le récit ;

– le discours rapporté direct ou indirect est possible.

Localisation et temps verbal

Voici la location temporelle et les temps verbaux du récit

Et ensuite

voici les personnages...

Les personnages dans le récit

Enfin

Les discours rapportés

... le discours rapporté

Comparons ce récit à un texte argumentatif.

On peut s'attendre à ce qu'un texte argumentatif ne comporte :

– ni événements,

– ni personnages,

– ni discours rapporté ou direct (ce serait alors un discours d'autorité),

– ni localisation temporelle ou spatiale (une argumentation se doit d'être a priori universelle ou, au moins, générale,

– ni temps verbaux passés (a priori, une argumentation est orientée vers le présent ou l'avenir).

Alors, que contient un texte argumentatif ?

Lisez le texte argumentatif ci-contre

Le texte argumentatif

Que constate-t-on à la lecture de ce texte argumentatif ?

Il commence par une méta-question (une question qui n'attend pas une réponse mais qui planifie la suite du texte). Il y a toujours une méta-question, au moins sous-jacente, dans un texte argumentatif.

Il oppose deux positions. Dans certains textes argumentatifs, l'une de ces positions est dominante, l'autre secondaire. Ici, elles apparaissent mises sur le même plan. Il y a, en effet, deux types d'argumentations, celles qui proposent une position déterminée et celles qui offrent un panorama à partir duquel le lecteur ou l'auditeur pourra se forger une position propre.

Voici la méta-question...

La méta-question

Les textes argumentatifs ont aussi conduit à s'interroger sur les « connecteurs » et sur les « cadratifs ».

Les connecteurs sont des « outils grammaticaux » qui lient deux syntagmes (exemples : parce que, bien que, et, mais, donc, etc.) Ils sont aussi présents dans un récit (puis, alors, à ce moment-là, etc.).

Les connecteurs

et les connecteurs...

... et les cadratifs

Les cadratifs sont permettent « d'ouvrir un cadre ». Le meilleur exemple est selon. Où s'arrête le cadrage par selon dans l'exemple suivant : « Selon Pierre, Marie arrivera demain. Elle a l'intention d'aller à la mer. J'espère que... » Dans cet exemple, le cadrage par selon s'arrête à « à la mer ». Dans d'autres cas, on ne peut préciser la fin du cadrage.

Les cadratifs

Remarque

Un cadratif permet de saisir le début ou la fin d'un passage qui peut être un renvoi à une autre époque, à l'opinion de quelqu'un d'autre

Les cadratifs sont entourés et illustrés dans le texte ci-contre

Les cadratifs illustrés

Concernant les corpus, on obtient ainsi tout un ensemble de catégories, comme :

– localisation,

– personnage,

– citation,

– discours rapporté indirect,

– événement,

– connecteur,

– cadratif,

– argument,

– etc.

Certains sont assez faciles à repérer, d'autres demanderont des éclaircissements (événement, argument notamment).

Mais dans tous les cas, on remarque qu'il y a une correspondance entre certaines catégories et un domaine ;

exemple 1 : localisation, événement correspondent à récit ;

exemple 2 : méta-question, argument correspondent à argumentation.

En revanche, certaines catégories appartiennent aux deux types de textes, comme les connecteurs (mais certains auront plus d'affinités avec l'un des types de textes).

Cette correspondance entre catégorie et type de documents n'est pas nouvelle. Nous l'avons déjà vue dans le cas des notices documentaires.

Fondamental

Munis de toutes ces catégories, liées chaque fois à un domaine déterminé et parfois à un type de documents au sein de ce domaine, nous pouvons maintenant aborder la notion de balise.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)