Analyse de composants d'un texte extrait d'un corpus écrit
Nous allons nous interroger sur la notion de corpus et sur la structure d'un texte extrait d'un corpus écrit
Il nous faut nous mettre d'accord sur la notion de corpus avant toute analyse
Définition : Définition générale de la notion de corpus
Un corpus est un ensemble de données recueillies pour analyse
En linguistique, deux courants se sont fréquemment opposés
– le courant des partisans des données attestées recueillies sous la forme de corpus à analyser (la grammaire distributionnelle étant prototypique de ce courant);
– le courant des partisans des données construites par un locuteur natif (la grammaire générative étant prototypique de ce courant).
Ce n'est toutefois pas le lieu de discuter des arguments des uns et des autres.
En grammaire distributionnelle, le corpus est un ensemble de données recueillies auprès d'un locuteur natif. Cela peut prendre la forme de textes ou de listes d'énoncés.
Mais cette notion de corpus a beaucoup évolué à partir du début des années 1990 (ce qui correspond à la généralisation des grands réseaux comme l'internet). On a commencé alors à parler de « linguistique de corpus » pour désigner un type d'analyse de corpus à l'aide de l'outil informatique.
Remarque :
Remarque terminologique : alors qu'en français on dira un corpus vs des corpus, en anglais on aura a corpus vs corpora.
En linguistique de corpus, un corpus est constitué de textes, écrits ou oraux. Mais on peut distinguer différents types de textes. Nous allons nous limiter à deux types de textes :
– le type narratif (récit),
– le type argumentatif.
Nous allons nous interroger sur ce qui distingue ces deux types. Autrement dit, nous allons chercher quelles catégories d'information caractérisent chaque type de textes.
Commençons par le type narratif. Vous pouvez lire le texte ci-contre. |
Que constate-t-on à la lecture de ce texte ?
Ce texte comporte :
– le texte commence par une localisation temporelle (« Ce jour-là »), celle-ci n'est pas obligatoire mais un récit sera souvent localisé temporellement et spatialement ;
– les temps verbaux sont principalement l'imparfait et le passé simple (plutôt le passé composé à l'oral), là encore ce n'est pas obligatoire, on peut avoir un récit au présent, plus rarement au futur ;
– des événements se succèdent (mais ils ne sont pas toujours donnés dans l'ordre temporel strict) ;
– des personnages parsèment le récit ;
– le discours rapporté direct ou indirect est possible.
Voici la location temporelle et les temps verbaux du récit |
Et ensuite
voici les personnages... |
Enfin
... le discours rapporté |
Comparons ce récit à un texte argumentatif.
On peut s'attendre à ce qu'un texte argumentatif ne comporte :
– ni événements,
– ni personnages,
– ni discours rapporté ou direct (ce serait alors un discours d'autorité),
– ni localisation temporelle ou spatiale (une argumentation se doit d'être a priori universelle ou, au moins, générale,
– ni temps verbaux passés (a priori, une argumentation est orientée vers le présent ou l'avenir).
Alors, que contient un texte argumentatif ?
Lisez le texte argumentatif ci-contre |
Que constate-t-on à la lecture de ce texte argumentatif ?
Il commence par une méta-question (une question qui n'attend pas une réponse mais qui planifie la suite du texte). Il y a toujours une méta-question, au moins sous-jacente, dans un texte argumentatif.
Il oppose deux positions. Dans certains textes argumentatifs, l'une de ces positions est dominante, l'autre secondaire. Ici, elles apparaissent mises sur le même plan. Il y a, en effet, deux types d'argumentations, celles qui proposent une position déterminée et celles qui offrent un panorama à partir duquel le lecteur ou l'auditeur pourra se forger une position propre.
Voici la méta-question... |
Les textes argumentatifs ont aussi conduit à s'interroger sur les « connecteurs » et sur les « cadratifs ».
Les connecteurs sont des « outils grammaticaux » qui lient deux syntagmes (exemples : parce que, bien que, et, mais, donc, etc.) Ils sont aussi présents dans un récit (puis, alors, à ce moment-là, etc.).
et les connecteurs... |
... et les cadratifs Les cadratifs sont permettent « d'ouvrir un cadre ». Le meilleur exemple est selon. Où s'arrête le cadrage par selon dans l'exemple suivant : « Selon Pierre, Marie arrivera demain. Elle a l'intention d'aller à la mer. J'espère que... » Dans cet exemple, le cadrage par selon s'arrête à « à la mer ». Dans d'autres cas, on ne peut préciser la fin du cadrage. |
Remarque :
Concernant les corpus, on obtient ainsi tout un ensemble de catégories, comme :
– localisation,
– personnage,
– citation,
– discours rapporté indirect,
– événement,
– connecteur,
– cadratif,
– argument,
– etc.
Certains sont assez faciles à repérer, d'autres demanderont des éclaircissements (événement, argument notamment).
Mais dans tous les cas, on remarque qu'il y a une correspondance entre certaines catégories et un domaine ;
exemple 1 : localisation, événement correspondent à récit ;
exemple 2 : méta-question, argument correspondent à argumentation.
En revanche, certaines catégories appartiennent aux deux types de textes, comme les connecteurs (mais certains auront plus d'affinités avec l'un des types de textes).
Cette correspondance entre catégorie et type de documents n'est pas nouvelle. Nous l'avons déjà vue dans le cas des notices documentaires.
Fondamental :
Munis de toutes ces catégories, liées chaque fois à un domaine déterminé et parfois à un type de documents au sein de ce domaine, nous pouvons maintenant aborder la notion de balise.