Versione stampabile

Céline POUDAT, Ciara R. WIGHAM et Loïc LIÉGEOIS (coord.)

Corpus Complexes. Traitements, standardisation et analyse des corpus de communication médiée par les réseaux

Céline POUDAT, Ciara R. WIGHAM et Loïc LIÉGEOIS (coord.), Corpus Complexes. Traitements, standardisation et analyse des corpus de communication médiée par les réseaux, « Corpus [Online] », 20 | 2020.

Coordonné par Céline POUDAT, Ciara R. WIGHAM et Loïc LIÉGEOIS, le numéro 20 de la revue Corpus s’intéresse aux formes écrites de la Communication Médiée par les Réseaux (CMR) du point de vue méthodologique de la constitution des corpus relatifs, de leur exploitation ainsi que de leur standardisation. Au fil des contributions, qui s’appuient sur des corpus issus de médias sociaux différents, plusieurs aspects de la complexité de ce type de corpus sont mis en relief et quelques propositions visant justement à la diminuer sont avancées. Étant donné l’hétérogénéité des données analysées, l’unité textuelle et les modalités de structuration du corpus sont envisagées et remises en question de manière différente dans les divers articles, qui contribuent ainsi à enrichir la réflexion au niveau générique.

Dans l’introduction au dossier thématique, les coordinateurs passent en revue les diverses difficultés posées par la constitution de corpus relevant de la CMR : de la gestion et traitement des multiples traces relatives à la situation d’énonciation, à l’organisation des données selon les objectifs de recherche, jusqu’à l’hybridité des discours et des genres. Les spécificités de la CMR appellent ainsi une réflexion sur les pratiques d’exploration de ce type de corpus et notamment sur la caractérisation des genres différents dont ils relèvent, sur la possibilité de mettre en place des études contrastives entre des corpus représentant des formes diverses de la CMR, ainsi que sur les questions de la représentation et de la structuration du corpus.

Le dossier s’ouvre sur un texte de C. POUDAT qui souhaite rendre hommage à la personne de Thierry Chanier, auteur d’avancées significatives dans le domaine de la didactique des langues et de la linguistique de corpus, en retraçant les principales étapes de sa carrière académique. Poudat met en lumière la portée innovante des recherches conduites par T. Chanier ainsi que des projets auxquels il a participé dans le cadre de l’application de l’intelligence artificielle (IA) à l’apprentissage des langues. Elle insiste en particulier sur les initiatives qui ont encouragé les recherches en matière de traitement et de standardisation des corpus, en rappelant entre autres le consortium de linguistique CORLI (Corpus, Langues, Interactions) qui lance des appels annuels à finalisation de corpus, et le projet national CoMeRe (Communication Médiée par les Réseaux) qui a vu la constitution d’un corpus représentatif de la CMR il y a quelques années.

Une description du projet CoMeRe est restituée dans l’article suivant, « Corpus complexes et standards : un retour sur le projet CoMeRe », rédigé par C. R. WIGHAM et C. POUDAT dans le but de mettre en relief la complexité du corpus issu de ce projet. Fédérant quatorze sous-corpus variés, ce corpus se veut un corpus de référence de la CMR en français, dont la construction a été basée sur trois lignes directrices : (a) la variété des dispositifs et donc des formes de la CMR en en restituant une représentation équilibrée ; (b) l’interopérabilité des données et (c) la diffusion du corpus en accès ouvert afin de le mettre à disposition de la communauté scientifique. Après avoir présenté les principes de fond de la constitution du corpus, les auteures détaillent sa composition en fonction des huit dispositifs et des genres divers de la CMR qui y sont représentés. Dans la deuxième partie de l’article, l’attention est dirigée vers le processus de standardisation de la structuration des données, à partir du paramétrage et de la modélisation de la situation de communication particulière, jusqu’à l’application du modèle généralisé standard aux différents dispositifs. Cette section applicative est illustrée à travers l’exemplification de deux sous-corpus faisant partie du corpus CoMeRe qui relèvent de genres distincts, les tweets politiques et la communication dans le monde synthétique de Second Life. Enfin, un bilan de l’exploitation du corpus est proposé en parallèle avec une réflexion sur la complexité des traitements requis par ce type des données.

La proposition d’un schéma et de modèles de représentation et de structuration des corpus de la CMR en format TEI (Text Encoding Initiative) est au cœur de l’article suivant, « CMC-core: a schema for the representation of CMC corpora in TEI », co-écrit par Michael BEIßWENGER et Harald LÜNGEN. Les auteurs signalent en effet un manque de schémas et d’outils adéquats pour encoder les caractéristiques spécifiques de la CMR qu’ils se proposent ainsi de combler. Après avoir présenté les projets et les collaborations même internationales qui ont contribué au développement de cette proposition de standardisation, une réflexion sur la modélisation des unités de base de la communication médiée par réseaux ainsi que des structures de ses dispositifs sert de base pour la présentation du CMC-Core. Il s’agit d’un schéma nouveau en format TEI développé par les auteurs pour encoder des corpus de CMR afin de restituer de manière appropriée leurs caractéristiques spécifiques. Par le CMC-Core, Beißwenger et Lüngen introduisent un ensemble de traits d’encodage spécifiques à la CMR sur quatre niveaux : (a) éléments, (b) classes de modèles, (c) classes d'attributs et (d) modules de l'infrastructure TEI, qu’ils détaillent en faisant recours au vocabulaire technique de la TEI. Le CMC-Core est enfin illustré au moyen d’exemples extraits des corpus des chercheurs du groupe SIG TEI CMC, dans le but de restituer une grande variété de genres de la CMR (entre autres, le chat, le wiki talk, le tweet, le blog, les interactions Second Life).

Dans la contribution suivante « A French text-message corpus: 88milSMS. Synthesis and usage », Rachel PANCKHURTST, Cédric LOPEZ et Mathieu ROCHE présentent la constitution et les usages principaux du corpus 88milSMS, issu du projet sud4science, faisant partie à son tour du projet international sms4science, qui a contribué à la création d’une base de données mondiale avec l'objectif d’analyser des messages texte authentiques dans différentes langues. Tout d’abord, les diverses étapes qui ont permis la constitution du corpus sont brièvement résumées, de la structuration des données aux choix méthodologiques en déterminant la collecte, jusqu’aux traitements d’anonymisation et d’annotation. Afin d’en montrer le potentiel, les auteurs donnent un aperçu de plusieurs travaux en sciences du langage et en traitement automatique des langues (TAL) qui ont analysé l'évolution des pratiques d'écriture du discours numérique en s’appuyant justement sur ce corpus. D’autres usages de 88milSMS sont ensuite mis en relief à partir de deux sondages réalisés en 2017 et en 2019 via la newsletter scientifique activée depuis le téléchargement du corpus sur la plateforme Huma-Num (http://88milsms.huma-num.fr/) en 2014. Quelques propositions pour la collecte et l’analyse de données textuelles sont enfin évoquées dans la conclusion.

Les acquis et les développements issus de plusieurs projets de recherche menés depuis 2013 à propos de l’analyse de tweets politiques sont exposés par Julien LONGHI dans « Explorer des corpus de tweets : du traitement informatique à l’analyse discursive complexe ». L’article s’ouvre sur la caractérisation du tweet politique comme genre de discours, en présentant à la fois ses traits distinctifs et les problématiques de recherche associées. Les enjeux posés par la constitution et l’exploration d’un corpus relevant de ce genre discursif sont développés et ensuite mis en relation plus largement avec les modes d’appréhension et de constitution en corpus des données issues des réseaux sociaux numériques, motivant enfin le choix d’adopter une méthode d'analyse mixte quanti-qualitative. Après la présentation d’interfaces d’exploration et d’analyse spécialement conçues pour ce genre discursif telle la plateforme #Idéo2017, un exemple d’exploration de ce type de corpus est illustré dans la dernière partie de l’article à travers l’utilisation d’outils d’analyse des données textuelles (entre autres, l’analyse de similitudes, l’analyse de cooccurrences, la méthode Alceste) combinés avec un retour qualitatif au texte afin d’avoir accès aux aspects contextuels des discours. L’article montre ainsi les apports d’une analyse à la fois contextuelle et outillée dans l’appréhension linguistique de données sociales, mettant aussi en lumière la portée citoyenne d’une recherche de ce type.

Dans la contribution suivante, « De la segmentation dans les tweets : signes de ponctuation, connecteurs, émoticônes et émojis », Jean-Philippe MAGUÉ, Nathalie ROSSI-GENSANE et Pierre HALTÉ s’intéressent eux aussi à la communication médiée par Twitter et plus précisément aux procédés de segmentation à l'œuvre dans les tweets. Après quelques considérations générales relatives aux caractéristiques des tweets en tant que forme brève de la CMR, les auteurs présentent leur corpus d’étude constitué de plus de trois millions de tweets recueillis en décembre 2016. Ils rappellent ensuite les procédés de segmentation qui sont généralement mis à l’œuvre à l’écrit au niveau syntaxique, en se penchant sur les signes de ponctuation et sur les connecteurs. L’attention se dirige ainsi vers la manière dont s’opère la segmentation dans les tweets par le biais de ces deux procédés spécifiques, avant de proposer une réflexion sur les cas de tweets présentant une sous- ou une sur-segmentation. L’emploi et la distribution des émoticônes et des émojis en tant que moyens de segmentation sont enfin décrits et illustrés par des exemples tirés du corpus qui fait l’objet de l’analyse, montrant qu’ils représentent des procédés spécifiques qui contribuent à la diversification des stratégies de segmentation utilisées dans les tweets.

L’étude d’Eva SCHAEFFER-LACROIX portant sur le potentiel du corpus web dans le cadre de l’apprentissage des langues médiées par les technologies (ALMT) constitue le dernier article du dossier thématique. Dans « Les corpus web à travers le prisme de l’ALMT », l’auteure propose d’abord une réflexion sur les caractéristiques des corpus destinés à une exploitation pédagogique. Après avoir rappelé les définitions de « corpus pédagogique », « corpus réflexif » et « corpus web », elle dresse un bilan contrastif entre les apports des corpus web et ceux des corpus réflexifs dans l’enseignement et apprentissage d’une langue étrangère en contexte scolaire. Schaeffer-Lacroix discute ensuite les points forts des corpus web dans la didactique des langues étrangères, soulignant aussi les défis à relever pour la constitution de ce type de corpus. Elle se focalise sur trois paramètres en particulier : la taille du corpus, son contenu et la qualité des données. L’article s’achève avec une section applicative qui vise à éclairer le potentiel pédagogique de trois types de corpus dans le cadre d’une classe d’élèves en quatrième année d’apprentissage de l’allemand. À travers l’exemple d’un scénario pédagogique, Kleinanzeigen [petites annonces], décrit en association avec le protocole de recherche relatif, l’auteure illustre comment ces différents corpus peuvent être employés de manière efficace afin d’explorer certaines caractéristiques de la langue étrangère en cours d’apprentissage à partir des usages concrets.

Outre le dossier thématique, deux articles sont publiés sous la rubrique Varia. L’un, rédigé par Johanna Henrion-Latché et Emmanuèle Auriac-Slusarczyk, est de nature méthodologique et s’intéresse au codage des discours d’adolescents fragilisés ; l’autre, rédigé par Gaetan Moreau, porte sur la détermination du sens ordinaire d’un terme en droit international à travers l’analyse d’un corpus multilingue aligné.

Dans « Étude sémantico-pragmatique du discours au profit d’un décryptage du parcours psychologique suivi d’adolescents fragilisés. Proposition d’une démarche de codage de discours », Johanna HENRION-LATCHÉ et Emmanuèle AURIAC-SLUSARCZYK adoptent une approche sémantico-pragmatique pour analyser des discours d’adolescents fragilisés afin d’en relever la singularité psychologique par rapport à leurs parcours de résilience. Les auteures exposent avant tout le cadrage sémantique de l’analyse, qui se base sur les facteurs pathogènes classiques de la résilience : les univers référentiels de la loi, du sens et du lien sont considérés comme des indices de l’enclenchement de ce processus, alors que celui de la honte représente un indicateur négatif. L’étude vise ainsi à identifier les changements de posture des sujets suivis par rapport à ces quatre aspects, en s’appuyant sur les transcriptions verbales normées des dix-huit conversations suivies. Une grille discursive d’évaluation de la résilience a été spécialement construite en référence à la situation de parole examinée dans le but de mesurer les mécanismes d’évolution/involution résiliente sur une échelle de valeur avec cinq degrés. La mise en application de cette grille est ensuite illustrée à partir de quatre cas d’élèves dont les auteures reconstruisent le profil discursif. Dans la partie conclusive, J. Henrion-Latché et E. Auriac-Slusarczyk discutent enfin les apports de leur démarche d’analyse en s’interrogeant sur le caractère singulier versus transférable de leur étude.

L’article de Gaetan MOREAU, « Détermination du sens dans un corpus multilingue aligné : le cas de la résolution 242 (1967) du Conseil de sécurité́ de l’ONU et du déterminant zéro pluriel anglais », s’attache à montrer que l’analyse de corpus et la production de statistiques descriptives quantitatives permettent de déterminer de manière plus rigoureuse le sens ordinaire d’un terme dans un discours de droit international. Pour ce faire, il étudie le cas de la résolution 242 (1967) du Conseil de sécurité faisant suite à la guerre des six jours entre Israël et les États arabes voisins, en raison de l’ambiguïté de sens des déterminants zéro pluriels de la version anglaise, sur laquelle se base également la traduction française. Après avoir retracé l’historique de la résolution ainsi que les sens possibles du déterminant zéro pluriel anglais, Moreau construit un inventaire des possibilités de sens pour les trois déterminants zéro de l’expression considérée comme ambiguë, obtenant huit sens anglais possibles et quatre français. Une description de l’étiquetage morphosyntaxique du déterminant zéro pluriel anglais et des traduisants français respectifs précède la comptabilisation des types de déterminant en français qui correspondent au déterminant zéro pluriel anglais afin d’en identifier l’acception « générale et habituelle », c’est-à-dire le sens ordinaire. Le détail des traductions est fourni sous forme de tableau avant d’illustrer chaque catégorie par quelques exemples. La variation des traductions françaises du déterminant zéro pluriel anglais est ensuite analysée même au niveau diachronique au cours des soixante-dix années de production du Conseil de sécurité. Par cette étude, Moreau met en lumière l’apport de l’analyse linguistique de corpus au discours juridique, montrant comment l’exploitation de corpus parallèles multilingues permet de répondre à la nécessité d’une identité́ de sens entre les versions en différentes langues d'un même texte juridique.


[Claudia CAGNINELLI]

Per citare questo articolo:

Céline POUDAT, Ciara R. WIGHAM et Loïc LIÉGEOIS (coord.), Corpus Complexes. Traitements, standardisation et analyse des corpus de communication médiée par les réseaux, Carnets de lecture n.40, 45, 0, http://farum.it/lectures/ezine_articles.php?id=600

Il logo di Farum

Questo sito è stato realizzato con DOMUS