Damon MAYAFFRE, Laurent VANNI (dir.), L’intelligence artificielle des textes. Des algorithmes à l’interprétation, Paris, Honoré Champion, 2021, pp. 265
Ce livre entend montrer comment l’intelligence artificielle ouvre de nouvelles possibilités aux sciences du langage, notamment en analyse de corpus, tout en introduisant de nouveaux observables linguistiques.
Les cinq chapitres qui composent l’ouvrage permettent d’aborder des questions théoriques mais également l’étude de quelques cas spécifiques (littérature française et latine, discours politiques).
Dans le premier chapitre, Laurent VANNI et Frédéric PRECIOSO (pp. 15-72) introduisent la notion de passage, qui a été théorisée par François Rastier en 2007, en tant que nouvel observable de l’analyse de données textuelles (ADT) à la place de la phrase. Il s’agit de zones de textes suffisamment longues pour que la machine arrive à les découper et à « interpréter » correctement en raison de la présence de corpus d’entraînement suffisamment homogènes et de marqueurs linguistiques précis, qui lui permettent aussi de trouver ensuite des passages-clés. L’utilisation de Word2Vec pour le « word embidding » à la place de BERT permet la prise en compte des relations sémantiques lors de la représentation des mots et de leur « sens », ce qui s’est révélé particulièrement efficace pour la représentation des corpus concernés.
Si après les travaux de Jacques Le Cun, la convolution est désormais un incontournable pour l’apprentissage des réseaux neuronaux, la « déconvolution » devient fondamentale, selon les auteurs de ce chapitre, pour trouver les saillances du texte analysé. C’est cette étape, en effet, qui permet de marquer les éléments les plus fréquents du corpus, les marqueurs linguistiques, et donc de différencier les auteurs et les styles des textes concernés. Des paramètres ajustés par la pondération de la déconvolution permettent d’améliorer les performances de la machine et de son analyse des textes sur plusieurs éléments à la fois (forme graphique des mots, grammaire, lemmes). Cette architecture permet aux dispositifs d’apprentissage profond d’atteindre un degré d’accurancy (précision) de 100%. L’utilisation de cette architecture permet à la machine de distinguer les auteurs et de trouver les passages-clés des textes mais ce n’est qu’en utilisant également des modèles statistiques traditionnels, lors du pré-éditing afin d’ éliminer les biais, que la machine peut éviter les interprétations fautives. Ce modèle est donc hybride, puisqu’il croise l’approche d’apprentissage profond avec l’approche statistique traditionnelle utilisée en linguistique de corpus. Le logiciel Hyperbase de l’Université de Nice est un exemple de ce type d’approche.
Le deuxième chapitre, signé par Étienne BRUNET, Ludovic LEBART et Laurent VANNI (pp. 73-130), montre l’utilisation de l’intelligence artificielle pour l’analyse de corpus littéraires. Il s’ouvre par la comparaison entre les mesures classiques de la distance intertextuelle utilisées pour distinguer les textes de deux auteurs différents, ainsi que les méthodes de représentation du Tableau lexical entier (TLE) qui permet de classer hiérarchiquement les fréquences lexicales, et la nouvelle approche de l’apprentissage profond qui permet de decoder l’ADN du texte littéraire. Les auteurs donnent l’exemple d’un corpus de 50 romans français du XXe siècle et d’un corpus du théâtre classique pour montrer la précision majeure que la démarche d’apprentissage profond permet d’atteindre. À travers la déconvolution, les résultats des analyses du corpus s’améliorent. Cela dit, la question de la compréhension du fonctionnement des dispositifs d’apprentissage profond reste ouverte. Si les auteurs privilégient l’approche supervisée pour suivre en transparence le processus d’apprentissage de la machine, ils s’interrogent également sur ce que l’approche non supervisée pourrait donner comme résultat. À ce propos, des tests montrent que cette approche peut être complémentaire de l’autre et que l’analyse par de « multiples niveaux d’abstraction » (p. 127) ne peut qu’ajouter des éléments d’intérêt à la compréhension plus générale des textes concernés. Ainsi, non seulement les méthodes statistiques traditionnelles et celles d’apprentissage profond peuvent être complémentaires, mais aussi l’apprentissage supervisé et l’apprentissage non supervisé peuvent l’être.
Magali GUARESI et Damon MAYAFFRE (pp. 131-182) reviennent, dans le troisième chapitre du livre, sur les observables linguistiques (« motifs complexes, zones ou grandeurs textuelles à définir, ‘formes sémiotiquement saillantes’ », p. 138) que les analystes peuvent déceler lors de l’utilisation de l’intelligence artificielle. Les auteurs présentent le cas de l’analyse du discours politique (discours parlementaires et présidentiels français). En redécouvrant l’approche harrissienne à côté de celle de l’analyse française du discours, les auteurs décrivent à l’aide de la machine les textes de la gauche et de la droite française de 1958 à 2017 pour suivre l’évolution du lexique et du discours mais également pour faire une comparaison avec les discours actuels du président Macron. Les choix faits par les analystes préalablement à l’analyse est de fixer le cotexte à 6 N-grammes, en évitant donc la répartition du texte en phrases, et de prendre en compte une dimension méso de 100 mots (le passage) qui permettent à la machine de détecter la présence d’un auteur ou d’un genre discursif précis. La prise en compte de l’approche statistique traditionnelle et de l’approche de la convolution et déconvolution de l’apprentissage profond permet à la machine de trouver les zones d’activation des textes et d’isoler les mots qui caractérisent les discours (par exemple « changement » comme mot de la gauche, mais aussi de De Gaulle), tout en suivant l’évolution diachronique des discours politiques en lien avec le contexte historique (par exemple, les périodes de cohabitation politique ou les attentats de 2001). L’analyse du discours macronien montre que l’actuel président de la République française a repris les mots de la gauche et de la droite française et que la machine peut tenir compte de la notion d’intertexte, ce dernier étant défini comme « la condition de l’interprétation de tout texte » (p. 164, en italiques dans le texte). La machine formalise aussi les marqueurs linguistiques de l’« ENAlangue » macronienne (p. 168) caractérisée, entre autres, par la présence d’un discours d’« expertise » qui « dégage une forme de fatalité (…) la fatalité d’une pensée unique et d’un discours pré-construit, la fatalité d’une mécanique économico-administrative ou gestionnaire que l’on ne saurait changer » (p. 174). Les auteurs esquissent donc un programme des humanités numériques où les modèles convolutionnel et déconvolutionnel posent de nouveaux observables linguistiques, tout en interrogeant l’idéologie des discours actuels qui transforment la démocratie française actuelle en véritable logocratie.
Dans le quatrième chapitre, Dominique LONGRÉE (pp. 183-201) analyse un corpus de textes latins pour chercher de nouveaux observables linguistiques, en posant la question de leur détection automatique. L’auteur utilise le logiciel Hyperdeep pour analyser le 7e livre de la Guerre des Gaules de César afin de trouver la présence de motifs textuels. Le cas concerné montre que le logiciel d’apprentissage profond trouve des unités phraséologiques et des motifs précis qui renvoient à des caractéristiques linguistiques spécifiques et aussi que ces « motifs ne se marquent pas nécessairement par des pics d’activation très haut, mais plutôt par des zones où les activations des trois couches du texte convergent vers des valeurs moyennes » (p. 201).
Dans le dernier chapitre du livre, François RASTIER (pp. 203-246) s’interroge sur les différences entre les deux notions qui fondent actuellement le « mythe de l’IA » (p. 204) : les données et les corpus, ces deux concepts ne pouvant pas se superposer de manière innocente. Selon l’auteur, en effet, le « solutionnisme technologique » actuel, qui se fonde sur l’utilitarisme et le pragmatisme de la révolution industrielle du XVIIIe siècle, est une véritable techno-science qui finit par poser la technique comme une évidence et une fin en soi, ce qui a permis aux scientifiques des données de remplacer les linguistes et de confondre les corpus avec les données. Par rapport justement à ces dernières, l’auteur souligne que la notion de donnée est une notion positiviste qui n’a pas de contexte et qui peut se résumer en un signal informatique qui suppose un manque d’interprétation, celle-ci étant remplacée plutôt par un calcul. La donnée peut être formalisée par un symbole qui en permet le codage, mais le codage ne suppose pas l’interprétation. L’auteur souligne en outre que toute donnée dépend d’un point de vue et qu’elle n’est donc pas neutre. Cela entraîne de gros problèmes lors de la génération des big data qui s’appuient sur des sources non contrôlées et sans supervision. Pour cela, il faut que « tout apprentissage soit supervisé » (p. 218). La quantité de l’information ne devrait jamais être posée comme fondamentale puisque le vrai problème ne concerne pas vraiment la disponibilité des données mais plutôt leur pertinence. Si l’on veut réadmettre l’interprétation, il faut également que les données soient élaborées sous forme de corpus (données qualifiées, sourcées, définies). En outre, souligne l’auteur, « un texte ne se laisse pas découper en unités successives, comme on le ferait avec des paragraphes d’un document » (p. 234) mais plutôt par des « grandeurs sémiotiques », des « passages » qui permettent de restituer la complexité des textes.
L’auteur se positionne enfin par rapport à l’approche du distant reading de Franco Moretti qui par des outils souvent lexicométriques finit par restituer des histogrammes des textes littéraires sans poser de réflexion critique.
[Rachele RAUS]