Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL)

Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova (Editors)


Anthology ID:
2025.jeptalnrecital-recital
Month:
6
Year:
2025
Address:
Marseille, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
URL:
https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-recital/
DOI:
Bib Export formats:
BibTeX

pdf bib
Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL)
Frédéric Bechet | Adrian-Gabriel Chifu | Karen Pinel-sauvagnat | Benoit Favre | Eliot Maes | Diana Nurbakova

pdf bib
Amélioration de la lisibilité de textes via l’utilisation de LLM
Baptiste Ramonda | Isabelle Ferrane | Julien Pinquier

La lisibilité d’un texte est essentielle pour garantir un accès équitable à l’information. Cet article propose une méthodologie visant à simplifier des textes complexes tout en préservant leur sens. Un indice global de lisibilité a été défini en combinant plusieurs scores normalisés. Ensuite, une chaîne de traitement automatique, basée sur l’API de Gemini (LLM de Google), a généré des versions simplifiées des textes. Les résultats montrent une amélioration significative de la lisibilité, selon l’indice global et les critères spécifiques. Pour vérifier la conservation des idées clés, des résumés ont été extraits des versions initiales et simplifiées. Une mesure de la distance sémantique confirme que les concepts essentiels sont préservés. Cette approche prouve qu’il est possible d’automatiser efficacement la simplification textuelle tout en maintenant la cohérence et la pertinence des contenus, améliorant ainsi l’accessibilité de l’information.

pdf bib
Analyse de la littérature sur les stratégies d’augmentation de données dans des contextes à faible ressources
Benedictus Kent Rachmat

Les grands modèles de langage (LLMs) ont révolutionné le traitement automatique des langues (TAL), mais leur succès demeure largement limité aux domaines généralistes disposant de ressources abondantes. En revanche, l’application des LLMs à des domaines spécialisés à faibles ressources soulève des défis majeurs liés à la rareté des données d’entraînement, à la dérive de domaine et aux contraintes terminologiques strictes. Cette revue propose un état de l’art des approches actuelles pour le question-réponse (QA) en contexte spécialisé et à faibles ressources avec les LLMs. Nous commençons par analyser la couverture et la représentativité des jeux de données de QA spécialisés en les comparant à de grands ensembles de référence, que nous appelons ParentQA . Sur la base de cette analyse, nous passons en revue les stratégies centrées sur les données visant à accroître la diversité des entrées, notamment à travers des techniques d’augmentation. Nous abordons également les métriques d’évaluation adaptées aux tâches spécialisées et les considérations éthiques associées. En cartographiant les méthodologies existantes et en identifiant les questions de recherche ouvertes, cette étude vise à orienter les futurs travaux sur l’adaptation des LLMs pour une utilisation robuste et responsable dans des environnements contraints en ressources et spécifiques à un domaine.

pdf bib
Annotation de Marqueurs Discursifs : le cas de la désambiguïsation de après
Paola Herreño Castañeda | Maeva Sillaire

Les marqueurs discursifs (désormais MD) sont des expressions souvent polysémiques, voire polyfonctionnelles dans la langue (quoi,enfin, bon, mais, voilà, là, etc.). Dans ce dernier cas, une tâche consiste d’abord à distinguer leurs emplois comme MD et non-MD, en fonction notamment du contexte d’apparition. Dans le cadre de CODIM, un corpus de français a été constitué et annoté semi-automatiquement pour identifier les expressions potentiellement employées comme MD, non-MD, ou MD-CAND (étiquette regroupant les cas ambigus qui n’ont pas pu être déterminés par l’annotation). Nous cherchons à enrichir le processus d’annotation pour les cas où après a été classé comme MD-CAND. Pour cela, nous proposons un protocole d’annotation manuelle supplémentaire visant à trier, parmi ces candidats, les emplois contrastifs et non-contrastifs de après . Nos résultats initient des réflexions plus larges sur les enjeux théoriques et méthodologiques liés à l’annotation des MD.

pdf bib
Annotation et modélisation des émotions dans un corpus textuel : une approche évaluative
Jonas Noblet

L’émotion est un phénomène capital dans le fonctionnement de l’être humain en société. Elle reste pourtant un sujet encore largement ouvert, notamment dans ses manifestations textuelles. La présente communication examine un corpus industriel manuellement annoté selon une approche évaluative de l’émotion. Cette conception théorique aujourd’hui peu exploitée propose une perspective différente, en complément des approches traditionnelles. Partant du constat que les annotations que nous avons collectées présentent un fort désaccord, nous avons émis l’hypothèse que celles-ci suivent néanmoins des tendances statistiques stables. Par le biais de modèles de langue entraînés sur ces annotations, nous montrons qu’il est possible de modéliser le processus d’étiquetage, et que la variabilité est guidée par des caractéristiques linguistiques sous-jacentes. Réciproquement, nos résultats indiquent que les modèles de langue semblent en mesure de distinguer les situations émotionnelles sur la base des critères évaluatifs.

pdf bib
Comparaison des approches basées sur BERT et sur l’agent LLM pour la classification hiérarchique de narratifs dans les articles de presse multilingues
Yutong Wang | Mohamed-Nour Eldjadiri

Nous présentons une étude comparative de deux paradigmes de classification hiérarchique multi-labels de texte dans le contexte de l’extraction des narratifs d’articles de presse. La première approche utilise un cadre séquentiel basé sur BERT qui identifie les narratifs et leurs sous-narratifs correspondants. La seconde utilise des agents LLM spécialisés, chacun effectuant une classification binaire pour des catégories narratives spécifiques. En évaluant les deux approches sur l’ensemble de données SemEval-2025 Task 10 dans cinq langues, nous constatons que l’approche basée sur BERT offre une efficacité de calcul et des performances interlinguistiques cohérentes (moyenne F1 macro : 0,475), tandis que la méthode basée sur les agents démontre une meilleure gestion des narratifs nuancés et de meilleures performances sur les données en anglais (F1 macro : 0,513). Notre analyse révèle des forces complémentaires entre ces paradigmes. Nous discutons des implications pratiques et proposons des orientations pour des systèmes hybrides potentiels.

pdf bib
Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données
Julie Halbout | Diandra Fabre

Dans cet article, nous présentons une étude sur la problématique de l’alignement automatique des données dans un corpus constitué de discours en français parlé, sous-titrés en français écrit et interprétés en langue des signes française (LSF). Après une introduction précisant le processus bien particulier de l’interprétation en langue des signes, nous dressons un tour d’horizon des ensembles de données existants pour la LSF ainsi que les spécificités du corpus Matignon-LSF, constitué à partir des comptes-rendus vidéos hebdomadaires du conseil des ministres. Nous montrons ensuite sur quelques exemples certains des phénomènes observés sur la problématique de l’alignement temporel entre les sous-titres synchronisés avec l’audio, et la LSF interprétée qui subit un décalage temporel. Nous en concluons que le niveau d’alignement ne peut pas être celui des phrases en français écrit et proposons quelques pistes pour la suite.

pdf bib
État de l’art : évaluation, détection et mitigation des hallucinations des LLMs
Aygalic Jara–Mikolajczak

Cet article présente un état de l’art sur les hallucinations produites par les grands modèles de langue (LLMs). L’objectif de ce travail est double : dresser un panorama des recherches actuelles dans ce domaine et souligner l’importance de prendre en considération les hallucinations lors de la conception des systèmes incorporant des LLMs. Pour ce faire, nous commençons par la définition du problème. Nous présentons ensuite les différentes méthodes d’évaluation, suivis des techniques de détection et de mitigation des hallucinations, tout en discutant leurs forces et limites méthodologiques.

pdf bib
État de l’art sur les marqueurs discursifs en Traitement Automatique des Langues
Fatou Sow

Les marqueurs discursifs sont des éléments linguistiques qui peuvent être employés pour construire la cohérence d’un discours car ils expriment les relations entre les unités discursives. Ils constituent ainsi des indices utiles pour la résolution de problèmes de traitement de langue en rapport avec la sémantique du texte, le discours ou la compréhension de systèmes. Dans cet article, nous présentons un état de l’art des marqueurs discursifs en traitement automatique des langues (TAL). Nous introduisons les représentations textuelles des marqueurs discursifs puis nous nous intéressons à la détection des marqueurs et l’utilisation de leurs sens pour améliorer ou évaluer des tâches de TAL.

pdf bib
Évaluation Automatique Explicable de l’Écriture Argumentative : État de l’Art, Lacunes et Proposition d’Architecture Modulaire Alignée sur des Grilles Éducatives
Marcos Moisés Crisóstomo de Oliveira

L’évaluation automatique de l’écriture constitue une frontière prometteuse du Traitement Automatique du Langage Naturel (TALN), en particulier pour l’enseignement de l’argumentation. Pourtant, la majorité des systèmes existants privilégient la prédiction de scores au détriment de la compréhension structurelle des textes et de la production de retours pédagogiques utiles. Cet article propose une architecture explicable, modulaire et adaptée à la Compétence III de l’ENEM (Brésil), axée sur trois piliers : l’alignement avec des grilles officielles, la transparence des décisions algorithmiques, et la valeur formative des retours générés. Articulant théorie de l’argumentation, évaluation de l’écriture et technologies récentes en TALN, cette architecture comprend quatre modules : segmentation des unités argumentatives, classification des relations discursives, alignement aux critères d’évaluation, et génération de feedback. Les résultats initiaux montrent un fort potentiel pour améliorer l’équité, l’auditabilité et l’utilité pédagogique du système, tout en ouvrant la voie à des adaptations multilingues dans d’autres contextes d’évaluation

pdf bib
Evaluation de la lisibilité des textes biomédicaux selon le profil du lecteur
Anya Nait Djoudi

La lisibilité des textes biomédicaux est perçue différemment selon le profil du lecteur, ce qui est amplifié par la complexité intrinsèque de ces documents et par l’inégale littératie en santé au sein de la population. Bien que 72% des internautes consultent des informations médicales en ligne, une part significative rencontre des difficultés de compréhension. Pour garantir l’accessibilité des textes à un public varié, l’évaluation de la lisibilité est donc essentielle. Or, les formules de lisibilité classiques, conçues pour des textes généraux, ne tiennent pas compte de cette diversité, soulignant la nécessité d’adapter les outils d’évaluation aux besoins spécifiques des textes biomédicaux et à l’hétérogénéité des lecteurs. Pour répondre à ce besoin, nous avons développé une méthode d’évaluation automatique de la lisibilité, adaptée à trois profils de lecteurs (adultes experts/non-experts, enfants). Cette méthode s’appuie sur un corpus biomédical bilingue de 20 008 documents (11 154 en anglais, 8 854 en français), que nous avons constitué et rendons accessible librement. Elle utilise une architecture hybride combinant embeddings de transformers et caractéristiques linguistiques, atteignant un score F1 macro-moyen de 0,987. Cette approche ouvre des perspectives pour l’évaluation fine de la lisibilité, la personnalisation de la recherche d’information, et la validation de la lisibilité des résumés générés automatiquement.

pdf bib
Image incomplète : Une étude d’état de l’art sur les biais dans les grands modèles de langage
Trung Hieu Ngo

Les grands modèles de langage (LLM) pré-entraînés ont transformé le traitement du langage naturel (TALN) et les tâches quotidiennes, surpassant les méthodes traditionnelles. Leur utilisation a démocratisé l’accès, facilitant l’écriture, le codage et les conseils de santé. Entraînés sur d’immenses corpus textuels issus d’internet, les LLM héritent de biais, perpétuant des stéréotypes qui peuvent fausser les représentations linguistiques et causer des préjudices représentationnels ou allocationnels. Dans le domaine médical, où les LLM soutiennent la communication et la documentation, ces biais présentent des risques significatifs. Cette revue analyse les recherches sur les biais des LLM, identifie les lacunes concernant les déterminants sociaux de la santé (DSS) et discute de la nécessité d’un cadre pour les aborder de manière exhaustive, améliorant l’intégration sécurisée des LLM en santé.

pdf bib
La traduction automatique dialectale: état de l’art et étude préliminaire sur le continuum dialectal de l’occitan
Oriane Nédey

Cet article dresse un état de l’art de la traduction automatique et de son évaluation pour les langues à variation dialectale, et en particulier pour les continuums dialectaux. Pour illustrer cet état de l’art, nous proposons une série d’expériences préliminaires sur le continuum occitan, afin de dresser un état des performances des systèmes existants pour la traduction depuis et vers plusieurs variétés d’occitan. Nos résultats indiquent d’une part des performances globalement satisfaisantes pour la traduction vers le français et l’anglais. D’autre part, des analyses mélangées à des outils d’identification de langues sur les prédictions vers l’occitan mettent en lumière la capacité de la plupart des systèmes évalués à générer des textes dans cette langue (y compris en zero-shot ), mais révèlent aussi des limitations en termes d’évaluation de la diversité dialectale dans les traductions proposées.

pdf bib
Normaliser le moyen français : du graphématique au semi-diplomatique
Sonia Solfrini | Mylène Dejouy | Aurélia Marques Oliveira | Pierre-Olivier Beaulnes

La pré-éditorialisation des documents anciens, comprise comme une automatisation partielle de la préparation éditoriale des données textuelles, est récemment devenue l’un des nouveaux fronts de la recherche en philologie computationnelle. Dans un premier temps, nous définissons cette tâche de TAL (Traitement Automatique du Langage) pour le moyen français et la plaçons dans une chaîne de traitement numérique qui permet la création de données machine-actionable, depuis les sorties de l’OCR (Optical Character Recognition). Ensuite, nous présentons et rendons disponible un ensemble de données d’environ 40 000 lignes, tirées d’un corpus d’imprimés du XVIesiècle, ainsi que les règles de normalisation semi-diplomatique qui ont guidé la préparation des données. Enfin, nous proposons un premier modèle de normalisation automatique, afin de confirmer la faisabilité de la tâche.

pdf bib
Réhabiliter l’écriture Ajami : un levier technologique pour l’alphabétisation en Afrique
Samy Ouzerrout | Idriss Saadallah

Cet article explore l’écriture Ajami, système basé sur l’alphabet arabe historiquement utilisé pour transcrire les langues africaines, comme levier technologique d’alphabétisation et d’inclusion nu- mérique en Afrique subsaharienne et au Maghreb. Nous présentons la création d’AjamiXTranslit, un corpus multilingue de paires de textes Latin–Ajami et de manuscrits annotés, accompagné d’une plateforme collaborative d’enrichissement par des locuteurs natifs. À partir de ces données, nous développons des modèles de translittération automatique et de reconnaissance optique de caractères (OCR) adaptés à la diversité graphique de l’Ajami. L’article discute les défis techniques (variabilité manuscrite, absence de standardisation), linguistiques (transcriptions phonétiques hétérogènes) et sociaux (acceptabilité, accessibilité) de cette réintégration scripturale. Nos travaux s’inscrivent dans une démarche transdisciplinaire alliant traitement automatique des langues, sciences sociales et politiques éducatives, en vue de préserver un patrimoine scriptural menacé et de renforcer l’accès équitable au savoir dans des contextes digraphiques.

pdf bib
VERS : Versification Et Représentation de Séquences
Marceau Hernandez

L’analyse métrique est une étape importante pour le traitement des textes versifiés. Le résultat d’une telle analyse permet, par exemple, de comparer les textes entre eux, ou, dans le cas de textes chantés, de les comparer avec différents airs. Nous proposons une méthode pour la création d’un modèle produisant diverses analyses métriques pour un vers donné, ainsi qu’une application en diachronie longue de cette méthode sur des données en français produites à partir du 16èmesiècle et jusqu’au début du 20èmesiècle. Cette méthode repose sur la prédiction des noyaux vocaliques d’un vers. Nous offrirons également un point de comparaison et nous poserons la question de la robustesse à la variation de ces méthodes selon l’état de langue considéré et le bruitage provenant de l’application de reconnaissance optique de caractères en amont.

pdf bib
Vers une taxonomie pour l’analyse des intentions dans les interactions textuelles numériques
Senaid Popovic

Cet article propose une taxonomie pour la détection d’intention dans les communications numériques, distinguant les intentions explicites des intentions implicites, basée sur des principes psychologiques de persuasion. Notre approche se distingue par sa capacité à analyser aussi bien les communications numériques légitimes que celles potentiellement malveillantes. Elle repose sur l’identification des intentions sous-jacentes, facilitant ainsi la détection de menaces telles que les arnaques par email (hameçonnage) ou les fraudes sur les réseaux sociaux. Chaque catégorie de la taxonomie est justifiée et illustrée par des exemples de communications correspondant à l’intention associée. Ce travail répond à un manque de ressources dans la recherche sur la détection automatique d’intentions. Il vise à fournir une taxonomie applicable à l’identification des menaces textuelles, notamment les tentatives d’hameçonnage, tout en servant d’outil pédagogique pour sensibiliser le grand public aux stratégies employées dans les communications malveillantes.