Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanités Numériques (TAL-HN)

Ludovic Moncla, Carmen Brando (Editors)


Anthology ID:
2022.jeptalnrecital-humanum
Month:
6
Year:
2022
Address:
Avignon, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
URL:
https://preview.aclanthology.org/build-pipeline-with-new-library/2022.jeptalnrecital-humanum/
DOI:
Bib Export formats:
BibTeX

pdf bib
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanités Numériques (TAL-HN)
Ludovic Moncla | Carmen Brando

pdf bib
Exploration orientée entités : étude du genre dans le Mercure de France (Entity oriented exploration : studying gender in the Mercure de France)
Yoann Dupont | Marguerite Bordry

Dans cet article, nous étudions la façon dont le genre influence les critiques littéraires et plus précisément le Mercure de France, l’une des plus importantes revues parisiennes de la fin du XIXe siècle. Nous nous intéressons aux auteurs et autrices italiennes. Nous avons utilisé Wikidata afin de lier les entités repérées à un identifiant unique de la base. Ainsi, nous avons pu récupérer le genre d’un auteur, quel que soit le pseudonyme sous lequel ce dernier écrivait, ce qui nous a permis d’obtenir des cooccurrents spécifiques pour chaque genre.

pdf bib
Flux d’informations dans les systèmes encodeur-décodeur. Application à l’explication des biais de genre dans les systèmes de traduction automatique. (Information flow in encoder-decoder systems applied to the explanation of gender bias in machine translation systems)
Lichao Zhu | Guillaume Wisniewski | Nicolas Ballier | François Yvon

Ce travail présente deux séries d’expériences visant à identifier les flux d’information dans les systèmes de traduction neuronaux. La première série s’appuie sur une comparaison des décisions d’un modèle de langue et d’un modèle de traduction pour mettre en évidence le flux d’information provenant de la source. La seconde série met en évidence l’impact de ces flux sur l’apprentissage du système dans le cas particulier du transfert de l’information de genre.

pdf
LDApol: vers une méthodologie de contextualisation des discours politiques (LDApol : towards a methodology of political speech contextualisation )
Jeanne Vermeirsche | Eric Sanjuan | Tania Jiménez

Nous comparons les distributions de mots dans les communiqués de presse politiques récents. Nous proposons une méthodologie pour objectiver des associations entre notions participant au débat politique. Nous montrons comment les modèles de langage probabilistes peuvent révéler les concepts sous-jacents en tant qu’associations fortes à plusieurs termes pour aider à clarifier le débat politique, notamment pour la surveillance des médias sociaux. Cette approche tente de modéliser les termes du débat comme des distributions de probabilités d’apparition des mots.

pdf
Les animaux chinois de Buffon : identification automatique des jugements critiques dans l’Histoire naturelle (1749-1789) (Buffon’s China: digital editing and semantic exploration of Natural History (1749-1789))
Axel Le Roy | Motasem Alrahabi | Glenn Roe

Nous présentons un travail en cours sur la structuration et l’exploration d’un grand corpus textuel de Georges-Louis de Buffon, célèbre naturaliste français du XVIII e siècle. Il s’agit d’éditer en XML-TEI les trente-six volumes de son Histoire naturelle et d’effectuer une première exploration autour de la thématique des animaux chinois. Afin de comprendre la représentation du monde chinois et plus particulièrement la construction et la discussion des savoirs sur les animaux dans l’œuvre de Buffon, nous avons commencé à explorer le corpus selon une approche symbolique à base de lexique. Celleci permet d’identifier dans les textes les passages porteurs de modalités subjectives: opinions, sentiments ou émotions. Malgré la simplicité de notre approche, les résultats nous ont permis de faire des constats intéressants sur la critique des sources chez Buffon, sur sa description des animaux et sur son observation des pratiques chinoises.

pdf
Reconnaissance automatique des appellations d’œuvres visuelles antiques (Recognition of classical visual works appellations)
Aurore Lessieux | Iris Eshkol-Taravella | Anne-Violaine Szabados | Marlène Nazarian

Le projet pluridisciplinaire MonumenTAL a pour objectif de repérer et répertorier les appellations d’œuvres d’art visuel de l’Antiquité classique dans des textes en français publiés du XVIIIe au XXIe siècle en utilisant les méthodes du TAL. Il repose sur une collaboration étroite entre historiens de l’art (LIMC), linguistes-TAListes (MoDyCo) et bibliothécaires (BnF). Le traitement proposé implique plusieurs étapes : sélection du corpus d’étude, élaboration d’une typologie des appellations, constitution d’un corpus annoté par les experts du domaine et développement d’un outil de reconnaissance automatique des appellations fondé sur des méthodes symboliques.

pdf
Reconnaissance d’entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique (Resolution of entity linking issues on noisy OCR output : automatic disambiguation tracks)
Caroline Koudoro-Parfait | Gaël Lejeune | Richy Buth

La variation dans les données textuelles, en particulier le bruit, est un facteur limitant la performance des systèmes de Reconnaissance d’Entités Nommées (REN). Les systèmes de REN sont en effet généralement entraînés sur des données « propres », non-bruitées, ce qui n’est pas le cas des données des humanités numériques obtenues par reconnaissance optique de caractères (OCR). De fait, la qualité des transcriptions OCR est souvent perçue comme la source principale des erreurs faites par les outils de REN. Cependant, des résultats obtenus avec différents systèmes REN sur des transcriptions OCR d’un corpus du 19ème siècle (ELTeC) tendent à montrer une certaine robustesse, modulo la présence de formes bruitées, parfois dites « contaminées ». La difficulté, est alors de lier ces formes contaminées avec leur forme de référence, par exemple, pour rapprocher la chaîne « Parisl »et la chaîne « Paris ». Il s’agit de modéliser le fait que différentes variations se rapprochent du même terme. Des questions quant à l’automatisation de cette tâche et sa généralisation à toutes les variations d’un même terme restent ouvertes. Nous montrons dans cet article différentes expériences visant à traiter ce problème sous l‘angle de la désambiguïsation morphologique des entités nommées (EN) en aval de la chaîne de traitement, plutôt que par la correction en amont des données de l’OCR.

pdf
Réinterroger l’édition numérique et la consultation d’oeuvres anciennes : traçabilité, accessibilité, interprétabilité
Emmanuel Giguet | Julia Roger

Dans le domaine des humanités numériques et de l’édition d’oeuvres anciennes, l’influence de la Text Encoding Initiative (TEI) a porté ses fruits et n’est plus à démontrer. Le contexte technologique est cependant propice à l’émergence de nouveaux modes de consultation et de diffusion. Nous nous appuierons sur la création d’une nouvelle interface de consultation des oeuvres de Descartes pour traiter des questions de traçabilité des opérations, d’interopérabilité des ressources de TAL, et d’interprétabilité.

pdf
Romanciers et romancières du XIXème siècle : une étude automatique du genre sur le corpus GIRLS (Male and female novelists : an automatic study of gender of authors and their characters )
Marco Naguib | Marine Delaborde | Blandine Andrault | Anaïs Bekolo | Olga Seminck

Cette étude porte sur les différences entre les romans français du XIXe siècle écrits par des hommes et ceux écrits par des femmes en trois étapes. Premièrement, nous observons que ces textes peuvent être distingués par apprentissage supervisé selon ce critère. Un modèle simple a un score de 99% d’exactitude sur cette tâche si d’autres œuvres de la même personne figurent dans le jeu d’entraînement, et de 72% d’exactitude sinon. Cette différence s’explique par le fait que le langage de l’individu est plus distinctif qu’un éventuel style propre au genre. Deuxièmement, notre étude textométrique met au jour des stéréotypes de genre chez les hommes et les femmes. Troisièmement, nous présentons un modèle de coréférence entraîné sur des textes littéraires pour étudier le genre des personnages. Nous montrons ainsi que les personnages féminins sont plus nombreux chez les femmes, et prennent généralement une place plus proéminente que chez les hommes.

pdf
Simulation d’erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques (Simulation of OCR errors in NLP systems for processing anachronistic data)
Baptiste Blouin | Benoit Favre | Jeremy Auguste

L’extraction d’information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorité des recherches liées à ce domaine s’effectue sur des données contemporaines. Malgré l’évolution constante des systèmes d’OCR, les textes historiques résultant de ce procédé contiennent toujours de multiples erreurs. Du fait d’un manque de ressources historiques dédiées au TAL, le traitement de ce domaine reste dépendant de l’utilisation de ressources contemporaines. De nombreuses études ont démontré l’impact négatif que pouvaient avoir les erreurs d’OCR sur les systèmes prêts à l’emploi contemporains. Mais l’évaluation des nouvelles architectures, proposant des résultats prometteurs sur des données récentes, face à ce problème reste encore très minime. Dans cette étude, nous quantifions l’impact des erreurs d’OCR sur trois tâches d’extraction d’information en utilisant plusieurs architectures de type Transformers. Au vu de ces résultats, nous proposons une approche permettant de réduire de plus de 50% cet impact sans avoir recours à des ressources historiques spécialisées.

pdf
TAL et Littérature comparée. Détection automatique des correspondances textuelles entre les réécritures d’un mythe (NLP and Comparative Literature)
Karolina Suchecka | Nathalie Gasiglia

L’idée de pouvoir détecter automatiquement des relations intertextuelles est stimulante, pour la recherche littéraire et linguistique, et pour l’édition numérique. Cependant, si les logiciels employés pour notre projet, TextPAIR et Tracer, sont très performants pour les correspondances proches, grâce à des techniques de l’intelligence artificielle, ils ne détectent pas (bien) des réutilisations et évocations plus complexes. Nous proposons d’améliorer les résultats en faisant coopérer l’herméneutique spécifique des études littéraires avec des méthodes talistes, linguistiques et informatiques. Nous rencontrons toutefois quelques difficultés en traitant notre corpus avec des outils du TAL.