Elöd Egyed-Zsigmond

Also published as: Előd Egyed-Zsigmond, Elõd Egyed-Zsigmond


2025

pdf bib
Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code
Samuel Mallet | Joe El Khoury | Elõd Egyed-Zsigmond
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

Les grands modèles de langage (LLMs) offrent un potentiel important pour la migration de code, mais les benchmarks actuels créent une illusion de maîtrise ne se traduisant pas par de bonnes performances sur des projets industriels complexes. Bien que des avancées comme RepoTransBench incluent des tâches à l’échelle de dépôts complets, ces benchmarks restent irréalistes : taille de projet trop limitée, gestion simplifiée des dépendances, faible diversité technologique et absence de génération ou adaptation automatique des tests. Dans cet article, nous analysons ces limites et nous suggérons de s’inspirer d’approches existantes dans des contextes monolingues, notamment la gestion des contextes longs et la génération automatique de tests, pour concevoir des benchmarks de migration plus réalistes. Notre contribution vise à encourager la communauté à développer des évaluations plus représentatives des défis industriels.

pdf bib
Application de Transformers multimodaux à l’extraction d’informations des documents de sondage des sols
Stanislas Bagnol | Killian Barrere | Véronique Eglin | Elöd Egyed-Zsigmond | Jean-Marie Côme | David Pitaval
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)

L’extraction d’information de documents complexes est un domaine de recherche qui bénéficie d’une très grande attention tant dans la littérature, que dans l’industrie dans le cadre de la digitalisation des données. Les Transformers et leurs adaptations ont très largement contribué à faire progresser cette recherche en s’appuyant sur des modèles de langue qui ont introduit une compréhension sémantique de l’organisation de la structure des documents. Les coupes de sondage sont des documents industriels complexes et riches en informations, pour lesquels aucune solution d’extraction d’informations n’avait été proposée. Nous montrons les limites des approches de bout-en-bout par des expérimentations avec le modèle DONUT. Comme alternative, nous proposons une chaîne de traitement hybride reposant sur le fine-tuning de Transformers multimodaux et des algorithmes heuristiques. Nous comparons deux architectures de Transformers multimodaux pré-entrainés : BROS et LayoutLMv3.

pdf bib
Entraînement avec solveur pour l’intégration de contraintes logiques dans l’extraction de relations d’événements
Baptiste Brunet de la Charie | Abdallah Arioua | Elöd Egyed-Zsigmond | Thomas Veran
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)

L’extraction de relations d’événements (ERE) est une tâche cruciale dans le traitement du langage naturel, impliquant l’identification et la classification des relations sémantiques entre les événements décrits dans des documents textuels. Malgré les avancées récentes grâce aux approches d’extraction conjointe, les modèles actuels rencontrent encore des défis importants, notamment une précision in- suffisante dans l’extraction des relations sous-représentées mais essentielles (telles que la causalité) et d’importantes incohérences logiques parmi les relations prédites. Pour remédier à ces limitations, nous proposons un framework pour l’ERE, conçu explicitement pour améliorer la performance d’extraction et assurer la cohérence logique globale. Notre approche combine l’encodage de documents basé sur les transformateurs avec un solveur de contraintes logiques dédié qui corrige systématiquement les prédictions brutes pour garantir la cohérence dans toutes les relations d’événements extraites. Nous introduisons le concept de relations fondamentales, un sous-ensemble de relations essentielles pour préserver la cohérence logique, et nous utilisons une stratégie d’entraînement consciente du solveur afin de prioriser explicitement ces relations. Des expérimentations approfondies sur l’en- semble de données complet MAVEN-ERE démontrent que notre framework obtient pas une précision d’extraction supérieures par rapport aux méthodes d’extraction conjointe existantes.

2024

pdf bib
SENSE-LM : A Synergy between a Language Model and Sensorimotor Representations for Auditory and Olfactory Information Extraction
Cédric Boscher | Christine Largeron | Véronique Eglin | Elöd Egyed-Zsigmond
Findings of the Association for Computational Linguistics: EACL 2024

The five human senses – vision, taste, smell, hearing, and touch – are key concepts that shape human perception of the world. The extraction of sensory references (i.e., expressions that evoke the presence of a sensory experience) in textual corpus is a challenge of high interest, with many applications in various areas. In this paper, we propose SENSE-LM, an information extraction system tailored for the discovery of sensory references in large collections of textual documents. Based on the novel idea of combining the strength of large language models and linguistic resources such as sensorimotor norms, it addresses the task of sensory information extraction at a coarse-grained (sentence binary classification) and fine-grained (sensory term extraction) level.Our evaluation of SENSE-LM for two sensory functions, Olfaction and Audition, and comparison with state-of-the-art methods emphasize a significant leap forward in automating these complex tasks.

2023

pdf bib
PromptORE – Vers l’Extraction de Relations non-supervisée
Pierre-Yves Genest | Pierre-Edouard Portier | Előd Egyed-Zsigmond | Laurent-Walter Goix
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale

L’extraction de relations non-supervisée vise à identifier les relations qui lient les entités dans un texte sans utiliser de données annotées pendant l’entraînement. Cette tâche est utile en monde ouvert, où les types de relations et leur nombre sont inconnus. Bien que des modèles récents obtiennent des résultats prometteurs, ils dépendent fortement d’hyper-paramètres dont l’ajustement nécessite des données annotées, signifiant que ces modèles ne sont pas complètement non-supervisés.Pour résoudre ce problème, nous proposons PromptORE, à notre connaissance le premier modèle d’extraction de relations non-supervisé qui ne nécessite pas d’ajuster d’hyper-paramètre. Pour cela, nous adaptons le principe du prompt-tuning pour fonctionner sans supervision. Les résultats montrent que PromptORE surpasse largement les méthodes à l’état de l’art, avec un gain relatif de 20-40% en B3, V-measure et ARI.Le code source est accessible.

2022

pdf bib
It’s Time to Reason: Annotating Argumentation Structures in Financial Earnings Calls: The FinArg Dataset
Alaa Alhamzeh | Romain Fonck | Erwan Versmée | Elöd Egyed-Zsigmond | Harald Kosch | Lionel Brunie
Proceedings of the Fourth Workshop on Financial Technology and Natural Language Processing (FinNLP)

With the goal of reasoning on the financial textual data, we present in this paper, a novel approach for annotating arguments, their components and relations in the transcripts of earnings conference calls (ECCs). The proposed scheme is driven from the argumentation theory at the micro-structure level of discourse. We further conduct a manual annotation study with four annotators on 136 documents. We obtained inter-annotator agreement of lphaU = 0.70 for argument components and lpha = 0.81 for argument relations. The final created corpus, with the size of 804 documents, as well as the annotation guidelines are publicly available for researchers in the domains of computational argumentation, finance and FinNLP.