Jean-Marc Ogier

Also published as: Jean-marc Ogier


2023

pdf
Lazy-k Decoding: Constrained Decoding for Information Extraction
Arthur Hemmer | Mickael Coustaty | Nicola Bartolo | Jerome Brachat | Jean-marc Ogier
Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing

We explore the possibility of improving probabilistic models in structured prediction. Specifically, we combine the models with constrained decoding approaches in the context of token classification for information extraction. The decoding methods search for constraint-satisfying label-assignments while maximizing the total probability. To do this, we evaluate several existing approaches, as well as propose a novel decoding method called Lazy-k. Our findings demonstrate that constrained decoding approaches can significantly improve the models’ performances, especially when using smaller models. The Lazy-k approach allows for more flexibility between decoding time and accuracy. The code for using Lazy-k decoding can be found at https://github.com/ArthurDevNL/lazyk.

pdf
Détection de faux tickets de caisse à l’aide d’entités et de relations basées sur une ontologie de domaine
Beatriz Martínez Tornés | Emanuela Boros | Petra Gomez-Krämer | Antoine Doucet | Jean-Marc Ogier
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale

Dans cet article, nous nous attaquons à la tâche de détection de fraude documentaire. Nous considérons que cette tâche peut être abordée avec des techniques de traitement automatique du langage naturel (TALN). Nous utilisons une approche basée sur la régression, en tirant parti d’un modèle de langage pré-entraîné afin de représenter le contenu textuel, et en enrichissant la représentation avec des entités et des relations basées sur une ontologie spécifique au domaine. Nous émulons une approche basée sur les entités en comparant différents types d’entrée : texte brut, entités extraites et une reformulation du contenu du document basée sur des triplets. Pour notre configuration expérimentale, nous utilisons le seul ensemble de données librement disponible de faux tickets de caisse, et nous fournissons une analyse approfondie de nos résultats. Ils montrent des corrélations intéressantes entre les types de relations ontologiques, les types d’entités (produit, entreprise, etc.) et la performance d’un modèle de langage basé sur la régression qui pourrait aider à étudier le transfert d’apprentissage à partir de méthodes de traitement du langage naturel (TALN) pour améliorer la performance des systèmes de détection de fraude existants.