Céline Hudelot

Also published as: Celine Hudelot


2023

pdf
Revisiting Instruction Fine-tuned Model Evaluation to Guide Industrial Applications
Manuel Faysse | Gautier Viaud | Céline Hudelot | Pierre Colombo
Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing

Instruction Fine-Tuning (IFT) is a powerful paradigm that strengthens the zero-shot capabilities of Large Language Models (LLMs), but in doing so induces new evaluation metric requirements. We show LLM-based metrics to be well adapted to these requirements, and leverage them to conduct an investigation of task-specialization strategies, quantifying the trade-offs that emerge in practical industrial settings. Our findings offer practitioners actionable insights for real-world IFT model deployment.

pdf
Classification automatique de données déséquilibrées et bruitées : application aux exercices de manuels scolaires
Elise Lincker | Camille Guinaudeau | Olivier Pons | Jérôme Dupire | Isabelle Barbet | Céline Hudelot | Vincent Mousseau | Caroline Huron
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale

Pour faciliter l’inclusion scolaire, il est indispensable de pouvoir adapter de manière automatique les manuels scolaires afin de les rendre accessibles aux enfants dyspraxiques. Dans ce contexte, nous proposons une tâche de classification des exercices selon leur type d’adaptation à la dyspraxie. Nous introduisons un corpus d’exercices extraits de manuels de français de niveau élémentaire, qui soulève certains défis de par sa petite taille et son contenu déséquilibré et bruité. Afin de tirer profit des modalités textuelles, structurelles et visuelles présentes dans nos données, nous combinons des modèles état de l’art par des stratégies de fusion précoce et tardive. Notre approche atteint une exactitude globale de 0.802. Toutefois, les expériences témoignent de la difficulté de la tâche, particulièrement pour les classes minoritaires, pour lesquelles l’exactitude tombe à 0.583.

pdf
Projet ANR MALIN : MAnuels scoLaires INclusifs
Olivier Pons | Isabelle Barbet | Jérôme Dupire | Valérie Grembi | Camille Guinaudeau | Céline Hudelot | Caroline Huron | Elise Lincker | Vincent Mousseau | Léa Pacini
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 6 : projets

L’école joue un rôle essentiel dans la vie des enfants. La restriction de la participation à l’école en raison d’un handicap réduit la qualité de vie. Une difficulté est l’inaccessibilité des manuels scolaires systématiquement utilisés en France pour accompagner les apprentissages. Notre projet vise à les rendre accessibles aux élèves en situation de handicap en innovant pour automatiser leur adaptation. Il s’appuie sur le croisement d’expertises médicale, pédagogique et de psychologie cognitive d’une part, d’expertises en interactions/interfaces homme-machine, accessibilité numérique, traitement de la langue et en conception de systèmes intelligents, d’autre part. Il s’agira de concevoir une plate-forme qui, en partant d’un manuel au format PDF (ou EPUB), mettra en oeuvre, via des modèles structurels et sémantiques du manuel, les adaptations et interfaces qui sont aujourd’hui principalement faites manuellement par les organismes de transposition. Ce travail est financé par l’ANR (financement ANR-21-CE38-0014).

2022

pdf
Towards Job-Transition-Tag Graph for a Better Job Title Representation Learning
Jun Zhu | Celine Hudelot
Findings of the Association for Computational Linguistics: NAACL 2022

Works on learning job title representation are mainly based on Job-Transition Graph, built from the working history of talents. However, since these records are usually messy, this graph is very sparse, which affects the quality of the learned representation and hinders further analysis. To address this specific issue, we propose to enrich the graph with additional nodes that improve the quality of job title representation. Specifically, we construct Job-Transition-Tag Graph, a heterogeneous graph containing two types of nodes, i.e., job titles and tags (i.e., words related to job responsibilities or functionalities). Along this line, we reformulate job title representation learning as the task of learning node embedding on the Job-Transition-Tag Graph. Experiments on two datasets show the interest of our approach.

2020

pdf
A French Corpus for Event Detection on Twitter
Béatrice Mazoyer | Julia Cagé | Nicolas Hervé | Céline Hudelot
Proceedings of the Twelfth Language Resources and Evaluation Conference

We present Event2018, a corpus annotated for event detection tasks, consisting of 38 million tweets in French (retweets excluded) including more than 130,000 tweets manually annotated by three annotators as related or unrelated to a given event. The 243 events were selected both from press articles and from subjects trending on Twitter during the annotation period (July to August 2018). In total, more than 95,000 tweets were annotated as related to one of the selected events. We also provide the titles and URLs of 15,500 news articles automatically detected as related to these events. In addition to this corpus, we detail the results of our event detection experiments on both this dataset and another publicly available dataset of tweets in English. We ran extensive tests with different types of text embeddings and a standard Topic Detection and Tracking algorithm, and detail our evaluation method. We show that tf-idf vectors allow the best performance for this task on both corpora. These results are intended to serve as a baseline for researchers wishing to test their own event detection systems on our corpus.