Sofiane Ettayeb


2024

pdf
CQuAE : Un nouveau corpus de question-réponse pour l’enseignement
Thomas Gerald | Louis Tamames | Sofiane Ettayeb | Patrick Paroubek | Anne Vilnat
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

Dans cet article nous présentons un nouveau corpus de question-réponse en français pour le domaine de l’éducation. Ce corpus à été construit dans le but de créer un système d’assistant virtuel pour répondre à des questions sur des documents ou du matériel de cours. Afin d’être utile autant aux enseignants qu’au étudiants, il est important de considérer des questions complexes ainsi que d’être capable de justifier les réponses sur du matériel validé. Nous présentons donc le nouveau Corpus CQuAE, un corpus de question-réponse manuellement annoté dont nous discutons des propriétés. Nous présenterons aussi les différentes étapes de sa création avec aujourd’hui une phase d’amélioration des données.Enfin, nous présentons plusieurs expériences pour évaluer l’exploitation du corpus dans le cadre d’un système de question-réponse automatique.Ces différentes analyses et expériences nous permettrons de valider l’adéquation des données collectés pour l’objectif visé.

pdf
Introducing CQuAE : A New French Contextualised Question-Answering Corpus for the Education Domain
Thomas Gerald | Anne Vilnat | Sofiane Ettayeb | Louis Tamames | Patrick Paroubek
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

We present a new question answering corpus in French designed to educational domain. To be useful in such domain, we have to propose more complex questions and to be able to justify the answers on validated material. We analyze some properties of this corpus. The last part of this paper will be devoted to present the first experiments we have carried out to demonstrate the value of this dataset for learning a Retrieval Augmented Genration framework. Different experiments are proposed, with an automatic evaluation. A human evaluation is proposed to confirm or infirm this automatic evaluation.

2022

pdf
Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement (An annotated corpus for abstractive question generation and extractive answer for education)
Thomas Gerald | Sofiane Ettayeb | Ha Quang Le | Anne Vilnat | Gabriel Illouz | Patrick Paroubek
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations

Dans cette démonstration, nous présenterons les travaux en cours pour l’annotation d’un nouveau corpus de questions-réponses en langue Française. Contrairement aux corpus existant comme “FQuad” ou “Piaf”, nous nous intéressons à l’annotation de questions-réponses “non factuelles”. En effet, si dans la littérature, de nombreux corpus et modèles de questions-réponses pré-entraînés sont disponibles, ceux-ci ne privilégient que rarement les annotations s’appuyant sur un schéma de raisonnement issue de l’agrégation de différentes sources ou contextes. L’objectif du projet associé est de parvenir à la création d’un assistant virtuel pour l’éducation, ainsi des réponses explicatives, de raisonnement et/ou d’agrégation de l’information sont à privilégier. Notons enfin, que la volumétrie des données doit être conséquente, en particulier par la considération d’approches neuronales génératives ou extractives. Actuellement, nous disposons de 262 questions et réponses obtenues durant l’étape de validation de la campagne d’annotation. Une deuxième phase d’annotation avec une volumétrie plus importante débutera fin mai 2022 (environ 8000 questions).