Johanna Simoens


2024

pdf
Sur les limites de l’identification par l’humain de textes générés automatiquement
Nadége Alavoine | Maximin Coavoux | Emmanuelle Esperança-Rodier | Romane Gallienne | Carlos-Emiliano González-Gallardo | Jérôme Goulian | Jose G Moreno | Aurélie Névéol | Didier Schwab | Vincent Segonne | Johanna Simoens
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès

La génération de textes neuronaux fait l’objet d’une grande attention avec la publication de nouveaux outils tels que ChatGPT. La principale raison en est que la qualité du texte généré automatiquement peut être attribuée à un$cdot$e rédacteurice humain$cdot$e même quand l’évaluation est faite par un humain. Dans cet article, nous proposons un nouveau corpus en français et en anglais pour la tâche d’identification de textes générés automatiquement et nous menons une étude sur la façon dont les humains perçoivent ce texte. Nos résultats montrent, comme les travaux antérieurs à l’ère de ChatGPT, que les textes générés par des outils tels que ChatGPT partagent certaines caractéristiques communes mais qu’ils ne sont pas clairement identifiables, ce qui génère des perceptions différentes de ces textes par l’humain.

pdf
Limitations of Human Identification of Automatically Generated Text
Nadège Alavoine | Maximin Coavoux | Emmanuelle Esperança-Rodier | Romane Gallienne | Carlos-Emiliano González-Gallardo | Jérôme Goulian | Jose G. Moreno | Aurélie Névéol | Didier Schwab | Vincent Segonne | Johanna Simoens
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

Neural text generation is receiving broad attention with the publication of new tools such as ChatGPT. The main reason for that is that the achieved quality of the generated text may be attributed to a human writer by the naked eye of a human evaluator. In this paper, we propose a new corpus in French and English for the task of recognising automatically generated texts and we conduct a study of how humans perceive the text. Our results show, as previous work before the ChatGPT era, that the generated texts by tools such as ChatGPT share some common characteristics but they are not clearly identifiable which generates different perceptions of these texts.