Clémentine Bleuze

Also published as: Clementine Bleuze


2026

Research articles are an essential pillar of scientific knowledge, but they are subject to multiple constraints. On the one hand, their scientific reliability is essential and relies in particular on the peer review process. On the other hand, they fulfill a rhetorical function of persuasion for authors who defend claims in a more and more competitive environment. In a context of massively increasing publication growth and quickly evolving practices, it is essential that the scientific community remains alert and critical of its own biases. In this paper, we call for a "NLP for NLP" framing of theseissues. We created COCOA, a corpus of sentences from NLP papers and pre-prints published in English between 1952 and 2024, a sample of which we manually annotated with claim category labels reflecting their rhetorical function. We fine-tuned a SciBERT model to predict remaining labels, and made both the corpus and the model available to the community. We illustrate the interest of the corpus with exploratory analyses, and outline directions for further research. We hope that this work can stimulate discussions on the issues of research standardization and scientific overclaiming.

2025

Nous constituons un corpus de phrases issues de pré-tirages et d’articles de TAL, publiés en anglais entre 1952 et 2024, dont nous annotons manuellement un échantillon avec des catégories de revendications reflétant leur fonction rhétorique au sein des articles. Nous affinons un modèle SciBERT (Beltagy et al. , 2019) pour prédire les étiquettes restantes, que nous mettons, avec le corpus annoté, à la disposition de la communauté. Nous illustrons l’intérêt du corpus par des analyses exploratoires sur les caractéristiques des revendications relevées, ainsi qu’une étude diachronique de l’évolution de la structure des résumés; ceci est mis en lien avec une réflexion sur la notion d’exagération scientifique. Nous observons une importance croissante des séquences de contexte précédant l’exposé des contributions, lequel est également de plus en plus suivi de séquences de résultats.