Pensez: Moins de données, meilleur raisonnement – Repenser les LLM français

Huy Hoang Ha


Abstract
Les grands modèles linguistiques (LLM) ont démontré des capacités remarquables dans diverses tâches de traitement automatique du langage naturel. Cependant, l’obtention de performances élevées dans des domaines spécialisés tels que le raisonnement mathématique et les langues autres que l’anglais nécessite souvent un entraînement intensif. Cet article étudie l’affinage stratégique sur un petit ensemble de données bilingue de haute qualité, afin d’améliorer à la fois les capacités de raisonnement et la maîtrise de la langue française d’un LLM. Nous démontrons des améliorations du raisonnement mathématique en utilisant seulement 2000 échantillons soigneusement sélectionnés. Ces résultats remettent en question l’hypothèse dominante selon laquelle des ensembles de données massifs sont une condition préalable à de solides performances de raisonnement pour les LLM.
Anthology ID:
2025.jeptalnrecital-taln.35
Volume:
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
573–598
Language:
French
URL:
https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-taln.35/
DOI:
Bibkey:
Cite (ACL):
Huy Hoang Ha. 2025. Pensez: Moins de données, meilleur raisonnement – Repenser les LLM français. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux, pages 573–598, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Pensez: Moins de données, meilleur raisonnement – Repenser les LLM français (Hoang Ha, JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-taln.35.pdf