@inproceedings{hoang-ha-2025-pensez,
title = "Pensez: Moins de donn{\'e}es, meilleur raisonnement {--} Repenser les {LLM} fran{\c{c}}ais",
author = "Hoang Ha, Huy",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-taln.35/",
pages = "573--598",
language = "fra",
abstract = "Les grands mod{\`e}les linguistiques (LLM) ont d{\'e}montr{\'e} des capacit{\'e}s remarquables dans diverses t{\^a}ches de traitement automatique du langage naturel. Cependant, l{'}obtention de performances {\'e}lev{\'e}es dans des domaines sp{\'e}cialis{\'e}s tels que le raisonnement math{\'e}matique et les langues autres que l{'}anglais n{\'e}cessite souvent un entra{\^i}nement intensif. Cet article {\'e}tudie l{'}affinage strat{\'e}gique sur un petit ensemble de donn{\'e}es bilingue de haute qualit{\'e}, afin d{'}am{\'e}liorer {\`a} la fois les capacit{\'e}s de raisonnement et la ma{\^i}trise de la langue fran{\c{c}}aise d{'}un LLM. Nous d{\'e}montrons des am{\'e}liorations du raisonnement math{\'e}matique en utilisant seulement 2000 {\'e}chantillons soigneusement s{\'e}lectionn{\'e}s. Ces r{\'e}sultats remettent en question l{'}hypoth{\`e}se dominante selon laquelle des ensembles de donn{\'e}es massifs sont une condition pr{\'e}alable {\`a} de solides performances de raisonnement pour les LLM."
}
Markdown (Informal)
[Pensez: Moins de données, meilleur raisonnement – Repenser les LLM français](https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-taln.35/) (Hoang Ha, JEP/TALN/RECITAL 2025)
ACL