Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue
Foucauld Estignard, Sahar Ghannay, Julien Girard-Satabin, Nicolas Hiebel, Aurélie Névéol
Abstract
Les grands modèles de langue (LLM) peuvent être utilisés pour produire des documents synthétiques similaires à des documents réels dont la disponibilité est limitée pour des raisons de confidentialité ou de droits d’auteur. Dans cet article, nous étudions les risques en lien avec la confidentialité dans les documents générés automatiquement. Nous utilisons des textes synthétiques générés à partir d’un modèle pré-entraîné et affiné sur des cas cliniques en français afin d’évaluer ces risques selon trois critères : (1) la similarité entre un corpus d’entraînement réel et le corpus synthétique (2) les corrélations entre les caractéristiques cliniques dans le corpus d’entraînement et le corpus synthétique et (3) une attaque par inférence d’appartenance (MIA, en anglais) utilisant un modèle affiné sur le corpus synthétique. Nous identifions des associations de caractéristiques cliniques qui suggèrent que le filtrage du corpus d’entraînement pourrait contribuer à la préservation de la confidentialité. Les attaques par inférence d’appartenance n’ont pas été concluantes.- Anthology ID:
- 2025.jeptalnrecital-trad.10
- Volume:
- Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés
- Month:
- 6
- Year:
- 2025
- Address:
- Marseille, France
- Editors:
- Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA \\& ARIA
- Note:
- Pages:
- 13
- Language:
- French
- URL:
- https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-trad.10/
- DOI:
- Cite (ACL):
- Foucauld Estignard, Sahar Ghannay, Julien Girard-Satabin, Nicolas Hiebel, and Aurélie Névéol. 2025. Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés, pages 13–13, Marseille, France. ATALA \\& ARIA.
- Cite (Informal):
- Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue (Estignard et al., JEP/TALN/RECITAL 2025)
- PDF:
- https://preview.aclanthology.org/corrections-2025-10/2025.jeptalnrecital-trad.10.pdf