2024
pdf
bib
abs
Jargon : Une suite de modèles de langues et de référentiels d’évaluation pour les domaines spécialisés du français
Vincent Segonne
|
Aidan Mannion
|
Laura Alonzo-Canul
|
Audibert Alexandre
|
Xingyu Liu
|
Cécile Macaire
|
Adrien Pupier
|
Yongxin Zhou
|
Mathilde Aguiar
|
Felix Herron
|
Magali Norré
|
Massih-Reza Amini
|
Pierrette Bouillon
|
Iris Eshkol Taravella
|
Emmanuelle Esparança-Rodier
|
Thomas François
|
Lorraine Goeuriot
|
Jérôme Goulian
|
Mathieu Lafourcade
|
Benjamin Lecouteux
|
François Portet
|
Fabien Ringeval
|
Vincent Vandeghinste
|
Maximin Coavoux
|
Marco Dinarelli
|
Didier Schwab
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès
Les modèles de langue préentraînés (PLM) constituent aujourd’hui de facto l’épine dorsale de la plupart des systèmes de traitement automatique des langues. Dans cet article, nous présentons Jargon, une famille de PLMs pour des domaines spécialisés du français, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biomédical, et le domaine juridique. Nous utilisons une architecture de transformeur basée sur des méthodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous évaluons et comparons nos modèles à des modèles de l’état de l’art sur un ensemble varié de tâches et de corpus d’évaluation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de données dans un nouveau référentiel d’évaluation en langue française pour ces trois domaines. Nous comparons également diverses configurations d’entraînement : préentraînement prolongé en apprentissage autosupervisé sur les données spécialisées, préentraînement à partir de zéro, ainsi que préentraînement mono et multi-domaines. Nos expérimentations approfondies dans des domaines spécialisés montrent qu’il est possible d’atteindre des performances compétitives en aval, même lors d’un préentraînement avec le mécanisme d’attention approximatif de LinFormer. Pour une reproductibilité totale, nous publions les modèles et les données de préentraînement, ainsi que les corpus utilisés.
2017
pdf
bib
abs
Topical Coherence in LDA-based Models through Induced Segmentation
Hesam Amoualian
|
Wei Lu
|
Eric Gaussier
|
Georgios Balikas
|
Massih R. Amini
|
Marianne Clausel
Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
This paper presents an LDA-based model that generates topically coherent segments within documents by jointly segmenting documents and assigning topics to their words. The coherence between topics is ensured through a copula, binding the topics associated to the words of a segment. In addition, this model relies on both document and segment specific topic distributions so as to capture fine grained differences in topic assignments. We show that the proposed model naturally encompasses other state-of-the-art LDA-based models designed for similar tasks. Furthermore, our experiments, conducted on six different publicly available datasets, show the effectiveness of our model in terms of perplexity, Normalized Pointwise Mutual Information, which captures the coherence between the generated topics, and the Micro F1 measure for text classification.
2016
pdf
bib
abs
Modeling topic dependencies in semantically coherent text spans with copulas
Georgios Balikas
|
Hesam Amoualian
|
Marianne Clausel
|
Eric Gaussier
|
Massih R. Amini
Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers
The exchangeability assumption in topic models like Latent Dirichlet Allocation (LDA) often results in inferring inconsistent topics for the words of text spans like noun-phrases, which are usually expected to be topically coherent. We propose copulaLDA, that extends LDA by integrating part of the text structure to the model and relaxes the conditional independence assumption between the word-specific latent topics given the per-document topic distributions. To this end, we assume that the words of text spans like noun-phrases are topically bound and we model this dependence with copulas. We demonstrate empirically the effectiveness of copulaLDA on both intrinsic and extrinsic evaluation tasks on several publicly available corpora.
pdf
bib
TwiSE at SemEval-2016 Task 4: Twitter Sentiment Classification
Georgios Balikas
|
Massih-Reza Amini
Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016)