Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL

Christophe Benzitoun, Chloé Braud, Laurine Huber, David Langlois, Slim Ouni, Sylvain Pogodalla, Stéphane Schneider (Editors)


Anthology ID:
2020.jeptalnrecital-recital
Month:
6
Year:
2020
Address:
Nancy, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA et AFCP
URL:
https://aclanthology.org/2020.jeptalnrecital-recital
DOI:
Bib Export formats:
BibTeX

pdf bib
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL
Christophe Benzitoun | Chloé Braud | Laurine Huber | David Langlois | Slim Ouni | Sylvain Pogodalla | Stéphane Schneider

pdf bib
Segmentation de texte non-supervisée pour la détection de thématiques à l’aide de plongements lexicaux (Unsupervised text segmentation for topic detection using embeddings )
Alexandra Benamar

Cet article présente les principales méthodes de segmentation automatique de documents textuels spécifiques. La tâche de segmentation thématique de texte consiste à analyser un document pour en extraire des sections cohérentes. Les méthodes de segmentation non supervisées cherchent à optimiser une fonction de probabilité de segmentation ou une fonction de similarité qui peut être calculée entre les blocs ou au sein des blocs. Elles sont réparties en trois catégories : les méthodes statistiques, les méthodes à base de graphes et les approches neuronales. Parmi les approches neuronales utilisées, nous nous intéressons tout particulièrement à celles qui utilisent des plongements lexicaux pour représenter des phrases et définir des segments thématiques. Tout d’abord, nous montrons que les plongements lexicaux permettent une amélioration nette des performances par rapport à des méthodes statistiques. Ensuite, nous évaluons l’impact du choix de la représentation vectorielle des phrases pour cette tâche de segmentation non supervisée.

pdf bib
Spécificités des erreurs d’orthographe des personnes dyslexiques : analyse d’un corpus de productions écrites (What are the characteristics of spelling errors made by dyslexics: an analysis of errors based on written corpora)
Johana Bodard

Cet article présente un travail d’analyse des erreurs d’orthographe de personnes dyslexiques à partir de corpus écrits en langue française. L’objectif de cette analyse est d’étudier la fréquence et les caractéristiques des erreurs afin de guider le développement de modules de correction orthographique spécifiques. Les résultats de cette analyse sont comparés aux travaux déjà réalisés en français, anglais et espagnol.

pdf
Ré-entraîner ou entraîner soi-même ? Stratégies de pré-entraînement de BERT en domaine médical (Re-train or train from scratch ? Pre-training strategies for BERT in the medical domain )
Hicham El Boukkouri

Les modèles BERT employés en domaine spécialisé semblent tous découler d’une stratégie assez simple : utiliser le modèle BERT originel comme initialisation puis poursuivre l’entraînement de celuici sur un corpus spécialisé. Il est clair que cette approche aboutit à des modèles plutôt performants (e.g. BioBERT (Lee et al., 2020), SciBERT (Beltagy et al., 2019), BlueBERT (Peng et al., 2019)). Cependant, il paraît raisonnable de penser qu’entraîner un modèle directement sur un corpus spécialisé, en employant un vocabulaire spécialisé, puisse aboutir à des plongements mieux adaptés au domaine et donc faire progresser les performances. Afin de tester cette hypothèse, nous entraînons des modèles BERT à partir de zéro en testant différentes configurations mêlant corpus généraux et corpus médicaux et biomédicaux. Sur la base d’évaluations menées sur quatre tâches différentes, nous constatons que le corpus de départ influence peu la performance d’un modèle BERT lorsque celui-ci est ré-entraîné sur un corpus médical.

pdf
Évaluation systématique d’une méthode commune de génération (Systematic evaluation of a common generation method)
Hugo Boulanger

Avec l’augmentation de l’utilisation du traitement automatique des langues arrivent plusieurs problèmes dont l’absence de données dans les nouveaux domaines. Certaines approches d’apprentissage tel que l’apprentissage zero-shot ou par transfert tentent de résoudre ces problèmes. Une solution idéale serait de générer des données annotées à partir de bases de connaissances des domaines d’intérêt. Le but de notre travail est d’évaluer une méthode de génération simple et de trouver les critères permettant de la mettre en oeuvre correctement. Pour cela, nous comparons les performances d’un modèle obtenu sur des tâches d’annotation quand il est entraîné sur des données réelles ou sur des données générées. Grâce aux résultats obtenus et à des analyses effectuées sur les données, nous avons pu déterminer des bonnes pratiques d’utilisation de cette méthode de génération sur la tâche d’annotation.

pdf
Analyse de la régulation de la longueur dans un système neuronal de compression de phrase : une étude du modèle LenInit (Investigating Length Regulation in a Sentence Compression Neural System : a Study on the LenInit Model)
François Buet

La simplification de phrase vise à réduire la complexité d’une phrase tout en retenant son sens initial et sa grammaticalité. En pratique, il est souvent attendu que la phrase produite soit plus courte que la phrase d’origine, et les modèles qui intègrent un contrôle explicite de la longueur de sortie revêtent un intérêt particulier. Dans la continuité de la littérature dédiée à la compréhension du comportement des systèmes neuronaux, nous examinons dans cet article les mécanismes de régulation de longueur d’un encodeur-décodeur RNN appliqué à la compression de phrase, en étudiant spécifiquement le cas du modèle LenInit. Notre analyse met en évidence la coexistence de deux influences distinctes au cours du décodage : celle du contrôle explicite de la longueur, et celle du modèle de langue du décodeur.

pdf
Exploitation de modèles distributionnels pour l’étude de la nomination dans un corpus d’interviews politiques (Speaker-specific semantic variation representations using vector space models)
Manon Cassier

En analyse de discours (AD), la nomination désigne la recatégorisation du référent par le locuteur à travers l’usage d’un nouveau nom ou d’un nom modifié. Parfois utilisé pour influencer l’autre sur sa vision de voir le monde, ce phénomène sert d’indice sur l’idéologie du locuteur voire, en contexte adéquat, sur son affiliation politique. L’AD ne dispose pas à ce jour d’outils en mesure d’appréhender efficacement ce qui relève ou non de l’idéologie ou d’une visée argumentative face à une simple réutilisation de mots dont le sens est déjà consensuel. Dans le cadre d’une thèse entre AD et TAL, nous nous intéressons à l’exploitation de modèles distributionnels pour repérer de manière automatique ces variations de sens en discours dans un corpus d’interviews politiques. Dans cet article, nous nous interrogeons sur l’impact de leurs paramètres d’entraînement pour de la désambiguïsation lexicale et explorons une méthode de représentation de la variation sémantique interdiscursive.

pdf
L’adaptabilité comme compétence pour les systèmes de dialogue orientés tâche (Adaptability as a skill for goal-oriented dialog systems)
Oralie Cattan

Étendre les capacités d’adaptabilité des systèmes à toujours plus de nouveaux domaines sans données de référence constitue une pierre d’achoppement de taille. Prendre en charge plus de contenus serviciels constitue un moyen de diversifier l’éventail des capacités de compréhension des systèmes de dialogue et apporterait un véritable intérêt pour les utilisateurs par la richesse des échanges qu’elle rendrait possibles. Pour favoriser les progrès dans ce sens, la huitième édition du défi Dialog State Tracking Challenge introduit des pistes exploratoires permettant d’évaluer les capacités de généralisation et d’habileté des systèmes à composer à la fois avec la nouveauté et avec plusieurs domaines de tâches complexes. L’objectif de cet article est de rendre compte des recherches du domaine et contribue à donner des éléments de réponse de manière à mieux comprendre les limites des systèmes actuels et les méthodes appropriées pour aborder ces défis.

pdf
Simplification de textes : un état de l’art (Text simplification (State of the art) This paper presents the state of the art on text simplification, in particular the two main types of approaches, namely rule-based approaches and statistical approaches (or data-driven))
Sofiane Elguendouze

Cet article présente l’état de l’art en simplification de textes et ses deux grandes familles d’approches, à savoir les approches à base de règles et les approches statistiques. Nous présentons, en particulier, les récentes approches neuronales et les architectures mises en place ainsi que les méthodes d’évaluation des systèmes de simplification.

pdf
Évolution phonologique des langues et réseaux de neurones : travaux préliminaires (Sound change and neural networks: preliminary experiments )
Clémentine Fourrier

La prédiction de cognats est une tâche clef de la linguistique historique et présente de nombreuses similitudes avec les tâches de traduction automatique. Cependant, alors que cette seconde discipline a vu fleurir l’utilisation de méthodes neuronales, celles-ci restent largement absentes des outils utilisés en linguistique historique. Dans ce papier, nous étudions donc la performance des méthodes neuronales utilisées en traduction (les réseaux encodeur-décodeur) pour la tâche de prédiction de cognats. Nous nous intéressons notamment aux types de données utilisables pour cet apprentissage et comparons les résultats obtenus, sur différents types de données, entre des méthodes statistiques et des méthodes neuronales. Nous montrons que l’apprentissage de correspondances phonétiques n’est possible que sur des paires de cognats, et que les méthodes statistiques et neuronales semblent avoir des forces et faiblesses complémentaires quant à ce qu’elles apprennent des données.

pdf
Comparing PTB and UD information for PDTB discourseconnective identification
Kelvin Han | Phyllicia Leavitt | Srilakshmi Balard

Our work on the automatic detection of English discourse connectives in the Penn Discourse Treebank (PDTB) shows that syntactic information from the Universal Dependencies (UD) framework is a viable alternative to that from the Penn Treebank (PTB) framework. In fact, we found minor increases when comparing between the use of gold standard PTB part-of-speech (POS) tag information and automatically parsed UD information. The former has traditionally been used for the task but there are now much more UD corpora and in many more languages than that available in the PTB framework. As such, this finding is promising for areas in discourse parsing such as in multilingual as well as under production settings, where gold standard PTB information may be scarce.

pdf
Transformations syntaxiques entre niveaux de simplification dans le corpus Newsela (Syntactic transformations between simplification levels in the Newsela corpus)
Rita Hijazi

La simplification de textes est une tâche complexe du traitement automatique des langues. Depuis quelques années, des corpus parallèles de textes originaux et simplifiés sont proposés, permettant d’apprendre différents types d’opérations de simplification à partir de corpus. Dans le but de pouvoir développer et évaluer des systèmes de simplification automatique de textes, cet article s’intéresse au corpus Newsela, un corpus parallèle de textes en langue anglaise avec quatre niveaux de simplification. Nous présentons en détail ce corpus et étudions les différentes transformations caractérisant le passage d’un niveau de simplification à l’autre sur un sous-ensemble de textes, en nous intéressant plus particulièrement aux transformations syntaxiques.

pdf
La désambiguisation des abréviations du domaine médical (Disambiguation of abbreviations from the medical domain)
Anaïs Koptient

Les abréviations, tout en étant répandues dans la langue, ont une sémantique assez opaque car seulement les premières lettres sont transparentes. Cela peut donc empêcher la compréhension des abréviations, et des textes qui les contiennent, par les locuteurs. De plus, certaines abréviations sont ambiguës en ayant plusieurs sens possibles, ce qui augmente la difficulté de leur compréhension. Nous proposons de travailler avec les abréviations de la langue médicale dans un cadre lié à la simplification automatique de textes. Dans le processus de simplification, il faut en effet choisir la forme étendue des abréviations qui soit correcte pour un contexte donné. Nous proposons de traiter la désambiguïsation d’abréviations comme un problème de catégorisation supervisée. Les descripteurs sont construits à partir des contextes lexical et syntaxique des abréviations. L’entraînement est effectué sur les phrases qui contiennent les formes étendues des abréviations. Le test est effectué sur un corpus construit manuellement, où les bons sens des abréviations ont été définis selon les contextes. Notre approche montre une F-mesure moyenne de 0,888 sur le corpus d’entraînement en validation croisée et 0,773 sur le corpus de test.

pdf
Apprentissage de plongements de mots sur des corpus en langue de spécialité : une étude d’impact (Learning word embeddings on domain specific corpora : an impact study )
Valentin Pelloin | Thibault Prouteau

Les méthodes d’apprentissage de plongements lexicaux constituent désormais l’état de l’art pour la représentation du vocabulaire et des documents sous forme de vecteurs dans de nombreuses tâches de Traitement Automatique du Langage Naturel (TALN). Dans ce travail, nous considérons l’apprentissage et l’usage de plongements lexicaux dans le cadre de corpus en langue de spécialité de petite taille. En particulier, nous souhaitons savoir si dans ce cadre, il est préférable d’utiliser des plongements préappris sur des corpus très volumineux tels Wikipédia ou bien s’il est préférable d’apprendre des plongements sur ces corpus en langue de spécialité. Pour répondre à cette question, nous considérons deux corpus en langue de spécialité : O HSUMED issu du domaine médical, et un corpus de documentation technique, propriété de SNCF. Après avoir introduit ces corpus et évalué leur spécificité, nous définissons une tâche de classification. Pour cette tâche, nous choisissons d’utiliser en entrée d’un classifieur neuronal des représentations des documents qui sont soit basées sur des plongements appris sur les corpus de spécialité, soit sur des plongements appris sur Wikipédia. Notre analyse montre que les plongements appris sur Wikipédia fournissent de très bons résultats. Ceux-ci peuvent être utilisés comme une référence fiable, même si dans le cas d’O HSUMED, il vaut mieux apprendre des plongements sur ce même corpus. La discussion des résultats se fait en interrogeant les spécificités des deux corpus, mais ne permet pas d’établir clairement dans quels cas apprendre des plongements spécifiques au corpus.

pdf
Représentation vectorielle de paires de verbes pour la prédiction de relations lexicales (Verb-pairs embeddings for discourse relation prediction)
Etienne Rigaud

Dans cet article, nous proposons un modèle de représentations vectorielles de paire de mots, obtenues à partir d’une adaptation du modèle Skip-gram de Word2vec. Ce modèle est utilisé pour générer des vecteurs de paires de verbes, entraînées sur le corpus de textes anglais Ukwac. Les vecteurs sont évalués sur les données ConceptNet & EACL, sur une tâche de classification de relations lexicales. Nous comparons les résultats obtenus avec les vecteurs paires à des modèles utilisant des vecteurs mots, et testons l’évaluation avec des verbes dans leur forme originale et dans leur forme lemmatisée. Enfin, nous présentons des expériences où ces vecteurs paires sont utilisés sur une tâche d’identification de relation discursive entre deux segments de texte. Nos résultats sur le corpus anglais Penn Discourse Treebank, démontrent l’importance de l’information verbale pour la tâche, et la complémentarité de ces vecteurs paires avec les connecteurs discursifs des relations.

pdf
TTS voice corpus reduction for audio-book generation
Meysam Shamsi

Nowadays, with emerging new voice corpora, voice corpus reduction in expressive TTS becomes more important. In this study a spitting greedy approach is investigated to remove utterances. In the first step by comparing five objective measures, the TTS global cost has been found as the best available metric for approximation of perceptual quality. The greedy algorithm employs this measure to evaluate the candidates in each step and the synthetic quality resulted by its solution. It turned out that reducing voice corpus size until a certain length (1 hour in our experiment) could not degrade the synthetic quality. By modifying the original greedy algorithm, its computation time is reduced to a reasonable duration. Two perceptual tests have been run to compare this greedy method and the random strategy for voice corpus reduction. They revealed that there is no superiority of using the proposed greedy approach for corpus reduction.

pdf
Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle ()
Jean-Baptiste Tanguy

Pour comparer deux sorties de logiciels d’OCR, le Character Error Rate (ou, CER) est fréquemment utilisé. Moyennant l’existence d’une transcription de référence de qualité pour certains documents du corpus, le CER calcule le taux d’erreurs de ces pièces et permet ensuite de sélectionner le logiciel d’OCR le plus adapté. Toutefois, ces transcriptions sont très coûteuses à produire et peuvent freiner certaines études, même prospectives. Nous explorons l’exploitation des modèles de langue en agrégeant selon différentes méthodes les probabilités offertes par ceux-ci pour estimer la qualité d’une sortie d’OCR. L’indice de corrélation Pearson est ici utilisé pour comprendre dans quelle mesure ces estimations issues de modèles de langue co-varient avec le CER, mesure de référence.