This is an internal, incomplete preview of a proposed change to the ACL Anthology.
For efficiency reasons, we don't generate MODS or Endnote formats, and the preview may be incomplete in other ways, or contain mistakes.
Do not treat this content as an official publication.
AngèleBarbedette
Fixing paper assignments
Please select all papers that belong to the same person.
Indicate below which author they should be assigned to.
L’identification et la classification des groupes sociaux à partir du langage constitue une préoccupation sociolinguistique majeure. Dans cet article, nous présentons une recherche de classification des locuteurs basée sur leur âge. Pour ce faire, nous exploitons un corpus de données du français oral, où chaque locuteur est associé à des métadonnées, dont son âge au moment de l’enregistrement. Notre objectif est de développer des méthodes d’apprentissage automatique capables de prédire la tranche d’âge d’un locuteur à partir de son discours transcrit de l’oral, allant de l’apprentissage supervisé à l’ingénierie de prompts sur des grands modèles de langage. Cette tâche n’est pas seulement un défi technique, elle soulève également des questions fondamentales sur la nature de la variation linguistique et sur les liens entre le langage et la société. En effet, en identifiant les corrélations entre certains traits linguistiques et l’âge, notre projet contribue à enrichir notre compréhension des mécanismes sous-jacents à la variation du langage et à ses implications dans la construction de l’identité sociale. Son autre apport est de questionner les traits linguistiques classiquement imputés à une tranche d’âge afin de montrer leurs limites.
Ce travail a pour objectif de développer un modèle linguistique pour classifier automatiquement des questions issues de transcriptions d’enregistrements provenant des corpus ESLO2 et ACSYNT en deux catégories “spontané” et “préparé”. Avant de procéder au traitement automatique, nous proposons une liste de critères définitoires et discriminants permettant de distinguer les questions parmi d’autres énoncés. Les expériences basées sur des méthodes d’apprentissage supervisé sont réalisées selon une classification multiclasse comprenant les catégories “spontané”, “préparé” et “non-question” et selon une classification binaire incluant les catégories “spontané” et “préparé” uniquement. Les meilleurs résultats pour les méthodes traditionnelles d’apprentissage automatique sont obtenus avec une régression logistique combinée aux critères linguistiques significatifs uniquement (F-score de 0.75). Pour finir, nous mettons en parallèle ces résultats avec ceux obtenus en utilisant des techniques d’apprentissage profond.
Cette étude porte sur la classification automatique des intentions exprimées dans des questions issues d’un corpus d’échanges oraux spontanés. Nous proposons une typologie dans laquelle nous distinguons trois classes d’intentions (AVIS, VOLONTÉ et DOUTE). Après plusieurs prétraitements et ajouts de traits lexicaux aux données (lexiques, nombre de mots et de caractères), nous implémentons un algorithme de classification automatique et nous en présentons et évaluons les résultats qui atteignent une F-mesure de 0,62. Nous proposons ensuite une interprétation de ceux-ci, basée sur une comparaison entre les expériences menées et des mesures liées aux traits linguistiques intégrés avant la tâche de classification.
This paper focuses on the automatic detection of hidden intentions of speakers in questions asked during meals. Our corpus is composed of a set of transcripts of spontaneous oral conversations from ESLO’s corpora. We suggest a typology of these intentions based on our research work and the exploration and annotation of the corpus, in which we define two “explicit” categories (request for agreement and request for information) and three “implicit” categories (opinion, will and doubt). We implement a supervised automatic classification model based on annotated data and selected linguistic features and we evaluate its results and performances. We finally try to interpret these results by looking more deeply and specifically into the predictions of the algorithm and the features it used. There are many motivations for this work which are part of ongoing challenges such as opinion analysis, irony detection or the development of conversational agents.