Halima Sahraoui


2016

pdf
Réseau de neurones convolutif pour l’évaluation automatique de la prononciation (CNN-based automatic pronunciation assessment of Japanese speakers learning French )
Thomas Pellegrini | Lionel Fontan | Halima Sahraoui
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP

Dans cet article, nous comparons deux approches d’évaluation automatique de la prononciation de locuteurs japonophones apprenant le français. La première, l’algorithme standard appelé Goodness Of Pronunciation (GOP), compare les vraisemblances obtenues lors d’un alignement forcé et lors d’une reconnaissance de phones sans contrainte. La deuxième, nécessitant également un alignement préalable, fait appel à un réseau de neurones convolutif (CNN) comme classifieur binaire, avec comme entrée des trames de coefficients spectraux. Les deux approches sont évaluées sur deux phonèmes cibles /R/ et /v/ du français, particulièrement difficiles à prononcer pour des Japonophones. Les paramètres du GOP (seuils) et du CNN sont estimés sur un corpus de parole lue par des locuteurs natifs du français, dans lequel des erreurs de prononciation artificielles sont introduites. Un gain de performance relatif de 13,4% a été obtenu avec le CNN, avec une précision globale de 72,6%, sur un corpus d’évaluation enregistré par 23 locuteurs japonophones.