This is an internal, incomplete preview of a proposed change to the ACL Anthology.
For efficiency reasons, we don't generate MODS or Endnote formats, and the preview may be incomplete in other ways, or contain mistakes.
Do not treat this content as an official publication.
MurielLalain
Fixing paper assignments
Please select all papers that belong to the same person.
Indicate below which author they should be assigned to.
En cancérologie ORL, le lien entre anatomie et déficit de parole est étroit en raison de l’impact de la pathologie et de son traitement sur les structures anatomiques en jeu dans la production de parole. Pourtant, les corrélations entre scores moteurs et évaluation perceptive restent faibles. L’utilisation de systèmes automatiques dédiés à la reconnaissance de phonèmes pourrait permettre d’obtenir de nouveaux résultats. L’objectif est d’étudier les liens entre scores moteurs et production phonémique via un système de reconnaissance automatique de phonèmes appliqué à une tâche de production de pseudo-mots. Après réalisation d’un inventaire phonémique par sujet, le taux d’occlusives reconnues est significativement plus faible en cas d’atteinte des structures. Certains mécanismes de compensation ont également pu être mis en évidence, notamment au niveau de la production de consonnes labiodentales, plus élevée en cas d’atteinte de la langue ou de la mâchoire.
La perte d’intelligibilité constitue une plainte récurrente des patients traités pour un cancer de la cavité buccale ou de l’oropharynx. La notion d’intelligibilité par son aspect multifactorielle est complexe à définir, mais aussi, par extension, à évaluer avec précision. Les différents matériaux utilisés dans ces évaluations sont connus pour montrer des effets d’apprentissages imputables aux listes d’items courtes et fermées, présentes dans les batteries de tests classiques. Dans cette étude, nous évaluons l’effet d’apprentissage du matériel linguistique en comparant l’évolution des scores d’intelligibilité calculés à partir de la transcription de mots et de pseudo-mots, présentés en proportion équivalente, soit la répétition de 50 mots vs de 52 pseudo-mots. Nos résultats montrent un effet d’apprentissage des pseudo-mots lorsqu’ils sont répétés, dans les mêmes proportions que celui observé sur les mots. Ainsi, c’est la quantité de pseudo-mots qui permet de neutraliser l’effet d’apprentissage du matériel linguistique dans une évaluation de l’intelligibilité.
Les cancers des voies aérodigestives supérieures (VADS) ont un impact significatif sur la capacité des patients à s’exprimer, ce qui affecte leur qualité de vie. Les évaluations actuelles de la parole pathologique sont subjectives, justifiant le besoin de méthodes automatiques et objectives. Un modèle auto-supervisé basé sur Wav2Vec2 est proposé pour la classification de phonèmes chez les patients atteints de cancer des VADS, visant une amélioration des taux de bonne classification et une meilleure discrimination des caractéristiques phonétiques. Les impacts des paramètres d’affinage, des données de pré-entraînement, de la taille du modèle et des données d’affinage sont explorés. Nos résultats montrent que l’architecture Wav2Vec2 surpasse une approche basée sur un CNN, et montre une corrélation significative avec les mesures perceptives. Ce travail ouvre la voie à une meilleure compréhension de la parole pathologique, via une représentation auto-apprise de la parole, très pertinente pour des approches d’interprétation à destination des cliniciens.
La perte d’intelligibilité chez des patients atteints de troubles de la production de la parole est un élément important du bilan orthophonique. Nous proposons un test fondé sur des séquences délexicalisées de type Voyelle-Consonne-Voyelle ainsi que sur des voyelles isolées extraites automatiquement d’un corpus de lecture. 12 locuteurs contrôles et 30 patients atteints de la maladie de Parkinson ont participé à l’expérience. Pour chaque locuteur, nous avons extrait automatiquement 50 séquences VCV et 50 voyelles isolées qui ont été soumises à l’identification par des auditeurs. La mesure de l’intelligibilité est fondée sur le comptage du nombre de traits phonémiques mal perçus par les auditeurs (Perceived Phonological Deviation = PPD). Nos résultats montrent une différence significative entre le groupe contrôle et les patients. Nous n’observons aucun effet lié au traitement dopaminergique. En revanche, nous observons une augmentation du PPD en fonction de la sévérité de la dysarthrie évaluée cliniquement par le neurologue.
This paper sheds light on a relatively unexplored area which is deep learning interpretability for speech disorder assessment and characterization. Building upon a state-of-the-art methodology for the explainability and interpretability of hidden representation inside a deep-learning speech model, we provide a deeper understanding and interpretation of the final intelligibility assessment of patients experiencing speech disorders due to Head and Neck Cancers (HNC). Promising results have been obtained regarding the prediction of speech intelligibility and severity of HNC patients while giving relevant interpretations of the final assessment both at the phonemes and phonetic feature levels. The potential of this approach becomes evident as clinicians can acquire more valuable insights for speech therapy. Indeed, this can help identify the specific linguistic units that affect intelligibility from an acoustic point of view and enable the development of tailored rehabilitation protocols to improve the patient’s ability to communicate effectively, and thus, the patient’s quality of life.
Conversations (normal speech) or professional interactions (e.g., projected speech in the classroom) have been identified as situations with increased risk of exposure to SARS-CoV-2 due to the high production of droplets in the exhaled air. However, it is still unclear to what extent speech properties influence droplets emission during everyday life conversations. Here, we report the experimental protocol of three experiments aiming at measuring the velocity and the direction of the airflow, the number and size of droplets spread during speech interactions in French. We consider different phonetic conditions, potentially leading to a modulation of speech droplets production, such as voice intensity (normal vs. loud voice), articulation manner of phonemes (type of consonants and vowels) and prosody (i.e., the melody of the speech). Findings from these experiments will allow future simulation studies to predict the transport, dispersion and evaporation of droplets emitted under different speech conditions.
La perte d’intelligibilité représente une plainte importante des patients atteints de troubles de la parole. Plusieurs batteries de test d’intelligibilité existent mais leurs limitations résident dans la capacité des auditeurs à restaurer les séquences distordues. Nous proposons un nouveau test fondé sur l’utilisation de pseudo-mots en grande quantité afin de complètement neutraliser les effets perceptifs indésirables. Nous avons appliqué ce test à une population de 39 sujets sains et 78 patients post traitement de cancers de la cavité buccale et de l’oropharynx. Chaque locuteur a produit 52 pseudo-mots tirés aléatoirement. 40 auditeurs ont retranscrit ces productions. Les transcriptions orthographiques ont été phonétisées et comparées aux formes phonétiques attendues. Un algorithme fournit un score de déviation phonologique perçue (PPD) fondée sur le nombre de traits différents entre la forme attendue et celle transcrite. Les résultats montrent qu’il existe un seuil PPD de 0.6 traits/phonème au-dessus duquel, la parole produite est dysfonctionnelle. De plus, le score de PPD est bien corrélé au jugement subjectif de la sévérité obtenue auprès d’experts. Ce test semble donc efficace pour mesurer la performance articulatoire des locuteurs.
La perte d’intelligibilité représente une plainte importante des patients traités pour un cancer de la cavité buccale ou de l’oropharynx. L’évaluation de l’intelligibilité est essentielle dans le parcours de soin, mais les tests existants ne sont pas satisfaisants. Basés sur la perception de listes de mots par des auditeurs entraînés à restaurer des séquences sonores dégradées, ils conduisent souvent à une sousévaluation des déficits. Nous avons proposé une nouvelle tâche d’évaluation de l’intelligibilité, la tâche de décodage acoustico phonétique (DAP), basée sur l’utilisation de pseudo-mots (Astésano et al., 2018; Ghio et al., 2018; Ghio et al., soumis, Lalain et al., sous presse). Dans cette étude, nous évaluons la capacité de la tâche DAP à neutraliser les effets de restauration lexicale et d’expertise auditive clinique. Les résultats montrent que contrairement à une évaluation de l’intelligibilité basée sur des mots, une évaluation basée sur des pseudo-mots permet d’obtenir des scores de Déviation Phonologique Perçue (DPP) stables au cours du temps quel que soit le degré d’expertise des auditeurs, naïfs ou cliniciens.
Atypical speech productions, regardless of their origins (accents, learning, pathology), need to be assessed with regard to “typical” or “expected” productions. Evaluation is necessarily based on comparisons between linguistic forms produced and linguistic forms expected. In the field of speech disorders, the intelligibility of a patient is evaluated in order to measure the functional impact of his/her pathology on his/her oral communication. The usual method is to transcribe orthographic linguistic forms perceived and to assign a global and imprecise rating based on their correctness or incorrect. To obtain a more precise evaluation of the production deviations, we propose a measurement method based on phonological transcriptions. An algorithm computes automatically and finely the distances between the phonological forms produced and expected from cost matrices based on the differences of features between phonemes. A first test of this method among a large population of healthy speakers and patients treated for cancer of the oral and pharyngeal cavities has proved its validity.
This paper investigates random vs. phonetically motivated reduction of linguistic material used in an intelligibility task in speech disordered populations and the subsequent impact on the discrimination classifier quantified by the area under the receiver operating characteristics curve (AUC of ROC). The comparison of obtained accuracy indexes shows that when the sample size is reduced based on a phonetic criterium—here, related to phonotactic complexity—, the classifier has a higher ranking ability than when the linguistic material is arbitrarily reduced. Crucially, downsizing the linguistic sample to about 30% of the original dataset does not diminish the discriminatory performance of the classifier. This result is of significant interest to both clinicians and patients as it validates a tool that is both reliable and efficient.