pdf
bib
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). 2e atelier Éthique et TRaitemeNt Automatique des Langues (ETeRNAL)
Gilles Adda
|
Maxime Amblard
|
Karën Fort
pdf
bib
abs
Pratiques d’évaluation en ASR et biais de performance (Evaluation methodology in ASR and performance bias)
Mahault Garnerin
|
Solange Rossato
|
Laurent Besacier
Nous proposons une réflexion sur les pratiques d’évaluation des systèmes de reconnaissance automatique de la parole (ASR). Après avoir défini la notion de discrimination d’un point de vue légal et la notion d’équité dans les systèmes d’intelligence artificielle, nous nous intéressons aux pratiques actuelles lors des grandes campagnes d’évaluation. Nous observons que la variabilité de la parole et plus particulièrement celle de l’individu n’est pas prise en compte dans les protocoles d’évaluation actuels rendant impossible l’étude de biais potentiels dans les systèmes.
pdf
bib
abs
Comment arpenter sans mètre : les scores de résolution de chaînes de coréférences sont-ils des métriques ? (Do the standard scores of evaluation of coreference resolution constitute metrics ?)
Adam Lion-Bouton
|
Loïc Grobol
|
Jean-Yves Antoine
|
Sylvie Billot
|
Anaïs Lefeuvre-Halftermeyer
Cet article présente un travail qui consiste à étudier si les scores les plus utilisés pour l’évaluation de la résolution des coréférences constituent des métriques de similarité normalisées. En adoptant une démarche purement expérimentale, nous avons vérifié si les scores MUC, B3 , CEAF, BLANC, LEA et le meta-score CoNLL respectent les bonnes propriétés qui définissent une telle métrique. Notre étude montre que seul le score CEAFm est potentiellement une métrique de similarité normalisée.
pdf
abs
Que recèlent les données textuelles issues du web ? (What do text data from the Web have to hide ?)
Adrien Barbaresi
|
Gaël Lejeune
La collecte et l’usage opportunistes de données textuelles tirées du web sont sujets à une série de problèmes éthiques, méthodologiques et épistémologiques qui méritent l’attention de la communauté scientifique. Nous présentons des études empiriques de leur impact en linguistique et TAL centrées sur la forme (méthodes d’extraction des données) ainsi que sur le fond (contenu des corpus).
pdf
abs
Répliquer et étendre pour l’alsacien “Étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux” (Replicating and extending for Alsatian : “POS tagging for low-resource languages by adapting word embeddings”)
Alice Millour
|
Karën Fort
|
Pierre Magistry
Nous présentons ici les résultats d’un travail de réplication et d’extension pour l’alsacien d’une expérience concernant l’étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux (Magistry et al., 2018). Ce travail a été réalisé en étroite collaboration avec les auteurs de l’article d’origine. Cette interaction riche nous a permis de mettre au jour les éléments manquants dans la présentation de l’expérience, de les compléter, et d’étendre la recherche à la robustesse à la variation.
pdf
abs
1990-2020 : retours sur 30 ans d’échanges autour de l’identification de voix en milieu judiciaire (1990-2020: A look back at 30 years of discussions on voice identification in the judicial system)
Jean-Francois Bonastre
Des enregistrements de voix se trouvent de plus en plus souvent au cœur d’affaires judiciaires importantes, notamment de par l’essor de la téléphonie mobile. La justice demande à ce que des expertises en identification de voix soient réalisées alors que dans le même temps, la pertinence scientifique de telles expertises est fortement mise en cause par les scientifiques. Ainsi, dès 1990, les chercheurs en communication parlée réunis dans le GFCP, devenu depuis AFCP, ont voté une motion affirmant que « l’identification d’un individu par sa voix est à l’heure actuelle un problème à sa connaissance non résolu ». Cette motion est toujours en vigueur, après avoir été réaffirmée en 1997 et renforcée par une pétition en 2002. Malgré cela, des expertises judiciaires en identification de voix sont réalisées en France chaque année. Cet article revient sur les actions menées par le GFCP et l’AFCP depuis la motion initiale jusqu’aux actions contemporaines. Il se propose d’évaluer les répercussions de ces actions, tant au niveau de la Justice qu’au niveau académique.