Lucie Steiblé


2018

pdf
Corpora with Part-of-Speech Annotations for Three Regional Languages of France: Alsatian, Occitan and Picard
Delphine Bernhard | Anne-Laure Ligozat | Fanny Martin | Myriam Bras | Pierre Magistry | Marianne Vergez-Couret | Lucie Steiblé | Pascale Erhart | Nabil Hathout | Dominique Huck | Christophe Rey | Philippe Reynés | Sophie Rosset | Jean Sibille | Thomas Lavergne
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

pdf
Pronunciation Dictionaries for the Alsatian Dialects to Analyze Spelling and Phonetic Variation
Lucie Steiblé | Delphine Bernhard
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

2017

pdf
Vers une solution légère de production de données pour le TAL : création d’un tagger de l’alsacien par crowdsourcing bénévole (Toward a lightweight solution to the language resources bottleneck issue: creating a POS tagger for Alsatian using voluntary crowdsourcing)
Alice Millour | Karën Fort | Delphine Bernhard | Lucie Steiblé
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 - Articles longs

Nous présentons ici les résultats d’une expérience menée sur l’annotation en parties du discours d’un corpus d’une langue régionale encore peu dotée, l’alsacien, via une plateforme de myriadisation (crowdsourcing) bénévole développée spécifiquement à cette fin : Bisame1 . La plateforme, mise en ligne en mai 2016, nous a permis de recueillir 15 846 annotations grâce à 42 participants. L’évaluation des annotations, réalisée sur un corpus de référence, montre que la F-mesure des annotations volontaires est de 0, 93. Le tagger entraîné sur le corpus annoté atteint lui 82 % d’exactitude. Il s’agit du premier tagger spécifique à l’alsacien. Cette méthode de développement de ressources langagières est donc efficace et prometteuse pour certaines langues peu dotées, dont un nombre suffisant de locuteurs est connecté et actif sur le Web. Le code de la plateforme, le corpus annoté et le tagger sont librement disponibles.

2016

pdf
Vers un lexique ouvert des formes fléchies de l’alsacien : génération de flexions pour les verbes (Towards an Open Lexicon of Inflected Word Forms for Alsatian: Generation of Verbal Inflection)
Lucie Steiblé | Delphine Bernhard
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Cet article présente les méthodes mises en œuvre et les résultats obtenus pour la création d’un lexique de formes fléchies de l’alsacien. Les dialectes d’Alsace font partie des langues peu dotées : rares sont les outils et ressources informatisées les concernant. Plusieurs difficultés doivent être prises en compte afin de générer des ressources pour ces langues, généralement liées à la variabilité en l’absence de norme graphique, et au manque de formes fléchies dans les quelques ressources existantes. Nous avons pour ce faire utilisé plusieurs outils permettant la génération automatique de variantes graphiques et la création de formes fléchies (graphes morphologiques et de flexion d’Unitex). Les résultats en termes de couverture des formes rencontrées dans des textes ont permis l’évaluation de la méthode.