Guillaume Segerer


Linguistic Survey of India and Polyglotta Africana: Two Retrostandardized Digital Editions of Large Historical Collections of Multilingual Wordlists
Robert Forkel | Johann-Mattis List | Christoph Rzymski | Guillaume Segerer
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

The Linguistic Survey of India (LSI) and the Polyglotta Africana (PA) are two of the largest historical collections of multilingual wordlists. While the originally printed editions have long since been digitized and shared in various forms, no editions in which the original data is presented in standardized form, comparable with contemporary wordlist collections, have been produced so far. Here we present digital retro-standardized editions of both sources. For maximal interoperability with datasets such as Lexibank the two datasets have been converted to CLDF, the standard proposed by the Cross-Linguistic Data Formats initiative. In this way, an unambiguous identification of the three main constituents of wordlist data – language, concept and segments used for transcription – is ensured through links to the respective reference catalogs, Glottolog, Concepticon and CLTS. At this level of interoperability, legacy material such as LSI and PA may provide a reasonable complementary source for language documentation, filling in gaps where original documentation is not possible anymore.


pdf bib
Générateur de dictionnaires au format Android pour les langues peu dotées (Dictionary App Generator for Less Resourced Languages)
Rémy Bonnet | Guillaume Segerer
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 4 : Démonstrations et résumés d'articles internationaux

Nous présentons un outil informatique en source libre permettant, à partir d’un dictionnaire sous format électronique de générer une application Android. L’objectif est de tirer profit de l’augmentation spectaculaire des utilisateurs de mobiles multifonctions dans de nombreuses régions du monde, notamment en Afrique, pour permettre aux locuteurs de langues moins dotées de bénéficier de dictionnaires de bonne qualité, faciles à utiliser et de s’impliquer dans la collecte de données. Cet outil est conçu pour être compatible avec les principaux formats lexicographiques.