Abstract
Dans cet article, nous présentons un processus d’identification automatique de l’origine dialectale pour la langue arabe de textes écrits en caractères arabes ou en écriture latine (arabizi). Nous décrivons le processus d’annotation des ressources construites et du système de translittération adopté. Deux approches d’identification de la langue sont comparées : la première est linguistique et exploite des dictionnaires, la seconde est statistique et repose sur des méthodes traditionnelles d’apprentissage automatique (n-grammes). L’évaluation de ces approches montre que la méthode linguistique donne des résultats satisfaisants, sans être dépendante des corpus d’apprentissage.- Anthology ID:
- 2017.jeptalnrecital-court.30
- Volume:
- Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts
- Month:
- 6
- Year:
- 2017
- Address:
- Orléans, France
- Editors:
- Iris Eshkol-Taravella, Jean-Yves Antoine
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 242–250
- Language:
- French
- URL:
- https://aclanthology.org/2017.jeptalnrecital-court.30
- DOI:
- Cite (ACL):
- Houda Saâdane, Damien Nouvel, Hosni Seffih, and Christian Fluhr. 2017. Une approche linguistique pour la détection des dialectes arabes (A linguistic approach for the detection of Arabic dialects). In Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts, pages 242–250, Orléans, France. ATALA.
- Cite (Informal):
- Une approche linguistique pour la détection des dialectes arabes (A linguistic approach for the detection of Arabic dialects) (Saâdane et al., JEP/TALN/RECITAL 2017)
- PDF:
- https://preview.aclanthology.org/corrections-2024-05/2017.jeptalnrecital-court.30.pdf