Abstract
Les mots en arabe sont très proches lexicalement les uns des autres. La probabilité de tomber sur un mot correct en commettant une erreur typographique est plus importante que pour le français ou pour l’anglais. Nous nous intéressons dans cet article à détecter les erreurs orthographiques plus précisément, celles générant des mots lexicalement corrects mais causant un dérèglement sémantique au niveau de la phrase. Nous décrivons et comparons deux méthodes se basant sur la représentation vectorielle du sens des mots. La première méthode utilise l’analyse sémantique latente (LSA). La seconde s’appuie sur le modèle Word2Vec et plus particulièrement l’architecture Skip-Gram. Les expérimentations ont montré que Skip-Gram surpasse LSA.- Anthology ID:
- 2018.jeptalnrecital-court.11
- Volume:
- Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
- Month:
- 5
- Year:
- 2018
- Address:
- Rennes, France
- Editors:
- Pascale Sébillot, Vincent Claveau
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA
- Note:
- Pages:
- 293–302
- Language:
- French
- URL:
- https://aclanthology.org/2018.jeptalnrecital-court.11
- DOI:
- Cite (ACL):
- Chiraz Ben Othmane Zribi. 2018. Word2Vec vs LSA pour la détection des erreurs orthographiques produisant un dérèglement sémantique en arabe (Word2Vec vs LSA for detecting semantic errors in Arabic language). In Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN, pages 293–302, Rennes, France. ATALA.
- Cite (Informal):
- Word2Vec vs LSA pour la détection des erreurs orthographiques produisant un dérèglement sémantique en arabe (Word2Vec vs LSA for detecting semantic errors in Arabic language) (Ben Othmane Zribi, JEP/TALN/RECITAL 2018)
- PDF:
- https://preview.aclanthology.org/landing_page/2018.jeptalnrecital-court.11.pdf