François Toussenel


2004

pdf
Why Supertagging Is Hard
François Toussenel
Proceedings of the 7th International Workshop on Tree Adjoining Grammar and Related Formalisms

2001

pdf bib
Un corpus français arboré : quelques interrogations
Anne Abeillé | Lionel Clément | Alexandra Kinyon | François Toussenel
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans cet article nous présentons les premiers résultats de l’exploitation d’un Corpus français arboré (Abeillé et al., 2001). Le corpus comprend 1 million de mots entièrement annotés et validé pour les parties du discours, la morphologie, les mots composés et les lemmes, et partiellement annotés pour les constituants syntaxiques. Il comprend des extraits de journaux parus entre 1989 et 1993 et écrits par divers auteurs, et couvre différents thèmes (économie, littérature, politique, etc.). Après avoir expliqué comment ce corpus a été construit, et comment l’exploiter à l’aide d’un outil de recherche spécifique, nous exposerons quelques résultats linguistiques concernant les fréquences et les préférences lexicales et syntaxiques. Nous expliquerons pourquoi nous pensons que certains de ces résultats sont pertinents en linguistique théorique et en psycholinguistique.