pdf
bib
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Azim Roussanaly
pdf
bib
abs
Méthodologie pour la création d’un dictionnaire distributionnel dans une perspective d’étiquetage lexical semi-automatique
Delphine Reymond
Des groupes de recherche de plus en plus nombreux s’intéressent à l’étiquetage lexical ou la désambiguïsation du sens. La tendance actuelle est à l’exploitation de très grands corpus de textes qui, grâce à l’utilisation d’outils lexicographiques appropriés, peuvent fournir un ensemble de données initiales aux systèmes. A leur tour ces systèmes peuvent être utilisés pour extraire plus d’informations des corpus, qui peuvent ensuite être réinjectées dans les systèmes, dans un processus récursif. Dans cet article, nous présentons une méthodologie qui aborde la résolution de l’ambiguïté lexicale comme le résultat de l’interaction de divers indices repérables de manière semi-automatique au niveau syntaxique (valence), sémantique (collocations, classes d’objets) avec la mise en oeuvre de tests manuels.
pdf
bib
abs
Etude des critères de désambiguïsation sémantique automatique : présentation et premiers résultats sur les cooccurrences
Laurent Audibert
Nous présentons dans cet article les débuts d’un travail visant à rechercher et à étudier systématiquement les critères de désambiguïsation sémantique automatique. Cette étude utilise un corpus français étiqueté sémantiquement dans le cadre du projet SyntSem. Le critère ici étudié est celui des cooccurrences. Nous présentons une série de résultats sur le pouvoir désambiguïsateur des cooccurrences en fonction de leur catégorie grammaticale et de leur éloignement du mot à désambiguïser.
pdf
abs
LIZARD, un assistant pour le développement de ressources linguistiques à base de cascades de transducteurs
Antonio Balvet
Nous présentons un outil visant à assister les développeurs de ressources linguistiques en automatisant la fouille de corpus. Cet outil, est guidé par les principes de l’analyse distributionnelle sur corpus spécialisés, étendue grâce à des ressources lexicales génériques. Nous présentons une évaluation du gain de performances dû à l’intégration de notre outil à une application de filtrage d’information et nous élargissons le champ d’application de l’assistant aux études sur corpus menées à l’aide de cascades de transducteurs à états finis.
pdf
abs
Conceptualisation d’un système d’informations lexicales, une interface paramétrable pour le T.A.L
Djamé Seddah
|
Evelyne Jacquey
La nécessité de ressources lexicales normalisées et publiques est avérée dans le domaine du TAL. Cet article vise à montrer comment, sur la base d’une partie du lexique MULTEXT disponible sur le serveur ABU, il serait possible de construire une architecture permettant tout à la fois l’accès aux ressources avec des attentes différentes (lemmatiseur, parseur, extraction d’informations, prédiction, etc.) et la mise à jour par un groupe restreint de ces ressources. Cette mise à jour consistant en l’intégration et la modification, automatique ou manuelle, de données existantes. Pour ce faire, nous cherchons à prendre en compte à la fois les besoins et les données accessibles. Ce modèle est évalué conceptuellement dans un premier temps en fonction des systèmes utilisés dans notre équipe : un analyseur TAG, un constructeur de grammaires TAGs, un extracteur d’information.
pdf
abs
Problèmes posés par la reconnaissance de gestes en Langue des Signes
Bruno Bossard
Le but de cet article est d’expliciter certains des problèmes rencontrés lorsque l’on cherche à concevoir un système de reconnaissance de gestes de la Langue des Signes et de proposer des solutions adaptées. Les trois aspects traités ici concernent la simultanéïté d’informations véhiculées par les gestes des mains, la synchronisation éventuelle entre les deux mains et le fait que différentes classes de signes peuvent se rencontrer dans une phrase en Langue des Signes.
pdf
abs
Annotation des descriptions définies : le cas des reprises par les rôles thématiques
Hélène Manuélian
Nous présentons dans cet article un cas particulier de description définie où la description reprend le rôle thématique d’un argument (implicite ou explicite) d’un événement mentionné dans le contexte linguistique. Nous commençons par montrer que les schémas d’annotation proposés (MATE) et utilisés (Poesio et Vieira 2000) ne permettent pas une caractérisation uniforme ni, partant, un repérage facile de ces reprises. Nous proposons une extension du schéma MATE qui pallie cette difficulté.
pdf
abs
Etude des répétitions en français parlé spontané pour les technologies de la parole
Sandrine Henry
Cet article rapporte les résultats d’une étude quantitative des répétitions menée à partir d’un corpus de français parlé spontané d’un million de mots, étude réalisée dans le cadre de notre première année de thèse. L’étude linguistique pourra aider à l’amélioration des systèmes de reconnaissance de la parole et de l’étiquetage grammatical automatique de corpus oraux. Ces technologies impliquent la prise en compte et l’étude des répétitions de performance (en opposition aux répétitions de compétence, telles que nous nous sujet + complément) afin de pouvoir, par la suite, les « gommer » avant des traitements ultérieurs. Nos résultats montrent que les répétitions de performance concernent principalement les mots-outils et apparaissent à des frontières syntaxiques majeures.
pdf
abs
Normalisation de documents par analyse du contenu à l’aide d’un modèle sémantique et d’un générateur
Aurélien Max
La problématique de la normalisation de documents est introduite et illustrée par des exemples issus de notices pharmaceutiques. Un paradigme pour l’analyse du contenu des documents est proposé. Ce paradigme se base sur la spécification formelle de la sémantique des documents et utilise une notion de similarité floue entre les prédictions textuelles d’un générateur de texte et le texte du document à analyser. Une implémentation initiale du paradigme est présentée.