pdf
bib
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
Farah Benamara
|
Sylwia Ozdowska
pdf
bib
abs
Vers une nouvelle structuration de l’information extraite automatiquement
Alejandro Acosta
Les systèmes d’Extraction d’Information se contentent, le plus souvent, d’enrichir des bases de données plates avec les informations qu’ils extraient. Nous décrivons dans cet article un travail en cours sur l’utilisation de données extraites automatiquement pour la construction d’une structure de représentation plus complexe. Cette structure modélise un réseau social composé de relations entre les entités d’un corpus de biographies.
pdf
bib
abs
Vers une ressource prédicative pour l’extraction d’information
Aurélien Bossard
Cet article présente une méthode pour construire, à partir d’une ressource lexicale prédicative existante, une ressource enrichie pouvant servir à une tâche d’extraction. Nous montrons les points forts et les lacunes de deux ressources existantes pour le Français : les Tables du LADL et Volem. Après avoir montré pourquoi nous avons sélectionné Volem, nous listons les données nécessaires à la tâche d’extraction d’information. Nous présentons le processus d’enrichissement de la ressource initiale et une évaluation, à travers une tâche d’extraction d’information concernant des textes de rachats d’entreprise.
pdf
abs
Caractérisation d’un corpus de requêtes d’assistance
François Bouchet
Afin de concevoir un agent conversationnel logiciel capable d’assister des utilisateurs novices d’applications informatiques, nous avons été amenés à constituer un corpus spécifique de requêtes d’assistance en français, et à étudier ses caractéristiques. Nous montrons ici que les requêtes d’assistance se distinguent nettement de requêtes issues d’autres corpus disponibles dans des domaines proches. Nous mettons également en évidence le fait que ce corpus n’est pas homogène, mais contient au contraire plusieurs activités conversationnelles distinctes, dont l’assistance elle-même. Ces observations nous permettent de discuter de l’opportunité de considérer l’assistance comme un registre particulier de la langue générale.
pdf
abs
Extraction endogène d’une structure de document pour un alignement multilingue
Romain Brixtel
Pour des raisons variées, diverses communautés se sont intéressées aux corpus multilingues. Parmi ces corpus, les textes parallèles sont utilisés aussi bien en terminologie, lexicographie ou comme source d’informations pour les systèmes de traduction par l’exemple. L’Union Européenne, qui a entraîné la production de document législatif dans vingtaine de langues, est une des sources de ces textes parallèles. Aussi, avec le Web comme vecteur principal de diffusion de ces textes parallèles, cet objet d’étude est passé à un nouveau statut : celui de document. Cet article décrit un système d’alignement prenant en compte un grand nombre de langues simultanément (> 2) et les caractéristiques structurelles des documents analysés.
pdf
abs
Évaluation transparente de systèmes de questions-réponses : application au focus
Sarra El Ayari
Les campagnes d’évaluation ne tiennent compte que des résultats finaux obtenus par les systèmes de recherche d’informations (RI). Nous nous situons dans une perspective d’évaluation transparente d’un système de questions-réponses, où le traitement d’une question se fait grâce à plusieurs composants séquentiels. Dans cet article, nous nous intéressons à l’étude de l’élément de la question qui porte l’information qui se trouvera dans la phrase réponse à proximité de la réponse elle-même : le focus. Nous définissons ce concept, l’appliquons au système de questions-réponses QALC, et démontrons l’utilité d’évaluations des composants afin d’augmenter la performance globale du système.
pdf
abs
La segmentation thématique TextTiling comme indice pour le repérage de segments d’information évolutive dans un corpus de textes encyclopédiques
Marion Laignelet
|
Christophe Pimm
Nous faisons l’hypothèse que les bornes délimitées par la méthode statistique TextTiling peuvent servir d’indices qui, cumulées à des indices de nature linguistique, permettront de repérer automatiquement des segments d’informations évolutives. Ce travail est développé dans le cadre d’un projet industriel plus général dont le but est le repérage automatique de zones textuelles contenant de l’information potentiellement évolutive.
pdf
abs
Annotation des disfluences dans les corpus oraux
Marie Piu
|
Rémi Bove
Les disfluences (répétitions, amorces, autocorrections, constructions inachevées, etc.) inhérentes à toute production orale spontanée constituent une réelle difficulté en termes d’annotation. En effet, l’annotation de ces phénomènes se révèle difficilement automatisable dans la mesure où leur étude réclame un jugement éminemment interprétatif. Dans cet article, nous présentons une méthodologie applicable à l’annotation des disfluences (ou « phénomènes de production ») que l’on rencontre fréquemment dans les corpus oraux. Le fait de constituer un tel corpus de données annotées, permet non seulement de représenter certains aspects pertinents de l’oral (de manière à servir de base aux observations et aux comparaisons avec d’autres données) mais aussi d’améliorer in fine le traitement automatique de l’oral (notamment l’analyse syntaxique automatique).
pdf
abs
Architecture modulaire portable pour la génération du langage naturel en dialogue homme-machine
Vladimir Popescu
La génération du langage naturel pour le dialogue oral homme-machine pose des contraintes spécifiques, telles que la spontanéité et le caractère fragmenté des énoncés, les types des locuteurs ou les contraintes de temps de réponse de la part du système. Dans ce contexte, le problème d’une architecture rigoureusement spécifiée se pose, autant au niveau des étapes de traitement et des modules impliqués, qu’au niveau des interfaces entre ces modules. Afin de permettre une liberté quasi-totale à l’égard des démarches théoriques, une telle architecture doit être à la fois modulaire (c’est-à-dire, permettre l’indépendance des niveaux de traitement les uns des autres) et portable (c’est-à-dire, permettre l’interopérabilité avec des modules conçus selon des architectures standard en génération du langage naturel, telles que le modèle RAGS - « Reference Architecture for Generation Systems »). Ainsi, dans cet article on présente de manière concise l’architecture proposée, la comparant ensuite au modèle RAGS, pour argumenter les choix opérés en conception. Dans un second temps, la portabilité de l’architecture sera décrite à travers un exemple étendu, dont la généralité réside dans l’obtention d’un ensemble de règles permettant de plonger automatiquement les représentations des informations de notre architecture vers le format du modèle RAGS et inversement. Finalement, un ensemble de conclusions et perspectives clôturera l’article.
pdf
abs
Résolution anaphorique intégrée à une analyse automatique de discours d’un corpus oral retranscrit
Alain Régnier
Nous présentons une résolution anaphorique intégrée à une analyse automatique de discours. Cette étude traite des anaphores pronominales et des anaphores zéro. Notre analyse est basée sur trois approches : une analyse basée sur les contraintes, une analyse fonctionnelle et une analyse dynamique. Pour évaluer la faisabilité et la fiabilité de notre approche, nous l’avons expérimentée sur un corpus de 97 histoires produites à l’oral par des enfants. Nous présentons le résultat de cette évaluation.