Hugo Ayats


2022

pdf
Construction de Graphes de Connaissance à partir de textes avec une I.A. centrée-utilisateur (Knowledge Graph Construction from Texts with an User-Centric A)
Hugo Ayats
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 : 24e Rencontres Etudiants Chercheurs en Informatique pour le TAL (RECITAL)

Avec l’essor du Web sémantique au cours des deux dernières décennies est apparu un besoin en outils permettant de construire des graphes de connaissances de bonne qualité. Cet article présente mon travail de thèse, qui est la conception d’une méthode explicable et centrée-utilisateur pour la production semi-automatisée de graphes de connaissances à partir de textes spécifiques à un domaine. Ce système se présente initialement comme une interface d’édition guidée de RDF. Puis, se basant sur les actions de l’utilisateur, un système de suggestion de triplets se met en place. Enfin, à travers des interactions avec l’utilisateur, le système automatise progressivement le processus. Après avoir présenté le workflow du système et détaillé les unités qui le compose – une unité de prétraitement, une unité interactive et une unité automatisée - cet article documente les aspects de ce workflow déjà implémentés, ainsi que les résultats de leur évaluation.

2018

pdf
Construction conjointe d’un corpus et d’un classifieur pour les registres de langue en français (Joint building of a corpus and a classifier for language registers in French)
Gwénolé Lecorvé | Hugo Ayats | Fournier Benoît | Jade Mekki | Jonathan Chevelu | Delphine Battistelli | Nicolas Béchet
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Les registres de langue sont un trait stylistique marquant dans l’appréciation d’un texte ou d’un discours. Cependant, il sont encore peu étudiés en traitement automatique des langues. Dans cet article, nous présentons une approche semi-supervisée permettant la construction conjointe d’un corpus de textes étiquetés en registres et d’un classifieur associé. Cette approche s’appuie sur un ensemble initial et restreint de données expertes. Via une collecte automatique et massive de pages web, l’approche procède par itérations en alternant l’apprentissage d’un classifieur intermédiaire et l’annotation de nouveaux textes pour augmenter le corpus étiqueté. Nous appliquons cette approche aux registres familier, courant et soutenu. À l’issue du processus de construction, le corpus étiqueté regroupe 800 000 textes et le classifieur, un réseau de neurones, présente un taux de bonne classification de 87 %.