2022
pdf
abs
Organizing and Improving a Database of French Word Formation Using Formal Concept Analysis
Nyoman Juniarta
|
Olivier Bonami
|
Nabil Hathout
|
Fiammetta Namer
|
Yannick Toussaint
Proceedings of the Thirteenth Language Resources and Evaluation Conference
We apply Formal Concept Analysis (FCA) to organize and to improve the quality of Démonette2, a French derivational database, through a detection of both missing and spurious derivations in the database. We represent each derivational family as a graph. Given that the subgraph relation exists among derivational families, FCA can group families and represent them in a partially ordered set (poset). This poset is also useful for improving the database. A family is regarded as a possible anomaly (meaning that it may have missing and/or spurious derivations) if its derivational graph is almost, but not completely identical to a large number of other families.
2020
pdf
abs
Glawinette: a Linguistically Motivated Derivational Description of French Acquired from GLAWI
Nabil Hathout
|
Franck Sajous
|
Basilio Calderone
|
Fiammetta Namer
Proceedings of the Twelfth Language Resources and Evaluation Conference
Glawinette is a derivational lexicon of French that will be used to feed the Démonette database. It has been created from the GLAWI machine readable dictionary. We collected couples of words from the definitions and the morphological sections of the dictionary and then selected the ones that form regular formal analogies and that instantiate frequent enough formal patterns. The graph structure of the morphological families has then been used to identify for each couple of lexemes derivational patterns that are close to the intuition of the morphologists.
pdf
abs
Représentation sémantique des familles dérivationnelles au moyen de frames morphosémantiques (Semantic representation of derivational families by means of morphosemantic frames )
Daniele Sanacore
|
Nabil Hathout
|
Fiammetta Namer
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles
L’article présente un formalisme de représentation des relations morphologiques dérivationnelles inspiré de la Sémantique des Frames. La description morphosémantique y est réalisée au niveau des familles dérivationnelles au moyen de frames morphosémantiques dans lesquels les lexèmes sont définis les uns relativement aux autres. Les frames morphosémantiques permettent de rendre compte de la structure paradigmatique du lexique morphologique par l’alignement des familles qui présentent les mêmes oppositions de sens. La seconde partie de l’article est consacrée aux données qui seront utilisées pour produire (semi-) automatiquement ces représentations.
2019
pdf
abs
Demonette2 - Une base de données dérivationnelle du français à grande échelle : premiers résultats (Demonette2 – A large scale derivational database for French: first results)
Fiammetta Namer
|
Lucie Barque
|
Olivier Bonami
|
Pauline Haas
|
Nabil Hathout
|
Delphine Tribout
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts
Cet article présente la conception et le développement de Demonette2, une base de données dérivationnelle à grande échelle du français, développée dans le cadre du projet ANR Démonext (ANR-17-CE23-0005). L’article décrit les objectifs du projet, la structure de la base et expose les premiers résultats du projet, en mettant l’accent sur un enjeu crucial : la question du codage sémantique des entrées et des relations.
pdf
bib
ParaDis and Démonette: From Theory to Resources for Derivational Paradigms
Fiammetta Namer
|
Nabil Hathout
Proceedings of the Second International Workshop on Resources and Tools for Derivational Morphology
pdf
Semantic descriptions of French derivational relations in a families-and-paradigms framework
Daniele Sanacore
|
Nabil Hathout
|
Fiammetta Namer
Proceedings of the Second International Workshop on Resources and Tools for Derivational Morphology
2016
pdf
abs
Giving Lexical Resources a Second Life: Démonette, a Multi-sourced Morpho-semantic Network for French
Nabil Hathout
|
Fiammetta Namer
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)
Démonette is a derivational morphological network designed for the description of French. Its original architecture enables its use as a formal framework for the description of morphological analyses and as a repository for existing lexicons. It is fed with a variety of resources, which all are already validated. The harmonization of their content into a unified format provides them a second life, in which they are enriched with new properties, provided these are deductible from their contents. Démonette is released under a Creative Commons license. It is usable for theoretical and descriptive research in morphology, as a source of experimental material for psycholinguistics, natural language processing (NLP) and information retrieval (IR), where it fills a gap, since French lacks a large-coverage derivational resources database. The article presents the integration of two existing lexicons into Démonette. The first is Verbaction, a lexicon of deverbal action nouns. The second is Lexeur, a database of agent nouns in -eur derived from verbs or from nouns.
2014
pdf
The Démonette Lexical Database: between Constructional Semantics and Word Formation (La base lexicale Démonette : entre sémantique constructionnelle et morphologie dérivationnelle) [in French]
Nabil Hathout
|
Fiammetta Namer
Proceedings of TALN 2014 (Volume 1: Long Papers)
pdf
abs
Démonette, a French derivational morpho-semantic network
Nabil Hathout
|
Fiammetta Namer
Linguistic Issues in Language Technology, Volume 11, 2014 - Theoretical and Computational Morphology: New Trends and Synergies
Démonette is a derivational morphological network created from information provided by two existing lexical resources, DériF and Morphonette. It features a formal architecture in which words are associated with semantic types and where morphological relations, labelled with concrete and abstract bi-oriented definitions, connect derived words with their base and indirectly related words with each other.
2011
pdf
abs
Règles et paradigmes en morphologie informatique lexématique (Rules and paradigms in lexematic computer morphology)
Nabil Hathout
|
Fiammetta Namer
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Les familles de mots produites par deux analyseurs morphologiques, DériF (basé sur des règles) et Morphonette (basé sur l’analogie), appliqués à un même corpus lexical, sont comparées. Cette comparaison conduit à l’examen de trois sous-ensembles : - un sous-ensemble commun aux deux systèmes dont la taille montre que, malgré leurs différences, les approches expérimentées par chaque système sont valides et décrivent en partie la même réalité morphologique. - un sous-ensemble propre à DériF et un autre à Morphonette. Ces ensembles (a) nous renseignent sur les caractéristiques propres à chaque système, et notamment sur ce que l’autre ne peut pas produire, (b) ils mettent en évidence les erreurs d’un système, en ce qu’elles n’apparaissent pas dans l’autre, (c) ils font apparaître certaines limites de la description, notamment celles qui sont liées aux objets et aux notions théoriques comme les familles morphologiques, les bases, l’existence de RCL « transversales » entre les lexèmes qui n’ont pas de relation d’ascendance ou de descendance.
bib
Traitement Automatique des Langues, Volume 52, Numéro 2 : Vers la morphologie et au-delà [Toward Morphology and beyond]
Nabil Hathout
|
Fiammetta Namer
Traitement Automatique des Langues, Volume 52, Numéro 2 : Vers la morphologie et au-delà [Toward Morphology and beyond]
pdf
bib
Préface [Foreword]
Nabil Hathout
|
Fiammetta Namer
Traitement Automatique des Langues, Volume 52, Numéro 2 : Vers la morphologie et au-delà [Toward Morphology and beyond]
2009
pdf
bib
abs
Analyse automatique des noms déverbaux composés : pourquoi et comment faire interagir analogie et système de règles
Fiammetta Namer
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Cet article aborde deux problèmes d’analyse morpho-sémantique du lexique : (1) attribuer automatiquement une définition à des noms et verbes morphologiquement construits inconnus des dictionnaires mais présents dans les textes ; (2) proposer une analyse combinant règles et analogie, deux techniques généralement contradictoires. Les noms analysés sont apparemment suffixés et composés (HYDROMASSAGE). La plupart d’entre eux, massivement attestés dans les documents (journaux, Internet) sont absents des dictionnaires. Ils sont souvent reliés à des verbes (HYDROMASSER) également néologiques. Le nombre de ces noms et verbes est estimé à 5.400. L’analyse proposée leur attribue une définition par rapport à leur base, et enrichit un lexique de référence pour le TALN au moyen de cette base, si elle est néologique. L’implémentation des contraintes linguistiques qui régissent ces formations est reproductible dans d’autres langues européennes où sont rencontrés les mêmes types de données dont l’analyse reflète le même raisonnement que pour le français.
2007
pdf
abs
Analyse morphosémantique des composés savants : transposition du français à l’anglais
Louise Deléger
|
Fiammetta Namer
|
Pierre Zweigenbaum
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
La plupart des vocabulaires spécialisés comprennent une part importante de lexèmes morphologiquement complexes, construits à partir de racines grecques et latines, qu’on appelle « composés savants ». Une analyse morphosémantique permet de décomposer et de donner des définitions à ces lexèmes, et semble pouvoir être appliquée de façon similaire aux composés de plusieurs langues. Cet article présente l’adaptation d’un analyseur morphosémantique, initialement dédié au français (DériF), à l’analyse de composés savants médicaux anglais, illustrant ainsi la similarité de structure de ces composés dans des langues européennes proches. Nous exposons les principes de cette transposition et ses performances. L’analyseur a été testé sur un ensemble de 1299 lexèmes extraits de la terminologie médicale WHO-ART : 859 ont pu être décomposés et définis, dont 675 avec succès. Outre une simple transposition d’une langue à l’autre, la méthode montre la potentialité d’un système multilingue.
pdf
abs
Un Lexique Génératif de référence pour le français
Fiammetta Namer
|
Pierrette Bouillon
|
Évelyne Jacquey
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Cet article propose une approche originale visant la construction d’un lexique sémantique de référence sur le français. Sa principale caractéristique est de pouvoir s’appuyer sur les propriétés morphologiques des lexèmes. La méthode combine en effet des résultats d’analyse morphologique (Namer, 2002;2003), à partir de ressources lexicales de grande taille (nomenclatures du TLF) et des méthodologies d’acquisition d’information lexicale déjà éprouvées (Namer 2005; Sébillot 2002). Le format de représentation choisi, dans le cadre du Lexique Génératif, se distingue par ses propriétés d’expressivité et d’économie. Cette approche permet donc d’envisager la construction d’un lexique de référence sur le français caractérisé par une forte homogénéité tout en garantissant une couverture large, tant du point de vue de la nomenclature que du point de vue des contenus sémantiques. Une première validation de la méthode fournit une projection quantitative et qualitative des résultats attendus.
2006
pdf
abs
Productivité quantitative des suffixations par -ité et -Able dans un corpus journalistique moderne
Natalia Grabar
|
Delphine Tribout
|
Georgette Dal
|
Bernard Fradin
|
Nabil Hathout
|
Stéphanie Lignon
|
Fiammetta Namer
|
Clément Plancq
|
François Yvon
|
Pierre Zweigenbaum
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans ce travail, nous étudions en corpus la productivité quantitative des suffixations par -Able et par -ité du français, d’abord indépendamment l’une de l’autre, puis lorsqu’elles s’enchaînent dérivationnellement (la suffixation en -ité s’applique à des bases en -Able dans environ 15 % des cas). Nous estimons la productivité de ces suffixations au moyen de mesures statistiques dont nous suivons l’évolution par rapport à la taille du corpus. Ces deux suffixations sont productives en français moderne : elles forment de nouveaux lexèmes tout au long des corpus étudiés sans qu’on n’observe de saturation, leurs indices de productivité montrent une évolution stable bien qu’étant dépendante des calculs qui leur sont appliqués. On note cependant que, de façon générale, de ces deux suffixations, c’est la suffixation par -ité qui est la plus fréquente en corpus journalistique, sauf précisément quand -ité s’applique à un adjectif en -Able. Étant entendu qu’un adjectif en -Able et le nom en -ité correspondant expriment la même propriété, ce résultat indique que la complexité de la base est un paramètre à prendre en considération dans la formation du lexique possible.
2005
pdf
abs
Morphosémantique pour l’appariement de termes dans le vocabulaire médical : approche multilingue
Fiammetta Namer
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Cet article s’intéresse à la manière dont la morphosémantique peut contribuer à l’appariement multilingue de variantes terminologiques entre termes. L’approche décrite permet de relier automatiquement entre eux les noms et adjectifs composés savants d’un corpus spécialisé en médecine (synonymie, hyponymie, approximation). L’acquisition de relations lexicales est une question particulièrement cruciale lors de l’élaboration de bases de données et de systèmes de recherche d’information multilingues. La méthode est applicable à au moins cinq langues européennes dont elle exploite les caractéristiques morphologiques similaires des mots composés dans les langues de spécialité. Elle consiste en l’intéraction de trois dispositifs : (1) un analyseur morphosémantique monolingue, (2) une table multilingue qui définit des relations de base entre les racines gréco-latines des lexèmes savants, (3) quatre règles indépendantes de la langue qui infèrent, à partir de ces relations de base, les relations lexicales entre les lexèmes contenant ces racines. L’approche décrite est implémentée en français, où l’on dispose d’un analyseur morphologique capable de calculer la définition de mots construits inconnus à partir du sens de ses composants. Le corpus de travail est un lexique spécialisé médical d’environ 29000 lexèmes, que le calcul des relations de synonymie, hyponymie et approximation a permis de regrouper en plus de 3000 familles lexicales.
2002
pdf
abs
Acquisition automatique de sens à partir d’opérations morphologiques en français : études de cas
Fiammetta Namer
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Cet article propose une méthode de codage automatique de traits lexicaux sémantiques en français. Cette approche exploite les relations fixées par l’instruction sémantique d’un opérateur de construction morphologique entre la base et le mot construit. En cela, la réflexion s’inspire des travaux de Marc Light (Light 1996) tout en exploitant le fonctionnement d’un système d’analyse morphologique existant : l’analyseur DériF. A ce jour, l’analyse de 12 types morphologiques conduit à l’étiquetage d’environ 10 % d’un lexique composé de 99000 lemmes. L’article s’achève par la description de deux techniques utilisées pour valider les traits sémantiques.
2000
pdf
GéDériF: Automatic Generation and Analysis of Morphologically Constructed Lexical Resources
Fiammetta Namer
|
Georgette Dal
Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00)
1993
abs
A generic lexical model
Daniel Bachut
|
Isabelle Duquennoy
|
Lee Humphreys
|
Tita Kyriakopoulou
|
Anne Monceaux
|
Fiammetta Namer
|
Jean-Michel Ombrouck
|
Claire Perrey
|
Anne Poncet-Montange
|
Maria-Claudia Puerta
|
Caroline Raffy
|
Brigitte Roudaud
|
Simon Sabbagh
Third International EAMT Workshop: Machine Translation and the Lexicon
Linguistic engineering presupposes lexical resources. For translation, it is highly desirable that a Machine Translation engine and human translators should have access to the same dictionary information. The present paper describes a multilingual dictionary model, which integrates information for use by both humans and a variety of NLP systems. The model is used as a reference in the design of commercial translation products.
1989
pdf
Subject Erasing and Pronominalization in Italian Text Generation
Fiammetta Namer
Fourth Conference of the European Chapter of the Association for Computational Linguistics
1988
pdf
Morphology and cross dependencies in the synthesis of personal pronouns in Romance languages
Laurence Danlos
|
Fiametta Namer
Coling Budapest 1988 Volume 1: International Conference on Computational Linguistics