2020
pdf
abs
Querying a large annotated corpus of parliamentary debates
Sascha Diwersy
|
Giancarlo Luxardo
Proceedings of the Second ParlaCLARIN Workshop
The TAPS corpus makes it possible to share a large volume of French parliamentary data. The TEI-compliant approach behind its design choices facilitates the publishing and the interoperability of data, but also the implementation of exploratory data analysis techniques in order to process institutional or political discourse. We demonstrate its application to the debates occurred in the context of a specific legislative process, which generated a strong opposition.
2016
pdf
abs
Disfluences normales vs. Disfluences sévères : une étude acoustique (Normal disfluences vs)
Ivana Didirkova
|
Camille Fauth
|
Fabrice Hirsch
|
Giancarlo Luxardo
|
Sascha Diwersy
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
L’objectif de cette recherche est d’étudier les caractéristiques acoustiques et perceptives des disfluences normales et sévères. Pour ce faire, un jury d’auditeurs experts a relevé les disfluences sévères et normales de 4 locuteurs qui bégaient ainsi que les accidents de parole de 4 sujets normofluents. Une analyse acoustique portant sur des paramètres tels que la durée de la disfluence, le nombre de disfluences ou encore sur la présence d’éléments prosodiques particuliers a été menée sur les seules disfluences ayant été relevés par l’ensemble du jury. Nos résultats montrent que si les prolongations et les répétitions sont bien évidemment catégorisées comme sévères respectivement en fonction de leur durée et du nombre d’éléments réitérés, d’autres paramètres sont également significatifs, tels que la présence ou non d’une tension audible, le type d’éléments répétés ou encore le fait que la syllabe soit ou non clivée.
2015
pdf
abs
Traitements pour l’analyse du français préclassique
Sascha Diwersy
|
Achille Falaise
|
Marie-Hélène Lay
|
Gilles Souvay
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
La période préclassique du français s’étend sur tout le XVIe siècle et la première moitié du XVIIe siècle. Cet état de langue écrite, qui accompagne les débuts de l’imprimerie, est relativement proche du français moderne, mais se caractérise par une grande variabilité graphique. Il s’agit de l’un des moins bien dotés en termes de ressources. Nous présentons ici la construction d’un lexique, d’un corpus d’apprentissage et d’un modèle de langage pour la période préclassique, à partir de ressources du français moderne.
2014
pdf
The Varitext platform and the Corpus des variétés nationales du français (CoVaNa-FR) as resources for the study of French from a pluricentric perspective
Sascha Diwersy
Proceedings of the First Workshop on Applying NLP Tools to Similar Languages, Varieties and Dialects
2013
pdf
N-gram Language Models and POS Distribution for the Identification of Spanish Varieties (Ngrammes et Traits Morphosyntaxiques pour la Identification de Variétés de l’Espagnol) [in French]
Marcos Zampieri
|
Binyam Gebrekidan Gebre
|
Sascha Diwersy
Proceedings of TALN 2013 (Volume 2: Short Papers)
2012
pdf
Le Lexicoscope : un outil pour l’étude de profils combinatoires et l’extraction de constructions lexico-syntaxiques (The Lexicoscope : an integrated tool for combinatoric profles observation and lexico-syntactic constructs extraction) [in French]
Olivier Kraif
|
Sascha Diwersy
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN