Sebastián Peña Saldarriaga

Also published as: Peña Saldarriaga, Sebastian Peña Saldarriaga, Sebastián Peña Saldarriaga


2018

pdf
Towards a unified framework for bilingual terminology extraction of single-word and multi-word terms
Jingshu Liu | Emmanuel Morin | Peña Saldarriaga
Proceedings of the 27th International Conference on Computational Linguistics

Extracting a bilingual terminology for multi-word terms from comparable corpora has not been widely researched. In this work we propose a unified framework for aligning bilingual terms independently of the term lengths. We also introduce some enhancements to the context-based and the neural network based approaches. Our experiments show the effectiveness of our enhancements of previous works and the system can be adapted in specialized domains.

pdf bib
Alignement de termes de longueur variable en corpus comparables spécialisés (Alignment of variable length terms in specialized comparable corpora)
Jingshu Liu | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Nous proposons dans cet article une adaptation de l’approche compositionnelle étendue capable d’aligner des termes de longueurs variables à partir de corpus comparables, en modifiant la représentation des termes complexes. Nous proposons également de nouveaux modes de pondération pour l’approche standard qui améliorent les résultats des approches état de l’art pour les termes simples et complexes en domaine de spécialité.

2016

pdf
Extraction d’opinions ambigües dans des corpus d’avis clients (Ambiguous opinion extraction in user feedbacks)
Joseph Lark | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Nous détectons dans des corpus d’avis clients en français des expressions d’opinion ne contenant pas de marqueur d’opinion explicitement positif ou négatif. Nous procédons pour cela en deux étapes en nous appuyant sur des méthodes existantes : nous identifions ces expressions à l’aide de fenêtres de mots puis nous les classifions en polarité. Le processus global présente des résultats satisfaisants pour notre cadre applicatif demandant une haute précision.

2015

pdf
CANÉPHORE : un corpus français pour la fouille d’opinion ciblée
Joseph Lark | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

La fouille d’opinion ciblée (aspect-based sentiment analysis) fait l’objet ces dernières années d’un intérêt particulier, visible dans les sujets des récentes campagnes d’évaluation comme SemEval 2014 et 2015 ou bien DEFT 2015. Cependant les corpus annotés et publiquement disponibles permettant l’évaluation de cette tâche sont rares. Dans ce travail nous présentons en premier lieu un corpus français librement accessible de 10 000 tweets manuellement annotés. Nous accompagnons ce corpus de résultats de référence pour l’extraction de marqueurs d’opinion non supervisée. Nous présentons ensuite une méthode améliorant les résultats de cette extraction, en suivant une approche semi-supervisée.

2013

pdf
Apopsis Demonstrator for Tweet Analysis (Démonstrateur Apopsis pour l’analyse des tweets) [in French]
Sebastián Peña Saldarriaga | Damien Vintache | Béatrice Daille
Proceedings of TALN 2013 (Volume 3: System Demonstrations)

2011

pdf
Métarecherche pour l’extraction lexicale bilingue à partir de corpus comparables (Metasearch for bilingual lexical extraction from comparable corpora)
Amir Hazem | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous présentons dans cet article une nouvelle manière d’aborder le problème de l’acquisition automatique de paires de mots en relation de traduction à partir de corpus comparables. Nous décrivons tout d’abord les approches standard et par similarité interlangue traditionnellement dédiées à cette tâche. Nous réinterprétons ensuite la méthode par similarité interlangue et motivons un nouveau modèle pour reformuler cette approche inspirée par les métamoteurs de recherche d’information. Les résultats empiriques que nous obtenons montrent que les performances de notre modèle sont toujours supérieures à celles obtenues avec l’approche par similarité interlangue, mais aussi comme étant compétitives par rapport à l’approche standard.

pdf
Bilingual Lexicon Extraction from Comparable Corpora as Metasearch
Amir Hazem | Emmanuel Morin | Sebastian Peña Saldarriaga
Proceedings of the 4th Workshop on Building and Using Comparable Corpora: Comparable Corpora and the Web

2009

pdf
Un nouveau schéma de pondération pour la catégorisation de documents manuscrits
Sebastián Peña Saldarriaga | Emmanuel Morin | Christian Viard-Gaudin
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les schémas de pondération utilisés habituellement en catégorisation de textes, et plus généralement en recherche d’information (RI), ne sont pas adaptés à l’utilisation de données liées à des textes issus d’un processus de reconnaissance de l’écriture. En particulier, les candidats-mot à la reconnaissance ne pourraient être exploités sans introduire de fausses occurrences de termes dans le document. Dans cet article nous présentons un nouveau schéma de pondération permettant d’exploiter les listes de candidats-mot. Il permet d’estimer le pouvoir discriminant d’un terme en fonction de la probabilité a posteriori d’un candidat-mot dans une liste de candidats. Les résultats montrent que le taux de classification de documents fortement dégradés peut être amélioré en utilisant le schéma proposé.