Abdelkrim Beloued


2026

This position paper argues that the under-representation of social science tasks in contemporary LLM benchmarks limits advances in both LLM evaluation and social scientific inquiry. Benchmarks — standardized tools for assessing computational systems — are pivotal in the development of artificial intelligence (AI), including large language models (LLMs). Benchmarks do more than measure progress — they actively structure it, shaping reputations, research agendas, and commercial outcomes. Despite this central role, the social sciences are largely absent from mainstream evaluation frameworks, even though scholars in these fields generate dozens of rigorously annotated, context-sensitive datasets each year. Integrating this work into benchmark design could significantly improve the generalization and robustness of AI models. In turn, models trained on social scientific tasks would likely yield better performance on classic and contemporary tasks in disciplines as diverse as history, sociology, political science or economics. This is all the more pressing as these disciplines are quickly turning to LLMs for assistance. To address this gap, we introduce BenCSSmark, a benchmark composed of datasets annotated by computational social scientists. By integrating social scientific perspectives into benchmarking, BenCSSmark seeks to promote more robust, transparent, and socially relevant AI systems and to foster efficient collaboration.

2025

Cet article présente une méthodologie pour l’analyse automatique des évènements rapportés par les médias. Elle s’appuie sur des techniques de traitement automatique des langues, notamment la représentation sémantique des contenus médiatiques, la classification thématique, l’extraction d’évènements à partir de flux d’information, ainsi que la détection d’évènements par regroupement de représentations vectorielles issues de modèles de plongement sémantique. L’approche combine des modèles supervisés et non supervisés ainsi que des architectures capables de prendre en compte un contexte large. Plusieurs corpus sont utilisés pour l’entraînement et l’évaluation de ces modèles. Les résultats obtenus montrent une efficacité élevée dans la détection, le regroupement, la classification thématique et la recherche sémantique des évènements médiatiques. Cette approche offre ainsi des perspectives significatives pour structurer les faits réels, analyser leur représentation médiatique et comprendre l’influence exercée par les médias sur le traitement de ces faits.