PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation

Srikar Kashyap Pulipaka

doi:10.18653/v1/2026.semeval-1.200

PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation

Abstract

We present our system for SemEval-2026 Task 9: Multilingual Polarization Detection, a binary classification task spanning 22 languages. Our approach fine-tunes separate Gemma 3 models (12B and 27B parameters) per language using Low-Rank Adaptation (LoRA), augmented with synthetic data generated by a large language model (LLM). We employ three synthetic data strategies (direct generation, paraphrasing, and contrastive pair creation) using GPT-4o-mini, with a multi-stage quality filtering pipeline including embedding-based deduplication. We find that per-language threshold tuning on the development set yields 2 to 4% F1 improvements without retraining. We also use weighted ensembles of 12B and 27B model predictions with per-language strategy selection. Our final system achieves a mean macro-F1 of 0.811 across all 22 languages, ranking 2nd overall out of 60 participating teams, with 1st place finishes in 2 languages and top-3 in 8 languages. We also find that alternative architectures (XLM-RoBERTa, Qwen3) that showed strong development set performance suffered 30 to 50% F1drops on the test set, highlighting the importance of generalization.

Anthology ID:: 2026.semeval-1.200
Volume:: Proceedings of the 20th International Workshop on Semantic Evaluation (2026)
Month:: July
Year:: 2026
Address:: San Diego, California, USA
Editors:: Ekaterina Kochmar, Debanjan Ghosh, Kai North, Mamoru Komachi
Venues:: SemEval | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 1539–1546
Language:
URL:: https://preview.aclanthology.org/bulk-corrections-2026-07-02/2026.semeval-1.200/
DOI:: 10.18653/v1/2026.semeval-1.200
Bibkey:
Cite (ACL):: Srikar Kashyap Pulipaka. 2026. PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation. In Proceedings of the 20th International Workshop on Semantic Evaluation (2026), pages 1539–1546, San Diego, California, USA. Association for Computational Linguistics.
Cite (Informal):: PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation (Pulipaka, SemEval 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/bulk-corrections-2026-07-02/2026.semeval-1.200.pdf
Supplementarymaterial:: 2026.semeval-1.200.SupplementaryMaterial.zip

PDF Cite Search Supplementarymaterial Fix data