DUTh at SemEval-2024 Task 6: Comparing Pre-trained Models on Sentence Similarity Evaluation for Detecting of Hallucinations and Related Observable Overgeneration Mistakes

Ioanna Iordanidou; Ioannis Maslaris; Avi Arampatzis

doi:10.18653/v1/2024.semeval-1.154

DUTh at SemEval-2024 Task 6: Comparing Pre-trained Models on Sentence Similarity Evaluation for Detecting of Hallucinations and Related Observable Overgeneration Mistakes

Ioanna Iordanidou, Ioannis Maslaris, Avi Arampatzis

Abstract

In this paper, we present our approach toSemEval-2024 Task 6: SHROOM, a Sharedtask on Hallucinations and Related ObservableOvergeneration Mistakes, which aims to determine weather AI generated text is semanticallycorrect or incorrect. This work is a comparative study of Large Language Models (LLMs)in the context of the task, shedding light ontheir effectiveness and nuances. We present asystem that leverages pre-trained LLMs, suchas LaBSE, T5, and DistilUSE, for binary classification of given sentences into ‘Hallucination’or ‘Not Hallucination’ classes by evaluatingthe model’s output against the reference correct text. Moreover, beyond utilizing labeleddatasets, our methodology integrates syntheticlabel creation in unlabeled datasets, followedby the prediction of test labels.

Anthology ID:: 2024.semeval-1.154
Volume:: Proceedings of the 18th International Workshop on Semantic Evaluation (SemEval-2024)
Month:: June
Year:: 2024
Address:: Mexico City, Mexico
Editors:: Atul Kr. Ojha, A. Seza Doğruöz, Harish Tayyar Madabushi, Giovanni Da San Martino, Sara Rosenthal, Aiala Rosá
Venue:: SemEval
SIG:: SIGLEX
Publisher:: Association for Computational Linguistics
Note:
Pages:: 1064–1070
Language:
URL:: https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.semeval-1.154/
DOI:: 10.18653/v1/2024.semeval-1.154
Bibkey:
Cite (ACL):: Ioanna Iordanidou, Ioannis Maslaris, and Avi Arampatzis. 2024. DUTh at SemEval-2024 Task 6: Comparing Pre-trained Models on Sentence Similarity Evaluation for Detecting of Hallucinations and Related Observable Overgeneration Mistakes. In Proceedings of the 18th International Workshop on Semantic Evaluation (SemEval-2024), pages 1064–1070, Mexico City, Mexico. Association for Computational Linguistics.
Cite (Informal):: DUTh at SemEval-2024 Task 6: Comparing Pre-trained Models on Sentence Similarity Evaluation for Detecting of Hallucinations and Related Observable Overgeneration Mistakes (Iordanidou et al., SemEval 2024)
Copy Citation:
PDF:: https://preview.aclanthology.org/jlcl-multiple-ingestion/2024.semeval-1.154.pdf
Supplementarymaterial:: 2024.semeval-1.154.SupplementaryMaterial.txt

PDF Cite Search Supplementarymaterial Fix data