A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG

Arshia Kermani; Verónica Pérez-Rosas; Vangelis Metsis

A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG

Arshia Kermani, Veronica Perez-Rosas, Vangelis Metsis

Abstract

This study presents a systematic comparison of three approaches for the analysis of mental health text using large language models (LLMs): prompt engineering, retrieval augmented generation (RAG), and fine-tuning. Using LLaMA 3, we evaluate these approaches on emotion classification and mental health condition detection tasks across two datasets. Fine-tuning achieves the highest accuracy (91% for emotion classification, 80% for mental health conditions) but requires substantial computational resources and large training sets, while prompt engineering and RAG offer more flexible deployment with moderate performance (40-68% accuracy). Our findings provide practical insights for implementing LLM-based solutions in mental health applications, highlighting the trade-offs between accuracy, computational requirements, and deployment flexibility.

Anthology ID:: 2025.clpsych-1.14
Volume:: Proceedings of the 10th Workshop on Computational Linguistics and Clinical Psychology (CLPsych 2025)
Month:: May
Year:: 2025
Address:: Albuquerque, New Mexico
Editors:: Ayah Zirikly, Andrew Yates, Bart Desmet, Molly Ireland, Steven Bedrick, Sean MacAvaney, Kfir Bar, Yaakov Ophir
Venues:: CLPsych | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 172–180
Language:
URL:: https://preview.aclanthology.org/fix-sig-urls/2025.clpsych-1.14/
DOI:
Bibkey:
Cite (ACL):: Arshia Kermani, Veronica Perez-Rosas, and Vangelis Metsis. 2025. A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG. In Proceedings of the 10th Workshop on Computational Linguistics and Clinical Psychology (CLPsych 2025), pages 172–180, Albuquerque, New Mexico. Association for Computational Linguistics.
Cite (Informal):: A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG (Kermani et al., CLPsych 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/fix-sig-urls/2025.clpsych-1.14.pdf

PDF Cite Search Fix data