MADRA: Multi-Agent Debate for Risk-Aware Embodied Planning

JunJian Wang; Lidan Zhao; Xi Sheryl Zhang

MADRA: Multi-Agent Debate for Risk-Aware Embodied Planning

JunJian Wang, Lidan Zhao, Xi Sheryl Zhang

Abstract

Large Language Models (LLMs) exhibit impressive reasoning capabilities but often suffer from Embodied Semantic Hallucinations—generating plans that are semantically fluent but physically unsafe due to a lack of grounded common sense. Existing safety alignment methods, such as RLHF or naive safety prompting, typically fall into a Safety-Utility Trade-off, resulting in severe over-rejection of benign household instructions. To address this, we propose MADRA (Multi-Agent Debate for Risk Awareness), a training-free cognitive architecture that mimics System-2 deliberation. MADRA introduces a meta-cognitive Critical Agent that evaluates peer debates using a structured argumentation framework derived from the Toulmin Model, effectively mitigating the "herd mentality" in multi-agent systems. We also introduce SafeAware-VH, a benchmark featuring adversarial safe instructions designed to probe agents’ sensitivity to physical risks. Extensive experiments demonstrate that MADRA breaks the Pareto frontier, achieving over 90% rejection of unsafe tasks while maintaining high utility, significantly outperforming standard Chain-of-Thought and single-agent reflection baselines.

Anthology ID:: 2026.findings-acl.340
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 6852–6876
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.340/
DOI:
Bibkey:
Cite (ACL):: JunJian Wang, Lidan Zhao, and Xi Sheryl Zhang. 2026. MADRA: Multi-Agent Debate for Risk-Aware Embodied Planning. In Findings of the Association for Computational Linguistics: ACL 2026, pages 6852–6876, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: MADRA: Multi-Agent Debate for Risk-Aware Embodied Planning (Wang et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.340.pdf
Checklist:: 2026.findings-acl.340.checklist.pdf

PDF Cite Search Checklist Fix data