BrainLoc: Brain Signal-Based Object Detection with Multi-modal Alignment

Jiaqi Duan; Xiaoda Yang; Kaixuan Luan; Hongshun Qiu; Weicai Yan; Xueyi Zhang; Youliang Zhang; Zhaoyang Li; Donglin Huang; Junyu Lu; Ziyue Jiang; Xifeng Yang

doi:10.18653/v1/2025.findings-emnlp.1180

BrainLoc: Brain Signal-Based Object Detection with Multi-modal Alignment

Jiaqi Duan, Xiaoda Yang, Kaixuan Luan, Hongshun Qiu, Weicai Yan, Xueyi Zhang, Youliang Zhang, Zhaoyang Li, Donglin Huang, JunYu Lu, Ziyue Jiang, Xifeng Yang

Abstract

Object detection is a core challenge in computer vision. Traditional methods primarily rely on intermediate modalities such as text, speech, or visual cues to interpret user intent, leading to inefficient and potentially distorted expressions of intent. Brain signals, particularly fMRI signals, emerge as a novel modality that can directly reflect user intent, eliminating ambiguities introduced during modality conversion. However, brain signal-based object detection still faces challenges in accuracy and robustness. To address these challenges, we present BrainLoc, a lightweight object detection model guided by fMRI signals. First, we employ a multi-modal alignment strategy that enhances fMRI signal feature extraction by incorporating various modalities including images and text. Second, we propose a cross-domain fusion module that promotes interaction between fMRI features and category features, improving the representation of category information in fMRI signals. Extensive experiments demonstrate that BrainLoc achieves state-of-the-art performance in brain signal-based object detection tasks, showing significant advantages in both accuracy and convenience.

Anthology ID:: 2025.findings-emnlp.1180
Volume:: Findings of the Association for Computational Linguistics: EMNLP 2025
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 21652–21662
Language:
URL:: https://preview.aclanthology.org/author-page-yu-wang-polytechnic/2025.findings-emnlp.1180/
DOI:: 10.18653/v1/2025.findings-emnlp.1180
Bibkey:
Cite (ACL):: Jiaqi Duan, Xiaoda Yang, Kaixuan Luan, Hongshun Qiu, Weicai Yan, Xueyi Zhang, Youliang Zhang, Zhaoyang Li, Donglin Huang, JunYu Lu, Ziyue Jiang, and Xifeng Yang. 2025. BrainLoc: Brain Signal-Based Object Detection with Multi-modal Alignment. In Findings of the Association for Computational Linguistics: EMNLP 2025, pages 21652–21662, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: BrainLoc: Brain Signal-Based Object Detection with Multi-modal Alignment (Duan et al., Findings 2025)
Copy Citation:
PDF:: https://preview.aclanthology.org/author-page-yu-wang-polytechnic/2025.findings-emnlp.1180.pdf
Checklist:: 2025.findings-emnlp.1180.checklist.pdf

PDF Cite Search Checklist Fix data