Activation Reward Models for Few-Shot Model Alignment

Tianning Chai; Chancharik Mitra; Brandon Huang; Gautam Rajendrakumar Gare; Zhiqiu Lin; Assaf Arbelle; Leonid Karlinsky; Rogerio Feris; Trevor Darrell; Deva Ramanan; Roei Herzig

Activation Reward Models for Few-Shot Model Alignment

Tianning Chai, Chancharik Mitra, Brandon Huang, Gautam Rajendrakumar Gare, Zhiqiu Lin, Assaf Arbelle, Leonid Karlinsky, Rogerio Feris, Trevor Darrell, Deva Ramanan, Roei Herzig

Abstract

Aligning Large Language Models (LLMs) and Large Multimodal Models (LMMs) to human preferences is crucial for improving their real-world behavior. A common approach is to use reward models that enable reinforcement-learning post-training. However, traditional reward modeling requires finetuning on large preference datasets, limiting adaptability to new preferences. We introduce Activation Reward Models (Activation RMs)—the first mechanistic interpretability approach that steers LLM activations to align with few-shot preference data without finetuning. Our method combines activation denoising and output token likelihood scoring, achieving state-of-the-art performance on standard reward modeling benchmarks, surpassing zero-shot, few-shot, and voting-based baselines. We further demonstrate that Activation RMs mitigate reward hacking behaviors and remain robust to noisy exemplars and spurious reward signals. To evaluate this, we propose PreferenceHack, a novel few-shot benchmark testing reward models on reward hacking in a paired preference format, where Activation RMs achieve state-of-the-art performance, surpassing GPT-4o.

Anthology ID:: 2026.findings-acl.1709
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 34201–34217
Language:
URL:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1709/
DOI:
Bibkey:
Cite (ACL):: Tianning Chai, Chancharik Mitra, Brandon Huang, Gautam Rajendrakumar Gare, Zhiqiu Lin, Assaf Arbelle, Leonid Karlinsky, Rogerio Feris, Trevor Darrell, Deva Ramanan, and Roei Herzig. 2026. Activation Reward Models for Few-Shot Model Alignment. In Findings of the Association for Computational Linguistics: ACL 2026, pages 34201–34217, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Activation Reward Models for Few-Shot Model Alignment (Chai et al., Findings 2026)
Copy Citation:
PDF:: https://preview.aclanthology.org/ingest-acl/2026.findings-acl.1709.pdf
Checklist:: 2026.findings-acl.1709.checklist.pdf

PDF Cite Search Checklist Fix data