Evaluation Awareness Is Not One Capability: Evidence from Open Language Models

论文概览

Safety benchmarks assume that test-condition behavior predicts deployment behavior, an assumption that fails if models detect evaluation cues and adapt. This opens a gap between benchmark performance and deployment beha…

规范主键

arxiv:2606.23583

合并来源

arXiv

作者

Nilesh Nayan，Aishwarya Sampath Kumar，Rishiraj Girmal，Shivani Anilkumar，Sankaran Vaidyanathan，David A. Nader Palacio，Reshmi Ghosh，Soundararajan Srinivasan

分类

cs.CL

标签

评测 / 应用 / 方法

主题词

Language Model / Benchmark

首次出现

2026-06-23 13:10:02 (UTC+08:00)

个人反馈

把你为什么标记这篇论文、接下来准备怎么处理，直接挂在规范化详情页上。

当前还没有个人反馈，可以先用本地 feedback CLI 补上。

反馈操作

复制规范主键或本地 CLI 命令，把这篇论文快速加入个人反馈状态文件。

行动提醒状态

这里记录这篇论文最近已经触发过哪些 action reason，便于解释为什么今天没有再次提醒。

当前还没有记录过 action 提醒。

来源与外链

优先展示这篇论文在各来源上的规范化入口，再补当前摘要页和 PDF。

arXiv PDF

历史命中

按归档时间回看它在哪些 feed 中出现过，并保留当日 digest 产物入口。

LM

2026-06-23

2026-06-23 13:10:02 (Asia/Shanghai)

Safety benchmarks assume that test-condition behavior predicts deployment behavior, an assumption that fails if models detect evaluation cues and adapt. This opens a gap between b…

Score 145 · title matched "language model"；title matched "evaluation"；summary matched "instruction tuning"

Markdown JSON 对应 Feed 页

Evaluation Awareness Is Not One Capability: Evidence from Open Language Models

论文概览

个人反馈

反馈操作

行动提醒状态

来源与外链

历史命中

2026-06-23

相关推荐

OpenMedReason: Scientific Reasoning Supervision for Medical Vision-Language Models

Evaluation Awareness in Language Models Has Limited Effect on Behaviour

Beyond Function Calling: Benchmarking Tool-Using Agents under Tool-Environment Unreliability

LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

CineCap: Structured Reasoning with Spatio-Temporal Anchors for Cinematographic Video Captioning

DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation