最近 7 天
0
次命中
Keyword Tracking
这个页面会长期追踪你配置里关心的关键词,并把命中的论文按日期沉淀下来。
最近 7 天
0
次命中
最近 30 天
0
次命中
全部历史
1
次命中
最近一次命中来自 LM:What Makes a Good Terminal-Agent Benchmark Task: A Guideline for Adversarial, Difficult, and Legible Evaluation Design
按日期回看匹配到这个关键词的论文标题,并保留来源 feed 信息。
Terminal-agent benchmarks have become a primary signal for measuring the coding and system-administration capabilities of large language models. As the market for evaluation envir…