T1-Bench: Benchmarking Multi-Scenario Agents in Real-World Domains

论文概览

Recent advances in reasoning and tool-calling capabilities of large language models (LLMs) have enabled increasingly capable agentic systems. However, existing benchmarks remain limited in task complexity, realism, and…

规范主键

arxiv:2606.11070

合并来源

arXiv

作者

Genta Indra Winata，Amartya Chakraborty，Yuzhen Lin，Swasthi P Rao，Shikhhar Siingh，Houhan Lu，Nadia Bathaee，Sriharsha Hatwar，Paresh Dashore，Anmol Jain，Kshitij Tayal，Xiuzhu Lin，Anirban Das，Sambit Sahu，Shi-Xiong Zhang

分类

cs.CL, cs.AI

标签

评测 / 应用 / 方法

主题词

LLM / Benchmark

首次出现

2026-06-10 13:25:04 (UTC+08:00)

个人反馈

把你为什么标记这篇论文、接下来准备怎么处理，直接挂在规范化详情页上。

当前还没有个人反馈，可以先用本地 feedback CLI 补上。

反馈操作

复制规范主键或本地 CLI 命令，把这篇论文快速加入个人反馈状态文件。

行动提醒状态

这里记录这篇论文最近已经触发过哪些 action reason，便于解释为什么今天没有再次提醒。

当前还没有记录过 action 提醒。

来源与外链

优先展示这篇论文在各来源上的规范化入口，再补当前摘要页和 PDF。

arXiv PDF

历史命中

按归档时间回看它在哪些 feed 中出现过，并保留当日 digest 产物入口。

LM

2026-06-10

2026-06-10 13:25:04 (Asia/Shanghai)

Recent advances in reasoning and tool-calling capabilities of large language models (LLMs) have enabled increasingly capable agentic systems. However, existing benchmarks remain l…

Score 217 · title matched "agent"；title matched "benchmark"；summary matched "language model"

Markdown JSON 对应 Feed 页

T1-Bench: Benchmarking Multi-Scenario Agents in Real-World Domains

论文概览

个人反馈

反馈操作

行动提醒状态

来源与外链

历史命中

2026-06-10

相关推荐

POIROT: Interrogating Agents for Failure Detection in Multi-Agent Systems

LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG

ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity

Self-Evolving Deep Research via Joint Generation and Evaluation

PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training

Evaluating Open-Source LLMs for Multi-Label ATT&CK Technique Classification on CTI Reports