相关性
217
当前分数
Canonical Paper
这是一篇规范化归档后的论文详情页,聚合了多来源命中、历史出现记录和相关推荐。
相关性
217
当前分数
历史跨度
1
个活跃日期
归档记录
1
次归档出现
主题与标签
2
个主题词
Recent advances in reasoning and tool-calling capabilities of large language models (LLMs) have enabled increasingly capable agentic systems. However, existing benchmarks remain limited in task complexity, realism, and…
规范主键
arxiv:2606.11070
合并来源
arXiv
作者
Genta Indra Winata,Amartya Chakraborty,Yuzhen Lin,Swasthi P Rao,Shikhhar Siingh,Houhan Lu,Nadia Bathaee,Sriharsha Hatwar,Paresh Dashore,Anmol Jain,Kshitij Tayal,Xiuzhu Lin,Anirban Das,Sambit Sahu,Shi-Xiong Zhang
分类
cs.CL, cs.AI
标签
评测 / 应用 / 方法
主题词
LLM / Benchmark
首次出现
2026-06-10 13:25:04 (UTC+08:00)
最近出现
2026-06-10 13:25:04 (UTC+08:00)
覆盖跨度
1 个活跃日期 / 1 个 feed / 1 次归档出现
反馈状态
未设置
下一步
未设置
最晚处理
未设置
搁置到
未设置
复查周期
未设置
个人备注
未设置
命中原因
title matched "agent";title matched "benchmark";summary matched "language model"
最近行动提醒
未记录
把你为什么标记这篇论文、接下来准备怎么处理,直接挂在规范化详情页上。
复制规范主键或本地 CLI 命令,把这篇论文快速加入个人反馈状态文件。
这里记录这篇论文最近已经触发过哪些 action reason,便于解释为什么今天没有再次提醒。
优先展示这篇论文在各来源上的规范化入口,再补当前摘要页和 PDF。
按归档时间回看它在哪些 feed 中出现过,并保留当日 digest 产物入口。
Recent advances in reasoning and tool-calling capabilities of large language models (LLMs) have enabled increasingly capable agentic systems. However, existing benchmarks remain l…
Score 217 · title matched "agent";title matched "benchmark";summary matched "language model"
基于共享主题、标签和配置关键词做的轻量规则推荐。
Related
共享主题:LLM / Benchmark;共享标签:评测 / 应用 / 方法;共享关键词:language model / large language model / LLM
Related
共享主题:LLM / Benchmark;共享标签:评测 / 应用 / 方法;共享关键词:language model / large language model / LLM
Related
共享主题:LLM / Benchmark;共享标签:评测 / 应用 / 方法;共享关键词:language model / large language model / LLM
Related
共享主题:LLM / Benchmark;共享标签:评测 / 应用 / 方法;共享关键词:language model / large language model / LLM
Related
共享主题:LLM / Benchmark;共享标签:评测 / 应用 / 方法;共享关键词:language model / large language model / LLM
Related
共享主题:LLM / Benchmark;共享标签:评测 / 应用 / 方法;共享关键词:language model / large language model / LLM