AI 怀疑论者最聪明的工具是分数上限基准 在 0 - 100% 的评分测试中,表现总是感觉是对数的 但当你查看无上限基准时,我们看到的是一个非常不同的曲线…
说到这个,我应该运行 aidanbench。
1.99K