GPT-5 被宣传为减少幻觉,而且似乎确实做到了。99.5 -> 99.9 的错误减少了 80%。 我不知道为什么人们不把这件事做得更大。幻觉是法学硕士最大的问题之一,有些人认为它们无法解决。
OpenRouter
OpenRouter8月15日 00:29
After one week, GPT-5 has topped our proprietary model charts for tool calling accuracy🥇 In second is Claude 4.1 Opus, at 99.5% Details 👇
135.5K