GPT-5 は幻覚を軽減すると宣伝されていましたが、それは実現しているようです。99.5 -> 99.9 はエラーが 80% 少ないです。 なぜ人々がこのことをもっと大騒ぎしないのかわかりません。幻覚はLLMの最大の問題の1つであり、解決できないと考える人もいました。
OpenRouter
OpenRouter8月15日 00:29
After one week, GPT-5 has topped our proprietary model charts for tool calling accuracy🥇 In second is Claude 4.1 Opus, at 99.5% Details 👇
135.5K