Das cleverste Werkzeug des KI-Skeptikers ist der Score-Ceiling-Benchmark. Die Leistung fühlt sich bei Tests mit einer Bewertung von 0 - 100 % immer logarithmisch an. Aber wenn man sich Benchmarks ohne Obergrenze ansieht, sieht man eine ganz andere Kurve…
Apropos, ich sollte Aidanbench ausführen.
2K